如何处理海量数据文件以及大文件数据查找

news2025/8/7 13:13:06

目录

一.处理海量整数文件

①问:假定有40亿个无符号整数,判断某数据是否在其中?

②问:假定有40亿个无符号整数,找到只出现一次的数据,两次,三次...?

③问:两个文件各有100亿个整数,只有1G内存,找交集整数?

二.处理海量数据(非整数)文件

①问:超过100G大小的日志文件,存放的都是IP地址,求其中出现次数最多的IP地址?

求Top K个地址?

②问:两个文件分别有100亿个字符串,内存大小为1G,求交集字符串?(精确和近似)


一.处理海量整数文件

①问:假定有40亿个无符号整数,判断某数据是否在其中?

如果是使用遍历的思想 ,那么时间复杂度为O(n)。

就算数据已经排好序,使用二分查找时间复杂度也有O(log^n)。

不管是哪种,面对40亿个数据其效率都不会太高。

这时,使用位图+哈希思想解决就很重要。因为是无符号整数,正好一个数映射一个比特位(相当于直接定址法),而且不会出现哈希冲突。

当找寻数据时,只需要在位图中找到该整数对应的比特位,如果为1说明有,0说明没有。

当然,前提是整数进文件时就已经建立位图了,否则查找时再建立位图还是要遍历文件。 

如果是40亿个整数,最多就需要40亿个比特位,即476MB。换句话说就是利用空间换时间。

②问:假定有40亿个无符号整数,找到只出现一次的数据,两次,三次...?

这时一个位图已经无法满足需求,因为一个位图只能通过0和1判断数据是否存在。

那么使用两个位图呢?

同样,一个整数只会映射一个比特位,在两个位图中会映射同样的比特位,这两个比特位正好可以用于记录数据出现的次数。同样的整数第一次映射时置为0 1,第二次为1 0,第三次为1 1。

此时两个位图最多判断出现3次的整数,如果需要找到出现更多次的使用更多的位图即可。

图例如下:

③问:两个文件各有100亿个整数,只有1G内存,找交集整数?

虽然各有100亿个整数,但是int取值最大范围为正负21亿左右,共有约42亿个数据。

因此,这个问题还是使用位图+哈希来解决。

先取一个文件全部整数进行哈希映射,之后另一个文件在哈希映射中找比特位为1的即可。

二.处理海量数据(非整数)文件

①问:超过100G大小的日志文件,存放的都是IP地址,求其中出现次数最多的IP地址?

求Top K个地址?

数据是日志非整数,所以已经无法通过位图直接解决。同时数据过大,内存中显然无法直接装下。

这时,我们应该通过使用哈希切分思想来解决这个问题。

首先把文件分成足够多的小份,每一小份都应该是内存能直接处理的大小,且小文件数量要合理。如果数量过少,那么数据分配不平均,如果数量过多,会造成资源浪费。

我们假设分成1000份。

之后把大文件中数据通过哈希函数映射到相应的小文件中。因为同样的数据映射的是同一份小文件。因此所有相同的数据一定在同一份文件中

之后在内存中找到小文件中出现次数最多的数据。再将这个数据与其他小文件中次数最多的数据比较,找到整个大文件中出现次数最多的数据。

对于Top K问题,将每份小文件中出现次数最多的数据建立一个最小堆即可。

图例如下:

 

②问:两个文件分别有100亿个字符串,内存大小为1G,求交集字符串?(精确和近似)

 精确算法:按照哈希切分思想即可,将两个文件数据通过哈希映射分成内存能处理的小份文件。再将两个文件中同样编号的小文件进行对比即可。

图示如下:

近似算法:用一份文件数据建立布隆过滤器,之后另一份文件数据再通过该布隆过滤器进行判断即可。

因为布隆过滤器的特性,判断存在的可能存在,判断不存在的一定不存在。

与精确算法相比,近似算法空间消耗更低,但存在误判率

编译器永远比你懂微观优化,只能向它不擅长的方向努力——未名 


如有错误,敬请斧正

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/15586.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[ Linux ] 动静态库 手把手教你写一个自己的库

目录 静态库与动态库 生成 发布动静态库 形成发布静态库 形成发布动态库 一个makefile同时生成动静态库 如何使用动静态库 使用静态库 正确做法: 使用动态库 运行动态库 为什么动态库运行时有找库的步骤 静态库与动态库 静态库(.a&#xff0…

聊一聊作为高并发系统基石之一的缓存,会用很简单,用好才是技术活

大家好,又见面了。 在服务端开发中,缓存常常被当做系统性能扛压的不二之选。在实施方案上,缓存使用策略虽有一定普适性,却也并非完全绝对,需要结合实际的项目诉求与场景进行综合权衡与考量,进而得出符合自…

Spring Security认证之用户定义

本文内容来自王松老师的《深入浅出Spring Security》,自己在学习的时候为了加深理解顺手抄录的,有时候还会写一些自己的想法。 在前面的案例中,我们登陆的用户信息是基于配置文件来配置的,其本质上是基于内存来实现的。但是在实际…

(5)多机器人集群编队策略

系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 TODO:写完再整理 文章目录系列文章目录前言一、多机器人集群编队策略1、多机器人协同作业冲突问题(1)介绍(2)多机器人系统…

学会Spring Cloud微服务架构绝活,渣本也能进大厂

微服务架构是互联网很热门的话题,是互联网技术发展的必然结果。它提倡将单一应用程序划分成一组小的服务,服务之间互相协调、互相配合,为用户提供最终价值。虽然微服务架构没有公认的技术标准和规范或者草案,但业界已经有一些很有…

C++程序设计--第三章内容

提前声明: 本文内容为华北水利水电大学研究生C课程,如有 侵权请告知,作者会予以删除 1.函数 函数作用 —— 任务划分;代码重用定义形式 类型 函数名 ( 形式参数表){语句序列}调用形式 函数名&#x…

数据结构:树

文章目录一.树的概念二.树的相关概念三.树的表示一.树的概念 树是一种非线性的数据结构,它是由n(n>0)个有限结点组成一个具有层次关系的集合。把它叫做树是因为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下…

『Java』数组中值得说的那些事

文章目录前言一、数组的创建及初始化🌳1、数组的创建🌳2、数组的初始化🍑(1)动态初始化🍑(2)静态初始化二、数组的使用🌳1、数组中元素访问🌳2、遍历数组&…

python3 爬虫(初试牛刀)

此文章仅供学习交流使用 在学习爬虫之前,把最近对于 VMware 的网络学习做个总结 接下来,步入正题! 分析 Robots 协议 禁止所有爬虫访问任何目录的代码: User-agent: * Disallow:/允许所有爬虫访问任何目录的代码: …

2022年新版Pycharm通过project interpreter国内镜像源设置

2022年新版Pycharm通过project interpreter国内镜像源设置解决方案速览一、国内镜像源列表二、pycharm访问project interpreter解决方案速览 File->Settings->project interpreter-> -> Available Packages将options打勾,并输入-i https://pypi.tuna.…

Gvim显示行号、最大化、字号、主题等常用配置修改

Gvim的设置分两种:1. 临时设置,2. 永久设置,本文只关注永久设置的情况。 配置Gvim只需修改Gvim配置文件即可,Linux中,配置文件的地址是~/.vimrc,若没有该文件则创建即可,我们可以直接输入gvim …

平面设计师怎么找素材?

平面设计素材网站,免费下载,建议收藏! 1、菜鸟图库 https://www.sucai999.com/?vNTYwNDUx菜鸟图库是一个素材量非常丰富的网站,网站聚合了平面、UI、淘宝电商、高清背景图、图片、插画等高质量素材,平面模板非常多&am…

数据结构绪论、顺序表课后练习题

文章目录第1章 绪论一 填空题二 选择题三 判断题✅❎第2章 线性表一 判断正误二 单项选择题三 简答题第1章 绪论 一 填空题 数据结构被形式地定义为(D, R),其中D是数据元素的有限集合,R是D上的关系有限集合。数据结构按逻辑结构…

idea如何排查jar冲突

工具系列文章目录 idea如何排查jar冲突提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 系列文章目录前言一、pandas是什么?二、使用步骤 1.引入库2.读入数据总结前言 当遇到jar包冲突的时候常常会出现…

自动驾驶入门:控制

目录 概念 控制流程 PID控制 PID 的优劣势 LQR 线性二次调节器 模型控制预测 总结 概念 控制是驱使车辆前行的策略。对于汽车而言,最基本的控制输入为转向、加速和制动。通常,控制器使用一系列路径点来接收轨迹。 控制器的任务是使用控制输入让…

Flask微服务注册到Nacos

目录一、前言二、手写实现Flask注册到Nacos1. 服务注册2. 心跳检测三、使用nacos-sdk-python完成注册四、SpringBoot远程调用1. 添加 Python 端业务逻辑2. SpringBoot 的远程调用五、SpringGateway网关转发一、前言 最近有一个使用 SpringCloud 的微服务项目,需要使…

[附源码]java毕业设计面向服装集群企业的个性化定制服务系统

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

C++ 异常处理 重新throw变量时的事件

直接说结论:throw的表达式创建出来的变量会被拷贝下来【通过拷贝构造函数,后面会证实这一点,且是放在堆里的】,然后沿着调用路径去搜索最近匹配异常的catch语句,在沿途,传递给catch语句的是堆中的异常变量的…

2022年数维杯国际大学生数学建模挑战赛D题三重拉尼娜事件下极端气候灾害损失评估与应对策略研究解题过程

2022年数维杯国际大学生数学建模挑战赛 D题 三重拉尼娜事件下极端气候灾害损失评估与应对策略研究 原题再现: 2022年7月至8月,中国南方许多城市经历了多天的炎热天气,而北方部分地区也出现了大面积强降水。此外,许多欧洲国家也经…

GEE开发之Modis_NDVI数据分析获取大总结

GEE开发之Modis_NDVI数据分析获取大总结0. 之前的博客链接1. MYD13Q1(250米/16天)2. MOD09GA_006_NDVI(500米/1天)3. MOD13Q1(250米/16天)4. MOD13A1(500米/16天)5. MOD13A2(1000米/16天)6. 日数据下载(以MYD13Q1为例子)7. 月数据下载(以MYD13Q1为例子)7.1 代码一7.2 代码二&am…