STL容器之哈希的补充——其他哈希问题

news2025/6/17 8:35:42

1.其他哈希问题

​ 减少了空间的消耗;

1.1位图

​ 位图判断在不在的时间复杂度是O(1),速度特别快;

​ 使用哈希函数直接定址法,1对1映射;

​ 对于海量的数据判断在不在的问题,使用之前的一些结构已经无法满足,空间消耗过于严重,位图则可以较好的解决此问题;

​ 对于bit位的改变除了位运算就是位段;

1.1.2位图结构的实现

​ 小端机与我们看数据的顺序相反,几个数据连续存储从低地址到高地址,低位-高位,低位-高位。

namespace Bitset
{
    template <size_t N>//无符号整数42亿9千万,需要每个整数用一个bit位来标识在不在,大约500兆
    class BitSet
    {
    public:
        // 用构造函数开空间
        BitSet()
        {
            a_.resize(N / 32 + 1);
        }

    public:
        // 将x映射的哪个标记映射成为1
        void set(size_t x)
        {
            size_t i = x / 32;
            size_t j = x % 32;
            a_[i] |= (1 << j); // 小端机,开头就是低位,所以直接左移j位
        }
        // 将x映射的哪个标记映射成为0
        void reset(size_t x)
        {
            size_t i = x / 32;
            size_t j = x % 32;
            a_[i] &= (~(1 << j));
        }
        bool test(size_t x)
        {
            size_t i = x / 32;
            size_t j = x % 32;
            return a_[i] & (1 << j);
            // if (a_[i] & (1 << j))
            // {
            //     std::cout << "存在" << std::endl;
            //     return true;
            // }
            // else
            // {
            //     std::cout << "不存在" << std::endl;
            //     return false;
            // }
        }

    private:
        std::vector<int> a_;
    };
}
1.1.3库里面对于位图结构的实现

在这里插入图片描述

1.1.4位图的扩展

1.100亿个整数,设计算法找到只出现一次的数,

​ 思路1:使用两个比特位组合,来表示没有出现,出现一次和出现两次及以上;

​ 思路2:使用2个位图,对应位置组合使用;

2.两个文件分别有100亿整数,1g内存找交集;

1.1.5位图的应用

1.快速查找某个数据是否在一个集合中

2.排序 + 去重

3.两个集合的交集、并集等

4.操作系统中磁盘块标记

1.2布隆过滤器

​ 作用:过滤掉确定性的数据,降低数据库的查询负载压力;对于不确定的数据,降低误判率;

​ 使用除留余数法,产生多对一,对于整型可以使用位图来实现,对于字符串是先对应一个整数,但是不可能无限扩容,会存在双重哈希冲突,对于存在可能误判,是不准确的,而对于不存在一定是准确的;

布隆过滤器是由布隆(Burton Howard Bloom)在1970年提出的 一种紧凑型的、比较巧妙的概率型数据结构,特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”,它是用多个哈希函数,将一个数据映射到位图结构中。此种方式不仅可以提升查询效率,也可以节省大量的内存空间。

​ 使用布隆过滤器可以减少误判率;一个值映射位图的多个位置,如果多个位置都为1,才能说明在;就像是现实生活中,信息越多描述就更准确;

1.2.1应用场景

​ 1.不需要精确的场景,即使用降低误判的特性:比如快速判断昵称是否被使用过,将昵称存放到一个布隆过滤器里面,存在误判,但是可以接受,比如用户知道昵称不可用就会自动用其他昵称,不会产生巨大的问题;

​ 2.需要精确的场景,即使用不存在是准确的特性,昵称不存在快速响应,昵称存在去数据库进行查找,可以起到过滤一部分确定数据的效果;

​ 3.布隆过滤器不仅可以过滤字符串,也可以针对其他类型;

1.2.2布隆过滤器模拟实现

​ 偶数用位运算表示,n&1==0,就是偶数;

​ 使用不同的哈希算法得到不同的整数映射,多对一的映射减少了误判,同时也带来了空间上的消耗空间减少也会增加误判的机率;

一般不允许使用reset,否则会影响很多映射,即多对一使得关联度增加了,一个修改就会影响另一个,可以使用引用计数的方法,同时还需要多开空间存计数,这样就可以保护数据。

namespace Bloomfilter
{
    struct BKDR
    {
        size_t operator()(const std::string &str)
        {
            size_t i = 0;
            for (const auto &e : str)
            {
                i *= 131;
                i += e;
            }
            return i;
        }
    };
    struct AP
    {
        size_t operator()(const std::string &str)
        {
            size_t hash = 0;
            for (size_t i = 0; i < str.size(); i++)
            {
                size_t ch = str[i];
                if ((i & 1) == 0)
                    hash ^= ((hash << 7) ^ ch ^ (hash >> 3));
                else
                    hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));
            }
            return hash;
        }
    };
    struct DJB
    {
        size_t operator()(const std::string &str)
        {
            size_t hash = 5381;
            for (auto ch : str)
            {
                hash += (hash << 5) + ch;
            }
            return hash;
        }
    };
    template <size_t N, class K = std::string, class Hash1 = BKDR, class Hash2 = AP, class Hash3 = DJB> // 可以使用BKDR算法
    class BloomFilter
    {
    public:
        void set(const K &key)
        {
            size_t hash1 = BKDR()(key) % N;
            bf_.set(hash1);
            size_t hash2 = AP()(key) % N;
            bf_.set(hash2);
            size_t hash3 = DJB()(key) % N;
            bf_.set(hash3);
        }
        bool test(const K &key)
        {
            size_t hash1 = BKDR()(key) % N;
            if (bf_.test(hash1) == false)
            {
                return false;
            }
            size_t hash2 = AP()(key) % N;
            if (bf_.test(hash2) == false)
            {
                return false;
            }
            size_t hash3 = DJB()(key) % N;
            if (bf_.test(hash3) == false)
            {
                return false;
            }
            return true; // 存在误判
        }

    private:
        // 私有成员
        std::bitset<N> bf_;
    };
}
1.2.3哈希函数个数和布隆过滤器长度的选择

在这里插入图片描述

k为哈希函数的个数,m为布隆过滤器的长度,n为插入元素的个数,这样可以使得误判率相对较低;

1.2.4布隆过滤器优缺点

优点:

1.增加和查询元素的时间复杂度为:O(K), (K为哈希函数的个数,一般比较小),与数据量大小无关 ;

2.哈希函数相互之间没有关系,方便硬件并行运算 ;

3.布隆过滤器不需要存储元素本身,在某些对保密要求比较严格的场合有很大优势;

4.在能够承受一定的误判时,布隆过滤器比其他数据结构有着很大的空间优势 ;

5.数据量很大时,布隆过滤器可以表示全集,其他数据结构不能 ;

6.使用同一组散列函数的布隆过滤器可以进行交、并、差运算 ;

缺点:

1.有误判率,即存在假阳性(False Position),即不能准确判断元素是否在集合中(补救方法:再建立一个白名单,存储可能会误判的数据) ;

2.不能获取元素本身 ;

3.一般情况下不能从布隆过滤器中删除元素 ;

4.如果采用计数方式删除,可能会存在计数回绕问题 ;

8.2.5布隆过滤器的扩展

1.给两个文件,分别有100亿个query,我们只有1G内存,如何找到两个文件交集?分别给出

精确算法和近似算法 ;

2.如何扩展BloomFilter使得它支持删除元素的操作 ;

1.3哈希切割

​ 问题:1.将大文件切割是因为在磁盘中查找太慢,应载入内存查找;2.平均切分要查询的key在每个小文件中都可能存在,都得查找一次;

​ 而是用哈希切割,将大文件进行切割,切割成N份,用哈希算法将查询字符串映射成整数,然后%N,最后得到的映射值i就是被切割的第i个小文件;这样就可以根据编号进行查找,不用遍历所有的小文件;

​ 原理是:存在哈希冲突映射了错误的值,但是正确的值一定在这个位置对应的小文件,使得范围大幅度减少;即过滤很大一批无效数据;

1.3.1哈希切割应用

​ 1.哈希切割解决大文件找交集;

​ 哈希切分后还可能某一个小文件过大;文件过大可能是1.大多数query冲突;2.大多数query相同,部分冲突;

​ 对于小文件过大的解决方法:1.set去重,如果成功说明有大量相同数据,这样文件就小了,如果失败抛异常,则对此文件,使用其他哈希函数进行二次哈希切分,这样文件也小了;

​ 2.最大/topk问题

​ 哈希切割完,用map统计次数,然后用另一个值记录最大的值,清理map遍历其他小文件,更新最大值;

如果是topk就建立一个k个值的小堆,插入k个较大值然后不断更新;

补充:CPU的高速缓存与内存和磁盘间的局部性原理的预加载机制

​ CPU高速缓存是,内存会将一段数据先加载到cache中,CPU会向cache进行读取,存在缓存命中问题;

​ 局部性原理的预加载机制是,内存磁盘读取都是按照一定的大小进行的,这样就可以一次性读到多个数据;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1503829.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vue快速开发一个主页

前言 这里讲述我们如何快速利用Vue脚手架快速搭建一个主页。 页面布局 el-container / el-header / el-aside / el-main&#xff1a;https://element.eleme.cn/#/zh-CN/component/container <el-container><el-header style"background-color: #4c535a"…

STM32 HAL库RTC复位丢失年月日的解决办法

STM32 HAL库RTC复位丢失年月日的解决办法 0.前言一、实现方式1.CubeMX配置&#xff1a;2.MX_RTC_Init()函数修改2.编写手动解析函数 二、总结 参考文章&#xff1a;stm32f1 cubeMX RTC 掉电后日期丢失的问题 0.前言 最近在使用STM32F103做RTC实验时&#xff0c;发现RTC复位后时…

Web渗透测试流程

什么是渗透测试 渗透测试 (penetration test),是通过模拟恶意黑客的攻击方法&#xff0c;来评估计算机网络系统安全的一种评估方法。这个过程包括对系统的任何弱点、技术缺陷或漏洞的主动分析&#xff0c;这个分析是从一个攻击者可能存在的位置来进行的&#xff0c;并且从这个…

Visual Basic6.0零基础教学(1)—vb的介绍和布局及其小案例

Visual Basic6.0零基础教学(1) 文章目录 Visual Basic6.0零基础教学(1)前言一、vb6.0介绍二、vb的起源一、起源&#xff1a;Basic二、版本三、 Visual Basic6.0 三种版本&#xff1a;四、vb的特点 1.vb的布局介绍创建应用程序的步骤总结 前言 大家好,从今天开始我也会开始更新…

【数据结构六】图文结合详解二叉树(五千字)

二叉树 树是一种非线性的数据结构&#xff0c;它是由n个结点组成的具有层次关系的集合&#xff0c;把他叫做树是因为它的根朝上&#xff0c;叶子朝下&#xff0c;看起来像一颗倒挂的树。二叉树是一种最多只有两个节点的树型结构。这篇文章会用Java代码手撕二叉树的实现&#xf…

水果小程序有哪些功能 怎么制作

​水果店的小程序&#xff0c;通常都非常受欢迎&#xff0c;而且下单率非常不错。它可以帮助水果商家在线销售水果并提供更好的购物体验。在这篇文章中&#xff0c;我们将介绍水果小程序常见的功能以及制作方法。 1. **商品展示与购买**&#xff1a;水果小程序可以展示各种水…

基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的体育赛事目标检测系统(Python+PySide6界面+训练代码)

摘要&#xff1a;开发和研究体育赛事目标检测系统对于增强体育分析和观赏体验至关重要。本篇博客详细讲述了如何运用深度学习技术构建一个体育赛事目标检测系统&#xff0c;并提供了完整的实现代码。系统基于先进的YOLOv8算法&#xff0c;对比了YOLOv7、YOLOv6、YOLOv5的性能&a…

linux网络通信(TCP)

TCP通信 1.socket----->第一个socket 失败-1&#xff0c;错误码 参数类型很多&#xff0c;man查看 2.connect 由于s_addr需要一个32位的数&#xff0c;使用下面函数将点分十进制字符串ip地址以网络字节序转换成32字节数值 同理端口号也有一个转换函数 我们的端口号位两个字…

脚踩顺序表

目录 引言 一&#xff1a;顺序表的结构定义 二&#xff1a;顺序表的操作 1.顺序表的初始化 2.顺序表的销毁 3.顺序表数据的打印 4.顺序表的尾插 5.顺序表的头插 6.顺序表的尾删 7.顺序表的头删 8.顺序表的查找 9.顺序表的删除pos位置的值 10.顺序表的在…

微调模型——续(Machine Learning 研习之十三)

集成方法 微调系统的另一种方法是尝试组合性能最佳的模型。 群体&#xff08;或“整体”&#xff09;通常会比最好的单个模型表现得更好&#xff0c;就像随机森林比它们所依赖的单个决策树表现更好一样&#xff0c;特别是当各个模型犯下不同类型的错误时。 例如&#xff0c;您…

瑞_JVM虚拟机_类的生命周期

文章目录 1 JVM虚拟机概述2 类的生命周期2.1 加载阶段2.1.1 加载过程2.1.2 查看内存中的对象&#xff08;hsdb工具&#xff09; 2.2 连接阶段2.2.1 验证2.2.2 准备&#xff08;final特殊&#xff09;2.2.3 解析 2.3 初始化阶段\<client> ★★★2.4 使用阶段2.5 卸载阶段 …

深入理解神经网络

图片怎么被识别的过程 (每层神经网络是数组,会对进来的数据进行加权求和[(weight*数据 然后累加) bias])(激活函数是为了训练weight和bias偏移值,在每个神经网络)(分类器会统计概率分类) 2. 引用链接 https://mp.weixin.qq.com/s?__bizMzIyNjMxOTY0NA&mid2247500124&…

蓝桥集训之鱼塘钓鱼

蓝桥集训之鱼塘钓鱼 核心思想&#xff1a;多路归并 人不会在鱼塘间往返浪费时间将每个鱼塘的取值列出 想要最多鱼 就是每次在最顶上取最大注意&#xff1a;找最大的顺序和实际钓鱼的顺序不同 先在一个坑钓完再去另一个 #include <iostream>#include <cstring>#…

猫头虎分享已解决Bug || 系统监控故障:MonitoringServiceDown, MetricsCollectionError

博主猫头虎的技术世界 &#x1f31f; 欢迎来到猫头虎的博客 — 探索技术的无限可能&#xff01; 专栏链接&#xff1a; &#x1f517; 精选专栏&#xff1a; 《面试题大全》 — 面试准备的宝典&#xff01;《IDEA开发秘籍》 — 提升你的IDEA技能&#xff01;《100天精通鸿蒙》 …

把握机遇:2024年游戏行业春招提前批全攻略

当前&#xff0c;国内游戏行业正处于高速发展期&#xff0c;各大游戏公司对应届毕业生的人才需求十分旺盛。这一趋势不仅为即将步入职场的学生们提供了广阔的就业前景&#xff0c;也为游戏产业的创新和多元化发展注入了新鲜血液。 在这样的大环境下&#xff0c;2024年春季提前批…

2024038期传足14场胜负前瞻

2024038期售止时间为3月10日&#xff08;周日&#xff09;20点30分&#xff0c;敬请留意&#xff1a; 本期深盘多&#xff0c;1.5以下赔率3场&#xff0c;1.5-2.0赔率2场&#xff0c;其他场次是平半盘、平盘。本期14场整体难度中等偏上。以下为基础盘前瞻&#xff0c;大家可根据…

数字化转型导师坚鹏:大模型的应用实践(金融)

大模型的应用实践 ——开启人类AI新纪元 打造数字化转型新利器 课程背景&#xff1a; 很多企业和员工存在以下问题&#xff1a; 不清楚大模型对我们有什么影响&#xff1f; 不知道大模型的发展现状及作用&#xff1f; 不知道大模型的针对性应用案例&#xff1f; 课程…

GPT-4-turbo还是大家心中第一!Claude 3竞技场人类投票成绩出炉:仅居第三

Claude 3的竞技场排名终于揭晓了&#xff1a; 在仅仅3天的时间里&#xff0c;20000张投票使得排名的流量达到了前所未有的高度。 最后&#xff0c;Claude 3的"大杯"模型Opus以1233的分数赢得了胜利&#xff0c;成为了第一个能和GPT-4-Turbo匹敌的选手。 "中杯…

VUE Element例子学习

参考:【前端】VueElement UI案例&#xff1a;通用后台管理系统-项目总结_vue elementui 管理系统-CSDN博客 之前参考的el-admin-web太复杂了&#xff0c;不是纯净的demo. 所以找了一圈资料&#xff0c;找到了这个博客&#xff0c;很合适&#xff0c;有例子的代码&#xff0c;…

安全先行,合规的内外网文件摆渡要重点关注什么?

内外网隔离在政府、军工部门、科研单位等已成为很常见的网络安全建设措施&#xff0c;内外网隔离是一种网络安全措施&#xff0c;用于保护内部网络免受外部网络的攻击和威胁。 内外网隔离的目的在于限制内外网之间的通信和数据交换&#xff0c;但网络隔离后&#xff0c;仍有数据…