【C++】深入理解 unordered 容器、布隆过滤器与分布式一致性哈希

news2025/5/14 6:32:55

【C++】深入理解 unordered 容器、布隆过滤器与分布式一致性哈希

在日常开发中,无论是数据结构优化、缓存设计,还是分布式架构搭建,unordered_map、布隆过滤器和一致性哈希都是绕不开的关键工具。它们高效、轻量,在性能与扩展性方面发挥着重要作用。本文将依次从这三者的原理、实现与应用场景进行讲解。


一、STL 中的 unordered_* 容器

C++ STL 提供了四种以 unordered_ 为前缀的容器:unordered_mapunordered_setunordered_multimapunordered_multiset,它们的底层实现均为哈希表(Hash Table)。

1. 原理简述

哈希表是一种通过哈希函数(Hash Function)将 key 映射为数组索引的位置来快速访问元素的数据结构。其主要特点是:

  • 查询、插入、删除时间复杂度近似为 O(1)
  • 使用负载因子衡量存储密度,过大时容易产生冲突

2. 哈希冲突处理

  • 链表法:将冲突的元素以链表形式链接(如 Java 8 后用红黑树优化长链)
  • 开放寻址法:在数组内探查空位进行插入,如线性探查、双重哈希等

3. 性能优化

合理选择 Hash 函数(如 MurmurHash、SipHash),可以提升散列质量,降低碰撞概率。例如有,murmurhash2是最常用的, SipHash 被用于 Redis 和 Rust 的 HashMap 实现中,cityhash 等,都具备强随机分布性


二、布隆过滤器(Bloom Filter)

布隆过滤器是一种概率型数据结构,用于判断某个元素“可能存在”或“一定不存在”。

1. 结构组成

  • 一个长度为 m 的位图(bit array)
  • k 个独立的哈希函数

2. 工作原理

  • 插入:使用 k 个哈希函数将元素映射到 k 个位上,置为 1
  • 查询:判断对应的 k 位是否全为 1,若是,则“可能存在”;若有 0,则“一定不存在”

3. 特性

  • 高效:插入和查询的时间复杂度均为 O(k)
  • 节省空间:不存储元素本身
  • 存在误判(False Positive),但可以通过公式控制误差率
  • 不支持删除:因为无法确认哪一个元素设置了某个位

4. 应用场景

  • 缓存穿透拦截
  • 防止爬虫重复访问
  • 黑名单过滤(如垃圾邮件地址)
  • 数据库查询预判,减少磁盘 IO

5. 参数设计公式

例如给定期望元素个数 n=4000 和假阳率 p=1e-9

  • 最佳位图大小:

    m = c e i l ( ( n ∗ l o g ( p ) ) / l o g ( 1 / p o w ( 2 , l o g ( 2 ) ) ) ) m=ceil((n∗log(p))/log(1/pow(2,log(2)))) m=ceil((nlog(p))/log(1/pow(2,log(2))))

  • 最佳哈希函数个数:

    k = r o u n d ( ( m / n ) ∗ l o g ( 2 ) ) k=round((m/n)∗log(2)) k=round((m/n)log(2))

可使用在线工具辅助计算:https://hur.st/bloomfilter/


三、分布式一致性哈希(Consistent Hashing)

一致性哈希是解决分布式缓存或存储系统中节点变动导致大量数据迁移问题的经典算法。

1. 原理概述

  • 将哈希空间组织成一个环(0 ~ 2³² - 1)
  • 对每个服务器节点和数据 Key 分别进行哈希映射,落在环上的某点
  • 顺时针查找第一个节点,即为该 Key 的存储节点

2. 优势

  • 节点变动时,只影响相邻的数据
  • 极大减少了数据迁移范围,提高系统稳定性

3. 均衡性优化 —— 虚拟节点

为避免节点分布不均导致的负载倾斜,使用虚拟节点策略:

  • 每台服务器映射多个虚拟节点
  • 例如:hash(IP:PORT:编号) 映射出多个点
  • 数据分布更均匀,提升系统负载均衡能力

新增节点操作:

  1. 在使用虚拟节点的一致性哈希系统中,新增一个节点时,需要为该节点生成多个虚拟节点(如 NodeX#0、NodeX#1 等),并将这些虚拟节点通过哈希函数映射到一致性哈希环上的多个位置,随后插入到已有的有序哈希环结构中。
  2. 每个新加入的虚拟节点将“接管”它在环上前一个虚拟节点与自身之间的哈希区间内的数据,也就是说,该区间原本由其他节点负责,现在需要将这些数据迁移至新节点。为了完成数据的迁移,系统需扫描这些哈希区间内的数据项,并将它们从原节点移动到新节点对应的实际服务器上。

4. 应用场景

  • 分布式缓存系统(如 Redis Cluster)
  • 数据库分库分表
  • 负载均衡策略

总结

技术核心结构特点典型应用
unordered_*哈希表O(1) 访问,处理冲突STL 快速查找容器
布隆过滤器位图 + 多个哈希函数空间效率高,有误判缓存穿透、爬虫去重、黑名单过滤
一致性哈希环形哈希空间数据迁移小,支持节点动态变化分布式缓存、数据库路由

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2375174.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

YOLOv1:开启实时目标检测的新篇章

YOLOv1:开启实时目标检测的新篇章 在深度学习目标检测领域,YOLO(You Only Look Once)系列算法无疑占据着重要地位。其中,YOLOv1作为开山之作,以其独特的设计理念和高效的检测速度,为后续的目标…

FFmpeg多路节目流复用为一路包含多个节目的输出流

在音视频处理领域,将多个独立的节目流(如不同频道的音视频内容)合并为一个包含多个节目的输出流是常见需求。FFmpeg 作为功能强大的多媒体处理工具,提供了灵活的流复用能力,本文将通过具体案例解析如何使用 FFmpeg 实现…

分子动力学模拟揭示点突变对 hCFTR NBD1结构域热稳定性的影响

囊性纤维化(CF) 作为一种严重的常染色体隐性遗传疾病,全球约有 10 万名患者深受其害。它会累及人体多个器官,如肺部、胰腺等,严重影响患者的生活质量和寿命。CF 的 “罪魁祸首” 是 CFTR 氯离子通道的突变,…

关于SIS/DCS点检周期

在中国化工行业,近几年在设备维护上有个挺有意思的现象,即SIS和DCS这两个系统的点检周期问题,隔三差五就被管理层会议讨论,可以说是企业管理层关注的重要方向与关心要素。 与一般工业行业中设备运维不同,SIS与DCS的点…

【PmHub后端篇】PmHub中基于Redis加Lua脚本的计数器算法限流实现

1 限流的重要性 在高并发系统中,保护系统稳定运行的关键技术有缓存、降级和限流。 缓存通过在内存中存储常用数据,减少对数据库的访问,提升系统响应速度,如浏览器缓存、CDN缓存等多种应用层面。降级则是在系统压力过大或部分服务…

CST软件仿真案例——太阳能薄膜频谱吸收率

CST软件中的太阳能薄膜的功率吸收可用光频电磁波在介质材料中的损耗来计算。本案例计算非晶硅的功率吸收,然后考虑真实太阳频谱,计算有效吸收频谱。 用太阳能单元模板,时域求解器: 材料库提取四个材料,非晶硅&#xf…

ABAP+旧数据接管的会计年度未确定

导资产主数据时,报错旧数据接管的会计年度未确定 是因为程序里面使用了下列函数AISCO_CALCULATE_FIRST_DAY,输入公司代码,获取会计年度,这个数据是在后台表T093C表中取数的,通过SE16N可以看到后台表数据没有数&#xf…

养生:打造健康生活的全方位策略

在生活节奏不断加快的当下,养生已成为提升生活质量、维护身心平衡的重要方式。从饮食、运动到睡眠,再到心态调节,各个方面的养生之道共同构建起健康生活的坚实基础。以下为您详细介绍养生的关键要点,助您拥抱健康生活。 饮食养生…

贪吃蛇游戏排行榜模块开发总结:从数据到视觉的实现

一、项目背景与成果概览 在完成贪吃蛇游戏核心玩法后,本次开发重点聚焦于排行榜系统的实现。该系统具备以下核心特性: 🌐 双数据源支持:本地存储(localStorage)与远程API自由切换 🕒 时间维度统计:日榜/周榜/月榜/全时段数据筛选 🎮 模式区分:闯关模式(关卡进度…

屏幕与触摸调试

本章配套视频介绍: 《28-屏幕与触摸设置》 【鲁班猫】28-屏幕与触摸设置_哔哩哔哩_bilibili LubanCat-RK3588系列板卡都支持mipi屏以及hdmi显示屏的显示。 19.1. 旋转触摸屏 参考文章 触摸校准 参考文章 旋转触摸方向 配置触摸旋转方向 1 2 # 1.查看触摸输入设备 xinput…

使用 百度云大模型平台 做 【提示词优化】

1. 百度云大模型平台 百度智能云千帆大模型平台  平台功能:演示了阿里云大模型的百炼平台,该平台提供Prompt工程功能,支持在线创建和优化Prompt模板模板类型:平台提供多种预制模板,同时也支持用户自定义…

IJCAI 2025 | 高德首个原生3D生成基座大模型「G3PT」重塑3D生成的未来

国际人工智能联合会议(IJCAI)是人工智能领域最古老、最具权威性的学术会议之一,自1969年首次举办以来,至今已有近六十年的历史。它见证了人工智能从萌芽到蓬勃发展的全过程,是全球人工智能研究者、学者、工程师和行业专…

Samtec助力电视广播行业

【摘要前言】 现代广播电视技术最有趣的方面之一就是界限的模糊。过去,音频和视频是通过射频电缆传输的模拟技术采集的,而现在,数字世界已经取代了模拟技术。物理胶片和磁带已让位于数字存储设备和流媒体。 在这个过程中,连接器…

密码学--仿射密码

一、实验目的 1、通过实现简单的古典密码算法,理解密码学的相关概念 2、理解明文、密文、加密密钥、解密密钥、加密算法、解密算法、流密码与分组密码等。 二、实验内容 1、题目内容描述 ①随机生成加密密钥,并验证密钥的可行性 ②从plain文件读入待…

SpringBoot整合MQTT实战:基于EMQX实现双向设备通信(附源码)

简言: 在万物互联的时代,MQTT协议凭借其轻量级、高效率的特性,已成为物联网通信的事实标准。本教程将带领您在Ubuntu系统上搭建EMQX 5.9.0消息服务器,并使用Spring Boot快速实现两个客户端的高效通信。通过本指南,您将…

从零开始掌握FreeRTOS(2)链表之节点的定义

目录 节点 节点定义 节点实现 根节点 根节点定义 精简节点定义 根节点实现 在上篇文章,我们完成了 FreeRTOS 的移植。在创建任务之前,我们需要先了解FreeRTOS的运转机制。 FreeRTOS是一个多任务系统,由操作系统来管理执行每个任务。这些任务全都挂载到一个双向循…

【数据结构】——双向链表

一、链表的分类 我们前面学习了单链表,其是我们链表中的其中一种,我们前面的单链表其实全称是单向无头不循环链表,我们的链表从三个维度进行分类,一共分为八种。 1、单向和双向 可以看到第一个链表,其只能找到其后一个…

mybatis中${}和#{}的区别

先测试&#xff0c;再说结论 userService.selectStudentByClssIds(10000, "wzh or 11");List<StudentEntity> selectStudentByClssIds(Param("stuId") int stuId, Param("field") String field);<select id"selectStudentByClssI…

抗量子计算攻击的数据安全体系构建:从理论突破到工程实践

在“端 - 边 - 云”三级智能协同理论中&#xff0c;端 - 边、边 - 云之间要进行数据传输&#xff0c;网络的安全尤为重要&#xff0c;为了实现系统总体的安全可控&#xff0c;将构建安全网络。 可先了解我的前文&#xff1a;“端 - 边 - 云”三级智能协同平台的理论建构与技术实…

uniapp|实现手机通讯录、首字母快捷导航功能、多端兼容(H5、微信小程序、APP)

基于uniapp实现带首字母快捷导航的通讯录功能,通过拼音转换库实现汉字姓名首字母提取与分类,结合uniapp的scroll-view组件与pageScrollTo API完成滚动定位交互,并引入uni-indexed-list插件优化索引栏性能。 目录 核心功能实现动态索引栏生成​联系人列表渲染​滚动定位联动性…