【AI系列】BM25 与向量检索

news2025/6/8 23:02:29

csdn

博客目录

    • 引言:信息检索技术的演进
    • 第一部分:BM25 算法详解
    • 第二部分:向量检索技术解析
    • 第三部分:BM25 与向量检索的对比分析
    • 第四部分:融合与创新:混合检索系统

引言:信息检索技术的演进

在信息爆炸的数字时代,高效准确的信息检索技术变得至关重要。从早期的布尔检索到概率模型,再到如今的深度学习应用,检索技术经历了显著的演进。其中,BM25 作为传统检索算法的代表,与基于神经网络的向量检索方法构成了当前信息检索领域的两大主流技术路线。
在这里插入图片描述

第一部分:BM25 算法详解

**BM25(Best Matching 25)**是信息检索领域最具影响力的传统算法之一,起源于 20 世纪 70-80 年代的概率检索模型发展,经过多次迭代优化后在 1994 年定型。作为 TF-IDF 的进阶版本,BM25 在考虑词频(TF)和逆文档频率(IDF)的基础上,引入了文档长度归一化因子,使其成为弹性且高效的检索算法。

BM25 的核心公式为:

score(D,Q) = Σ(i=1 to n) IDF(qi) * (f(qi,D) * (k1 + 1)) / (f(qi,D) + k1 * (1 - b + b * |D| / avgdl)))

其中,k1 和 b 是调节参数,|D|是文档长度,avgdl 是平均文档长度。这个设计使得 BM25 能够有效处理文档长度变异问题——既不过分惩罚长文档,也不过度奖励短文档。

BM25 的优势主要体现在三个方面:无需训练数据,直接基于统计特性工作;计算效率高,适合大规模实时检索;对精确词匹配场景表现优异。然而,其局限性也很明显:无法理解词语的语义关系,对同义词、近义词处理不足;完全基于词袋模型,忽略词序和语法结构;难以处理多义词问题。

在现实应用中,BM25 仍然是许多商业搜索引擎的基础算法,尤其是在初步检索阶段。例如,Elasticsearch 和 Lucene 等主流搜索引擎工具都内置了 BM25 实现,证明了其在工程实践中的持久价值。

第二部分:向量检索技术解析

随着深度学习技术的发展,向量检索(也称稠密检索)逐渐成为信息检索的新范式。与 BM25 的离散表示不同,向量检索通过神经网络模型将查询和文档映射到连续向量空间,利用向量相似度(如余弦相似度)进行匹配。

现代向量检索通常基于预训练语言模型如 BERT、RoBERTa 等,通过双编码器架构分别处理查询和文档,生成固定维度的嵌入向量。相比 BM25,向量检索的核心优势在于语义理解能力——能够识别"汽车"和"机动车"的语义等价性,捕捉"苹果"在不同上下文中的不同含义(水果 vs 公司)。

从技术实现看,向量检索面临两大挑战:一是计算复杂度,高维向量相似度计算比倒排索引检索更耗资源;二是索引构建,需要专门的近似最近邻(ANN)算法如 HNSW、IVF 等来加速检索过程。Faiss、Annoy 等专用库的出现大大提升了向量检索的实用性。

在实际表现上,向量检索特别适合语义搜索场景,如问答系统、推荐系统等,其中 MS MARCO 等基准测试显示,先进的向量检索模型在多项指标上已超越传统方法。然而,向量检索对领域外数据适应性较差,需要大量训练数据,且对精确术语匹配反而不及 BM25 可靠。

第三部分:BM25 与向量检索的对比分析

从理论基础看,BM25 基于概率统计学,而向量检索源于分布式表示理论,这种根本差异导致了两者在多个维度的表现对比。

语义理解方面,向量检索明显占优。例如,对于查询"预防感冒的方法",BM25 可能严格匹配这些关键词,而向量检索能关联到包含"增强免疫力"、"接种流感疫苗"等不同表述但语义相关的文档。实验数据显示,在 Quora 问题匹配等语义敏感任务中,向量检索的准确率可比 BM25 高出 15-20%。

然而,在精确匹配场景下,BM25 往往表现更好。例如检索特定产品型号"iPhone 13 Pro Max"时,BM25 能准确找到完全匹配的文档,而向量检索可能混淆相近型号。在 TREC Robust04 等传统测试集上,BM25 依然保持竞争力。

计算效率方面,BM25 基于倒排索引,检索复杂度与文档集合大小呈亚线性关系;向量检索虽然后续相似度计算高效,但全量检索仍需计算每个文档向量的相似度,即使使用 ANN 索引,其构建和维护成本也显著高于 BM25。

资源需求上,BM25 几乎无需训练,部署简单;向量检索需要大量数据和计算资源训练模型,且嵌入模型本身可能占用数百 MB 到数 GB 内存。下表总结了两种技术的主要对比:

维度BM25向量检索
理论基础概率统计模型神经网络嵌入
语义理解
精确匹配中等
计算效率中等(依赖 ANN)
资源需求
领域适应性通用需领域适配

第四部分:融合与创新:混合检索系统

认识到 BM25 和向量检索的互补性,现代信息检索系统越来越多地采用混合检索架构,结合两者的优势。典型实现方式包括:

  1. 并行检索与结果融合:分别执行 BM25 和向量检索,然后线性组合两者的排序得分。微软的 SPLADE 模型就采用了这种策略,在 TREC Deep Learning Track 中表现优异。

  2. 向量重新排序:用 BM25 快速获取候选集(如 top1000),再用向量模型对候选进行精细重排。这种两阶段方法平衡了效率和效果,被许多商业系统采用。

  3. 联合训练方法:如 ColBERT 模型,在训练神经网络时直接融入 BM25 信号作为监督或约束,使模型自动学习何时依赖精确匹配,何时依赖语义匹配。

实际案例表明,混合方法能显著提升检索质量。在 MS MARCO 段落排序任务中,顶级系统几乎都采用混合策略,MRR@10 指标比单一方法提高 10-15%。这是因为混合系统既能把握"癌症"和"恶性肿瘤"的语义关联,又不丢失"EGFR 抑制剂"等专业术语的精确匹配。

工程实现上,混合检索需要解决分数归一化问题——BM25 和向量相似度的数值范围不同,直接组合可能导致偏向。常见解决方案包括动态归一化、学习组合权重等。Jina、Pyserini 等开源框架提供了现成的混合检索实现。

觉得有用的话点个赞 👍🏻 呗。
❤️❤️❤️本人水平有限,如有纰漏,欢迎各位大佬评论批评指正!😄😄😄

💘💘💘如果觉得这篇文对你有帮助的话,也请给个点赞、收藏下吧,非常感谢!👍 👍 👍

🔥🔥🔥Stay Hungry Stay Foolish 道阻且长,行则将至,让我们一起加油吧!🌙🌙🌙

img

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2404671.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

模拟法解题的思路与算法分享

我们先来看思路与算法: 使用变长数组对栈进行模拟。 如果操作是 ,那么访问数组的后两个得分,将两个得分之和加到总得分,并且将两个得分之和入栈。如果操作是 D,那么访问数组的最后一个得分,将得分乘以 2 …

mysql密码正确SpringBoot和Datagrip却连接不上

报错信息:SQLException: Access denied for user ‘root‘‘localhost‘ (using password: YES) 原因可能是是有端口号冲突 我这里是禅道端口与MySQL冲突,禅道端口也是3306,ctrlaltdelete打开任务管理器,关闭mysqlzt …

高保真组件库:数字输入框

拖入一个文本框。 拖入一个矩形,作为整个数字输入框的边框,边框颜色为灰色DCDEE2,圆角半径为4。 拖入一个向上的箭头图标作为增加按钮,再拖入一个矩形,将向上箭头图标放入矩形内。矩形:18x15,边框颜色DCDEE2,边框左下可见,箭头图标:8x5,矩形置底,组合在一起命名”增…

【Linux】awk 命令详解及使用示例:结构化文本数据处理工具

【Linux】awk 命令详解及使用示例:结构化文本数据处理工具 引言 awk 是一种强大的文本处理工具和编程语言,专为处理结构化文本数据而设计。它的名称来源于其三位创始人的姓氏首字母:Alfred Aho、Peter Weinberger 和 Brian Kernighan。 基…

紫光同创FPGA系列实现Aurora 8b/10b协议

特性 1.兼容XILINX aurora IP核 2.支持X1、X2、X4、X8模式(根据硬件条件选择模式) 3.支持FRAMING和STREAMING 用户接口 4.自动初始化和维护链路状态 5.支持热插拔 6.支持扰码、解扰 7.支持流量控制 8.支持crc用户数据 9.支持全双工或者半双工模式 10.最…

DAY 44 预训练模型

知识点回顾: 预训练的概念常见的分类预训练模型图像预训练模型的发展史预训练的策略预训练代码实战:resnet18 (一)预训练的概念 我们发现准确率最开始随着epoch的增加而增加。随着循环的更新,参数在不断发生更新。 所以…

【NLP中向量化方式】序号化,亚编码,词袋法等

1.序号化 将单词按照词典排序,给定从0或者1或者2开始的序号即可,一般情况有几 个特征的单词: PAD表示填充字符,UNK表示未知字符 在这个例子中,我们可以看到我们分别将3个文本分为了4个token,每个token用左侧的词典表示…

C++学习-入门到精通【16】自定义模板的介绍

C学习-入门到精通【16】自定义模板的介绍 目录&#xff09; C学习-入门到精通【16】自定义模板的介绍前言一、类模板创建一个自定义类模板&#xff1a;Stack\<T\> 二、使用函数模板来操作类模板特化的对象三、非类型形参四、模板类型形参的默认实参五、重载函数模板 前言…

源码级拆解:如何搭建高并发「数字药店+医保购药」一体化平台?

在全民“掌上看病、线上购药”已成常态的今天&#xff0c;数字药店平台正在以惊人的速度扩张。而将数字药店与医保系统打通&#xff0c;实现线上医保购药&#xff0c;更是未来互联网医疗的关键拼图。 那么&#xff0c;如何从技术底层搭建一个 支持高并发、可扩展、安全合规的数…

Hadoop 3.x 伪分布式 8088端口无法访问问题处理

【Hadoop】YARN ResourceManager 启动后 8088 端口无法访问问题排查与解决(伪分布式启动Hadoop) 在配置和启动 Hadoop YARN 模块时&#xff0c;发现虽然 ResourceManager 正常启动&#xff0c;JPS 进程中也显示无误&#xff0c;但通过浏览器访问 http://主机IP:8088 时却无法打…

零基础在实践中学习网络安全-皮卡丘靶场(第十期-Over Permission 模块)

经过这么长时间的学习&#xff0c;我相信大家已经有了很大的信心&#xff0c;有可能会有看不起的意思&#xff0c;因为皮卡丘是基础靶场&#xff0c;但是俗话说"基础不牢&#xff0c;地动山摇"&#xff0c;所以还请大家静下心来进行学习 来翻译一下是什么意思&#…

毕设 基于机器视觉的驾驶疲劳检测系统(源码+论文)

文章目录 0 前言1 项目运行效果2 课题背景3 Dlib人脸检测与特征提取3.1 简介3.2 Dlib优点 4 疲劳检测算法4.1 眼睛检测算法4.2 打哈欠检测算法4.3 点头检测算法 5 PyQt55.1 简介5.2相关界面代码 6 最后 0 前言 &#x1f525;这两年开始毕业设计和毕业答辩的要求和难度不断提升…

学习STC51单片机30(芯片为STC89C52RCRC)

每日一言 当你感到疲惫时&#xff0c;正是成长的关键时刻&#xff0c;再坚持一下。 IIC协议 是的&#xff0c;IIC协议就是与我们之前的串口通信协议是同一个性质&#xff0c;就是为了满足模块的通信&#xff0c;其实之前的串口通信协议叫做UART协议&#xff0c;我们千万不要弄…

Python-进程

进程 简介 操作系统分配资源的基本单位 创建 依赖 依赖模块 multiprocessing 中的 Process 语法 Process(group[,target[,name[,args[,kwargs]]]]) target&#xff1a;如果传递了函数的引用&#xff0c;这个子进程就执行这里的代码args&#xff1a;元组的方式传递&#x…

Paraformer分角色语音识别-中文-通用 FunASR demo测试与训练

文章目录 0 资料1 Paraformer分角色语音识别-中文-通用1 模型下载2 音频识别测试3 FunASR安装 &#xff08;训练用&#xff09;4 训练 0 资料 https://github.com/modelscope/FunASR/blob/main/README_zh.md https://github.com/modelscope/FunASR/blob/main/model_zoo/readm…

对抗反爬机制的分布式爬虫自适应策略:基于强化学习的攻防博弈建模

在大数据时代&#xff0c;数据的价值不言而喻。网络爬虫作为获取数据的重要工具&#xff0c;被广泛应用于各个领域。然而&#xff0c;随着爬虫技术的普及&#xff0c;网站为了保护自身数据安全和服务器性能&#xff0c;纷纷采取了各种反爬机制。这就使得爬虫与反爬虫之间形成了…

手写muduo网络库(一):项目构建和时间戳、日志库

引言 本文作为手写 muduo 网络库系列开篇&#xff0c;聚焦项目基础框架搭建与核心基础工具模块设计。通过解析 CMake 工程结构设计、目录规划原则&#xff0c;结合时间戳与日志系统的架构&#xff0c;为后续网络库开发奠定工程化基础。文中附完整 CMake 配置示例及模块代码。 …

14-Oracle 23ai Vector Search 向量索引和混合索引-实操

一、Oracle 23ai支持的2种主要的向量索引类型&#xff1a; 1.1 内存中的邻居图向量索引 (In-Memory Neighbor Graph Vector Index) HNSW(Hierarchical Navigable Small World &#xff1a;分层可导航小世界)索引 是 Oracle AI Vector Search 中唯一支持的内存邻居图向量索引类…

Web前端基础:JavaScript

1.JS核心语法 1.1 JS引入方式 第一种方式&#xff1a;内部脚本&#xff0c;将JS代码定义在HTML页面中 JavaScript代码必须位于<script></script>标签之间在HTML文档中&#xff0c;可以在任意地方&#xff0c;放置任意数量的<script></script>一般会把…

基于AWS Serverless架构:零运维构建自动化SEO内容生成系统

作者&#xff1a;[Allen] 技术专栏 | 深度解析云原生SEO自动化 在流量为王的时代&#xff0c;持续产出高质量SEO内容成为技术运营的核心痛点。传统方案面临开发成本高、扩展性差、关键词响应滞后三大难题。本文将分享如何用AWS Serverless技术栈&#xff0c;构建一套零服务器运…