【RAG召回】BM25算法示例

news2025/6/9 16:53:06

rank-bm25 功能示例

本篇将通过多个示例,快速展示 rank-bm25 库的核心功能。不使用jieba。

准备工作

首先,确保您已经安装了 rank-bm25

pip install rank-bm25

接下来,我们定义一个通用的中文语料库和分词函数。这里我们使用简单的单字切分作为分词方法,以避免引入第三方库。

# 1. 定义一个中文语料库
corpus = [
    "北京是中国的首都,也是一座历史悠久的文化名城。",
    "上海是中国的经济中心,拥有繁忙的港口和现代化的建筑。",
    "深圳是中国科技创新的重要城市,被誉为“中国硅谷”。",
    "广州的美食文化闻名全国,是粤菜的发源地。",
    "学习人工智能技术需要扎实的数学基础和编程能力。",
    "中国的历史源远流长,有许多著名的历史人物和事件。"
]

# 2. 定义分词函数 (不使用jieba,直接按字切分)
def char_tokenizer(text):
    """
    一个简单的按字切分的函数。
    """
    return list(text)

# 3. 对语料库进行分词
tokenized_corpus = [char_tokenizer(doc) for doc in corpus]

print("分词后的语料库 (部分展示):")
print(tokenized_corpus[0])
# 输出: ['北', '京', '是', '中', '国', '的', '首', '都', ',', '也', '是', '一', '座', '历', '史', '悠', '久', '的', '文', '化', '名', '城', '。']

示例 1:基础用法 - 获取最相关的 N 个文档

这是最常用、最直接的功能:输入一个查询,直接返回最相关的文档列表。

from rank_bm25 import BM25Okapi

# 初始化 BM25 模型
bm25 = BM25Okapi(tokenized_corpus)

查询 = "中国的历史文化"
分词后的查询 = char_tokenizer(查询)

# 使用 get_top_n 获取最相关的 3 个文档
# 参数: (分词后的查询, 原始语料库, n=返回数量)
top_n_docs = bm25.get_top_n(分词后的查询, corpus, n=3)

print(f"查询: '{查询}'")
print("--- 最相关的3个文档 ---")
for doc in top_n_docs:
    print(doc)

运行结果:

查询: '中国的历史文化'
--- 最相关的3个文档 ---
北京是中国的首都,也是一座历史悠久的文化名城。
中国的历史源远流长,有许多著名的历史人物和事件。
广州的美食文化闻名全国,是粤菜的发源地。

示例 2:获取所有文档的 BM25 分数

如果你不仅想知道谁最相关,还想知道具体的相关性分数是多少,可以使用 get_scores

from rank_bm25 import BM25Okapi
import numpy as np

bm25 = BM25Okapi(tokenized_corpus)

查询 = "中国的经济与科技"
分词后的查询 = char_tokenizer(查询)

# 使用 get_scores 获取每个文档的分数
doc_scores = bm25.get_scores(分词后的查询)

print(f"查询: '{查询}'")
print("--- 所有文档的BM25分数 ---")
print(np.round(doc_scores, 2))

# 你可以手动将分数和文档结合起来排序
带分数的文档 = list(zip(corpus, doc_scores))
排序后的文档 = sorted(带分数的文档, key=lambda item: item[1], reverse=True)

print("\n--- 手动排序后的结果 ---")
for doc, score in 排序后的文档:
    print(f"分数: {score:.2f} | 文档: {doc}")

运行结果:

查询: '中国的经济与科技'
--- 所有文档的BM25分数 ---
[2.08 4.29 4.38 0.   2.19 2.08]

--- 手动排序后的结果 ---
分数: 4.38 | 文档: 深圳是中国科技创新的重要城市,被誉为“中国硅谷”。
分数: 4.29 | 文档: 上海是中国的经济中心,拥有繁忙的港口和现代化的建筑。
分数: 2.19 | 文档: 学习人工智能技术需要扎实的数学基础和编程能力。
分数: 2.08 | 文档: 北京是中国的首都,也是一座历史悠久的文化名城。
分数: 2.08 | 文档: 中国的历史源远流长,有许多著名的历史人物和事件。
分数: 0.00 | 文档: 广州的美食文化闻名全国,是粤菜的发源地。

示例 3:批量查询 - 同时处理多个查询

当有多个查询需要执行时,使用 get_batch_scores 会比循环调用 get_scores 更高效。

from rank_bm25 import BM25Okapi
import numpy as np

bm25 = BM25Okapi(tokenized_corpus)

查询列表 = [
    "历史名城",
    "科技创新",
    "美食文化"
]

# 批量分词
分词后的查询列表 = [char_tokenizer(q) for q in 查询列表]

# 使用 get_batch_scores 进行批量计算
批量分数 = bm25.get_batch_scores(分词后的查询列表, list(range(len(corpus))))

print("--- 批量查询分数矩阵 ---")
print("行代表查询 (查询列表),列代表文档 (corpus)")
print(np.round(批量分数, 2))

# 为每个查询找到最相关的文档
print("\n--- 每个查询的最佳匹配 ---")
for i, query in enumerate(查询列表):
    best_doc_index = np.argmax(批量分数[i])
    print(f"查询 '{query}' 的最佳匹配: {corpus[best_doc_index]}")

运行结果:

--- 批量查询分数矩阵 ---
行代表查询 (查询列表),列代表文档 (corpus)
[[3.11 0.   0.   1.61 0.   3.11]
 [0.   0.   3.7  0.   1.61 0.  ]
 [1.61 0.   0.   3.11 0.   0.  ]]

--- 每个查询的最佳匹配 ---
查询 '历史名城' 的最佳匹配: 北京是中国的首都,也是一座历史悠久的文化名城。
查询 '科技创新' 的最佳匹配: 深圳是中国科技创新的重要城市,被誉为“中国硅谷”。
查询 '美食文化' 的最佳匹配: 广州的美食文化闻名全国,是粤菜的发源地。

示例 4:自定义 BM25 参数 (k1b)

BM25Okapi 模型可以接受两个重要参数 k1b 来微调其行为。

  • k1 (float, default=1.5): 控制词频(TF)的缩放。值越高,词频对分数的影响就越大。
  • b (float, default=0.75): 控制文档长度惩罚。值在 [0, 1] 区间,b=1 表示完全根据文档长度进行惩罚,b=0 表示不进行惩罚。
from rank_bm25 import BM25Okapi

# 使用默认参数的 BM25 模型
bm25_default = BM25Okapi(tokenized_corpus) 

# 创建一个自定义参数的 BM25 模型
# 增强词频影响 (k1=2.0), 减弱文档长度惩罚 (b=0.5)
bm25_custom = BM25Okapi(tokenized_corpus, k1=2.0, b=0.5)

查询 = "中国历史"
分词后的查询 = char_tokenizer(查询)

# 获取两种模型下的分数
scores_default = bm25_default.get_scores(分词后的查询)
scores_custom = bm25_custom.get_scores(分词后的查询)

print(f"查询: '{查询}'")
print(f"默认参数 (k1=1.5, b=0.75) 分数: \n{np.round(scores_default, 2)}")
print(f"自定义参数 (k1=2.0, b=0.5) 分数: \n{np.round(scores_custom, 2)}")

运行结果:

查询: '中国历史'
默认参数 (k1=1.5, b=0.75) 分数: 
[2.08 0.   0.   0.   0.   2.08]
自定义参数 (k1=2.0, b=0.5) 分数: 
[2.35 0.   0.   0.   0.   2.35]

(注意:调整参数后,分数发生了变化)


示例 5:获取模型内部信息

有时需要查看模型内部的一些统计数据,例如词的文档频率、平均文档长度等。

from rank_bm25 import BM25Okapi

bm25 = BM25Okapi(tokenized_corpus)

# 获取模型计算出的平均文档长度
avg_dl = bm25.avgdl
print(f"平均文档长度: {avg_dl:.2f} 个字")

# 获取语料库的文档总数
doc_count = bm25.doc_count
print(f"文档总数: {doc_count}")

# 获取某个词在多少个文档中出现过 (文档频率)= "中"
doc_freq = bm25.doc_freqs.get(, 0)
print(f"'{}' 这个字在 {doc_freq} 个文档中出现过。")= "港"
doc_freq = bm25.doc_freqs.get(, 0)
print(f"'{}' 这个字在 {doc_freq} 个文档中出现过。")

# 查看模型为一个词计算的 IDF (逆文档频率) 分数
idf_score = bm25.idf.get(, 0)
print(f"'{}' 这个字的 IDF 分数是: {idf_score:.2f}")

运行结果:

平均文档长度: 28.50 个字
文档总数: 6
'中' 这个字在 4 个文档中出现过。
'港' 这个字在 1 个文档中出现过。
'港' 这个字的 IDF 分数是: 1.50

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2405603.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue中Echarts的使用

文章目录 Echarts概述什么是EchartsEcharts的好处 Vue中Echarts的使用Echarts的安装Echarts的引入 Echarts概述 什么是Echarts Apache ECharts:一个基于 JavaScript 的开源可视化图表库。 其官网如下:https://echarts.apache.org/zh/index.html Echar…

【C++项目】负载均衡在线OJ系统-1

文章目录 前言项目结果演示技术栈:结构与总体思路compiler编译功能-common/util.hpp 拼接编译临时文件-common/log.hpp 开放式日志-common/util.hpp 获取时间戳方法-秒级-common/util.hpp 文件是否存在-compile_server/compiler.hpp 编译功能编写(重要&a…

Spring Boot微服务架构(十一):独立部署是否抛弃了架构优势?

Spring Boot 的独立部署(即打包为可执行 JAR/WAR 文件)本身并不会直接丧失架构优势,但其是否体现架构价值取决于具体应用场景和设计选择。以下是关键分析: 一、独立部署与架构优势的关系 内嵌容器的优势保留 Spring Boot 独立部署…

(四)Linux性能优化-CPU-软中断

软中断 中断其实是一种异步的事件处理机制,可以提高系统的并发处理能力 由于中断处理程序会打断其他进程的运行,所以,为了减少对正常进程运行调度的影响,中断处理程序就需要尽可能快地运行 Linux 将中断处理过程分成了两个阶段&a…

QT的工程文件.pro文件

文章目录 QT的工程文件.pro文件QT5中的基本模块Qt CoreQt GUIQt WidgetsQt QMLQt QuickQt NetworkQt SQLQt MultimediaQt ConcurrentQt WebEngineQt TestLib TARGET 可选择的模版CONFIG的配置项 QT的工程文件.pro文件 每一个QT项目都至少有一个.pro文件,用来配置项目…

安科瑞防逆流方案落地内蒙古中高绿能光伏项目,筑牢北疆绿电安全防线

一、项目概况 内蒙古阿拉善中高绿能能源分布式光伏项目,位于内蒙古乌斯太镇,装机容量为7MW,采用自发自用、余电不上网模式。 用户配电站为35kV用户站,采用两路电源单母线分段系统。本项目共设置12台35/0.4kV变压器,在…

在本地电脑中部署阿里 Qwen3 大模型及连接到 Elasticsearch

在今天的文章中,我将参考文章 “使用 Elastic 和 LM Studio 的 Herding Llama 3.1” 来部署 Qwen3 大模型。据测评,这是一个非常不错的大模型。我们今天尝试使用 LM Studio 来对它进行部署,并详细描述如何结合 Elasticsearch 来对它进行使用。…

八股---7.JVM

1. JVM组成 1.1 JVM由哪些部分组成?运行流程? 难易程度:☆☆☆ 出现频率:☆☆☆☆ Java Virtual Machine:Java 虚拟机,Java程序的运行环境(java二进制字节码的运行环境)好处:一次编写,到处运行;自动内存管理,垃圾回收机制程序运行之前,需要先通过编译器将…

C++性能优化指南

思维导图(转载) https://www.processon.com/view/5e5b3fc5e4b03627650b1f42 第 1 章 优化概述 1.1 优化是软件开发的一部分 优化更像是一门实验科学。 1.2 优化是高效的 1.3 优化是没有问题的 **90/10 规则:**程序中只有 10% 的代码…

数据集-目标检测系列- 猴子 数据集 monkey >> DataBall

贵在坚持! * 相关项目 1)数据集可视化项目:gitcode: https://gitcode.com/DataBall/DataBall-detections-100s/overview 2)数据集训练、推理相关项目:GitHub - XIAN-HHappy/ultralytics-yolo-webui: ultralytics-yo…

算法-数论

C-小红的数组查询(二)_牛客周赛 Round 95 思路:不难看出a数组是有循环的 d3,p4时,a数组:1、0、3、2、1、0、3、2....... 最小循环节为4,即最多4种不同的数 d4,p6时,a数组:1、5、3、…

SQL导出Excel支持正则脱敏

SQL to Excel Exporter 源码功能特性核心功能性能优化安全特性 快速开始环境要求安装运行 API 使用说明1. 执行SQL并导出Excel2. 下载导出文件3. 获取统计信息4. 清理过期文件 数据脱敏配置支持的脱敏类型脱敏规则配置示例 配置说明应用配置数据库配置 测试运行单元测试运行集成…

【第三十九周】ViLT

ViLT 摘要Abstract文章信息介绍提取视觉特征的方式的演变模态融合的两种方式四种不同的 VLP 模型Q&A 方法模型结构目标函数Whole Word Masking(WWM) 实验结果总结 摘要 本篇博客介绍了ViLT(Vision-and-Language Transformer)…

代码随想录算法训练营第60期第六十天打卡

大家好,今天因为有数学建模比赛的校赛,今天的文章可能会简单一点,望大家原谅,我们昨天主要讲的是并查集的题目,我们复习了并查集的功能,我们昨天的题目其实难度不小,尤其是后面的有向图&#xf…

数据结构——D/串

一、串的定义和基本操作  1. 串的定义   1)串的概念   组成结构: 串是由零个或多个字符组成的有限序列,记为 S′a1a2⋯an′Sa_1a_2\cdots a_nS′a1​a2​⋯an′​&#x…

AI+预测3D新模型百十个定位预测+胆码预测+去和尾2025年6月8日第102弹

从今天开始,咱们还是暂时基于旧的模型进行预测,好了,废话不多说,按照老办法,重点8-9码定位,配合三胆下1或下2,杀1-2个和尾,再杀4-5个和值,可以做到100-300注左右。 (1)定…

【第九篇】 SpringBoot测试补充篇

简介 本文介绍了SpringBoot测试中的五项关键技术:测试类专用属性加载、 测试类专用Bean配置、 表现层测试方法、测试类事务回滚控制、配置文件随机数据设置)。这些技术可以有效隔离测试环境,确保测试数据不影响生产环境,同时提供了…

springcloud SpringAmqp消息队列 简单使用

这期只是针对springBoot/Cloud 在使用SpringAmqp消息队列的时候遇到的坑。 前提 如果没有安装RabbitMQ是无法连接成功的!所以前提是你要安装好RabbitMQ。 docker 安装命令 # 拉取docker镜像 docker pull rabbitmq:management# 创建容器 docker run -id --namera…

Framework开发之IMS逻辑浅析1--关键线程及作用

关键线程:EventHub,InputReader,InputDispatcher EventHub: 由于Android继承Linux,Linux的思想是一切皆文件,而输入的类型不止一种(触碰,写字笔,键盘等),每种类型都对应一种驱动设备,而每个硬件驱动设备又对应Linux的一个目录文件…

系统思考:跳出症状看全局

明天将为华为全球采购认证管理部的伙伴们带来一场关于系统思考的深度课程!通过经典的啤酒游戏经营决策沙盘,一起沉浸式体验如何从全局视角看待问题,发现单点最优并不等于全局最优。 这不仅是一次简单的课程,更是一次洞察系统背后…