【RAG】ragflow源码亮点:文档embedding向量化加权融合

news2025/5/27 21:52:33

引言:

最近在看ragflow源码,其中有一个较为巧妙地设计:分别将 文字 、 标题 行向量化 之后,直接根据权重,进行加法运算,得到向量融合,增强了文本向量化的表示能力,这里开始讨论一下,为什么这里可以直接对向量进行加法运算,而得到一个增强的表示

加权代码片段:

title_w = 0.1 是标题的权重
tts 是标题进行embedding向量化后的矩阵
cnts 是将内容进行embedding向量化后的矩阵
vects 生成的最终的文档向量

    vects = (title_w * tts + (1 - title_w) *
             cnts) if len(tts) == len(cnts) else cnts

目的:优化表示

单独使用标题向量可能丢失细节(如标题 “报告” 无法区分是 “营收报告” 还是 “技术报告”);单独使用内容向量可能因信息冗余导致主题模糊(如大段无关描述覆盖核心主题)。通过加权融合,可弥补单一模态的缺陷。

完整embedding代码

async def embedding(docs, mdl, parser_config=None, callback=None):
    if parser_config is None:
        parser_config = {}
    batch_size = 16
    tts, cnts = [], []
    for d in docs:
        tts.append(d.get("docnm_kwd", "Title"))
        c = "\n".join(d.get("question_kwd", []))
        if not c:
            c = d["content_with_weight"]
        c = re.sub(r"</?(table|td|caption|tr|th)( [^<>]{0,12})?>", " ", c)
        if not c:
            c = "None"
        cnts.append(c)

    tk_count = 0
    if len(tts) == len(cnts):
        vts, c = await trio.to_thread.run_sync(lambda: mdl.encode(tts[0: 1]))
        tts = np.concatenate([vts for _ in range(len(tts))], axis=0)
        tk_count += c

    cnts_ = np.array([])
    for i in range(0, len(cnts), batch_size):
        vts, c = await trio.to_thread.run_sync(lambda: mdl.encode([truncate(c, mdl.max_length-10) for c in cnts[i: i + batch_size]]))
        if len(cnts_) == 0:
            cnts_ = vts
        else:
            cnts_ = np.concatenate((cnts_, vts), axis=0)
        tk_count += c
        callback(prog=0.7 + 0.2 * (i + 1) / len(cnts), msg="")
    cnts = cnts_

    title_w = float(parser_config.get("filename_embd_weight", 0.1))
    vects = (title_w * tts + (1 - title_w) *
             cnts) if len(tts) == len(cnts) else cnts

    assert len(vects) == len(docs)
    vector_size = 0
    for i, d in enumerate(docs):
        v = vects[i].tolist()
        vector_size = len(v)
        d["q_%d_vec" % len(v)] = v
    return tk_count, vector_size

问题:为什么可以直接简单地通过加法进行融合?

要理解“向量值的含义”和“加法为何能融合特征”,我们需要从语义向量空间的本质特征融合的数学逻辑两个层面入手,结合具体场景(如文档向量化)解释:

一、向量值的本质:语义空间中的坐标

在自然语言处理(NLP)中,文本向量化(Embedding)的核心是将文本映射到一个高维语义空间中,向量的每个维度对应空间中的一个“语义特征”。==向量值(即每个维度的数值)本质是文本在该特征上的“得分” ==

举个具体例子

假设我们有一个简化的3维语义空间,三个维度分别代表:

  • 维度1:“技术”相关程度(数值越大,文本越可能涉及技术);
  • 维度2:“财务”相关程度(数值越大,文本越可能涉及财务);
  • 维度3:“时间”(数值越大,文本越可能涉及时间描述)。

现在有两个文本:

  1. 标题:“2023年公司技术研发报告”
    其向量可能是 [0.8, 0.2, 0.7](表示:技术相关度80%,财务相关度20%,时间相关度70%)。
  2. 内容:“本年度研发投入5000万元,用于AI算法优化”
    其向量可能是 [0.7, 0.6, 0.3](技术相关度70%,财务相关度60%,时间相关度30%)。

这里的每个数值(如0.8、0.2)并非绝对的“分数”,而是模型通过预训练学习到的相对语义关联程度。向量整体则表示文本在这个语义空间中的“位置”——相似文本会在空间中相邻(向量余弦相似度高)。

二、为什么向量加法可以融合特征?

向量加法能融合特征的前提是:标题向量与内容向量在同一语义空间中(即由同一模型编码,维度相同且每个维度的语义含义一致)。此时,加法操作的本质是将两个向量在同一空间中的坐标按比例叠加,从而合并两者的语义信息。

从数学角度看:线性叠加保留所有特征

假设标题向量为 ( \mathbf{T} = [t_1, t_2, …, t_n] ),内容向量为 ( \mathbf{C} = [c_1, c_2, …, c_n] ),融合后的向量为 ( \mathbf{V} = w*\mathbf{T} + (1-w)*\mathbf{C} )(( w ) 是标题权重)。

每个维度 ( v_i ) 的计算为:
[ v_i = w*t_i + (1-w)*c_i ]

这相当于:

  • 对标题在维度 ( i ) 的语义得分 ( t_i ),按权重 ( w ) 保留;
  • 对内容在维度 ( i ) 的语义得分 ( c_i ),按权重 ( (1-w) ) 保留;
  • 最终 ( v_i ) 是两者的加权和,同时包含标题和内容在该维度的信息。
从语义角度看:互补信息的融合

回到前面的例子,标题和内容的向量各维度得分如下:

维度标题向量 ( \mathbf{T} )内容向量 ( \mathbf{C} )融合后 ( \mathbf{V} )(( w=0.3 ))
技术相关度0.80.7( 0.30.8 + 0.70.7 = 0.24 + 0.49 = 0.73 )
财务相关度0.20.6( 0.30.2 + 0.70.6 = 0.06 + 0.42 = 0.48 )
时间相关度0.70.3( 0.30.7 + 0.70.3 = 0.21 + 0.21 = 0.42 )

融合后的向量 ( \mathbf{V} = [0.73, 0.48, 0.42] ) 同时体现了:

  • 标题的“时间相关度高”(原0.7,融合后0.42);
  • 内容的“财务相关度高”(原0.6,融合后0.48);
  • 两者共同的“技术相关度高”(原0.8和0.7,融合后0.73)。

这比单独使用标题(可能忽略财务细节)或内容(可能弱化时间信息)的向量更全面。

三、为什么必须用同一模型编码?

如果标题和内容用不同模型编码(例如标题用模型A,内容用模型B),它们的向量可能不在同一语义空间(维度不同,或同一维度的语义含义不同)。此时加法无意义。

例如:

  • 模型A的维度1表示“技术相关度”;
  • 模型B的维度1可能表示“长度”(文本字数);
  • 两者的维度1数值无法直接相加(一个是语义得分,一个是字数统计)。

而代码中标题和内容均使用 mdl.encode(同一模型),确保了向量在同一空间中,加法操作才有语义意义。

总结

向量值的本质是文本在高维语义空间中的坐标,每个维度对应一个语义特征的“得分”。同一模型编码的标题和内容向量处于同一空间,加法操作通过线性叠加合并了两者在各维度的得分,从而融合了标题的概括性特征和内容的细节性特征。这就像将两种颜色按比例混合——最终颜色同时保留了两种颜色的成分,且比例由权重参数控制。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2387045.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大模型学习笔记day2 LoRA微调

LORA的核心思想基准模型不进行变化&#xff0c;我额外引入一部分参数来做专属内容处理&#xff0c;同时加上原有模型的推理能力&#xff0c;这部分新增加的的内容就是要训练出来的参数矩阵。 本征维度&#xff08;Intrinsic Dimension&#xff09;&#xff1a;是指数据或空间中…

Maven-概述-介绍安装

目录 1.项目对象模型 2.依赖管理模型 3.仓库&#xff1a;用于存储资源&#xff0c;管理各种jar包 4.本地仓库路径 5.Maven配置本地仓库 5.1在Maven路径下新建文件夹用于本地仓库存储 5.2 复制本地仓库路径 5.3 找到配置文件路径&#xff0c;使用VSCode方式打开 5.4 新…

GitHub Page填写域名显示被占用

问题描述 在Github上使用github page搭建个人博客&#xff0c;在项目中的Settings->Pages页面里面填写个人的域名时&#xff0c;出现如下报错信息&#xff0c;显示域名被占用情况 The custom domain example.com is already taken. If you are the owner of this domain, c…

java高级 -动态代理

动态代理的概念 动态代理是一种在运行时生成代理对象的机制&#xff0c;无需手动编写代理类。 代理就类似于中介公司&#xff0c;为明星置办各种前期准备。例如歌声需要开演唱会唱歌&#xff0c;那么此时就需要代理对象进行置办场地&#xff0c;设备&#xff0c;然后明星只需要…

机器学习算法:线性回归

1. 基础概念 线性回归是一种用于建模连续型目标变量&#xff08;如价格、销量、温度&#xff09;与一个或多个特征变量&#xff08;如面积、广告投入、时间&#xff09;之间线性关系的统计方法。 核心思想&#xff1a;找到一条直线&#xff08;或超平面&#xff09;&#xff0…

常见小问题(Open Folder as PyCharm Project)

1.删除pycharm鼠标右键快捷键打开项目 winr键打开&#xff0c;输入regedit&#xff0c;运行注册器 找到下面的路径&#xff1a;计算机\HKEY_CLASSES_ROOT\Directory\Background\shell\PyCharm 删除即可

第四十四节:目标检测与跟踪-模板匹配

一、引言 模板匹配的核心思想是通过在输入图像中搜索与预定义模板最相似的区域来定位目标。这种方法计算效率高、实现简单,特别适用于目标外观变化不大且背景相对简单的场景。本文将深入探讨模板匹配的原理、OpenCV中的实现方法、优化技巧以及实际应用案例。 二、模板匹配基础…

vue+ThreeJs 创建过渡圆圈效果

嗨&#xff0c;我是小路。今天主要和大家分享的主题是“vueThreeJs 创建过渡圆圈效果”。 今天在做着色器过渡效果练习&#xff0c;发现出现了很多新的函数&#xff0c;这些都超出了js之外&#xff0c;需要更多的掌握和学习。以下是自己的复盘和梳理。 1.获取距离 定…

MySQL:12_视图

视图 跟事务里讲的视图没有任何关系 视图是一个虚拟表&#xff0c;其内容由查询定义。同真实的表一样&#xff0c;视图包含一系列带有名称的列和行数据。视图的数据变化会影响到基表&#xff0c;基表的数据变化也会影响到视图。 一.基本使用 创建视图 create view 视图名 …

win11+vs2022 安装opencv 4.11.0图解教程

1. 下载opencv opencv官网下载地址&#xff1a;Releases - OpenCV 2. 双击运行该exe&#xff0c;即可进行安装&#xff0c;安装文件夹可自行选择 安装后目录如下&#xff1a; 3. 配置环境变量 使用win键搜索环境变量&#xff0c;选中系统变量中的Path&#xff0c;然后点击编辑…

n8n 读写本地文件

1.Docker Desktop 创建容器 docker run -d --name n8n -p 5566:5678 -v D:\docker\n8n_data:/home/node/.n8n -v D:\docker\n8n_files:/home/node/Files n8nio/n8n:latest 参数说明: 1.-d :表示以 detached 模式运行容器(后台运行) 2.--name n8n :指定容器名称为n8n。 3.-p 55…

LlamaFirewall:开源框架助力检测与缓解AI核心安全风险

LlamaFirewall 是一款面向大语言模型&#xff08;LLM&#xff09;应用的系统级安全框架&#xff0c;采用模块化设计支持分层自适应防御。该框架旨在缓解各类AI代理安全风险&#xff0c;包括越狱攻击&#xff08;jailbreaking&#xff09;、间接提示注入&#xff08;indirect pr…

java基础知识回顾3(可用于Java基础速通)考前,面试前均可用!

目录 一、基本算数运算符 二、自增自减运算符 三、赋值运算符 四、关系运算符 五、逻辑运算符 六、三元运算符 七、 运算符的优先级 八、小案例&#xff1a;在程序中接收用户通过键盘输入的数据 声明&#xff1a;本文章根据黑马程序员b站教学视频做的笔记&#xff0c;可…

电脑无法识别打印机usb设备怎么办 一键解决!

在当今高度数字化的工作环境中&#xff0c;打印机作为重要的办公设备之一&#xff0c;承担着文件打印、扫描等关键任务。然而&#xff0c;有时我们可能会遇到一个令人头疼的问题——电脑无法识别通过USB连接的打印机。这种情况不仅会影响工作效率&#xff0c;还可能打断正常的工…

Elasticsearch Synthetic _source

_source 字段包含索引时传入的原始 JSON 文档体。_source 字段本身不被索引&#xff08;因此不可搜索&#xff09;&#xff0c;但会被存储&#xff0c;以便在执行获取请求&#xff08;如 get 或 search&#xff09;时返回。 如果磁盘使用很重要&#xff0c;可以考虑以下选项&a…

C++ -- vector

vector 1. 关于vector1.1 对比原生数组1.2 vector的核心优势 2. 扩容2.1 底层实现2.2 扩容过程 3. 构造函数4. 接口模拟实现4.1 实现迭代器4.2 扩容4.3 重载[]4.4 插入和删除4.5 构造函数和析构函数 5. 迭代器失效5.1 扩容后失效5.2 越界失效 6. 深浅拷贝 1. 关于vector 1.1 对…

深入研究Azure 容器网络接口 (CNI) overlay

启用cni overlay 在通过portal创建aks的时候,在networking配置上,选中下面的选项即可启用。 通过CLI创建AKS 要创建具有 CNI 覆盖网络的 AKS 群集,需要在创建群集时指定 --network-plugin azure 和 --network-plugin-mode 覆盖选项。 还需要指定 --pod-cidr 选项来定义群…

Python打卡第37天

浙大疏锦行 早停策略和模型权重的保存 作业&#xff1a;对信贷数据集训练后保存权重&#xff0c;加载权重后继续训练50轮&#xff0c;并采取早停策略 import torch import torch.nn as nn import pandas as pd import matplotlib.pyplot as plt import torch.optim as optim fr…

使用 OpenCV 构建稳定的多面镜片墙效果(镜面反射 + Delaunay 分块)

✨ 效果概览 我们将实现一种视觉效果&#xff0c;模拟由许多小镜面拼接而成的“镜子墙”。每个镜面是一个三角形区域&#xff0c;其内容做镜像反射&#xff08;如水平翻转&#xff09;&#xff0c;在视频中形成奇特的万花筒、哈哈镜、空间折叠感。 使用 OpenCV 实现“随机镜面…

HTTP协议版本的发展(HTTP/0.9、1.0、1.1、2、3)

目录 HTTP协议层次图 HTTP/0.9 例子 HTTP/1.0 Content-Type 字段 Content-Encoding 字段 例子 1.0版本存在的问题&#xff1a;短链接、队头阻塞 HTTP/1.1 Host字段 Content-Length 字段 分块传输编码 1.1版本存在的问题 HTTP/2 HTTP/2数据传输 2版本存在的问题…