文本检索粗读

news2025/5/26 6:27:26

一.前情提要

1.本文理论为主,并且仅为个人理解,能力一般,不喜勿喷

2.本文理论知识较为散碎

3.如有需要,以下是原文,更为完备

Neural Corpus Indexer 文档检索【论文精读·47】_哔哩哔哩_bilibili

二.正文

(本文争议较大,因为作者在实验的时候把测试集和训练集搞混了一部分造成实验数据精度很高)

1.通过端到端的神经网络,把训练和检索放到一起,能有效提高召回率。本文提出NCI的方法,这是一种基于sequence到sequence的网络,能直接针对特定文档返回ID

2.检索常用具体方法

①将查询和文档组成一对,再去计算相关性(最大的缺点就是价格昂贵),在你搜索某个单词,比如torch的时候,torch,这个单词是一串数字,它会遍历整个文件,找到符合条件的返回出来的就是torch,而不是数字

②有一种方法是基于语义的,会把document query映射为一个向量,这是一个embedding层

③本项目使用two tower来进行学习,如下图

(该图最上方长方形框是对query和document都抽象出一个特点

(但是这仍然具有缺点,缺点是单一向量的话,它会出现相错误的结果,比如苹果14和苹果13在搜索上是一样的)

④使用了ANN搜索,若为复杂搜索则不适用

具体算法简化如下:

将文本和ID对成一对,让神经网络记忆。并且query和doc会关联

⑤整体流程

                                                                        正上方该框代表组合后进入encoder

⑥层次来源

先整体k-mens聚类分为1,2,3,然后再提取关键特征,如图所示,11 12前面那个1就是关键特征,简而言之,就是先大分类,再不断小分类(并且因为是随机采样,所以多样性会好一点)

原本的输入如上图,但是作者认为持续性不够,所以自己人为添加了位置信息,比如原来是3 4 5 添加为13 14 15,并且他改变了共享权重,使之不一样,并且使用了额外编码器,来解决这一问题。(r0,r1等为输入)

⑧具体公式如下图

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1593111.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

重大璧山院_APP_apk_安卓端下载

主要是方便去重庆大学璧山研究院搞科研的学生, 这个安卓安装包,在网上很难搜到。 找半天才搞到手、蓝奏云下载 https://wwb.lanzn.com/iqnro1v1bwkh 密码:i3n2

防止邮箱发信泄露服务器IP教程

使用QQ邮箱,网易邮箱,189邮箱,新浪邮箱,139邮箱可能会泄露自己的服务器IP。 泄露原理:服务器通过请求登录SMTP邮箱服务器接口,对指定的收件人发送信息。 建议大家使用商业版的邮箱,比如阿里云邮箱发信等 防止邮件发信漏源主要关注的是确保邮件…

C语言 数据输入输出

本文 我们来说 数据的输入与输出 及数据的运算 在程序的运算工程中 往往需要输入一些数据 而程序的运算 所得到的运算结果又需要输出给用户 因此 数据的输入与输出 就显得非常重要 在C语言中 不提供专门的输入输出语句 所有的输入输出 都是通过对标准库的调用 来实现的 一般 …

权威Scrum敏捷开发企业级实训/敏捷开发培训课程

课程简介 Scrum是目前运用最为广泛的敏捷开发方法,是一个轻量级的项目管理和产品研发管理框架。 这是一个两天的实训课程,面向研发管理者、项目经理、产品经理、研发团队等,旨在帮助学员全面系统地学习Scrum和敏捷开发, 帮助企业快速启动敏…

抖音滑块验证码加密的盐的位置

最近更新后之前很容易找到盐的位置的方法变了,抖音特意把盐隐藏起来了 {"reply": "RJC","models": "yAd8rl","in_modal": "DTn0nD2","in_slide": "ou7H0Ngda","move": …

基于java+springboot+vue实现的网上购物系统(文末源码+Lw+ppt)23-42

摘 要 随着我国经济的高速发展与人们生活水平的日益提高,人们对生活质量的追求也多种多样。尤其在人们生活节奏不断加快的当下,人们更趋向于足不出户解决生活上的问题,网上购物系统展现了其蓬勃生命力和广阔的前景。与此同时,为…

走进MySQL:从认识到入门(针对初学者)

一,引言 MySQL是一款久负盛名且广泛应用的关系型数据库管理系统,自1995年Michael Widenius和David Axmark在瑞典和芬兰发起研发以来,其发展历程可谓辉煌且深远。作为开源软件的代表,MySQL以其卓越的成本效益、高性能及高可靠性赢得…

【数据结构与算法】:二叉树经典OJ

目录 1. 二叉树的前序遍历 (中,后序类似)2. 二叉树的最大深度3. 平衡二叉树4. 二叉树遍历 1. 二叉树的前序遍历 (中,后序类似) 这道题的意思是对二叉树进行前序遍历,把每个结点的值都存入一个数组中,并且返回这个数组。 思路&…

c++11 标准模板(STL)本地化库 - 平面类别(std::codecvt) - 在字符编码间转换,包括 UTF-8、UTF-16、UTF-32 (四)

本地化库 本地环境设施包含字符分类和字符串校对、数值、货币及日期/时间格式化和分析,以及消息取得的国际化支持。本地环境设置控制流 I/O 、正则表达式库和 C 标准库的其他组件的行为。 平面类别 在字符编码间转换,包括 UTF-8、UTF-16、UTF-32 std::…

ReactRouter

React-Router 概念:一个路劲path对应一个组件component 当我们在浏览器中访问一个path的时候,path对应的组件会在页面中进行渲染路由语法: import {createBrowserRouter, RouterProvider} from react-router-dom// 1. 创建router实例对象并…

【数据结构】习题之链表的回文结构和相交链表

👑个人主页:啊Q闻 🎇收录专栏:《数据结构》 🎉前路漫漫亦灿灿 前言 今日的习题是关于链表的,分别是链表的回文结构和相交链表的判断。 链表的回文结构 题目为:链表的回文结…

RUM 最佳实践-交互延迟的探索与发现

FID 在互联网高速发展的时代,用户体验已成为企业竞争的关键所在。网页性能作为用户体验的重要组成部分,直接影响着用户的满意度和工作效率。First Input Delay(FID)作为衡量网页性能的重要指标,越来越受到业界关注。今…

【RV1106的ISP使用记录之二】设备树的构建

基于MIPI接口的两种摄像头接入方式,理清楚各链路关系,方便后续的开发调试工作,先上一张图,后面再补充解释。

一起学习python——基础篇(20)

前言,之前经常从网上找一些免费的接口来测试,有点受制于人的感觉。想了想还不如直接写一个接口,这样方便自己测试。自己想返回什么格式就返回什么样子,不用担心服务报错,因为自己就可以完全掌控。然后宿舍二哥告诉我py…

帝国cms仿《鳄鱼下载站》网站源码

仿《鳄鱼下载站》网站源码手机安卓软件网站模版 PHP网站源码 帝国cms内核 采用帝国cms7.5 环境PHPmysql 恢复数据库后如何修改密码: 双击表,进入对应的详细数据表,然后找到:www_96kaifa_com_enewsuser这个表,双击打开修改&…

Command开源AI的未来

在AI的浩瀚宇宙中,有一个新星正在闪耀——Command R。这个开源的大型语言模型不仅在技术排行榜上名列前茅,更以其开放性和高性能赢得了全球开发者的关注和喜爱。 开源精神的胜利 Command R是由CohereAI推出的一款开源大语言模型,拥有1040亿…

mysql题目4

tj11: select count(*) 员工总人数 from tb_dept a join tb_employee b on a.deptnob.deptno where a.dname 市场部

openGauss 之min/max 优化代码走读

一. 前言 在openGuass中,如果对索引列执行max/min操作,openGauss会优化成只读取索引的最前/后的一行数据,避免了对整表数据进行读取和聚合操作,如下所示: 二. min/max优化代码走读 1. 首先需要将min/max 算子转成成执行计划中降序…

逐步学习Go-sync.RWMutex(读写锁)-深入理解与实战

概述 在并发编程中,我们经常会遇到多个线程或协程访问共享资源的情况。为了保护这些资源不被同时修改,我们会用到"锁"的概念。 Go中提供了读写锁:sync.RWMutex。 sync.RWMutex是Go语言提供的一个基础同步原语,它是Rea…

Python | Leetcode Python题解之第26题删除有序数组中的重复项

题目&#xff1a; 题解&#xff1a; class Solution:def removeDuplicates(self, nums: List[int]) -> int:if not nums:return 0n len(nums)fast slow 1while fast < n:if nums[fast] ! nums[fast - 1]:nums[slow] nums[fast]slow 1fast 1return slow