【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

news2025/6/13 8:49:43

摘要

拍照搜题系统采用“三层管道(多模态 OCR → 语义检索 → 答案渲染)、两级检索(倒排 BM25 + 向量 HNSW)并以大语言模型兜底”的整体框架:

  1. 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后,分别用 CRNN/SVTR 识别文本、Faster-RCNN + MER 解析公式、YOLOv5 提取几何图,并在 ≈ 200 ms 内输出结构化结果。qiye.chinadaily.com.cn cn.chinadaily.com.cn

  2. 语义检索层 把题干关键词与 BERT/BGE-M3 生成的句向量写入 Havenask 索引,通过倒排和向量双路召回在 P99 < 10 ms 命中逾 3 亿题库;若得分不足,再交由 gBDT/LTR 精排。infoq.cn  53ai.com

  3. 答案渲染层与 LLM 兜底 95 %以上的题目直接返回数据库内已审核解析;冷门或改编题则走检索增强的大模型(自研 20–30 B + 端侧 MiniCPM-2B-Int4)生成步骤化解析,整体峰值可支撑 100 万次/分钟的拍题请求。cn.chinadaily.com.cn infoq.cn

这一“识别-检索-生成”三段式设计,结合 GPU 并行推理与 Havenask 存算分离优化,构成了作业帮拍照搜题“秒出、准出”的核心技术壁垒。

 

拍照问题,返回题库答案在一个有图片有表格有公式的问题中,很明显这是一个需要涉及到多模态的过程~

下面是这个过程:

 

 

在公开访谈、技术大会 PPT、官方产品页与多家媒体报道里,对外披露的“拍照搜题”技术细节大致可以归纳为 “三层管道、两级检索、兜底大模型” 的工程体系。下面先给出关键参数一览,再按技术栈逐层展开。


关键规模 & 性能参数

维度最新公开数字主要出处
题库规模3 亿+ 道精标题目;App Store 海外版宣称累计 19 亿 题数据(pitchhub.36kr.com, apps.apple.com)
索引引擎Havenask (阿里开源),单集群支持千亿文档、百万 QPS(blog.csdn.net)
OCR 流水线30 + 深度模型级联、260 次 神经网络推理 / 张(qiye.chinadaily.com.cn, iheima.com)
单张识别时延200 ms 端到端(news.qq.com)
峰值并发100 万次/分钟 搜题请求(news.qq.com)
命中率OCR + 检索命中正确解析 > 95 %(fashion.chinadaily.com.cn)

提示:“参数”在官方语境里更偏向 系统规模、模型条数、延迟与准确率,而非单一 LLM 的参数量。


一、图像 & 多模态识别层

1. OCR 主干

  • 超分 + 去噪 + 倾斜校正 预处理后,文本行进入 CRNN / SVTR / ViT-STR 等开源架构的自研模型;竖排、手写体与英数混排均做多字典纠错。(iheima.com)

  • 数学公式区先经 Faster-RCNN 检测,再用 Transformer-based MER(开源 TrOCR 同类思路)输出 LaTeX 串,结构信息可直接入索引。(infoq.cn)

  • 几何草图 / 曲线题使用轻量 YOLOv5 变体提角点、线段与注记,供后续“图+文”匹配。

  • 表格区域走 TableDet + TSR-Former 还原网格,再单元格级 OCR。(53ai.com)

2. 推理加速

整条流水线共 30 余模型,GPU 集群以 TensorRT FP16 通道并行推理,平均耗时 ≈ 200 ms;预处理仍由 CPU 承担以节省卡数。(qiye.chinadaily.com.cn, news.qq.com)


二、语义检索 & 排序层

1. 索引引擎:Havenask

  • 倒排 BM25 + 原生 HNSW 向量索引“双路召回”,查询 P99 延迟 < 10 ms。(blog.csdn.net, infoq.cn)

  • 题干向量由 BERT/Sentence-BERT 系中文模型 细调得到;近年开始切换到 BGE-M3 稀疏-稠密混合 embedding,提高“文字改编题”召回率。(arthurchiao.github.io)

  • Havenask + Fluid 缓存实现 算存分离,TB 级索引热更无停机。(infoq.cn)

2. 多级排序

  1. 粗排:倒排得分 + 向量余弦;

  2. 精排:gBDT/LTR 模型综合学段、教材版本、难度标签,再做重排;

  3. 得分低于阈值时调用下一层 LLM 兜底。(53ai.com)


三、大模型推理 & 兜底生成

场景模型栈说明
普通题命中无需 LLM 计算,直接回填数据库的标准解析延迟 < 300 ms
冷门/改编题检索增强 LLM (自研 20 – 30 B 级,实验性 MiniCPM-2B-Int4 端侧版)首先拿 Havenask TOP-N 片段,再生成步骤化解析
英文解题/出海多语 LLM + RAG,Question AI 海外版 6 个月 MAU 破 200 万 

四、训练数据与标注策略

  1. 题库

    • 主索引收录 3 亿+ 标准题,覆盖 K-12 90 % 教材版本;硬件产品宣传口径中的「10 亿+ Top 题」为附加真题/变式汇总。(pitchhub.36kr.com, news.cn)

  2. OCR 训练集

    • 来源:学生实时上传、合作教辅 PDF、公开试卷扫描,累计十亿级行级切图;通过半自动标注平台做字符与版面标注。

  3. 公式 & 表格数据

    • 公式使用 MathPix-like 合成 + 人工修订的 LaTeX 对齐数据;表格采取教学用书 PDF 结构树自动抽取 + 单元格校对。(53ai.com)

  4. Embedding Pair 数据

    • 基于历史拍题“同题不同拍”日志构造千万级相似/不相似句对,用 CoSENT 或 SimCSE 损失继续细调 SBERT/BGE。(blog.csdn.net)


五、开源组件清单(公开可考证)

层次主要用到的开源项目理由
视觉PaddleOCR / CRNN / TrOCR / YOLOv5中文+手写 OCR、公式检测、轻量目标检测 (iheima.com, infoq.cn)
NLP EmbeddingSentence-BERT、BGE-M3中文句向量,支持向量检索 (arthurchiao.github.io)
检索Havenask (Apache-2.0)倒排+向量混检,TB 索引热切换 (infoq.cn)
模型加速TensorRT、ONNX RuntimeGPU FP16 推理、端侧 INT4 量化 (news.qq.com)
LLMMiniCPM-2B-Int4 / 自研 20 – 30 B 模型端侧轻量 + 服务端高精度混合

⚠️ 注意:作业帮并未全部公开自研 LLM 的参数细节;上述开源模型是在演讲与 GitHub Commit 里被点名或出现过的组件,推断他们在生产中经过二次细调集成。


参考阅读(部分)

  1. 《OCR+AI 技术壁垒》 i 黑马专访 (iheima.com)

  2. QCon 2025 《作业帮检索系统重构:Havenask 实践》PDF (infoq.cn)

  3. China Daily 专访《30 种模型 200 ms 秒回答案》(qiye.chinadaily.com.cn)

  4. 腾讯新闻 Techo Park 演讲报道 (news.qq.com)

  5. 36Kr 投研页《3 亿题库与 AI》(pitchhub.36kr.com)

  6. App Store 描述(海外版) (apps.apple.com)

  7. GitHub Havenask Repo

  8. WallstreetCN 《Question AI 出海》


小结

  • 参数层面:拍照搜题公开强调的是“30 + 模型级联、200 ms 延迟、3 亿+ 题库、95 % 准确率、百万 QPS”这一整套系统级指标,而非单一 LLM 的参数规模。

  • 技术路线:采用 开源模型 + 大量自研细调 + Havenask 索引 + GPU 并行 的组合;常见题“检索即答案”,冷门题再调用 LLM 生成。

  • 训练数据:核心是十年沉淀的亿级题库与用户拍题日志,辅以合成公式、表格和标注文本,形成覆盖印刷体、手写体、图形和跨学科的多模态语料。

这套“识别-检索-生成”三段式架构,也正是能够在国内外多款拍题产品中保持“秒出+准出”体验的底层关键。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2408044.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…

网络六边形受到攻击

大家读完觉得有帮助记得关注和点赞&#xff01;&#xff01;&#xff01; 抽象 现代智能交通系统 &#xff08;ITS&#xff09; 的一个关键要求是能够以安全、可靠和匿名的方式从互联车辆和移动设备收集地理参考数据。Nexagon 协议建立在 IETF 定位器/ID 分离协议 &#xff08;…

AI-调查研究-01-正念冥想有用吗?对健康的影响及科学指南

点一下关注吧&#xff01;&#xff01;&#xff01;非常感谢&#xff01;&#xff01;持续更新&#xff01;&#xff01;&#xff01; &#x1f680; AI篇持续更新中&#xff01;&#xff08;长期更新&#xff09; 目前2025年06月05日更新到&#xff1a; AI炼丹日志-28 - Aud…

第19节 Node.js Express 框架

Express 是一个为Node.js设计的web开发框架&#xff0c;它基于nodejs平台。 Express 简介 Express是一个简洁而灵活的node.js Web应用框架, 提供了一系列强大特性帮助你创建各种Web应用&#xff0c;和丰富的HTTP工具。 使用Express可以快速地搭建一个完整功能的网站。 Expre…

eNSP-Cloud(实现本地电脑与eNSP内设备之间通信)

说明&#xff1a; 想象一下&#xff0c;你正在用eNSP搭建一个虚拟的网络世界&#xff0c;里面有虚拟的路由器、交换机、电脑&#xff08;PC&#xff09;等等。这些设备都在你的电脑里面“运行”&#xff0c;它们之间可以互相通信&#xff0c;就像一个封闭的小王国。 但是&#…

多云管理“拦路虎”:深入解析网络互联、身份同步与成本可视化的技术复杂度​

一、引言&#xff1a;多云环境的技术复杂性本质​​ 企业采用多云策略已从技术选型升维至生存刚需。当业务系统分散部署在多个云平台时&#xff0c;​​基础设施的技术债呈现指数级积累​​。网络连接、身份认证、成本管理这三大核心挑战相互嵌套&#xff1a;跨云网络构建数据…

国防科技大学计算机基础课程笔记02信息编码

1.机内码和国标码 国标码就是我们非常熟悉的这个GB2312,但是因为都是16进制&#xff0c;因此这个了16进制的数据既可以翻译成为这个机器码&#xff0c;也可以翻译成为这个国标码&#xff0c;所以这个时候很容易会出现这个歧义的情况&#xff1b; 因此&#xff0c;我们的这个国…

测试微信模版消息推送

进入“开发接口管理”--“公众平台测试账号”&#xff0c;无需申请公众账号、可在测试账号中体验并测试微信公众平台所有高级接口。 获取access_token: 自定义模版消息&#xff1a; 关注测试号&#xff1a;扫二维码关注测试号。 发送模版消息&#xff1a; import requests da…

Chapter03-Authentication vulnerabilities

文章目录 1. 身份验证简介1.1 What is authentication1.2 difference between authentication and authorization1.3 身份验证机制失效的原因1.4 身份验证机制失效的影响 2. 基于登录功能的漏洞2.1 密码爆破2.2 用户名枚举2.3 有缺陷的暴力破解防护2.3.1 如果用户登录尝试失败次…

Docker 离线安装指南

参考文章 1、确认操作系统类型及内核版本 Docker依赖于Linux内核的一些特性&#xff0c;不同版本的Docker对内核版本有不同要求。例如&#xff0c;Docker 17.06及之后的版本通常需要Linux内核3.10及以上版本&#xff0c;Docker17.09及更高版本对应Linux内核4.9.x及更高版本。…

MPNet:旋转机械轻量化故障诊断模型详解python代码复现

目录 一、问题背景与挑战 二、MPNet核心架构 2.1 多分支特征融合模块(MBFM) 2.2 残差注意力金字塔模块(RAPM) 2.2.1 空间金字塔注意力(SPA) 2.2.2 金字塔残差块(PRBlock) 2.3 分类器设计 三、关键技术突破 3.1 多尺度特征融合 3.2 轻量化设计策略 3.3 抗噪声…

19c补丁后oracle属主变化,导致不能识别磁盘组

补丁后服务器重启&#xff0c;数据库再次无法启动 ORA01017: invalid username/password; logon denied Oracle 19c 在打上 19.23 或以上补丁版本后&#xff0c;存在与用户组权限相关的问题。具体表现为&#xff0c;Oracle 实例的运行用户&#xff08;oracle&#xff09;和集…