摘要
拍照搜题系统采用“三层管道(多模态 OCR → 语义检索 → 答案渲染)、两级检索(倒排 BM25 + 向量 HNSW)并以大语言模型兜底”的整体框架:
-
多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后,分别用 CRNN/SVTR 识别文本、Faster-RCNN + MER 解析公式、YOLOv5 提取几何图,并在 ≈ 200 ms 内输出结构化结果。qiye.chinadaily.com.cn cn.chinadaily.com.cn
-
语义检索层 把题干关键词与 BERT/BGE-M3 生成的句向量写入 Havenask 索引,通过倒排和向量双路召回在 P99 < 10 ms 命中逾 3 亿题库;若得分不足,再交由 gBDT/LTR 精排。infoq.cn 53ai.com
-
答案渲染层与 LLM 兜底 95 %以上的题目直接返回数据库内已审核解析;冷门或改编题则走检索增强的大模型(自研 20–30 B + 端侧 MiniCPM-2B-Int4)生成步骤化解析,整体峰值可支撑 100 万次/分钟的拍题请求。cn.chinadaily.com.cn infoq.cn
这一“识别-检索-生成”三段式设计,结合 GPU 并行推理与 Havenask 存算分离优化,构成了作业帮拍照搜题“秒出、准出”的核心技术壁垒。
拍照问题,返回题库答案在一个有图片有表格有公式的问题中,很明显这是一个需要涉及到多模态的过程~
下面是这个过程:
在公开访谈、技术大会 PPT、官方产品页与多家媒体报道里,对外披露的“拍照搜题”技术细节大致可以归纳为 “三层管道、两级检索、兜底大模型” 的工程体系。下面先给出关键参数一览,再按技术栈逐层展开。
关键规模 & 性能参数
维度 | 最新公开数字 | 主要出处 |
---|---|---|
题库规模 | 3 亿+ 道精标题目;App Store 海外版宣称累计 19 亿 题数据 | (pitchhub.36kr.com, apps.apple.com) |
索引引擎 | Havenask (阿里开源),单集群支持千亿文档、百万 QPS | (blog.csdn.net) |
OCR 流水线 | 30 + 深度模型级联、260 次 神经网络推理 / 张 | (qiye.chinadaily.com.cn, iheima.com) |
单张识别时延 | ≈ 200 ms 端到端 | (news.qq.com) |
峰值并发 | 100 万次/分钟 搜题请求 | (news.qq.com) |
命中率 | OCR + 检索命中正确解析 > 95 % | (fashion.chinadaily.com.cn) |
提示:“参数”在官方语境里更偏向 系统规模、模型条数、延迟与准确率,而非单一 LLM 的参数量。
一、图像 & 多模态识别层
1. OCR 主干
-
超分 + 去噪 + 倾斜校正 预处理后,文本行进入 CRNN / SVTR / ViT-STR 等开源架构的自研模型;竖排、手写体与英数混排均做多字典纠错。(iheima.com)
-
数学公式区先经 Faster-RCNN 检测,再用 Transformer-based MER(开源 TrOCR 同类思路)输出 LaTeX 串,结构信息可直接入索引。(infoq.cn)
-
几何草图 / 曲线题使用轻量 YOLOv5 变体提角点、线段与注记,供后续“图+文”匹配。
-
表格区域走 TableDet + TSR-Former 还原网格,再单元格级 OCR。(53ai.com)
2. 推理加速
整条流水线共 30 余模型,GPU 集群以 TensorRT FP16 通道并行推理,平均耗时 ≈ 200 ms;预处理仍由 CPU 承担以节省卡数。(qiye.chinadaily.com.cn, news.qq.com)
二、语义检索 & 排序层
1. 索引引擎:Havenask
-
倒排 BM25 + 原生 HNSW 向量索引“双路召回”,查询 P99 延迟 < 10 ms。(blog.csdn.net, infoq.cn)
-
题干向量由 BERT/Sentence-BERT 系中文模型 细调得到;近年开始切换到 BGE-M3 稀疏-稠密混合 embedding,提高“文字改编题”召回率。(arthurchiao.github.io)
-
Havenask + Fluid 缓存实现 算存分离,TB 级索引热更无停机。(infoq.cn)
2. 多级排序
-
粗排:倒排得分 + 向量余弦;
-
精排:gBDT/LTR 模型综合学段、教材版本、难度标签,再做重排;
-
得分低于阈值时调用下一层 LLM 兜底。(53ai.com)
三、大模型推理 & 兜底生成
场景 | 模型栈 | 说明 |
---|---|---|
普通题命中 | 无需 LLM 计算,直接回填数据库的标准解析 | 延迟 < 300 ms |
冷门/改编题 | 检索增强 LLM (自研 20 – 30 B 级,实验性 MiniCPM-2B-Int4 端侧版) | 首先拿 Havenask TOP-N 片段,再生成步骤化解析 |
英文解题/出海 | 多语 LLM + RAG,Question AI 海外版 6 个月 MAU 破 200 万 |
四、训练数据与标注策略
-
题库
-
主索引收录 3 亿+ 标准题,覆盖 K-12 90 % 教材版本;硬件产品宣传口径中的「10 亿+ Top 题」为附加真题/变式汇总。(pitchhub.36kr.com, news.cn)
-
-
OCR 训练集
-
来源:学生实时上传、合作教辅 PDF、公开试卷扫描,累计十亿级行级切图;通过半自动标注平台做字符与版面标注。
-
-
公式 & 表格数据
-
公式使用 MathPix-like 合成 + 人工修订的 LaTeX 对齐数据;表格采取教学用书 PDF 结构树自动抽取 + 单元格校对。(53ai.com)
-
-
Embedding Pair 数据
-
基于历史拍题“同题不同拍”日志构造千万级相似/不相似句对,用 CoSENT 或 SimCSE 损失继续细调 SBERT/BGE。(blog.csdn.net)
-
五、开源组件清单(公开可考证)
层次 | 主要用到的开源项目 | 理由 |
---|---|---|
视觉 | PaddleOCR / CRNN / TrOCR / YOLOv5 | 中文+手写 OCR、公式检测、轻量目标检测 (iheima.com, infoq.cn) |
NLP Embedding | Sentence-BERT、BGE-M3 | 中文句向量,支持向量检索 (arthurchiao.github.io) |
检索 | Havenask (Apache-2.0) | 倒排+向量混检,TB 索引热切换 (infoq.cn) |
模型加速 | TensorRT、ONNX Runtime | GPU FP16 推理、端侧 INT4 量化 (news.qq.com) |
LLM | MiniCPM-2B-Int4 / 自研 20 – 30 B 模型 | 端侧轻量 + 服务端高精度混合 |
⚠️ 注意:作业帮并未全部公开自研 LLM 的参数细节;上述开源模型是在演讲与 GitHub Commit 里被点名或出现过的组件,推断他们在生产中经过二次细调集成。
参考阅读(部分)
-
《OCR+AI 技术壁垒》 i 黑马专访 (iheima.com)
-
QCon 2025 《作业帮检索系统重构:Havenask 实践》PDF (infoq.cn)
-
China Daily 专访《30 种模型 200 ms 秒回答案》(qiye.chinadaily.com.cn)
-
腾讯新闻 Techo Park 演讲报道 (news.qq.com)
-
36Kr 投研页《3 亿题库与 AI》(pitchhub.36kr.com)
-
App Store 描述(海外版) (apps.apple.com)
-
GitHub Havenask Repo
-
WallstreetCN 《Question AI 出海》
小结
-
参数层面:拍照搜题公开强调的是“30 + 模型级联、200 ms 延迟、3 亿+ 题库、95 % 准确率、百万 QPS”这一整套系统级指标,而非单一 LLM 的参数规模。
-
技术路线:采用 开源模型 + 大量自研细调 + Havenask 索引 + GPU 并行 的组合;常见题“检索即答案”,冷门题再调用 LLM 生成。
-
训练数据:核心是十年沉淀的亿级题库与用户拍题日志,辅以合成公式、表格和标注文本,形成覆盖印刷体、手写体、图形和跨学科的多模态语料。
这套“识别-检索-生成”三段式架构,也正是能够在国内外多款拍题产品中保持“秒出+准出”体验的底层关键。