2025年六篇经典论文综述（DeepSeek-R1、Qwen3、Kimi K2、Qwen2.5-VL、Humanity‘s Last Exam、ARC-AGI-2）

news2026/4/15 21:02:24

摘要2025 年的 AI 研究主线明显从“单纯扩大模型规模”转向“提升推理能力、增强 agentic 行为、统一多模态输入以及重新构建更高难度的评测体系”。本文选取 6 篇具有代表性的 2025 年论文或技术报告DeepSeek-R1、Qwen3、Kimi K2、Qwen2.5-VL、Humanity’s Last ExamHLE、ARC-AGI-2分别从痛点、创新点、算法方案、优缺点四个方面展开分析。这 6 篇工作大体覆盖了 2025 年最关键的四个方向推理模型Reasoning ModelDeepSeek-R1统一 thinking / non-thinking 框架Qwen3Agentic LLM 与软件工程能力Kimi K2通用视觉语言模型VLMQwen2.5-VL高难度综合评测基准Humanity’s Last Exam抽象推理与流体智能评测ARC-AGI-21. DeepSeek-R11.1 论文定位DeepSeek-R1 是 2025 年最具标志性的推理模型工作之一。它的重要性不只是模型性能而在于它系统性展示了大型语言模型的推理能力可以通过纯强化学习RL被激发出来而不必完全依赖人工标注的长链式推理样本。1.2 痛点在 DeepSeek-R1 之前推理模型通常依赖大量人工构造的 CoTChain-of-Thought示范数据存在以下问题高质量长推理数据昂贵需要专家人工撰写或筛选。推理风格受人工演示限制模型容易模仿而不是真正形成自我搜索与验证能力。复杂问题泛化能力不足传统 SFT 模型在数学、代码和 STEM 推理中仍存在明显短板。小模型难以继承大模型推理过程推理能力缺少可迁移、可蒸馏的统一路径。1.3 创新点DeepSeek-R1 的创新主要体现在四个方面1纯 RL 激发推理能力论文核心结论是无需先提供大规模人工标注推理轨迹也可以通过 RL 激发复杂推理行为。2R1-Zero 与 R1 的两阶段路线DeepSeek-R1-Zero直接在 base model 上做大规模 RL不做 SFT 预热DeepSeek-R1在 R1-Zero 的启发下引入 cold-start data再进行 RL以解决可读性、语言混杂、重复等问题。3推理行为涌现论文强调RL 训练后模型自然出现了如下行为自我反思self-reflection自我验证verification动态策略调整dynamic strategy adaptation4推理能力可蒸馏R1 的推理模式还可用于指导更小模型形成推理能力蒸馏路径。1.4 算法方案DeepSeek-R1 的算法流程可以概括为方案 AR1-Zero从基础语言模型出发不依赖 SFT 推理样本对可验证任务如数学、代码构建奖励信号通过 RL 让模型自主探索更长、更复杂的 CoT在训练过程中涌现出反思、校验、回溯等行为。方案 BDeepSeek-R1在 R1-Zero 观察到纯 RL 的有效性后引入少量 cold-start data解决纯 RL 模型的重复、可读性差、语言混杂等问题再进行强化学习优化最终产出更适合部署与蒸馏的推理模型。从方法论上看这是一条“RL firstSFT optional / auxiliary”的 reasoning 路线。1.5 优点突破了“推理必须依赖人工 CoT”的思维定式在数学、代码、STEM 等可验证任务上效果突出推理过程具有可观察的涌现行为为后续 reasoning distillation 提供了新范式对开源推理模型生态影响极大。1.6 缺点与局限纯 RL 训练初期会出现可读性与稳定性问题奖励主要依赖“可验证任务”对开放性任务适配更难推理长度增加会带来更高推理时延和 token 成本RL 训练工程复杂难以被中小团队完整复现。1.7 综述评价DeepSeek-R1 的历史意义在于它把 2025 年“推理模型”的研究重心从“收集更多 CoT 数据”转向“如何用 RL 自主形成推理行为”。在 2025 年的推理模型讨论中它几乎是绕不开的起点。2. Qwen32.1 论文定位Qwen3 是 2025 年最具系统性的开源基础模型技术报告之一。它不只是发布一个模型而是提出了一个更实用的统一框架在同一个模型体系内兼容 thinking mode 与 non-thinking mode。2.2 痛点2024 年以前推理模型与通用对话模型往往分裂为两类聊天模型响应快但复杂推理不够强推理模型能力强但延迟更高、成本更大用户必须在“快”和“强”之间手动切换模型多语言扩展与模型效率之间难以兼顾。2.3 创新点Qwen3 的创新主要集中在以下方面1thinking / non-thinking 统一框架Qwen3 将复杂多步推理与快速响应放进同一模型体系不再要求用户在不同模型之间切换。2thinking budget 机制用户可在推理时动态分配思考预算按任务难度权衡延迟与性能。3Dense MoE 双路线并行Qwen3 模型家族既包括 dense 模型也包括 MoE 模型覆盖从轻量到大规模的不同部署需求。4多语言显著扩展相较前代 Qwen2.5Qwen3 将支持语言扩展到119 种语言和方言。2.4 算法方案Qwen3 可以理解为“统一推理与交互的多模式 LLM 框架”其算法思路包括预训练阶段构建高质量多语言、多任务语料训练通用基础模型模型家族设计同时保留 dense 与 MoE 结构以适配不同算力条件thinking / non-thinking 联合建模让模型既能快速响应也能在需要时展开复杂多步推理thinking budget 控制通过预算机制在推理阶段控制“思考深度”知识迁移到小模型利用旗舰模型的知识提升小规模模型效率与性能。从系统角度看Qwen3 不是单点结构创新而是模型家族推理预算控制多语言扩展的综合工程方案。2.5 优点统一了快响应与强推理两种模式thinking budget 非常贴近实际部署需求dense 与 MoE 双路线适合不同硬件场景多语言覆盖广利于全球化应用开源许可友好便于研究与二次开发。2.6 缺点与局限统一模式设计带来调度复杂度thinking mode 的边界与触发策略仍依赖工程策略优化尽管统一了模式但复杂 reasoning 任务依然有额外推理成本模型家族较大选型门槛相对更高。2.7 综述评价Qwen3 的典型意义在于它把“推理模型”和“聊天模型”从两个割裂方向收束成一个更适合产品化和开源社区使用的统一框架。它代表的是 2025 年“实用型开源基础模型”的重要思路。3. Kimi K23.1 论文定位Kimi K2 是 2025 年“agentic intelligence”方向非常有代表性的开源技术报告。它不是一个强调长思维链的“thinking model”而是强调不依赖 extended thinking也能在 agent、软件工程和真实环境交互中表现极强。3.2 痛点到 2025 年LLM 已经在静态 benchmark 上很强但要进入真实 agent 场景仍面临几个痛点工具调用与多步决策能力不稳定软件工程类任务需要真实交互和环境反馈不是纯文本推理就能解决大规模 MoE 训练容易出现稳定性问题很多模型在 agent benchmark 上仍依赖显式长思考但延迟太高。3.3 创新点Kimi K2 的关键创新体现在1超大规模 MoE 架构总参数约1T激活参数约32B兼顾容量与推理效率。2MuonClip 优化器MuonClip 在 Muon 基础上增加 QK-clip 技术用于处理大规模训练时的不稳定问题。3agentic 数据合成与联合 RL论文特别强调大规模 agentic data synthesis pipeline在真实与合成环境中进行联合 RL 后训练。4非 thinking 模式下的强 agent 性能Kimi K2 的突出点是在 non-thinking 设定下依然在 Tau2-Bench、ACEBench、SWE-Bench Verified 等任务上达到很强表现。3.4 算法方案Kimi K2 的算法方案可拆成三个阶段阶段 1大规模预训练采用 1T 参数级别 MoE 主干使用 MuonClip 优化器在超大规模 token 语料上稳定预训练。阶段 2agentic 数据构造构建大规模 agentic 合成数据覆盖工具调用、软件工程、环境交互等场景强化模型在动作-反馈闭环中的行为模式。阶段 3联合 RL 后训练将模型放入真实或合成环境通过环境反馈更新策略优化任务完成度、工具使用与多步交互能力。与 DeepSeek-R1 偏“长推理”的路线不同Kimi K2 更偏“高效 agent 任务执行”。3.5 优点agent benchmark 表现突出软件工程能力强尤其适合真实任务环境MoE 架构兼顾容量与激活成本不依赖 extended thinking响应效率更适合产品化对未来 agent 系统非常有参考价值。3.6 缺点与局限1T 级 MoE 对训练基础设施要求极高agentic 数据合成流程较复杂复现门槛较高non-thinking 模式在极复杂数学推理上未必优于专门 reasoning model真实环境泛化能力仍受工具生态和外部环境限制。3.7 综述评价Kimi K2 的代表性在于它让 2025 年研究重心从“模型会不会思考”推进到“模型能不能完成真实任务”。因此它在 2025 年的价值不仅是 benchmark 分数更在于对 agentic intelligence 的工程化探索。4. Qwen2.5-VL4.1 论文定位Qwen2.5-VL 是 2025 年非常重要的开源视觉语言模型VLM技术报告。它的突出特点是不仅做图像理解还强调文档解析、精确定位、长视频理解和视觉 agent。4.2 痛点传统 VLM 往往存在以下问题固定分辨率输入导致细节丢失视觉 token 成本高长图和长视频处理困难目标定位能力弱难以给出边框或点级别精确响应文档、表格、图表、GUI 等复杂视觉场景表现不稳定许多模型能“看懂图”但不擅长“视觉行动”。4.3 创新点Qwen2.5-VL 的创新主要包括1动态分辨率处理模型可处理不同尺寸图像而不是强行统一到固定输入分辨率。2Absolute Time Encoding为视频引入更明确的时间编码支持长视频与秒级事件定位。3原生动态分辨率 ViT论文强调从头训练 native dynamic-resolution Vision Transformer并引入 Window Attention以降低视觉计算开销。4更强的视觉定位与文档能力Qwen2.5-VL 支持通过 bounding boxes 或 points 进行精确目标定位并在文档、表格、图表解析方面表现强。5视觉 agent 能力论文明确把其定位为可进行推理、工具使用与任务执行的 interactive visual agent。4.4 算法方案Qwen2.5-VL 的整体方案可以概括为视觉输入动态 token 化根据输入分辨率和复杂度处理图像/视频视觉编码器使用原生动态分辨率 ViT并通过 Window Attention 降低成本时序建模对视频加入 absolute time encoding支持长视频与事件定位视觉-语言联合建模将视觉表示与语言主干结合处理图像问答、文档解析、定位、视频理解agent 化输出支持更接近“看图执行”的任务形式例如 GUI、设备操作和工具使用。4.5 优点图像、文档、视频三类能力兼顾动态分辨率更适合真实复杂输入边框/点定位能力实用性很强在 OCR、表格、图表、GUI 等场景中参考价值高兼具视觉理解与视觉 agent 潜力。4.6 缺点与局限长视频与高分辨率输入仍然消耗大量显存复杂视觉 agent 场景依然依赖工具链与环境适配统一模型虽强但在极专门视觉任务上未必优于任务定制模型多模态模型部署和压缩门槛高于纯文本模型。4.7 综述评价Qwen2.5-VL 代表了 2025 年 VLM 的一个重要方向从“看图说话”升级到“看图理解精确定位文档解析视频理解视觉 agent”。它非常适合被视作 2025 年通用开源 VLM 的代表作之一。5. Humanity’s Last ExamHLE5.1 论文定位Humanity’s Last Exam 并不是模型论文而是 2025 年最有代表性的高难度评测基准之一。它回应的是一个非常现实的问题很多传统 benchmark 已经被前沿模型刷到过高准确率失去了区分能力。5.2 痛点HLE 想解决的是 benchmark saturation 问题具体表现为MMLU 等经典 benchmark 已接近饱和现有 benchmark 难以区分 frontier model 之间的真实能力差异很多题目可以被模式匹配或互联网检索快速解决缺少覆盖广学科、高专业度、可自动评分的综合评测。5.3 创新点1更高难度与更强学科广度HLE 构建了2500 道题覆盖数学、人文、自然科学等多个学科。2专家级、多模态、闭卷式设计题目由全球领域专家构建要求答案明确、可验证但不能被简单网络检索快速解决。3多题型自动评分同时包含多选题和简答题便于规模化自动评测。4强调校准能力除了准确率外HLE 还关注模型在高难题上的 calibration而不是只看答对率。5.4 “算法方案” / 评测方案由于 HLE 是 benchmark 而非模型这里的“算法方案”更准确地说是评测设计方案从高难、前沿知识场景中收集问题由全球专家撰写与审核题目保证答案可自动验证与评分覆盖多学科与多模态输入形式通过难度与可检索性控制避免题目被简单外部搜索击穿观察最强模型在高难度闭卷学术问题上的真实上限。5.5 优点有效缓解 benchmark 饱和问题学科覆盖广能更全面评估 frontier AI题目难度高更适合区分顶尖模型兼顾准确率与校准度为政策讨论与能力边界研究提供更可信参照。5.6 缺点与局限高难 benchmark 也可能被后续模型快速逼近题目质量维护成本极高闭卷型学术评测仍不能完全代表真实 agent 任务能力高专业知识密度可能对“通用智能”与“知识储备”产生耦合。5.7 综述评价HLE 的意义在于它不是简单“再做一个更难题库”而是在 2025 年重新提出当传统 benchmark 失效后我们该如何继续可靠地衡量前沿模型。因此它是 2025 年 benchmark 研究中必须讨论的一篇。6. ARC-AGI-26.1 论文定位ARC-AGI-2 是 2025 年另一篇极具代表性的 benchmark 论文。与 HLE 偏“高知识密度、多学科综合题”不同ARC-AGI-2 更强调抽象推理、问题重组和流体智能fluid intelligence。6.2 痛点ARC-AGI-2 想解决的并不是知识题难度而是前代 ARC benchmark 面临的新挑战原始 ARC-AGI 对新一代模型的区分度开始不足需要更细粒度地衡量抽象推理能力很多 benchmark 过度依赖训练语料覆盖而不是“陌生任务泛化”缺少对“少样本抽象问题解决能力”的系统新测试。6.3 创新点1保留输入-输出任务格式ARC-AGI-2 保留了前代 benchmark 的输入-输出对任务格式使研究者能继承原有研究范式。2重新策划与扩展任务集新基准引入一批专门用于测试更高层次认知复杂度的任务。3更细粒度的流体智能评估论文强调ARC-AGI-2 的目标是提供更细粒度的信号衡量抽象推理与问题求解能力。4加入系统的人类测试基线ARC-AGI-2 特别强调 extensive human testing用于说明任务对人类是可理解、可解决的但对当前 AI 仍困难。6.4 “算法方案” / 评测方案ARC-AGI-2 的设计方案主要包括延续 ARC 输入-输出样例任务格式引入更复杂、更多样的新任务通过任务构造压制单纯记忆和模式匹配强调 novel tasks即模型未见过的新型抽象问题通过人类测试建立可解释的 baseline面向“更一般、更像人类的智能”做长期追踪。6.5 优点更接近“抽象推理能力”而非知识记忆强调陌生任务上的 few-shot/generalization对 frontier reasoning system 有很强区分力保留前代任务形式便于研究连续性人类基线使 benchmark 更具解释性。6.6 缺点与局限任务抽象度高工程落地关联不如真实世界 benchmark 直接对模型失败原因的分析难度较大如果只看 ARC 类任务可能低估其他能力维度仍需与真实 agent、代码、工具调用 benchmark 搭配使用。6.7 综述评价ARC-AGI-2 的意义在于它将 2025 年 benchmark 研究从“更难知识题”进一步推进到“更高层次抽象推理与流体智能测试”。因此它和 HLE 不是竞争关系而是互补关系前者更偏高难知识与学科综合后者更偏陌生抽象任务求解。7. 横向对比7.1 研究对象对比工作类型关注重点DeepSeek-R1推理模型纯 RL 激发 reasoningQwen3基础模型家族thinking / non-thinking 统一Kimi K2Agentic LLMMoE agentic intelligenceQwen2.5-VL多模态模型图像/文档/视频统一理解HLEBenchmark高难多学科前沿知识评测ARC-AGI-2Benchmark抽象推理与流体智能评测7.2 方法论对比方向代表论文核心方法论推理能力涌现DeepSeek-R1纯 RL / RL cold-start模式统一Qwen3thinking 与 non-thinking 合一真实任务执行Kimi K2agentic synthesis joint RL多模态统一建模Qwen2.5-VLdynamic resolution visual agent高难综合知识评测HLE多学科专家题库抽象流体智能评测ARC-AGI-2novel tasks human baseline8. 总结从这 6 篇论文可以清晰看到2025 年 AI 研究的重心已经不再只是“谁的参数更多”而是转向四个更本质的问题模型能否真正形成推理能力—— DeepSeek-R1模型能否在快响应与强推理之间动态切换—— Qwen3模型能否完成真实任务而不仅是答题—— Kimi K2模型能否理解更复杂的视觉世界—— Qwen2.5-VL我们还能否继续可靠地评估模型—— HLE 与 ARC-AGI-2因此这 6 篇工作不仅是 2025 年的重要论文也可以看作 2025 年 AI 基础模型研究范式变化的缩影从参数竞争转向推理与 agent 能力竞争从单模态文本能力转向多模态统一理解与执行从benchmark 刷榜转向重新定义更有区分力的 benchmark。如有理解错误请指正。感谢观看参考文献DeepSeek-AI et al.DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948, 2025.DeepSeek-AI.DeepSeek-R1 model card. Hugging Face, 2025.An Yang et al.Qwen3 Technical Report. arXiv:2505.09388, 2025.Kimi Team.Kimi K2: Open Agentic Intelligence. arXiv:2507.20534, 2025.Shuai Bai et al.Qwen2.5-VL Technical Report. arXiv:2502.13923, 2025.Long Phan et al.Humanity’s Last Exam. arXiv:2501.14249, 2025.François Chollet et al.ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems. arXiv:2505.11831, 2025.

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2521088.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！