ICLR 2026 Oral | 让大模型学会“像法医般思考”，实现可解释、可泛化的深度伪造检测

news2026/3/18 23:58:42

生成式AI的狂飙突进让“眼见为实”成为了过去式。从高度逼真的AI换脸到一键生成的超清虚假人像深度伪造技术带来的安全隐患正日益引起社会的广泛关注。然而面对层出不穷的新型伪造技术现有的检测器往往在“跨域”和“未知伪造类型”面前败下阵来。论文Veritas: Generalizable Deepfake Detection via Pattern-Aware Reasoning链接https://arxiv.org/pdf/2508.21048代码https://github.com/EricTan7/Veritas数据https://www.modelscope.cn/datasets/EricTanh/HydraFake模型https://www.modelscope.cn/models/EricTanh/Veritas在这一背景下中国科学院自动化研究所联合蚂蚁集团提出了一种基于模式推理的多模态大语言模型深度伪造检测框架创造性地赋予了大模型类似人类法医专家的“模式感知推理”Pattern-aware Reasoning能力不仅“准”而且决策“透明”。背景现有的深伪检测器总在“实战”中表现不佳目前Deepfake检测研究通常遵循“在单一数据集上训练在多个数据集上测试”的评估协议与实际场景存在严重脱节在实际应用中往往拥有海量的训练样本但测试时则会遭遇前所未见的伪造手法和高质量合成图像的挑战。另一方面虽然多模态大模型在图像理解上展现了惊人的能力但在直接用于深度伪造检测时依然非常吃力。其倾向于根据高层语义线索如光影、环境来判断图像的真实性缺乏对于细微线索的感知和推理能力。破局点一HydraFake —— 更贴近实战的深伪检测基准研究团队精心构建了HydraFake数据集核心特点包括数据来源高度多样化收集了来自经典伪造数据集以及10种先进伪造技术自行生成的攻击10万张图像。真图涵盖8个公共数据集的高清、低清图像假图整合经典换脸、社交媒体商用平台GPT-4o、即梦生成内容还包含人脸重打光、修复、定制化生成等最新伪造手法的样本。全新的训练-评估协议训练数据包含丰富的伪造样本而评估则包含极具挑战性的分布外测试。为了模拟实际场景中的未知挑战评估被划分为“域内”、“跨生成式模型”、“跨伪造方式”、“跨数据域”四个测试层级。实验表明现有SOTA检测器虽然在“跨生成式模型”场景表现良好但在更具挑战性的“跨伪造方式”和“跨数据域”场景中性能急剧下降凸显了现有检测器的关键泛化瓶颈。破局点二Veritas —— 让大模型学会“像法医一样思考”| 模式感知推理Pattern-Aware Reasoning为了激发MLLM在Deepfake检测上的潜力研究团队没有采用传统的思维链CoT或事后解释机制而是提出了一种结构化的“模式感知推理”框架提取了五种关键的思维模式快速判断Fast Judgement基于第一印象做出快速判断。规划Planning面对具有挑战性的样本时进行分层分析和结构化规划。取证分析Reasoning从结构、纹理、物理规律、语境合理性等多个维度寻找证据。反思Self-reflection在推理过程中进行批判性思考以支持或推翻最初的判断。总结Conclusion综合所有证据得出最终的判断。上图清晰地展示了Veritas与其他模型包括GPT-4o在输出上的差异。Veritas不仅给出了正确答案其推理过程如反思“等一下还有一个细节要考虑...”也更透明、更接近人类思维从而更具说服力。| 两阶段训练流程为了将这些侦探般的能力无缝内化到多模态大模型中团队设计了一个两阶段训练流程阶段一模式引导的冷启动。首先通过监督微调SFT注入思维模式。然而SFT极易带来过拟合问题模型倾向于产生死记硬背、模板化的推理过程如“皮肤纹理过于光滑”等。为此团队引入了混合偏好优化MiPO策略利用混合的非偏好数据和人类标注的偏好数据引导模型进行忠实且细粒度的推理有效缓解了死记硬背的行为大幅提升了推理质量。阶段二模式感知探索。冷启动后模型具备了基础推理能力但在面对更棘手的伪造样本时其自主反思和深入推理能力仍然不足。为此团队提出P-GRPO算法通过模式感知奖励机制和GRPO在线采样在模式粒度上激励模型产生自适应的“规划”和“自我反思”行为提升了在困难样本上的能力上限。实验效果超越现有检测器不仅准而且“透明”研究团队在HydraFake数据集上将Veritas与16款主流深度伪造检测模型以及6款通用多模态大模型进行全面对比。全场景领先高难度场景优势突出Veritas在域内、跨模型、跨伪造方式、跨数据四大测试场景均取得SOTA性能尤其在最具挑战性的跨伪造方式、跨数据域场景相较传统模型优势明显平均检测准确率超90%远超同类可解释检测大模型相较FakeShield、FakeVLM等领域内大模型Veritas泛化优势显著相较基础模型InternVL3-8BVeritas平均准确率提升32.4%即使是GPT-4o、Gemini-2.5-Pro等高性能闭源大模型Veritas也实现了11.8%的准确率领先。“白盒”般的透明决策除了极高的检测准确率Veritas最亮眼的一点是它能够端到端地输出透明、符合人类逻辑的决策过程。如上图它可以像法医一样精准分析伪造瑕疵让最终的“Real”或“Fake”判定有理有据。此外消融实验验证了模式感知推理、两阶段训练的有效性其中模式感知推理让跨伪造手法、跨域场景的检测准确率分别提升6.2%和3.3%。未来方向研究团队已将训练数据、Veritas模型、冷启动模型全部开源为社区提供了良好的扩展性随着深伪手段不断进步未来的防御工作方向可以是大小模型协同统一“高层语义理解”与“底层伪影感知”现有多模态大模型虽然在全局语义理解和复杂逻辑推演上展现出显著优势但其底层伪影感知能力仍不足如Veritas在低分辨率图像上仍有提升空间而小模型则擅长以“黑盒”方式拟合底层数据分布因此是否能够综合两者的能力通过“显微镜”与“最强大脑”的协同以实现更全面的泛化。更细粒度的多模态奖励信号现有P-GRPO算法仍是文本级别的奖励信号未来可以设计更细粒度的跨模态监督信号从视觉特征和文本逻辑双重维度去约束模型的探索轨迹从而更有效地抑制多模态大模型在深伪检测中的“幻觉”。统一图像与视频深伪检测能力随着Seedance 2.0等视频生成模型的出现深伪视频的隐患日益加剧。未来的防御框架必将突破单图检测的桎梏构建跨越图像与视频模态的统一认知架构在动态的视频流中精准锚定深伪技术的“致命破绽”。总结针对深伪检测泛化难题研究团队构建了深伪检测基准HydraFake并提出多模态大模型检测框架Veritas通过创新的“模式感知推理”机制大幅提升了模型应对未知伪造手段的泛化与可解释能力为深度伪造检测技术提供了全新思路。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2424541.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！