MiniMax V-Triune让强化学习（RL）既擅长推理也精通视觉感知

MiniMax 近日在github上分享了技术研究成果——V-Triune，这次MiniMax V-Triune的发布既是AI视觉技术也是应用工程上的一次“突围”，让强化学习（RL）既擅长推理也精通视觉感知，其实缓解了传统视觉RL“鱼和熊掌不可兼得”的尴尬。

之前AI视觉语言大模型（VLMs）在训练时存在个普遍的问题：

只会推理不会感知，或者只会感知不会推理，真的无解。

比如，某些AI模型能很好地解决数学题、编程等推理任务，却在目标检测、图片识别、OCR（图片文字识别）等简单视觉任务上表现一般；而专注视觉感知类任务的模型，遇到需要深度推理和思考的问题时就如同降智一般。

举个生活中的例子，班级里有的同学只会做数学题，却看不懂试卷上的图片；另一些同学能看懂试卷上的图片，却做不出一道数学题，作为老师是不是神烦。现在一个名叫V-Triune的学霸来了，既会做数学题也能看懂所有图片，拿了高分。

这个问题的根源在于，传统的强化学习（RL）方法只能针对任务单一、类型相近的数据进行训练，因为推理任务和感知任务在数据格式、评价标准、奖励机制等方面差异很大，导致RL很难“一心二用”，就像西游降魔篇里的天残脚一样。

MiniMax团队提出的V-Triune系统踏踏实实解决了这一问题，首次把视觉推理和感知训练结合在了一起。

我看了论文，它主要干了下面三件事：

样本级数据格式，让每种任务（不管是推理还是视觉识别）都能有自己的训练规则；
验证器级奖励机制，为不同任务设计特定的评分标准；
数据源级指标监控，实时跟踪各类任务的表现，及时纠正模型。

此外，V-Triune还提出了“动态IoU奖励”，可以理解为阶梯递进式奖励，让模型在学习图片识别时，从“及格线”逐步爬到“满分线”。

因此，V-Triune让RL“鱼和熊掌兼得”：不仅推理能力强，像解奥数题一样严谨，还能看懂图片、识别物体、数清数量、读懂图片里的文字。

基于V-Triune训练出来的Orsta系列模型实验结果显示，统一的RL训练在各种视觉推理和感知任务上都优于传统模型，后面会详细讲解实测数据。

V-Triune三大技术亮点，有什么神通之处？

前面说到，V-Triune之所以能让AI视觉兼顾推理和识别能力，离不开它的三大核心技术，我看了几遍论文，讲讲粗浅的理解。

1、样本级数据格式化—“因材施教”的典范

以往的强化学习RL训练，像是用同一套模板教所有学生，不管你是学数学、识图还是做阅读理解，奖励机制都一刀切。

这就导致推理题和感知题在训练时被“平均对待”，很多细节需求被忽略。

V-Triune则改变了这一现状。

V-Triune给每类任务都配上了个性化解决方案，每个样本可以自己定义奖励权重（比如多鼓励步骤分，还是更看中答对），选择专属验证器（比如数学题用数学验证器，检测题用检测验证器）。

这样一来，解数学题的时候可以重视推理过程，做目标检测时则更关注框的位置和精度，让模型在不同任务中各有侧重，学得更细致。

相比业内许多只专注推理或者感知某一面的RL方案，V-Triune在任务适配和灵活性上进步了很多，可以用“因材施教”来形容。

2、验证器级奖励计算—不同领域的“专家”各司其职

传统的AI视觉模型所有任务都用一套臃肿的奖励函数，既难维护，又容易“错给分”，比如编程题用错了视觉检测的标准，或者视觉检测被要求输出推理过程。

即便是一些强化推理能力的先进VLMs，也主要侧重于推理奖励的精细化，而对感知类任务的处理往往不够细致。

V-Triune则将每种任务都由独立的验证器负责，比如数学验证器专门判断答案和过程，检测验证器专门算IoU（框的准确度）。

各类问题都交给最懂行的专家评分，既公平又高效。这种“专家分工”的设计，让每一类任务都能用上最适合的评判标准，既避免了错给分，也方便了后续的扩展和维护。

V-Triune还有一套独创武功秘籍-“动态IoU奖励”机制，训练早期采用宽松标准，让模型有信心逐步进步，中期、后期逐步提高要求，最终实现高精度。

这就像从小学、中学、本科、硕士、博士阶梯式培养，一步步提升难度，不鸡娃，让AI既不会被难题吓倒，也能最终达到高水平。

V-Triune把“循序渐进”做得更全面，感知和推理一视同仁，既照顾到推理的深度，也兼顾了感知的准确。

3、源级指标监控—精准定位，实时检查

以往RL训练就像个“黑箱子”，只能看见总分高低，却很难知道哪道题、哪类任务出了问题，主要因为指标混杂、问题定位难，导致调优效率低下。

V-Triune在这块做了优化，训练时对每个数据来源、每种任务都单独统计指标，比如每类任务的正确率、输出长度、反思率（AI说“让我再想想”、“检查一下”的占比）等等。

如果某类数据表现异常或者模型只会某一类题，它能第一时间发现和定位，从而有针对性地优化。
正因为有了这种细致的分项监控，V-Triune像开了天眼一样，实时发现视觉模型或数据噪声问题，并进行精准修正，让模型更均衡、更强大。

除了上面的三大技术，V-Triune还有一系列实用的工程策略创新。

ViT冻结策略：只微调语言部分，避免视觉主干参数不稳定导致训练崩溃。
防止胡扯过滤器：训练时自动剔除模型生成的无效、异常图片Token，提升稳定性。
CoT提示池：给AI准备丰富多样的推理提示语，防止因提示单一导致模型学得片面。
噪声样本过滤：两轮高标准数据清洗，确保模型“吃”到的都是高质量好题。

这些工程细节的考量改进，也让V-Triune在大规模多任务RL训练的稳定性和泛化能力上表现更好。

评测才能见真实力，V-Triune得分表现如何？

下面的这张表是Orsta模型与其基础模型（QwenVL-2.5-VL）在视觉推理和感知任务上的表现对比，能看到不管是在7B还是32B规模，Orsta提升都很明显。

推理任务：数学、编程等

首先在需要复杂推理能力的任务中，比如MMMU和MathVista，Orsta-7B的分数从45.56提升到49.70，MathVista更是由67.50提升到72.50，32B大模型同样在这些任务上大幅进步。

感知任务：视觉检测、OCR等

在视觉感知任务上，Orsta的提升也相当牛。例如在COCO单目标检测任务中，Orsta-7B的mAP从35.02提升到42.83，COCO多目标检测也从59.59跃升至63.36。

在CountBench计数任务和OCRBench文字识别任务中，Orsta-32B的准确率分别提升至88.59和59.09，表现远超基础模型。这说明Orsta能更精准地识别、计数和读取图片信息。

整体来看，V-Triune统一强化学习的方法让Orsta模型很好的兼顾了推理和感知两大任务，推理和视觉感知任务实测数据跑下来相比传统模型提升不少。

除此之外，Orsta在GUI、Chart等小众场景也表现很好，体现其界面元素理解和图像文字识别的强大之处。

V-Triune应用脑洞：智能驾驶障碍物检测

V-Triune的技术特性能优化很多工业化场景的AI视觉识别和推理能力，就拿我所在的汽车行业来说，智能驾驶的障碍物检测依旧存在很大进步空间。

传统的智能驾驶模式在遇到突发障碍物时，比如突然闯入行人或电瓶车，由于固定IoU阈值会导致漏检或误检，致使检测系统可能出现“全无”状态，这就很危险。

V-Triune则可以通过“动态IoU奖励”机制解决这一问题，在眨眼级反应的0-100ms内，优先快速锁定障碍物大致区域，进行存在性判断，而不需要监测出具体什么障碍物，这样能进行有效预判。

然后在凝视级分析的100-300ms内，再对物体精修边界框，进行边缘检测和阴影确认，区分障碍物与阴影，这样可以预测是否需要避让。比如下雨天前方静止的车辆和车辆在水面的倒影，前者需要避让，后者不需要避让。

最后在决策级确认的300ms以上，对物体实现厘米级定位，以及轨迹追踪，对障碍物进行精准分类和识别。

这样通过“动态IoU奖励”机制能实时动态加载不同阶段的障碍物监测模型，相较于固定IoU奖励，一方面能大幅降低障碍物的检测延迟时间，另一方面能有效降低AEB（自动紧急制动）系统的误触发率，并将漏检率压缩到非常低的水平。

自动驾驶许多场景需要这样的分级判断机制，比如鬼探头、连续变道、雨雾天气、高速路口等等，能修正误差并建立感知与决策的弹性安全边界，进行早期预警。

结论

相比较传统的只具备单一能力的AI视觉RL⽅案，V-Triune兼顾了推理与感知，培养了“会思考的眼睛”，让AI如同人类五官协同，处理更多的任务。

其实不光是智能驾驶领域，汽车工业还有很多场景可能会用到V-Triune，比如工厂流水线汽车零部件质检，针对不同零件，定义差异化质检规则，精准识别产品图像，并推理分析其缺陷和改进方案。诸如此类的案例数不胜数，其他行业可能更多，非常期待。