蚂蚁百灵推 Ling-2.6-flash 模型:推理快、成本低,全场景性能优但仍待优化
蚂蚁百灵推出 Ling-2.6-flash 模型蚂蚁百灵宣布正式推出 Ling-2.6-flash一款总参数量 104B、激活参数 7.4B 的 Instruct 模型。API 定价与试用Ling-2.6-flash 的 API 定价方面输入每百万 tokens 定价 0.1 美元输出 0.3 美元。目前其 API 已正式向用户开放并提供为期一周的限时免费试用。技术路径选择面对持续攀升的 Token 压力Ling-2.6-flash 选择不同技术路径围绕推理效率、Token 效率与 Agent 场景表现进行系统性优化保持竞争力智能水平做到更快、更省、更适合真实业务场景。核心能力体现Ling-2.6-flash 的核心能力体现在三个方面一是混合线性架构释放推理效率通过引入该架构从底层优化计算效率4 卡 H20 条件下推理速度最快达 340 tokens/sPrefill 吞吐达 Nemotron-3-Super 的 2.2 倍二是 Token 效率优化提升智效比训练中对 Token 效率针对性校准Artificial Analysis 完整评测中仅消耗 15M tokens约为 Nemotron-3-Super 等模型的 1/10三是面向 Agent 场景进行定向增强针对 Agent 应用在工具调用等能力上打磨在多项评测中取得相近甚至 SOTA 级别表现。架构设计与优势Ling-2.6-flash 延用 Ling 2.5 的模型架构设计在 Ling 2.0 架构基础上引入混合线性注意力机制通过增量训练升级架构。得益于混合注意力机制与高度稀疏化的 MoE 架构它在推理效率上优势显著与同尺寸主流 SOTA 模型相比首字响应更快长输出场景生成效率更高Prefill 吞吐与 Decode 吞吐最高约 4 倍提升且随着上下文和生成长度增加吞吐优势放大在真实部署环境中能随任务复杂度提升释放速度收益。训练与推理优化在预训练阶段项目团队通过大规模算子融合提升训练效率推理侧围绕真实部署场景深度适配使融合算子与训练侧保持一致带来更高推理效率增强训推一致性相关推理算子将随 linghe 陆续开源。针对不同精度场景对推理链路进行系统性优化包括 BF16 推理和 FP8 推理的优化最终带来更高系统吞吐、单用户 TPS、更短等待时间和更稳定流畅的使用体验。测评表现优异在 Artificial Analysis 榜单 Output Speed 维度官方测评中对比同参数量级主流模型Ling-2.6-flash 以 215 tokens/s 的输出速度处于第一梯队展现领先生成效率。在 Artificial Analysis 的 Intelligence vs. Output Tokens 对比中它展现出突出的 token efficiency 优势以 15M output tokens 实现 26 分的 Intelligence Index在“智能表现”与“输出成本”间取得更优平衡降低 token 消耗。智效比显著提升从 Token 消耗看Ling-2.6-flash 的智效比显著提升。在 Artificial Analysis Intelligence Index 完整评测中其总消耗仅 15M tokens而 Nemotron-3-Super 等模型达或超 110M tokens仅用约 1/10 的 token 消耗完成同类评测任务。Agent 能力强化训练为增强模型 Agent 能力团队扩展 Ling-2.6-flash 训练数据难度与广度依托自研环境进行针对性强化学习训练。显著提升了模型在指令遵循等方面表现在代表性榜单上表现优异优化了模型在不同 Agent 场景下的泛化性与稳定性在多个框架中展现良好使用体验。全场景性能与不足Ling-2.6-flash 模型在通用知识等维度保持优秀水准各项指标对齐同尺寸 SOTA 模型保障全场景稳健、优质性能产出。然而在部分高复杂度场景中受推理深度限制模型可能出现工具幻觉在中英双语自然切换、复杂指令遵循等方面仍有优化空间。后续迭代计划面向后续迭代项目团队计划继续探索智效比更优边界保持高效推理特性推动智能产出质量与 Token 效率深度平衡提升模型全场景稳定性、可用性与交互体验。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2544126.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!