落地生产级推理引擎!高性能GPU算子生成系统Kernel-Smith发布
在当今的大模型时代高性能 GPU 算子Kernel是将硬件算力转化为实际吞吐量的核心引擎。无论是支撑 Megatron、vLLM、LMDeploy 等底层系统还是驱动 AI for Science (AI4S) 的复杂科学计算高效的算子实现都是释放硬件潜能的重中之重。然而尽管大模型的编程能力日益强大但让其自主生成高性能算子并稳定应用于真实生产环境仍是一个未被全面攻克的行业难题。在这一背景下上海人工智能实验室联合沐曦MetaX发布了高性能GPU算子生成系统—— Kernel-Smith。Kernel-Smith 创新性地将“稳定评估驱动的进化智能体”与“面向进化的后训练范式”深度融合依托 Intern-S1-Pro的基座能力进行深度定制化训练让大模型真正化身为“算子优化大师”。Kernel-Smith 自动生成的高性能算子已在实际场景中得到应用不仅加速了 DeepSeek 新架构 Engram并合入 DLBlas还落地主流生产级推理引擎 SGLang 和 LMDeploy实现了大模型自动生成算子从实验室受控评估到前沿模型研发与生产级部署的双重跨越。亮点速览首创稳定评估驱动的进化智能体克服评测噪声支持 NVIDIA Triton 与 MetaX Maca 双后端保障算子搜索的可靠性。提出面向进化的后训练范式Post-training摒弃传统的多轮反馈迭代路线将长周期的进化轨迹转化为步进式的训练信号让模型成为最强“局部优化器”。显著性能优势**** Kernel-Smith-235B-RL 在 KernelBench 上取得 SOTA平均加速比超越 Gemini-3.0-pro 与 Claude-4.6-opus 等顶尖闭源模型。打通落地闭环生成的代码已成功合入 SGLang、LMDeploy 等主流开源推理引擎。技术报告https://github.com/InternLM/Kernel-Smith/blob/main/Kernel-Smith.pdf在线体验链接https://chat.intern-ai.org.cn/kernel-smith在线体验页面两大创新设计破解大模型算子生成难题当前的算子开发高度依赖工程师的经验。一个高效的算子往往需要在众多融合模式、Tiling 策略等实现方案中反复搜索与调试而现有基于 LLM 的算子生成系统多依赖多轮对话或基于历史的 Agent 循环这也带来了两大挑战路径依赖与试错成本高传统的 Debug 过程容易让模型“锚定”在早期的错误决策上限制了探索的多样性。“写对”不等于“跑得快”功能上的正确性与极致的性能是两种完全不同的能力。模型不仅需要一次性生成正确的代码更需要具备在测试阶段通过持续迭代不断提升算子性能的能力。为了解决这些问题研究团队创新地提出了一个统一的进化智能体与强化训练框架。核心设计一构建稳定评估驱动的进化智能体进化搜索天然适合算子优化因为它可以通过维护一个候选程序池在多轮迭代中不断累积性能增益。然而这一过程对“评测方差”极其敏感如果 GPU 运行时间测量存在噪声智能体可能会误删极具潜力的算子或者保留次优解这种错误会在代际之间不断放大。为此Kernel-Smith 在智能体设计上将“评测稳定性”放在首位。通过固定计算图、重复测量以及异常值剔除等机制大幅抑制了计时噪声确保了进化搜索动态的可靠性。同时研究团队还为NVIDIA Triton和MetaX MacaGPU 构建了专属的后端评估服务提供编译、正确性和加速比的结构化执行反馈。核心设计二化长为短面向进化的后训练****策略在模型训练层面Kernel-Smith将训练定义为进化循环中的“局部优化器Local Improver”。具体而言研究团队将长周期的进化轨迹转化为以“步骤”为中心的监督与强化学习信号。算法只保留那些“在保证正确性的前提下带来了高收益性能提升”的修改步骤。这种过滤策略相当于一种轨迹压缩模型不需要去模仿那些冗余的中间过渡或捷径而是专注于学习那些对最终加速贡献最大的“原子级改进”。在 SFT 和 RL 阶段应用这一原则使得 Kernel-Smith 不仅提升了单步修改的代码质量更大幅提高了进化搜索中性能增益的复合增长率。显著性能优势超越顶尖闭源模型得益于上述两大核心设计Kernel-Smith 在实战中展现出了显著的性能优势。在统一的进化智能体协议下Kernel-Smith-235B-RL 在 KernelBenchNvidia Triton 后端上实现了整体性能的 SOTA。在严格保证功能正确性的前提下其平均加速比不仅优于所有开源基线模型还超越了 Gemini-3.0-pro 和 Claude-4.6-opus 等顶尖闭源大模型。KernelBench-Triton 评测结果更重要的是评测曲线显示Kernel-Smith-235B-RL 的平均得分增长曲线在整个搜索过程中始终处于领先地位如下图所示这充分证明了该模型能够最有效地利用测试时算力Test-time Compute实现性能跃升。不同模型使用同样的 KernelSmith Agent Framework在 KernelBench-Triton 上的迭代增长曲线图在 MetaX MACA 后端的测试中Kernel-Smith 同样表现出色。研究团队在四类常用算子上对比了不同模型生成高性能 MACA 算子的能力结果显示Kernel-Smith-MACA-30B 的平均加速比超过了 DeepSeek-v3.2 和 Qwen3-235B-2507 等大参数量的开源模型而 Kernel-Smith-MACA-235B 取得了进一步性能提升验证了 Kernel-Smith 框架支持异构平台的能力。MetaX MACA 平台算子性能优化任务评测结果走出实验室赋能前沿创新与生产级应用Kernel-Smith 生成的高性能优化算子不仅成功赋能前沿架构创新加速了 DeepSeek 新架构 Engram 并合入 DLBlas 开源算子库 更重要的是它已顺利落地主流生产级推理引擎分别为 SGLang 优化了 FlashAttention 后端的 normal_decode_set_metadata 算子并为 LMDeploy 优化了 DeepSeek MoE Routing 算子真正实现了大模型自动生成算子从实验室受控评估到前沿模型研发与生产级部署的双重跨越。相关 Pull Request 链接https://github.com/DeepLink-org/DLBlas/pull/102https://github.com/sgl-project/sglang/pull/20778https://github.com/InternLM/lmdeploy/pull/4345在 NV-H200 硬件环境下的算子隔离评测中Kernel-Smith 展现出显著的Test-Time Scaling效应随着演化迭代的深入算子性能实现持续增长。算子进化迭代曲线图在主流推理引擎的实际落地中Kernel-Smith 自动生成的算子为 SGLang 和 LMDeploy 分别带来了4.78x和1.36x的真实加速收益。在 DeepSeek Engram 复杂场景的深度探索中模型成功跨越局部最优解触发了从 5 倍到 12 倍以上的突破性性能跃升最终达到14.59x加速。算子隔离评测结果同时研究团队在社区率先将自动化算子评测扩展至端到端模型吞吐。Kernel-Smith 生成的算子不仅稳定提升了 LMDeploy 的端到端吞吐最高约 3%还可靠地降低了 SGLang 的真实服务延迟。这验证了生成代码在复杂系统中的鲁棒性也为自动化算子在生产级引擎中的端到端集成提供了可行的实践参考。LMDeploy 端到端模型吞吐评测
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2473424.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!