11.DeepSeek-DualPath 202602
DeepSeek-DualPath 202602思想解决大模型推理PE分离架构下 PE的SNIC存储网卡紧张 将DE中摸鱼的SNIC帮忙从远端SSD中拉KVcache 存到DE显存中等PE阶段需要再用gpu集群的计算网卡将KVcache传给PE。实验结果在离线推理场景中dualpath 相比传统PE分离架构 吞吐量最高提升 1.87倍。在线推理场景中大模型api服务平均吞吐量提升1.96倍。 最关键的是这个方案 完全兼容现有的PE分离架构 不需要换硬件 不需要改模型只需要修改推理框架的调度逻辑 就能拿到近两倍的性能提升学习视频https://www.bilibili.com/video/BV18pNKz8Ee5/?spm_id_from333.1007.tianma.1-1-1.clickvd_source5afc56aaa0d4664e2b8f364e5e347a45论文链接https://arxiv.org/abs/2602.21548
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2411567.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!