“超节点”的纷争开始了
3月26日在“2026中关村论坛年会”上中科曙光发布世界首个无线缆箱式超节点scaleX40。其单节点集成40张GPU总算力超过28PFLOPSFP8精度能够满足万亿参数大模型的训练与推理需求。产品采用标准19英寸箱式设计实现算力单元与机柜解耦长期运维成本大幅下降。近几年以中科曙光、华为、浪潮信息、阿里云、百度等为代表的国内厂商都在超节点上发力形成百舸争流的局面。超节点SuperNode/SuperPod的流行从本质上是AI算力从“堆砌单卡”向“系统级工程”的范式转移。这不仅仅是技术的迭代更是市场从“头部大厂内卷”走向“千行百业普惠”的必然趋势。在大模型进入万亿参数时代后传统“小服务器以太网”的堆叠模式遇到了无法突破的瓶颈。举例来说在传统集群中GPU约40%的时间在“等待”数据通信算力利用率极低是为“通信墙”千亿级模型单卡装不下是为“显存墙”。超节点的本质是将算力供给的模式从“单机堆砌”升级为“系统级交付”旨在通过高速互联与全局内存池化直接击穿大模型训练的“通信墙”与“显存墙”将算力利用率从传统以太网架构的瓶颈中解放出来。在很多人的认知中超过节系统一定是“高大上”的。但用户的需求从来都是以可承受的成本高效处理其当前业务所需的算力。他们并非一味追求最前沿的硬件规格而是需要能解决“千亿模型跑不动、万亿集群用不起”这一现实困境的“够用、好用且易于获取”的解决方案。而40-64卡的超节点系统足以承载千亿级模型的训练与推理又将采购门槛从“亿元级”拉低至“千万级”让中型企业、科研机构也能用上高端算力填补了市场空白。过去只有巨头才能触及的高端AI算力如今轻松转化为可规模化部署的、标准化的生产力工具大大降低了应用门槛。过去建设百卡集群就如同盖房子是一项复杂的系统工程需要对机房进行改造还需要动辄数月的复杂布线。从“工程定制”到“标准产品”产品化是破局交付难的必然趋势。一站式平台、开箱即用能够有效解决企业“买得起但不会用”的痛点推动超节点成为像服务器一样的标准化的基础设施。当前在单卡算力暂时无法全面对标国际顶尖水平的背景下国内算力厂商通过系统架构创新实现“弯道超车”借助超节点的极致互联与软硬协同在集群级性能上实现追赶这是国产算力从“可用”到“好用”的关键路径。总之超节点的流行是因为它恰好站在了技术瓶颈、市场需求、交付效率的三重交汇点上。从用户的角度其关注点也逐渐从“谁家卡多”转向“谁家的系统能够提供更好的互联效率与性价比”。当前算力厂商之间的竞赛将超节点从“重资产工程”拉入到“标准产品”的赛道。目前国内的超节点方案主要分为全栈自研和开放架构两大阵营。厂商核心产品关键规格技术路线与定位中科曙光scaleX系列40卡(X40)、640卡(X640)、万卡集群支持多品牌国产AI加速卡不绑定单一芯片主打算力普惠华为Atlas 900系列SuperPoD/Cluster384卡(A3)、8192卡(950)昇腾芯片灵衢互联软硬垂直整合性能极致多用于大型智算中心浪潮信息元脑SD200CRS6000S高密集成万亿模型训练多卡异构计算强调高密部署是DeepSeek等大模型的重要算力底座阿里云磐久128128卡/超节点基于自研网络协议构建云端大规模集群主要服务于电商/云上AI百度天池256/512256/512卡集群主要支撑文心一言及对外AI云服务以及内部大规模训练集群根据公开信息整理从最新发布的中科曙光无线缆箱式超节点scaleX40来看中科曙光致力于做“减法”它有效解决了传统超节点机房布线复杂、部署周期长的痛点可以“几小时上线”。它瞄准的是“8卡不够用、百卡用不起”的腰部市场专门针对千亿级模型训练和推理优化。在部署和应用超节点时用户不要单纯看“卡数”。超节点的核心是互联带宽和时延这才是应用的关键。抛开“纸面性能”从工程落地和实际运维的角度看超节点面临的最大的坑往往不是芯片本身而是在于基础设施的兼容性、系统的脆弱性以及真实的利用率。推荐阅读● 实锤了华为云CloudMatrix384昇腾AI云服务单卡吞吐超越H100● 工业软件发展添动力 深圳龙华与华为云再聚“首”● 激活数据要素价值 华为云做好“典型赋能”
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2456752.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!