算力危机的本质是能效危机
几乎所有行业分析报告都在指向的同一个结论。过去10年AI的计算量涨了数万倍。不是数十倍是数万倍。但负责跑这些计算的通用处理器能效只提升了几十倍。计算需求和能效提升之间的鸿沟就是今天能源危机的根源。这个缺口不补上数据驱动型社会就是一句空话。很多工程师做芯片设计习惯盯着性能指标——频率、带宽、延迟。这没错但有一个数字越来越重要经常被低估每瓦特能跑多少次操作TOPS/W。举个实际的感受一块A100 GPU的TDP是400W跑一个大模型推理单卡一天消耗接近10度电。一个中等规模的推理集群几千张卡一年光电费就是天文数字。这还只是推理。训练阶段的电耗是推理的数十倍。能效提升靠什么制程越先进同样面积上能放更多晶体管单个操作的能耗越低。从28nm到3nm理论上每次都能带来明显的能效提升。但制程正在逼近物理极限。到了2nm以下漏电流、量子效应、良率问题每一个都是硬墙。光靠缩小尺寸已经撑不住了。3D集成是另一条路。把不同功能的芯片堆叠在一起缩短互联距离减少数据搬运的能耗。数据在芯片之间走的路越短消耗的能量越少。这是今天HBM内存能大幅降低带宽功耗的核心原因之一。但3D集成带来的新问题是散热。堆得越高热越难散出去。这又倒逼封装工程和散热材料要跟上。一个工程师把计算单元的能效优化了30%但如果数据搬运memory access的功耗没动整体节省非常有限。在现代AI芯片里内存访问的功耗往往占总功耗的60%以上。所以单纯优化算力单元是不够的。真正的能效工程是在计算、存储、互联三者之间找平衡。能效才是下一个10年芯片行业最核心的竞争点。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2416746.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!