NVIDIA 财报炸裂背后:显卡是新时代的“烂尾楼”还是“收费站”?
2024 年 5 月的一个周三晚上 10 点我刚把那个跑了一整夜的 Llama-3 微调任务 kill 掉因为显存又 OOMOut of Memory了。隔壁工位的实习生指着手机屏幕上的红色 K 线大喊“哥英伟达财报炸了营收涨了 200% 多我们要不要梭哈”我盯着屏幕上那一串报错日志手里那杯冷掉的咖啡像极了此刻我的心情——苦涩且浑浊。这就是当下最荒诞的现实宏观上英伟达告诉我们 AI 基建烈火烹油仿佛遍地黄金微观上每一个在一线调模型的工程师都在为算力成本精打细算恨不得把一张 H100 掰成两半用。为什么现在值得写这份财报因为这是 AI 行业从“狂飙突进”转向“精耕细作”的分水岭。过去一年我们见证了算力霸权的建立但这份财报里藏着下一个阶段的残酷真相云厂商砸下去的几百亿美金到底什么时候能赚回来这不仅是华尔街的问题更是每一个 AI 项目能否活下去的问题。财报里的“数字”与“噪音”谁在买单先看最核心的数据NVIDIA 这一季度的数据中心营收再次打破纪录同比增长超过 400%。这数字看着让人热血沸腾仿佛 AI 时代真的已经全面降临。但作为工程师我们要把滤镜关掉看看这钱到底是谁出的。财报电话会里提到大部分收入来自云服务商和大型互联网公司。这很有意思。如果你去翻翻微软、谷歌、Meta 同期的资本开支CAPEX报表会发现它们的支出曲线和 NVIDIA 的营收曲线完美重合——都在疯狂买卡。这就像是一场豪赌云厂商在赌 AI 应用会像当年的移动互联网一样爆发从而填满这些昂贵的算力仓库。但这中间有个巨大的时间差。买卡只需要一个采购订单但把卡部署上线、调试好网络、跑通业务至少需要 6 到 12 个月。这就导致了一个现象财报上的营收是真实的但对应的算力供给可能还躺在仓库里吃灰。这不仅是供需错配更是对未来的一种透支。对于一线开发者来说这意味着虽然市场上看似算力过剩但你依然租不到便宜好用的 GPU因为它们都被大厂囤积或者锁定了。云厂商的“消化不良”从买卡到赚钱的距离这里要引入一个关键概念ROI投资回报率。云厂商不是慈善家它们花了几百亿买 H100最终是要从我们这些租户身上赚回来的。但现状很尴尬——训练大模型是一次性投入推理才是细水长流。问题是现在除了 ChatGPT 和少数几个头部应用绝大多数 AI 应用的日活DAU根本撑不起这么大的算力折旧成本。这就好比修了一条十车道的高速公路结果每天只有三辆车在上面跑。路是要折旧的显卡更是。一张 H100 的生命周期也就 3 到 5 年如果这两年内没有杀手级应用爆发这些昂贵的“数字钢筋水泥”就会变成巨大的财务黑洞。财报里 NVIDIA 暗示下一代 Blackwell 架构即将量产这对云厂商来说简直是噩梦——刚买的一代还没回本新一代又要来了买还是不买不买技术落后买了财务报表难看。这就是我说的“消化不良”。资本开支的狂欢之后必然是运营利润的考验。对于工程师而言这意味着接下来的日子你的老板会盯着你的显存利用率看如果还是像以前那样跑个任务占着卡不释放或者推理优化做得一塌糊涂你的项目离被砍就不远了。工程师的体感从“暴力美学”到“精打细算”这种宏观上的压力传导到我们一线工程师身上就是技术风向的彻底转变。两年前大家谈的是“暴力美学”模型参数越大越好数据量越多越好算力不够就加卡反正 VC 钱多。现在呢风向变了。最近开源社区最火的项目是什么是量化、是蒸馏、是 LoRA。为什么因为大家都在算账。以前我们写代码很少会去算一次推理的成本是多少美分现在这成了必修课。来看一个简单的计算逻辑假设你有一个 70B 参数的模型如果不做量化FP16 精度下显存占用接近 140GB。你需要租一张 A100 80G 或者两张成本高昂。但如果你用了 4-bit 量化显存需求可以压到 40GB 左右单张消费级显卡或者云上的中端卡就能跑。# 这是一个简化的显存估算逻辑params70e9# 70B 参数bytes_per_param_fp162bytes_per_param_int40.5mem_fp16params*bytes_per_param_fp16/1e9# 约为 140GBmem_int4params*bytes_per_param_int4/1e9# 约为 35GBprint(fFP16 显存需求:{mem_fp16}GB)print(fINT4 显存需求:{mem_int4}GB)这不仅仅是技术选型的问题这是生存问题。NVIDIA 财报越好看意味着上游成本越高下游的我们就必须把每一滴算力都榨干。以前我们是在“淘金”现在我们是在“炼金”要把废渣里的金子也提炼出来。未来的拐点推理为王效率至上回到财报本身NVIDIA 也在暗示未来的增长点将从“训练”转向“推理”。这是一个非常关键的信号。训练市场虽然大但它是阶段性的推理市场才是长久的。一旦大模型应用真正落地推理的请求量将是天文数字。这对我们提出了新的要求模型架构要变以前为了效果可以堆 MoE混合专家模型现在要考虑推理时的显存访问代价。基础设施要变Kubernetes 的调度策略要从“吞吐优先”变成“延迟敏感”因为推理是实时的用户等不起。成本意识要变每一个 API 调用都要有成本标签每一个功能上线前都要做 ROI 测算。⚠️踩坑提醒很多团队现在还在用训练的思维做推理比如把模型服务直接丢给 K8s 的 Deployment不做 HPA自动扩缩容不做显存优化。在财报压力传导下来的成本寒冬里这种做法无异于自杀。一定要关注 vLLM、TGI 等高性能推理框架它们能帮你把显存利用率提升 30% 以上这直接就是省下来的真金白银。写在最后别做那个裸泳的人NVIDIA 的财报是一面镜子照出了 AI 行业的繁荣也照出了繁荣背后的虚火。作为工程师我们没法左右华尔街的预期也没法决定 H100 的定价但我们能决定手里的代码有多高效。我的判断很直接算力基建的“大干快上”阶段已经结束接下来是“精耕细作”的存量博弈。那些只会调包、不懂底层优化、不算经济账的项目大概率会在这一波财报后的成本核算中消失。最后问一句你们公司的算力账单最近是涨了还是跌了老板有没有开始盯着 GPU 利用率看欢迎在评论区聊聊你的“算力生存实录”。本文仅基于公开财报数据与工程经验进行分析不构成任何投资建议。技术迭代迅速市场有风险决策需谨慎。更多关于 AI 工程落地与技术深度的拆解欢迎移步我的博客 ai-magician.hashnode.dev 查看原文和系列更新。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2445772.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!