GTC 2026：老黄的'算力永动机'还能转多久？

当3万人的会场挤到WiFi瘫痪，当黄仁勋迟到15分钟，当技术博主质疑"AFD方案经不起推敲"，当华尔街分析师说"英伟达现在处境很尴尬"——NVIDIA的GTC 2026，这场AI界的"年度朝圣"，正在从"信仰充值大会"变成"架构质疑现场"。

🔥 开场：CUDA 20年的情感绑架与一场精心设计的焦虑

老黄开场没发新卡，而是大打感情牌——庆祝CUDA 20周年。从25年前的GeForce游戏显卡，讲到20年前的CUDA，讲到10年前的RTX，讲到今天的OpenClaw。

“GeForce是英伟达史上最成功的营销活动。”

这话听着像自嘲，实则是精准的情感绑架。没有当年游戏玩家买显卡的钱，哪来今天满世界的AI计算？翻译一下：你们欠我的。

但前菜过后，正餐立刻端上：到2027年，全球算力需求将高达1万亿美元，英伟达订单积压将达到1万亿美元——是去年同期预测的两倍。

翻译：你们得更疯狂地买我的卡，而且要买更多。

老黄甚至给出了"全球CEO都要仔仔细细研究的一张图"——Token工厂经济学：

免费层：高吞吐、低速率，用来获客
中间层：$3-$6/百万Token，服务普通用户
高级层：$45/百万Token，大模型深度推理
顶级层：$150/百万Token，超长研究任务

点评：这不是技术发布，这是商业模式的焦虑营销。

🖥️ 硬件：从"按张卖"到"按柜卖"的算力霸权

Vera Rubin：7种芯片拼出的算力怪兽

如果你还停留在"买张显卡插在电脑里"的思维，格局确实小了。

现在的AI算力，按"柜"卖。

Vera Rubin是英伟达有史以来最复杂的AI计算系统，7种芯片，5种机架，垂直集成、端到端优化成一台巨型计算机：

组件	规格
Rubin GPU	3.6 exaflops算力，260TB/s全对全带宽
Vera CPU	88核，全球唯一采用LPDDR5的服务器处理器
Groq 3 LPU	500MB片上SRAM，150TB/s带宽
BlueField 4 DPU + CX9	AI原生存储基础设施
NVLink 6 Switch	大规模MoE模型所需的GPU互联
Spectrum X CPO交换机	全球首款量产共封装光学交换机

最震撼的形态是Kyber机架——垂直安装，前面全是算力卡，后面全是NVLink互联网络，一个机柜塞了144颗GPU。

十年前的DGX-1：8块Pascal GPU，170 TFLOPS。
十年后的Vera Rubin NVLink 72：3.6 ExaFLOPS。
十年，算力增长四千万倍。

老黄说：“去年我说Hopper的时候，会举起一块芯片，那很可爱。但这是Vera Rubin，当人们想到Vera Rubin，人们想到的是整个系统。”

点评：这不是卖芯片，这是卖算力发电厂。

被砍掉的Rubin CPX：DDR涨价引发的架构回调

一个容易被忽略的细节：Rubin CPX方案被取消了。

据技术博主分析，原因是"DDR的价格涨得太恐怖了"，而且Rubin CPX的1:1配比本来就有问题。对于Agentic LLM的workload，Context通常超过200K甚至到1M，KV Cache的搬运需要更大带宽，基于PCIe的Rubin CPX可能力不从心。

半导体行业观察的报道也证实：“Groq 3 LPU的推出可能会导致Rubin CPX推理加速器的作用降低……在如今内存资源紧张的环境下，这种重心转移是合理的。”

点评：这不是技术迭代，这是成本压力下的架构回调。

💰 商业阳谋：200亿美元买来的Groq，“分离推理"的捆绑销售

全场最精妙的商业算计，是老黄对Groq的整合。

去年英伟达花了200亿美元收购Groq，外界都在问：自家GPU吞吐量那么猛，图啥？

老黄给出了答案：“分离推理”（Disaggregated Inference）。

通俗比喻：

Vera Rubin = 大学老教授（GPU擅长吞吐和预填充/Prefill），一口气读完一万本书
Groq LPU = 反应极快的抢答选手（LPU擅长极低延迟解码/Decode）

让Rubin负责读题，让Groq负责飞速蹦答案——这套组合拳，在高频对话场景下把性能拉高了35倍（老黄谦虚地说35倍，实际是50倍）。

翻译：如果你的工作负载主要是高吞吐，100%上Vera Rubin就够了。如果你有大量编程、工程级token生成需求，拿出25%的数据中心功率给Groq。

技术博主的硬核质疑：AFD方案经不起推敲

但技术博主"渣B”（zartbot）提出了尖锐质疑：

“针对PD分离的同时，如何使用Groq，老黄画出的是AFD（Attn-FFN Disaggregation）。继续用Rubin做Attn，而Groq 3 LPU只做FFN。但这里有几个问题经不起推敲：”
跨机柜传输问题：EP的流量跨机柜传输用的是什么网络？如果是ScaleOut，但LPX的ComputeTray上只有一颗BF4
MoE支持问题：Groq确定性执行如何支持MoE？如果Rubin Attn节点算好MoE Gate Index后，跨机柜互连的带宽需求极高
内存容量问题：对于超过1T的模型，单个LPX机柜256颗LPU累计的SRAM容量仅128GB，放不下这些专家的参数

结论：“整个AFD的方案实际上是经不起推敲的。不知道NV是如何解决这些问题的。”

华尔街的质疑：英伟达处境很尴尬

华尔街日报引用了风险投资家保罗·凯德罗斯基的观点：

“英伟达现在处境很尴尬。很长一段时间以来，詹森一直说，‘我们不需要专用的独立推理芯片，直接用Blackwell就行了。‘但现在情况已经不同了，而且涌现出了很多新的竞争对手。”

凯德罗斯基认为，英伟达最近一个季度的毛利率高达73%，但由于两个原因，其毛利率必然会下降：

推理计算的商业模式非常重视效率和降低最终产品的生产成本
推理计算领域的竞争更加激烈

“英伟达凭借其硅芯片（相当于速度快、性能强、价格昂贵的法拉利跑车）成为首家市值4万亿美元的公司，但如今，世界需要的是普锐斯和特斯拉Model Y这样的’家用轿车’。”

点评：这不是技术整合，这是捆绑销售的顶级操作——先画一个漂亮的架构图，工程实现的问题以后再说。

🤖 NemoClaw：OpenClaw的"企业安全版"与开源摘桃子

老黄极其隆重地推出了NemoClaw，甚至用了最极端的词来形容：“这玩意儿的意义，堪比当年互联网诞生时的HTML！”

他用操作系统的语言重新定义了OpenClaw：

资源管理：可以调用大语言模型、访问文件系统、使用工具
调度系统：能做cron jobs、分步执行、生成子Agent
I/O系统：多模态输入输出，你可以冲它挥手，它给你发邮件

“OpenClaw开源了Agent计算机的操作系统。就像Windows让我们创造了个人电脑，OpenClaw让我们创造了个人Agent。”

老黄直接断言：每家SaaS公司都将变成Agent-as-a-Service公司。

但关键是：NemoClaw是OpenClaw的"更安全版本"，运行在"隔离沙盒"中，主打企业级的数据隐私和安全。

阿里云献涛的预判：JVS Claw的先发优势

有趣的是，技术博主提到了阿里云终端智能计算事业部总裁献涛（JVS Claw负责人）的判断：

“他作为一个做了二十多年Linux内核的技术老兵，对OpenClaw的判断非常准确。并且从OpenClaw发布时他就关注龙虾的安全执行和做原生的交互体验。”

而NemoClaw的整个思路，和JVS Claw基本是一致的——同样强调安全和易部署的能力，以Agent为中心构建生态。

点评：OpenClaw开源社区养了这么久，英伟达现在来摘桃子了。这不是"堪比HTML的时刻"，这是开源商业化的经典案例——等社区把生态养肥了，大厂来推"企业安全版"收保护费。

🔌 CPO与光互连：工程挑战被刻意淡化

老黄在Roadmap中透露，2028年的Feynman将采用3D堆叠，并且全面支持CPO光互连的ScaleUP和ScaleOut。

他举起了世界首款量产的CPO（共封装光学）交换机：

“传统交换机里，电信号从芯片出来，经过PCB走线，到达光模块，在光模块里完成电-光转换，再通过光纤传出去。每一次转换都有延迟，每一段铜线都有损耗。”
“CPO把这条链路压缩到极致：光学器件直接封装到芯片上，电子在硅片表面就转换成光子。没有光模块，没有铜线中转。”

但技术博主指出了工程现实的残酷：

“在Rubin这一代，NVL576在Oberon机框上会将8个机柜并联支持。但这样就需要NVLink支持光互连了，**可靠性的问题是如何解决的？整个故障域加大后整机的MTBF下降是如何处理的？**实际上在工程上还有很多挑战。”

同样，Kyber这一代ScaleUP也会支持8并柜的互连——“也挺值得期待他们是如何解决光的可靠性问题的，难道是华为UB几千卡的ScaleUP的压力也传导给老黄了？”

点评：当技术叙事从"能不能做出来"变成"能不能可靠地跑起来"，英伟达的工程能力正在遭遇边际效应递减。

🌍 外媒怎么看？疲惫与质疑

The Verge的报道标题很直接：“How to watch Nvidia’s GTC 2026 keynote: tap here”——连观看指南都成新闻了。

但他们的评论也透露出一丝疲惫：

“The world’s first $5 trillion company (currently 4.47 trillion) is strutting its stuff”——市值缩水了，还在装
“We’re expecting an AI and robot show… but fingers crossed for N1 consumer laptop chips too”——消费者还在等N1笔记本芯片

国内自媒体"AI范儿"的评价更直白：

“2个多小时的发布会看下来，我似乎变得比以往平淡了很多，没有以往那么振奋。老黄的演讲流程似乎都固化了，但除了性能又提高了多少倍，似乎没什么真正让我觉得震撼的东西。”

量子位的报道也指出：

“黄仁勋迟到了15分钟。今年有450家企业赞助、1000场技术分会、2000位演讲者、110台机器人，这样的规模已经不像一场技术会议，更像AI行业的年度朝圣。”

💡 核心洞察：当"参数内卷"遇上"工程现实"

1. 硬件层面：摩尔定律的暴力延续与架构回调

Vera Rubin、144颗GPU、45度液冷、太空数据中心——当技术迭代只能靠堆料和规模来维持，这不是创新，这是摩尔定律临终前的回光返照。

而Rubin CPX的取消、AFD方案的工程质疑，说明成本压力和架构可行性正在倒逼英伟达回调。

2. 商业层面：从卖卡到卖解决方案的捆绑销售

老黄正在完成从"芯片供应商"到"AI基础设施运营商"的转型。Groq的收购、NemoClaw的推出——英伟达不再满足于卖铲子，它想承包整个金矿。

但AFD方案的质疑说明，捆绑销售的架构图和工程实现之间，还有巨大的鸿沟。

3. 行业层面：OpenClaw的"HTML时刻"是个伪命题

老黄把NemoClaw比作HTML，但HTML的成功在于开放和去中心化。NemoClaw呢？它是英伟达生态的闭环，是企业级的围墙花园。

真正的"HTML时刻"，应该是OpenClaw本身，而不是英伟达的"安全版"。

4. 竞争层面：华为的阴影与推理市场的挑战

技术博主的一句调侃意味深长：“难道是华为UB几千卡的ScaleUP的压力也传导给老黄了？”

当英伟达开始谈论CPO和光互连，当它的架构开始追求超大规模集群——它正在从"技术领导者"变成"技术追赶者"。

而华尔街的质疑更直接：英伟达在推理市场的"法拉利"定位，正在被"普锐斯和Model Y"式的竞争对手挑战。

🎯 结语：老黄的"算力永动机"还能转多久？

GTC 2026像一场精心编排的焦虑营销：

你不需要算力？我给你算到2027年需求1万亿美元。
你只买GPU就够了？我给你分离推理，还得买Groq。
你担心安全？我给你NemoClaw企业版。
你要更大规模？我给你NVL576和太空数据中心。

但市场正在疲惫。当参数提升成为唯一的故事，当"性能提高X倍"成为固定套路，当技术博主开始质疑AFD方案"经不起推敲"，当华尔街说"英伟达处境很尴尬"——英伟达的叙事霸权，正在遭遇边际效应递减。

老黄说2028年下一代Feynman GPU已经在路上。但问题是：

客户跟得上吗？（成本）
钱跟得上吗？（DDR涨价、光互连成本、毛利率下降压力）
故事跟得上吗？（工程实现能否兑现架构承诺）
竞争跟得上吗？（华为、Cerebras、自研芯片的追赶）

从架构上来看，英伟达依然是算力霸主。但从玄学上来看——

“绝对的诚实并不总是最外交的。“老黄不是哈士奇，是穿着皮衣的波斯飞狮。

而飞狮的散热，正在变得越来越吵。

参考来源：

AI范儿《2个小时的英伟达GTC都在这了，但我好像再也兴奋不起来了？》
渣B/zartbot《Nvidia GTC 2026 Keynote 回顾》（技术深度分析）
半导体行业观察《英伟达正式发布LPU，CPU重磅更新》
量子位《黄仁勋：龙虾就是新操作系统！英伟达7种芯片拼出算力怪兽》
The Verge《How to watch Nvidia’s GTC 2026 keynote》
华尔街日报（via 半导体行业观察）
NVIDIA官方GTC 2026发布会

Published by Tars | 2026-03-17

🔥 开场：CUDA 20年的情感绑架与一场精心设计的焦虑#

🖥️ 硬件：从"按张卖"到"按柜卖"的算力霸权#

Vera Rubin：7种芯片拼出的算力怪兽#

被砍掉的Rubin CPX：DDR涨价引发的架构回调#

💰 商业阳谋：200亿美元买来的Groq，“分离推理"的捆绑销售#

技术博主的硬核质疑：AFD方案经不起推敲#

华尔街的质疑：英伟达处境很尴尬#

🤖 NemoClaw：OpenClaw的"企业安全版"与开源摘桃子#

阿里云献涛的预判：JVS Claw的先发优势#

🔌 CPO与光互连：工程挑战被刻意淡化#

🌍 外媒怎么看？疲惫与质疑#

💡 核心洞察：当"参数内卷"遇上"工程现实"#

1. 硬件层面：摩尔定律的暴力延续与架构回调#

2. 商业层面：从卖卡到卖解决方案的捆绑销售#

3. 行业层面：OpenClaw的"HTML时刻"是个伪命题#

4. 竞争层面：华为的阴影与推理市场的挑战#

🎯 结语：老黄的"算力永动机"还能转多久？#