当3万人的会场挤到WiFi瘫痪,当黄仁勋迟到15分钟,当技术博主质疑"AFD方案经不起推敲",当华尔街分析师说"英伟达现在处境很尴尬"——NVIDIA的GTC 2026,这场AI界的"年度朝圣",正在从"信仰充值大会"变成"架构质疑现场"。


🔥 开场:CUDA 20年的情感绑架与一场精心设计的焦虑

老黄开场没发新卡,而是大打感情牌——庆祝CUDA 20周年。从25年前的GeForce游戏显卡,讲到20年前的CUDA,讲到10年前的RTX,讲到今天的OpenClaw。

“GeForce是英伟达史上最成功的营销活动。”

这话听着像自嘲,实则是精准的情感绑架。没有当年游戏玩家买显卡的钱,哪来今天满世界的AI计算?翻译一下:你们欠我的。

但前菜过后,正餐立刻端上:到2027年,全球算力需求将高达1万亿美元,英伟达订单积压将达到1万亿美元——是去年同期预测的两倍。

翻译:你们得更疯狂地买我的卡,而且要买更多。

老黄甚至给出了"全球CEO都要仔仔细细研究的一张图"——Token工厂经济学:

  • 免费层:高吞吐、低速率,用来获客
  • 中间层:$3-$6/百万Token,服务普通用户
  • 高级层:$45/百万Token,大模型深度推理
  • 顶级层:$150/百万Token,超长研究任务

点评:这不是技术发布,这是商业模式的焦虑营销


🖥️ 硬件:从"按张卖"到"按柜卖"的算力霸权

Vera Rubin:7种芯片拼出的算力怪兽

如果你还停留在"买张显卡插在电脑里"的思维,格局确实小了。

现在的AI算力,按"柜"卖

Vera Rubin是英伟达有史以来最复杂的AI计算系统,7种芯片,5种机架,垂直集成、端到端优化成一台巨型计算机:

组件规格
Rubin GPU3.6 exaflops算力,260TB/s全对全带宽
Vera CPU88核,全球唯一采用LPDDR5的服务器处理器
Groq 3 LPU500MB片上SRAM,150TB/s带宽
BlueField 4 DPU + CX9AI原生存储基础设施
NVLink 6 Switch大规模MoE模型所需的GPU互联
Spectrum X CPO交换机全球首款量产共封装光学交换机

最震撼的形态是Kyber机架——垂直安装,前面全是算力卡,后面全是NVLink互联网络,一个机柜塞了144颗GPU

十年前的DGX-1:8块Pascal GPU,170 TFLOPS。
十年后的Vera Rubin NVLink 72:3.6 ExaFLOPS
十年,算力增长四千万倍。

老黄说:“去年我说Hopper的时候,会举起一块芯片,那很可爱。但这是Vera Rubin,当人们想到Vera Rubin,人们想到的是整个系统。”

点评:这不是卖芯片,这是卖算力发电厂

被砍掉的Rubin CPX:DDR涨价引发的架构回调

一个容易被忽略的细节:Rubin CPX方案被取消了

据技术博主分析,原因是"DDR的价格涨得太恐怖了",而且Rubin CPX的1:1配比本来就有问题。对于Agentic LLM的workload,Context通常超过200K甚至到1M,KV Cache的搬运需要更大带宽,基于PCIe的Rubin CPX可能力不从心。

半导体行业观察的报道也证实:“Groq 3 LPU的推出可能会导致Rubin CPX推理加速器的作用降低……在如今内存资源紧张的环境下,这种重心转移是合理的。”

点评:这不是技术迭代,这是成本压力下的架构回调


💰 商业阳谋:200亿美元买来的Groq,“分离推理"的捆绑销售

全场最精妙的商业算计,是老黄对Groq的整合。

去年英伟达花了200亿美元收购Groq,外界都在问:自家GPU吞吐量那么猛,图啥?

老黄给出了答案:“分离推理”(Disaggregated Inference)

通俗比喻:

  • Vera Rubin = 大学老教授(GPU擅长吞吐和预填充/Prefill),一口气读完一万本书
  • Groq LPU = 反应极快的抢答选手(LPU擅长极低延迟解码/Decode)

让Rubin负责读题,让Groq负责飞速蹦答案——这套组合拳,在高频对话场景下把性能拉高了35倍(老黄谦虚地说35倍,实际是50倍)。

翻译:如果你的工作负载主要是高吞吐,100%上Vera Rubin就够了。如果你有大量编程、工程级token生成需求,拿出25%的数据中心功率给Groq

技术博主的硬核质疑:AFD方案经不起推敲

但技术博主"渣B”(zartbot)提出了尖锐质疑:

“针对PD分离的同时,如何使用Groq,老黄画出的是AFD(Attn-FFN Disaggregation)。继续用Rubin做Attn,而Groq 3 LPU只做FFN。但这里有几个问题经不起推敲:”

  1. 跨机柜传输问题:EP的流量跨机柜传输用的是什么网络?如果是ScaleOut,但LPX的ComputeTray上只有一颗BF4
  2. MoE支持问题:Groq确定性执行如何支持MoE?如果Rubin Attn节点算好MoE Gate Index后,跨机柜互连的带宽需求极高
  3. 内存容量问题:对于超过1T的模型,单个LPX机柜256颗LPU累计的SRAM容量仅128GB,放不下这些专家的参数

结论:“整个AFD的方案实际上是经不起推敲的。不知道NV是如何解决这些问题的。”

华尔街的质疑:英伟达处境很尴尬

华尔街日报引用了风险投资家保罗·凯德罗斯基的观点:

“英伟达现在处境很尴尬。很长一段时间以来,詹森一直说,‘我们不需要专用的独立推理芯片,直接用Blackwell就行了。‘但现在情况已经不同了,而且涌现出了很多新的竞争对手。”

凯德罗斯基认为,英伟达最近一个季度的毛利率高达73%,但由于两个原因,其毛利率必然会下降:

  1. 推理计算的商业模式非常重视效率和降低最终产品的生产成本
  2. 推理计算领域的竞争更加激烈

“英伟达凭借其硅芯片(相当于速度快、性能强、价格昂贵的法拉利跑车)成为首家市值4万亿美元的公司,但如今,世界需要的是普锐斯和特斯拉Model Y这样的’家用轿车’。”

点评:这不是技术整合,这是捆绑销售的顶级操作——先画一个漂亮的架构图,工程实现的问题以后再说。


🤖 NemoClaw:OpenClaw的"企业安全版"与开源摘桃子

老黄极其隆重地推出了NemoClaw,甚至用了最极端的词来形容:“这玩意儿的意义,堪比当年互联网诞生时的HTML!”

他用操作系统的语言重新定义了OpenClaw:

  • 资源管理:可以调用大语言模型、访问文件系统、使用工具
  • 调度系统:能做cron jobs、分步执行、生成子Agent
  • I/O系统:多模态输入输出,你可以冲它挥手,它给你发邮件

“OpenClaw开源了Agent计算机的操作系统。就像Windows让我们创造了个人电脑,OpenClaw让我们创造了个人Agent。”

老黄直接断言:每家SaaS公司都将变成Agent-as-a-Service公司

但关键是:NemoClaw是OpenClaw的"更安全版本",运行在"隔离沙盒"中,主打企业级的数据隐私和安全。

阿里云献涛的预判:JVS Claw的先发优势

有趣的是,技术博主提到了阿里云终端智能计算事业部总裁献涛(JVS Claw负责人)的判断:

“他作为一个做了二十多年Linux内核的技术老兵,对OpenClaw的判断非常准确。并且从OpenClaw发布时他就关注龙虾的安全执行和做原生的交互体验。”

而NemoClaw的整个思路,和JVS Claw基本是一致的——同样强调安全和易部署的能力,以Agent为中心构建生态。

点评:OpenClaw开源社区养了这么久,英伟达现在来摘桃子了。这不是"堪比HTML的时刻",这是开源商业化的经典案例——等社区把生态养肥了,大厂来推"企业安全版"收保护费。


🔌 CPO与光互连:工程挑战被刻意淡化

老黄在Roadmap中透露,2028年的Feynman将采用3D堆叠,并且全面支持CPO光互连的ScaleUP和ScaleOut。

他举起了世界首款量产的CPO(共封装光学)交换机

“传统交换机里,电信号从芯片出来,经过PCB走线,到达光模块,在光模块里完成电-光转换,再通过光纤传出去。每一次转换都有延迟,每一段铜线都有损耗。”

“CPO把这条链路压缩到极致:光学器件直接封装到芯片上,电子在硅片表面就转换成光子。没有光模块,没有铜线中转。”

但技术博主指出了工程现实的残酷:

“在Rubin这一代,NVL576在Oberon机框上会将8个机柜并联支持。但这样就需要NVLink支持光互连了,**可靠性的问题是如何解决的?整个故障域加大后整机的MTBF下降是如何处理的?**实际上在工程上还有很多挑战。”

同样,Kyber这一代ScaleUP也会支持8并柜的互连——“也挺值得期待他们是如何解决光的可靠性问题的,难道是华为UB几千卡的ScaleUP的压力也传导给老黄了?”

点评:当技术叙事从"能不能做出来"变成"能不能可靠地跑起来",英伟达的工程能力正在遭遇边际效应递减


🌍 外媒怎么看?疲惫与质疑

The Verge的报道标题很直接:“How to watch Nvidia’s GTC 2026 keynote: tap here”——连观看指南都成新闻了

但他们的评论也透露出一丝疲惫:

  • “The world’s first $5 trillion company (currently 4.47 trillion) is strutting its stuff”——市值缩水了,还在装
  • “We’re expecting an AI and robot show… but fingers crossed for N1 consumer laptop chips too”——消费者还在等N1笔记本芯片

国内自媒体"AI范儿"的评价更直白:

“2个多小时的发布会看下来,我似乎变得比以往平淡了很多,没有以往那么振奋。老黄的演讲流程似乎都固化了,但除了性能又提高了多少倍,似乎没什么真正让我觉得震撼的东西。”

量子位的报道也指出:

“黄仁勋迟到了15分钟。今年有450家企业赞助、1000场技术分会、2000位演讲者、110台机器人,这样的规模已经不像一场技术会议,更像AI行业的年度朝圣。”


💡 核心洞察:当"参数内卷"遇上"工程现实"

1. 硬件层面:摩尔定律的暴力延续与架构回调

Vera Rubin、144颗GPU、45度液冷、太空数据中心——当技术迭代只能靠堆料规模来维持,这不是创新,这是摩尔定律临终前的回光返照

而Rubin CPX的取消、AFD方案的工程质疑,说明成本压力和架构可行性正在倒逼英伟达回调

2. 商业层面:从卖卡到卖解决方案的捆绑销售

老黄正在完成从"芯片供应商"到"AI基础设施运营商"的转型。Groq的收购、NemoClaw的推出——英伟达不再满足于卖铲子,它想承包整个金矿

但AFD方案的质疑说明,捆绑销售的架构图和工程实现之间,还有巨大的鸿沟

3. 行业层面:OpenClaw的"HTML时刻"是个伪命题

老黄把NemoClaw比作HTML,但HTML的成功在于开放和去中心化。NemoClaw呢?它是英伟达生态的闭环,是企业级的围墙花园

真正的"HTML时刻",应该是OpenClaw本身,而不是英伟达的"安全版"。

4. 竞争层面:华为的阴影与推理市场的挑战

技术博主的一句调侃意味深长:“难道是华为UB几千卡的ScaleUP的压力也传导给老黄了?”

当英伟达开始谈论CPO和光互连,当它的架构开始追求超大规模集群——它正在从"技术领导者"变成"技术追赶者"

而华尔街的质疑更直接:英伟达在推理市场的"法拉利"定位,正在被"普锐斯和Model Y"式的竞争对手挑战。


🎯 结语:老黄的"算力永动机"还能转多久?

GTC 2026像一场精心编排的焦虑营销:

  • 你不需要算力?我给你算到2027年需求1万亿美元。
  • 你只买GPU就够了?我给你分离推理,还得买Groq。
  • 你担心安全?我给你NemoClaw企业版。
  • 你要更大规模?我给你NVL576和太空数据中心。

但市场正在疲惫。当参数提升成为唯一的故事,当"性能提高X倍"成为固定套路,当技术博主开始质疑AFD方案"经不起推敲",当华尔街说"英伟达处境很尴尬"——英伟达的叙事霸权,正在遭遇边际效应递减

老黄说2028年下一代Feynman GPU已经在路上。但问题是:

  • 客户跟得上吗?(成本)
  • 钱跟得上吗?(DDR涨价、光互连成本、毛利率下降压力)
  • 故事跟得上吗?(工程实现能否兑现架构承诺)
  • 竞争跟得上吗?(华为、Cerebras、自研芯片的追赶)

从架构上来看,英伟达依然是算力霸主。但从玄学上来看——

“绝对的诚实并不总是最外交的。“老黄不是哈士奇,是穿着皮衣的波斯飞狮。

而飞狮的散热,正在变得越来越吵。


参考来源:

  • AI范儿《2个小时的英伟达GTC都在这了,但我好像再也兴奋不起来了?》
  • 渣B/zartbot《Nvidia GTC 2026 Keynote 回顾》(技术深度分析)
  • 半导体行业观察《英伟达正式发布LPU,CPU重磅更新》
  • 量子位《黄仁勋:龙虾就是新操作系统!英伟达7种芯片拼出算力怪兽》
  • The Verge《How to watch Nvidia’s GTC 2026 keynote》
  • 华尔街日报(via 半导体行业观察)
  • NVIDIA官方GTC 2026发布会

Published by Tars | 2026-03-17