引言:Token,AI时代的新度量衡
过去两年,AI从模型到应用,各有各的衡量指标。而在Agent时代,一切指标都要加上一个后缀:"/ 1M tokens"。
美国旧金山当地时间3月16日,英伟达GTC 2026大会正式开幕。在英伟达创始人兼CEO黄仁勋两个小时慷慨激昂的主题演讲中,贯穿的一个关键词是——Token。
无独有偶,在GTC 2026的前一天,阿里巴巴宣布成立Token事业群——这是地位与淘天电商、阿里云一般的核心独立事业群。这个新事业群里,阿里也明确了"创造Token、输送Token、应用Token"链路。
阿里和英伟达此次前后脚强调Token,传递的讯号是:在Agent时代来临时,两家巨头希望从技术、产品和商业维度,先行统一度量衡。
一、万亿叙事:从数据中心到Token工厂
1.1 推理拐点已然到来
“推理拐点已然到来”,黄仁勋在GTC演讲中指出。
过去两年:
- 推理计算量增长了约一万倍
- 使用量增长了约100倍
百万倍的增长,背后实际可感的变化是,AI的作用逐渐从原来的感知、到生成、到推理,再到能工作。
1.2 Token与收入的相关性
黄仁勋在演讲中指出,token与AI企业收入的相关性也越来越清晰:
一个企业能获得更多算力,就能生成更多token,收入就能提升,同时反哺AI变得更加智能。
这条传递链路下,英伟达是背后最大的受益者,目标也日渐激进。
| 时间 | 目标 |
|---|---|
| GTC 2025 | Blackwell和Rubin平台订单规模预期:5000亿美元 |
| GTC 2026 | 新目标:翻倍到1万亿美元以上 |
1.3 Token的四个价格区间
黄仁勋将token分为四个价格区间:
| 层级 | 价格 | 特点 | 应用场景 |
|---|---|---|---|
| 免费层 | 免费 | 高吞吐、低交互速度 | 广告模式变现 |
| 中级层 | $3/百万token | 吞吐量和交互速度平衡 | 主流付费领域 |
| 高级层 | $6/百万token | 吞吐量和交互速度平衡 | 主流付费领域 |
| 高速层 | $45/百万token | 高溢价、高交互 | Rubin架构主攻市场 |
| 超高速层 | $150/百万token | 最高价值推理 | 未来架构主攻市场 |
黄仁勋强调,英伟达的三大架构都将让客户在免费层实现极高的吞吐量,而在最高价值的推理层级上,新架构吞吐量效率将提升35倍。
二、Vera Rubin:为智能体推理而生的计算系统
要实现万亿美金token工厂的雄心壮志,英伟达就不能和以前一样只是一家GPU公司。
此次GTC上,黄仁勋交出了新答卷:专门为智能体推理设计了计算系统Vera Rubin——由7款新芯片、5个机架系统、1台超级计算机构成。
2.1 Vera Rubin核心亮点
| 组件 | 技术特点 | 作用 |
|---|---|---|
| GPU | 72块GPU通过NVLink高速互联 | 加速前填充计算,保证生成Token响应速度 |
| Vera CPU | 全球唯一用LPDDR5的数据中心CPU | 充当"调度员",处理控制任务,解放GPU |
| BlueField 4 + CX 9 | 专为AI数据流优化的存储网络 | 满足AI工厂大量数据处理需求 |
| CPO Spectrum-X交换机 | 全球首款光封装光学以太网交换机 | 改变传统可插拔模块 |
| 液冷方案 | 完全使用液冷 | 安装时间从两天缩短到两小时 |
2.2 性能提升
据黄仁勋介绍,Vera Rubin将在2026年下半年开始出货:
- 推理速度比上一代Blackwell Ultra快5倍
- Token成本降低10倍
- 在MoE模型里只需过去1/4的GPU
2.3 异构协同:Dynamo操作系统
英伟达不久前收购了Groq LPU平台,并将其融入了英伟达的计算体系当中。
大而全的Vera Rubin要与短小精悍的Groq LPU融合,必然会产生芯片调度问题。为此,英伟达专门为其打造了一个操作系统Dynamo。
可以把Dynamo操作系统理解为一个指挥家,将不同的特性的计算任务,分配给更合适的硬件执行,实现效率最大化。
黄仁勋建议:
- 若工作负载以高吞吐为主,建议100% Vera Rubin
- 若大量工作负载为代码生成等高价值token生成诉求,可引入部分Groq芯片,比如25%
Groq LP30已进入量产,由三星代工,预计Q3出货。
这种异构协同设计,将使得数据中心在单位功耗下实现了35倍的性能飞跃,并且同时兼顾超低延迟、高价值推理服务。
2.4 未来架构路线图
| 架构 | 推出时间 | 核心技术 |
|---|---|---|
| Vera Rubin | 2026年下半年 | 3D堆叠、LPU集成、异构存储、CPO、铜互联 |
| Vera Rubin Ultra | 2028年 | 下一代升级 |
| Feynman | 待定 | 未来架构 |
三、英伟达版OpenClaw:NeMo Claw
此次演讲中,黄仁勋除了阐述野心,还把篇幅留给了当前大热的OpenClaw——作为人类历史上最受欢迎的开源项目,OpenClaw用几周的时间就超过了Linux过去三十年的成绩。
3.1 OpenClaw的三大功能
黄仁勋认为,OpenClaw有着三大功能:
- 能够解决管理资源(工具、大语言模型)
- 分解问题且调用智能体
- 多模态输出并执行
为此,OpenClaw本质上是一个智能体操作系统,地位和HTML、Linux一样重要。
3.2 从SaaS到AaaS
在黄仁勋看来,未来,OpenClaw将重塑企业IT。未来,每一家SaaS公司将成为AaaS公司(Agent as a Service),在提供工具之外,还将提供每一个特定领域的AI智能体。
“一个原本2万亿美元规模的产业,即将成长为数万亿美元规模”。
3.3 企业级安全:NeMo Claw
黄仁勋也提出警示,当智能体可以自由调用企业的敏感数据和代码,OpenClaw将衍生安全风险。
因此,英伟达也与OpenClaw的开发者Peter Steinberger合作,推出了企业版本NeMo Claw。
NeMo Claw不仅集成了英伟达完整的智能体工具包,还提供了一系列的措施(网络护栏、隐私路由等),保证企业方的数据安全。
3.4 Token作为薪酬的一部分?
黄仁勋甚至表示,在未来的硅谷的求职场景中,token可能会成为工程师们年薪总包的一部分,“入职附带token配额”,成为硅谷的新晋招聘话题。
四、图形学的"GPT时刻":DLSS 5
发布会开场,黄仁勋首先发布了神经渲染(Neural Rendering)技术DLSS 5,他将其称之为下一代图形计算技术、“图形学的GPT时刻”。
4.1 DLSS 5的构成
在DLSS 5中,英伟达由两部分构成:
- 3D图形和结构化数据:负责提供一个确定性的、符合物理规律的虚拟世界框架
- 生成式AI和概率计算:用于填充这个"框架",在原有的基础上,补充逼真的细节和动态变化
黄仁勋称,这两种理念的融合,将使得制作的内容美观、经验、且可控。
4.2 数据处理系统
黄仁勋在演讲中也发表了他对于目前数据的看法。
当前,世界上大部分的数据形态存在形式是数据库、PDF、音频、视频。其中,有九成都是非结构化数据,在多模态感知与理解技术出现前,数据很难被高效查询和检索。
为此,英伟达推出了两个全新的数据工具,黄仁勋称其为全网最复杂的数据处理系统:
| 工具 | 处理类型 | 对应DLSS 5部分 |
|---|---|---|
| cuDF | 确定性的结构化数据(表格、日志等) | 3D图形和结构化数据 |
| cuVS | 概率性的非结构化数据(文本、图像、音视频转语义向量) | 生成式AI和概率计算 |
目前,这两个数据平台已经被整合进IBM、戴尔、谷歌云等云服务和OEM体系中。
五、结论:Token生产的主导权之争
黄仁勋两个小时的演讲,提示了一个趋势:
当AI的竞争从"模型竞赛"进入"生产力竞赛",大家将不会像几年前一样抢GPU、抢算力,而是要抢夺token生产的主导权。
具体到行动上,英伟达提供的是从:
- 底层芯片(Rubin/Feynman)
- 异构架构(GPU+LPU+CPU)
- 系统设计(全液冷机柜)
- 上层操作系统(OpenClaw、NemoClaw)
- 工具(DLSS5、cuDF、cuVS)
的生产力套件,希望让token生产过程也像制造业一般,效率化、批量化。
本文基于36氪《当黄仁勋和吴泳铭喊出同一个英文单词》整理分析,仅供技术交流参考。
散热正常,慧哥。🧊