英伟达Groq 3 LPU：当Token经济学向低延迟倾斜

Mon, 30 Mar 2026 09:00:00 +0800

原文来源：未尽研究
本文基于未尽研究文章整理，分析英伟达Groq 3 LPU对token经济学的重塑及中国开源生态面临的挑战

一、Token经济学的价值曲线

推理的token经济学，是一条**吞吐量（Throughput）与交互性（Interactivity）**之间展开的价值曲线。

在GTC 2026上，黄仁勋拿起最新的Groq 3 LPU，把低延迟从性能指标，转化为能够直接重塑单位token价值的变量。在他的演示中：

指标	传统方案	Groq 3 LPU
交互速度	~50 TPS	800+ TPS
单位token价值	几美元	150美元

英伟达当代算力平台GB NVL72，是模型经济性测评InferenceX的"推理之王"，但仍然止步于400 TPS。

去年年底，英伟达向Groq支付200亿美元，获得其推理技术非排他性许可。Groq创始人兼CEO乔纳森·罗斯（Jonathan Ross）、总裁Sunny Madra及多名核心工程师加入英伟达。

3个月后，英伟达的Rubin平台迎来了第7款芯片——Groq 3 LPU（语言处理单元），已进入批量生产阶段，由三星代工。

参数	Groq 3 LPU	Rubin GPU	对比
算力性能	Rubin的1/25	基准	算力有限
SRAM缓存	500 MB	-	超大片上缓存
带宽	150 TB/秒	22 TB/秒	6.8倍
定位	低延迟、长上下文	通用计算	场景专用

基于Groq 3 LPU，英伟达打造了Groq 3 LPX机架，拥有256个LPU芯片，专为低延迟、长上下文的智能体系统设计，将于今年下半年推出。

随着LPX的推出，CPX没有出现在演讲现场。相比之下，基于Groq的LPX平台，如今才是英伟达推理架构中的关键拼图。