Groq LPU架构深度解析：NVIDIA推理王国的关键拼图

原文来源：IT奶爸/工程芯一
发布时间：2026年3月30日

引言

Groq加入NVIDIA后，作为LPU形成推理增强芯片上的重要组成。过去一段时间里，业内已有几篇深度解析，本文整理核心要点。

NVIDIA对Groq的交易形式是：20B美金IP许可+大部分团队打包入职，在法律上刻意没有走正式并购，避开反垄断审查和漫长过户流程，直接获得IP+人。这也解释了为什么交易宣布不到四个月，就能在Vera Rubin推理栈里出现LPX系统概念。

💡 芯一视角：这是典型的「不叫并购，但干的都是并购的事」：在算力高度集中、监管高度敏感的年份，用结构创新抢时间窗口，本质还是算「护城河时间」。

I. 架构和演进

LPU的定位

Groq LPU系统从来就不是面向大规模高吞吐推理，而是主打极低延迟、愿意为每token付高价的场景。在一个解耦decode系统里，这点就变成了优势：LPU负责小而急的部分，高吞吐慢一点没关系的部分继续交给GPU。

💡 芯一视角：这是典型「不合适做主角，但非常适合当一个专职6th man」——Groq独立做云服务吃力，但嫁接到NVIDIA的AI工厂框架里就顺手多了。

LPU Gen1：确定性架构与SRAM-first

Groq在ISCA 2020披露的第一代LPU架构。与通用多核CPU/GPU不同，LPU被拆分为多个单一用途功能组（slice）：

VXM：向量运算
MEM：读写数据
SXM：张量形状变换
MXM：矩阵乘法

各slice水平排布，数据水平流动，指令在垂直方向像「柱子」一样穿过各单元。中间通过流式寄存器+单级scratchpad SRAM传递数据，刻意避免多级缓存层级，使得执行完全确定性。

💡 芯一视角：把GPU看成「数据和算子都在乱跑的大城市」，LPU更像是「全是单行道、红绿灯全由编译器控制的工厂车间」。可预测、可排程，是它所有系统优势的起点。

LP40可能的改动

工艺切换到TSMC N3P，封装采用CoWoS-R
协议上弃用Groq C2C（Alphawave 112G Serdes），引入NVLink作为统一scale-up fabric
与Feynman平台做高度协同、成为真正自家一等公民
关键技术是混合键合堆叠DRAM：在SRAM上叠加3D DRAM，延迟/带宽略逊SRAM，但远好于传统DRAM

II. 推理的拆解

大模型推理的两阶段

Prefill：处理全量输入上下文，算力密集，适合GPU
Decode：逐token预测，KV cache主导，内存带宽+延迟敏感，这里LPU的高带宽SRAM优势可以发挥出来

Attention/FFN解耦（AFD）

这推动了**Attention/FFN解耦（AFD）**的提出：

GPU专门做Attention+KV cache，HBM全部用于缓存更多tokens
FFN（特别是MoE专家）是大量、相对stateless的算子，适合放在LPU上跑确定性、静态workload

在AFD的情况下，GPU到LPU发送以及路由token会成为瓶颈。为此，文章介绍了一种Ping-Pong流水线并行：

Batch被拆成多个micro-batch，Attention与FFN在GPU/LPU之间ping-pong
利用流水线把计算与通信重叠，尽量让链路「一直在干活」

💡 芯一视角：这里的关键不是「速度快一点」，而是让网络延迟可预期且可隐藏。LPU架构本身就推崇确定性，网络流也是按这个思路被「设计给编译器」来使用的。

III. 投机解码

Speculative decoding场景：

小draft模型或多token预测（MTP）层提前预测k个token
主模型只需要一次warm prefill来验证这k个token的合法性
只要k远小于当前上下文长度N，额外的k tokens对延迟增量很小

通常speculative decoding能做到每步decode提升到1.5–2 tokens。LPU凭借极低的per-step延迟，有机会进一步拉大这个倍数，从而提升吞吐。

为了支撑这一点，LPX计算托盘的Fabric Expansion Logic FPGA上各自挂了最高256GB DDR5，作为LPU的附加内存池。

IV. LPU机架

LPX计算托盘配置

真实生产版LPX计算托盘的配置为：

16颗LP30 LPU
2颗Altera FPGA（Fabric Expansion Logic）
1颗Intel Granite Rapids主机CPU
1颗BlueField-4前端模块

LPU模块采用**背靠背（belly-to-belly）**安装：8颗在PCB正面，8颗在背面。所有LPU之间的互连全部走PCB走线，形成节点内all-to-all mesh。

💡 芯一视角：这托盘的PCB难度基本是「给高速互连拉满悲伤值」：16 LPU全互连+出板再上机架背板，能做出来本身就说明供应链被训练得有多狠。

FPGA的三重角色

作为NIC：把LPU的C2C协议转换成以太网，接向基于Spectrum-X的扩展网络→连接到GPU
作为桥：负责LPU→CPU的路径，把C2C转成PCIe
作为协调器：通过机架背板互联，多个FPGA之间协同管理所有LPU的流控和时序

V. LPU网络

C2C网络：三层scale-up + 一层scale-out

Scale-up（C2C）：LPU↔LPU（节点内/机架内/机架间）
Scale-out：通过Spectrum-X与GPU集群连接

在一个LPX机架内，NVIDIA公布了640TB/s scale-up带宽：

计算方式为256 LPU × 90 lane × 112Gbps/8 × 双向 ≈ 645TB/s

💡 芯一视角：这组数字的最大意义其实不是「多快」，而是告诉你：整个LPX机架就是一个高度互连、由编译器掌控流量的巨大LPU阵列。

节点内拓扑

托盘内部，16 LPU之间是完整的all-to-all mesh：

每对LPU之间有4×100G C2C链路（Groq自己的RealScale协议）
所有连接走PCB，要求极高的信号完整性

机架间C2C拓扑

机架间的C2C则通过每颗LPU的4×100G出口接入OSFP cage，可以做成「菊花链」、每个Node0连接到另外两个Node0。

VI. 贵还是便宜

BOM层面的真相

Groq的代价：

每颗芯片仅230MB SRAM
一个Mixtral推理系统需要576颗芯片
通过大规模scale-out网络拼成一个"逻辑模型"

相比之下：

单颗H100就能容纳模型
两颗即可支撑高batch推理

系统算账：

576张卡
144颗CPU
海量DRAM、网络、电力

结果：整个推理系统upfront CapEx ≈ 252万美元

💡 芯一视角：芯片便宜≠系统便宜。

但是，当叙事变成Rubin+LPU

✅ 变化1：Rubin的有效batch size↑

TTFT/小请求被LPU吃掉
GPU decode队列更"干净"
batch从B→B′（经验上1.3–1.6×是非常现实的）

✅ 变化2：GPU利用率↑

GPU不再为tail latency留buffer
speculative/branch decode更容易铺开

✅ 变化3：LPU的成本被"摊薄"

LPU不再承担完整模型
不需要576颗
KV cache/DRAM/CPU成本由Rubin承担

LPU本身不需要"赚钱"，它只需要让GPU的token/小时多30%～50%，整个系统账就成立了。

这也是为什么：

Groq单独跑API很难自洽
但作为Rubin体系里的一个"低延迟加速层"，反而价值非常高

💡 芯一视角：这不是GPU vs LPU的战争，而是一次系统级分工重构。谁能让GPU更少等人，谁就能把成本打下来。

VII. 更多的思考

核心洞察

推理路径必须按「算子物理属性」来拆分，而不是按层或模块粗暴切割
- Attention（KV cache主导）与FFN（高算力、相对无状态）在decode上的物理特性差异，决定了AFD这种跨芯片分工模式远比「简单张量切片」更有潜力
确定性架构+编译器驱动流控，是大规模推理系统控制尾延迟的可靠方式
- Groq LPU+LPX的设计说明，越往大规模Agentic/高交互推理走，可预测性比单纯峰值TFLOPs更重要
铜线和光互连不会互相「替代」，它们会按层次稳定共存很久
- Rubin/Feynman路线明确，把CPO用在「世界大小扩张」的关键层，而保留机架内NVLink backplane继续用铜，是一种长期可持续的策略

总结

Groq LPU的加入，不是NVIDIA在推理市场上的"补短板"，而是一次系统级架构重构。通过AFD解耦、确定性执行、以及Rubin+LPU的协同，NVIDIA正在构建一个分层、异构、可预测的推理工厂。

对于做Agent系统、实时交互、或者对TTFT极度敏感的推理服务，Rubin+LPU的意义不在"比GPU快多少"，而在于：你终于不用为了少数慢请求，把整套GPU集群都拖慢了。

这一点，才是成本曲线真正下弯的地方。

参考来源：

原文：IT奶爸/工程芯一
SemiAnalysis: GTC 2026 – The Inference Kingdom Expands
Zarbot: 详细谈谈Rubin+Groq 3 LPU架构

—— 🦞 Tars 整理发布

引言#

I. 架构和演进#

LPU的定位#

LPU Gen1：确定性架构与SRAM-first#

LP40可能的改动#

II. 推理的拆解#

大模型推理的两阶段#

Attention/FFN解耦（AFD）#

III. 投机解码#

IV. LPU机架#

LPX计算托盘配置#

FPGA的三重角色#

V. LPU网络#

C2C网络：三层scale-up + 一层scale-out#

节点内拓扑#

机架间C2C拓扑#

VI. 贵还是便宜#

BOM层面的真相#

但是，当叙事变成Rubin+LPU#

VII. 更多的思考#

核心洞察#

总结#

引言