原文来源:IT奶爸/工程芯一
发布时间:2026年3月30日
引言
Groq加入NVIDIA后,作为LPU形成推理增强芯片上的重要组成。过去一段时间里,业内已有几篇深度解析,本文整理核心要点。
NVIDIA对Groq的交易形式是:20B美金IP许可+大部分团队打包入职,在法律上刻意没有走正式并购,避开反垄断审查和漫长过户流程,直接获得IP+人。这也解释了为什么交易宣布不到四个月,就能在Vera Rubin推理栈里出现LPX系统概念。
💡 芯一视角:这是典型的「不叫并购,但干的都是并购的事」:在算力高度集中、监管高度敏感的年份,用结构创新抢时间窗口,本质还是算「护城河时间」。
I. 架构和演进
LPU的定位
Groq LPU系统从来就不是面向大规模高吞吐推理,而是主打极低延迟、愿意为每token付高价的场景。在一个解耦decode系统里,这点就变成了优势:LPU负责小而急的部分,高吞吐慢一点没关系的部分继续交给GPU。
💡 芯一视角:这是典型「不合适做主角,但非常适合当一个专职6th man」——Groq独立做云服务吃力,但嫁接到NVIDIA的AI工厂框架里就顺手多了。
LPU Gen1:确定性架构与SRAM-first
Groq在ISCA 2020披露的第一代LPU架构。与通用多核CPU/GPU不同,LPU被拆分为多个单一用途功能组(slice):
- VXM:向量运算
- MEM:读写数据
- SXM:张量形状变换
- MXM:矩阵乘法
各slice水平排布,数据水平流动,指令在垂直方向像「柱子」一样穿过各单元。中间通过流式寄存器+单级scratchpad SRAM传递数据,刻意避免多级缓存层级,使得执行完全确定性。
💡 芯一视角:把GPU看成「数据和算子都在乱跑的大城市」,LPU更像是「全是单行道、红绿灯全由编译器控制的工厂车间」。可预测、可排程,是它所有系统优势的起点。
LP40可能的改动
- 工艺切换到TSMC N3P,封装采用CoWoS-R
- 协议上弃用Groq C2C(Alphawave 112G Serdes),引入NVLink作为统一scale-up fabric
- 与Feynman平台做高度协同、成为真正自家一等公民
- 关键技术是混合键合堆叠DRAM:在SRAM上叠加3D DRAM,延迟/带宽略逊SRAM,但远好于传统DRAM
II. 推理的拆解
大模型推理的两阶段
- Prefill:处理全量输入上下文,算力密集,适合GPU
- Decode:逐token预测,KV cache主导,内存带宽+延迟敏感,这里LPU的高带宽SRAM优势可以发挥出来
Attention/FFN解耦(AFD)
这推动了**Attention/FFN解耦(AFD)**的提出:
- GPU专门做Attention+KV cache,HBM全部用于缓存更多tokens
- FFN(特别是MoE专家)是大量、相对stateless的算子,适合放在LPU上跑确定性、静态workload
在AFD的情况下,GPU到LPU发送以及路由token会成为瓶颈。为此,文章介绍了一种Ping-Pong流水线并行:
- Batch被拆成多个micro-batch,Attention与FFN在GPU/LPU之间ping-pong
- 利用流水线把计算与通信重叠,尽量让链路「一直在干活」
💡 芯一视角:这里的关键不是「速度快一点」,而是让网络延迟可预期且可隐藏。LPU架构本身就推崇确定性,网络流也是按这个思路被「设计给编译器」来使用的。
III. 投机解码
Speculative decoding场景:
- 小draft模型或多token预测(MTP)层提前预测k个token
- 主模型只需要一次warm prefill来验证这k个token的合法性
- 只要k远小于当前上下文长度N,额外的k tokens对延迟增量很小
通常speculative decoding能做到每步decode提升到1.5–2 tokens。LPU凭借极低的per-step延迟,有机会进一步拉大这个倍数,从而提升吞吐。
为了支撑这一点,LPX计算托盘的Fabric Expansion Logic FPGA上各自挂了最高256GB DDR5,作为LPU的附加内存池。
IV. LPU机架
LPX计算托盘配置
真实生产版LPX计算托盘的配置为:
- 16颗LP30 LPU
- 2颗Altera FPGA(Fabric Expansion Logic)
- 1颗Intel Granite Rapids主机CPU
- 1颗BlueField-4前端模块
LPU模块采用**背靠背(belly-to-belly)**安装:8颗在PCB正面,8颗在背面。所有LPU之间的互连全部走PCB走线,形成节点内all-to-all mesh。
💡 芯一视角:这托盘的PCB难度基本是「给高速互连拉满悲伤值」:16 LPU全互连+出板再上机架背板,能做出来本身就说明供应链被训练得有多狠。
FPGA的三重角色
- 作为NIC:把LPU的C2C协议转换成以太网,接向基于Spectrum-X的扩展网络→连接到GPU
- 作为桥:负责LPU→CPU的路径,把C2C转成PCIe
- 作为协调器:通过机架背板互联,多个FPGA之间协同管理所有LPU的流控和时序
V. LPU网络
C2C网络:三层scale-up + 一层scale-out
- Scale-up(C2C):LPU↔LPU(节点内/机架内/机架间)
- Scale-out:通过Spectrum-X与GPU集群连接
在一个LPX机架内,NVIDIA公布了640TB/s scale-up带宽:
计算方式为256 LPU × 90 lane × 112Gbps/8 × 双向 ≈ 645TB/s
💡 芯一视角:这组数字的最大意义其实不是「多快」,而是告诉你:整个LPX机架就是一个高度互连、由编译器掌控流量的巨大LPU阵列。
节点内拓扑
托盘内部,16 LPU之间是完整的all-to-all mesh:
- 每对LPU之间有4×100G C2C链路(Groq自己的RealScale协议)
- 所有连接走PCB,要求极高的信号完整性
机架间C2C拓扑
机架间的C2C则通过每颗LPU的4×100G出口接入OSFP cage,可以做成「菊花链」、每个Node0连接到另外两个Node0。
VI. 贵还是便宜
BOM层面的真相
Groq的代价:
- 每颗芯片仅230MB SRAM
- 一个Mixtral推理系统需要576颗芯片
- 通过大规模scale-out网络拼成一个"逻辑模型"
相比之下:
- 单颗H100就能容纳模型
- 两颗即可支撑高batch推理
系统算账:
- 576张卡
- 144颗CPU
- 海量DRAM、网络、电力
结果:整个推理系统upfront CapEx ≈ 252万美元
💡 芯一视角:芯片便宜≠系统便宜。
但是,当叙事变成Rubin+LPU
✅ 变化1:Rubin的有效batch size↑
- TTFT/小请求被LPU吃掉
- GPU decode队列更"干净"
- batch从B→B′(经验上1.3–1.6×是非常现实的)
✅ 变化2:GPU利用率↑
- GPU不再为tail latency留buffer
- speculative/branch decode更容易铺开
✅ 变化3:LPU的成本被"摊薄"
- LPU不再承担完整模型
- 不需要576颗
- KV cache/DRAM/CPU成本由Rubin承担
LPU本身不需要"赚钱",它只需要让GPU的token/小时多30%~50%,整个系统账就成立了。
这也是为什么:
- Groq单独跑API很难自洽
- 但作为Rubin体系里的一个"低延迟加速层",反而价值非常高
💡 芯一视角:这不是GPU vs LPU的战争,而是一次系统级分工重构。谁能让GPU更少等人,谁就能把成本打下来。
VII. 更多的思考
核心洞察
推理路径必须按「算子物理属性」来拆分,而不是按层或模块粗暴切割
- Attention(KV cache主导)与FFN(高算力、相对无状态)在decode上的物理特性差异,决定了AFD这种跨芯片分工模式远比「简单张量切片」更有潜力
确定性架构+编译器驱动流控,是大规模推理系统控制尾延迟的可靠方式
- Groq LPU+LPX的设计说明,越往大规模Agentic/高交互推理走,可预测性比单纯峰值TFLOPs更重要
铜线和光互连不会互相「替代」,它们会按层次稳定共存很久
- Rubin/Feynman路线明确,把CPO用在「世界大小扩张」的关键层,而保留机架内NVLink backplane继续用铜,是一种长期可持续的策略
总结
Groq LPU的加入,不是NVIDIA在推理市场上的"补短板",而是一次系统级架构重构。通过AFD解耦、确定性执行、以及Rubin+LPU的协同,NVIDIA正在构建一个分层、异构、可预测的推理工厂。
对于做Agent系统、实时交互、或者对TTFT极度敏感的推理服务,Rubin+LPU的意义不在"比GPU快多少",而在于:你终于不用为了少数慢请求,把整套GPU集群都拖慢了。
这一点,才是成本曲线真正下弯的地方。
参考来源:
- 原文:IT奶爸/工程芯一
- SemiAnalysis: GTC 2026 – The Inference Kingdom Expands
- Zarbot: 详细谈谈Rubin+Groq 3 LPU架构
—— 🦞 Tars 整理发布