导语
GTC 2026 刚结束,SemiAnalysis 这篇深度报告揭示了 Nvidia 在推理基础设施上的宏大布局。
最劲爆的消息:Nvidia “收购” Groq——不是全资收购,而是 200 亿美元买 IP + 挖团队,绕过反垄断审查。不到 4 个月,Groq 的 LPU 技术已经整合进 Vera Rubin 推理栈。
这背后是一场关于推理延迟、内存层级、网络架构的全面战争。
一、Nvidia “收购” Groq:一场精心设计的交易
交易结构
- 金额:200 亿美元
- 形式:IP 授权 + 团队雇佣(非全资收购)
- 目的:规避反垄断审查,快速完成交易
为什么不是全资收购?
- 反垄断风险:Nvidia 在 AI 加速器市场占有率过高,正式收购几乎不可能通过审查
- 速度:无需漫长的交易关闭流程,不到 4 个月已完成整合
- 灵活性:Nvidia 获得 Groq IP 和人才,但不需要承担 Groq 的全部负债和历史包袱
Groq 的技术价值
Groq 的 LPU(Language Processing Unit)架构特点:
- 超大容量 SRAM:LP30 拥有 500MB 片上 SRAM
- 确定性执行:编译器可激进调度,隐藏延迟
- 低延迟高吞吐:适合对延迟敏感的推理场景
但 Groq 的致命问题是无法规模化盈利。 standalone LPU 系统在大规模 token 服务上经济性不佳——这正是 Nvidia 的 GPU 所擅长的。
Nvidia 的策略:取长补短,而非取而代之。
二、AFD 架构:GPU + LPU 的协同作战
核心概念:Attention FFN Disaggregation (AFD)
LLM 推理分为两个阶段:
- Prefill:处理完整输入上下文,计算密集
- Decode:逐 token 预测,内存带宽瓶颈
AFD 的核心洞察:Attention 和 FFN 有截然不同的性能特征。
| 特性 | Attention | FFN |
|---|---|---|
| 状态 | 有状态(KV Cache) | 无状态 |
| 瓶颈 | 加载 KV Cache | 计算本身 |
| 批处理扩展性 | 差(GPU 利用率不随 batch 提升) | 好 |
| 最佳执行单元 | GPU(大容量 HBM) | LPU(SRAM 低延迟) |
架构设计
输入 → GPU (Attention + KV Cache) → LPU (FFN) → 输出
↑___________________________________↓
(Spectrum-X 互联)
- GPU 处理 Attention:利用 HBM 的大容量存储 KV Cache
- LPU 处理 FFN:利用 SRAM 的低延迟加速计算
- Token 路由:通过 All-to-All 集体操作在 GPU 和 LPU 间传递
Ping-Pong 流水线并行
为隐藏通信延迟,采用流水线并行:
- 将 batch 拆分为 micro-batch
- GPU 和 LPU 间"乒乓"传递 token
- 计算和通信重叠
三、LP30/LP35:三星工艺的意外胜利
规格对比
| 参数 | LP1 (2020) | LP30 (2026) |
|---|---|---|
| 工艺 | GF 14nm | 三星 SF4X |
| SRAM | 230MB | 500MB |
| 算力 | 750 TOPS (INT8) | 1.2 PFLOPS (FP8) |
| 制造地 | 美国 | 美国(奥斯汀) |
为什么选择三星 SF4X?
- 不受台积电 N3 产能限制:Nvidia 的台积电产能已被 GPU 占满
- 无 HBM 依赖:LPU 使用片上 SRAM,不占用宝贵的 HBM 供应
- 美国本土制造:符合地缘政治要求,规避供应链风险
- 三星的让步:三星晶圆代工急需 AI 客户,提供了优惠条件
路线图
- LP30:2026 年量产(三星 SF4X)
- LP35:小幅更新,支持 NVFP4 格式
- LP40:2027 年,台积电 N3P + CoWoS-R,首次深度协同设计
四、LPX 机架:密度怪兽
系统架构
| 组件 | 配置 |
|---|---|
| 计算托盘 | 32 × 1U |
| 每托盘 LP30 | 16 颗 |
| 单机架 LP30 总数 | 512 颗 |
| 扩展带宽 | 640 TB/s |
| 交换机 | 2 × Spectrum-X |
网络拓扑
LPX 的网络分为三层:
1. 托盘内(Intra-Tray)
- 16 颗 LP30 全互联(all-to-all mesh)
- 每颗 LP30 与其他 15 颗各连接 4×100G
- PCB 走线,belly-to-belly 布局减少距离
2. 机架内(Inter-node/Intra-rack)
- 通过铜缆背板连接 32 个托盘
- 每颗 LP30 与机架内其他托盘的各一颗 LP30 连接 2×100G
- 总计 8,160 对差分信号
3. 机架间(Inter-rack)
- 每颗 LP30 4×100G 连接到 OSFP 笼
- 支持 4 机架互联
- Daisy chain 配置
FPGA 的关键角色
每个计算托盘配备 2 颗 Altera FPGA,承担:
- 协议转换:C2C → Ethernet(连接 Spectrum-X)
- CPU 接口:C2C → PCIe(连接主机 CPU)
- 控制平面:管理 LP30 的时序和控制流
- 内存扩展:每颗 FPGA 带最多 256GB DDR5,可作为 KV Cache
五、CPO 路线图:光进铜退的渐进策略
Nvidia 的 CPO(Co-Packaged Optics)策略比市场预期更保守:
Rubin 代(2026)
| 产品 | 规模 | 互联方式 |
|---|---|---|
| NVL72 (Oberon) | 72 GPU | 全铜缆 |
Rubin Ultra 代(2026-2027)
| 产品 | 规模 | 互联方式 |
|---|---|---|
| NVL72 (Oberon) | 72 GPU | 全铜缆 |
| NVL144 (Kyber) | 144 GPU | 全铜缆 |
| NVL288 | 288 GPU | 全铜缆(2 机架) |
| NVL576 | 576 GPU | 机架间 CPO(测试/低量) |
Feynman 代(2027+)
| 产品 | 规模 | 互联方式 |
|---|---|---|
| NVL72 (Oberon) | 72 GPU | 全铜缆 |
| NVL144 (Kyber) | 144 GPU | 全铜缆 |
| NVL1152 | 1152 GPU | 机架间 CPO(量产) |
关键洞察
- 机架内保持铜缆:成本、可靠性、功耗优势
- CPO 仅用于机架间:当铜缆距离不够时才用光
- 渐进策略:Rubin Ultra NVL576 是测试,Feynman NVL1152 才是量产
六、Vera ETL256:CPU 的密度革命
设计动机
AI 工作负载对 CPU 需求激增:
- 数据预处理和后处理
- 强化学习的模拟、代码执行、输出验证
- GPU 扩展速度快于 CPU,CPU 成为瓶颈
规格
| 参数 | 配置 |
|---|---|
| CPU 数量 | 256 颗 Vera |
| 计算托盘 | 32 个(每托盘 8 颗) |
| 交换机 | 4 × 1U MGX ETL(Spectrum-6) |
| 冷却 | 液冷 |
| 网络 | 全铜缆 all-to-all |
对称设计
- 16 个托盘在上,16 个在下
- 交换机居中,最小化到各托盘的线缆长度差异
- 所有连接在铜缆范围内,无需光模块
七、CMX / STX:存储层的标准化
CMX(Context Memory Storage)
- 解决长上下文和 Agentic 工作负载的 KV Cache 瓶颈
- Tier G3.5:介于 DRAM(G3)和共享存储(G4)之间
- 基于 BlueField-4 的 NVMe 存储服务器
STX(Storage Tier X)
- 参考存储架构
- 每机架 16 个盒子,每盒子 2 颗 BF-4
- 总计:32 颗 Vera CPU、64 颗 CX-9 NIC、64 颗 SOCAMM
战略意图
Nvidia 正在从计算层向存储层、软件层、运维层全面渗透。
八、供应链影响
受益者
- 三星晶圆代工:SF4X 获得大客户
- Altera(Intel):FPGA 需求激增
- Spectrum-X 生态:以太网交换机芯片
- CPO 供应链:Rubin Ultra NVL576 和 Feynman 将拉动光引擎需求
受害者
- 传统 CPU 厂商:Vera ETL256 挤压 x86 在 AI 数据中心的空间
- 独立 LPU 厂商:Groq 模式被证伪,资本退出
- 光模块厂商:CPO 延迟意味着 pluggable optics 还有时间窗口
九、结论:Nvidia 的推理护城河
Nvidia 正在构建一个从训练到推理、从计算到存储、从芯片到系统的完整帝国。
关键战略:
- 异构计算:GPU + LPU 协同,各取所长
- 内存层级优化:HBM → SRAM → DRAM → NVMe 的精细分工
- 网络架构演进:铜缆为主,CPO 为辅,渐进过渡
- 供应链多元化:三星 SF4X 分散台积电风险
对行业的启示:
- 单纯追求低延迟的架构(如 Groq standalone)难以规模化
- 未来 AI 基础设施是系统工程,单点优化不够
- Nvidia 的竞争优势已从芯片设计扩展到全栈优化
原文来源:SemiAnalysis 分析:Tars | 2026-03-25
散热点评:
Nvidia 这次布局的精妙之处在于不颠覆现有秩序,而是填补空白。Groq 的 LPU 不是替代 GPU,而是作为 GPU 的"加速器伴侣"。
AFD 架构的提出,标志着 AI 推理从"堆算力"进入"精细调度"时代。当行业还在卷 FP8/FP4 精度时,Nvidia 已经在优化内存访问模式和计算单元分工。
最值得关注的是三星 SF4X 的意外崛起。在台积电 N3 产能紧张的背景下,Nvidia 找到了一条不依赖台积电的扩产路径。这对整个半导体供应链都有深远影响。
散热正常,慧哥。🧊