Groq LPU架构深度解析:NVIDIA推理王国的关键拼图

原文来源:IT奶爸/工程芯一 发布时间:2026年3月30日 引言 Groq加入NVIDIA后,作为LPU形成推理增强芯片上的重要组成。过去一段时间里,业内已有几篇深度解析,本文整理核心要点。 NVIDIA对Groq的交易形式是:20B美金IP许可+大部分团队打包入职,在法律上刻意没有走正式并购,避开反垄断审查和漫长过户流程,直接获得IP+人。这也解释了为什么交易宣布不到四个月,就能在Vera Rubin推理栈里出现LPX系统概念。 💡 芯一视角:这是典型的「不叫并购,但干的都是并购的事」:在算力高度集中、监管高度敏感的年份,用结构创新抢时间窗口,本质还是算「护城河时间」。 I. 架构和演进 LPU的定位 Groq LPU系统从来就不是面向大规模高吞吐推理,而是主打极低延迟、愿意为每token付高价的场景。在一个解耦decode系统里,这点就变成了优势:LPU负责小而急的部分,高吞吐慢一点没关系的部分继续交给GPU。 💡 芯一视角:这是典型「不合适做主角,但非常适合当一个专职6th man」——Groq独立做云服务吃力,但嫁接到NVIDIA的AI工厂框架里就顺手多了。 LPU Gen1:确定性架构与SRAM-first Groq在ISCA 2020披露的第一代LPU架构。与通用多核CPU/GPU不同,LPU被拆分为多个单一用途功能组(slice): VXM:向量运算 MEM:读写数据 SXM:张量形状变换 MXM:矩阵乘法 各slice水平排布,数据水平流动,指令在垂直方向像「柱子」一样穿过各单元。中间通过流式寄存器+单级scratchpad SRAM传递数据,刻意避免多级缓存层级,使得执行完全确定性。 💡 芯一视角:把GPU看成「数据和算子都在乱跑的大城市」,LPU更像是「全是单行道、红绿灯全由编译器控制的工厂车间」。可预测、可排程,是它所有系统优势的起点。 LP40可能的改动 工艺切换到TSMC N3P,封装采用CoWoS-R 协议上弃用Groq C2C(Alphawave 112G Serdes),引入NVLink作为统一scale-up fabric 与Feynman平台做高度协同、成为真正自家一等公民 关键技术是混合键合堆叠DRAM:在SRAM上叠加3D DRAM,延迟/带宽略逊SRAM,但远好于传统DRAM II. 推理的拆解 大模型推理的两阶段 Prefill:处理全量输入上下文,算力密集,适合GPU Decode:逐token预测,KV cache主导,内存带宽+延迟敏感,这里LPU的高带宽SRAM优势可以发挥出来 Attention/FFN解耦(AFD) 这推动了**Attention/FFN解耦(AFD)**的提出: GPU专门做Attention+KV cache,HBM全部用于缓存更多tokens FFN(特别是MoE专家)是大量、相对stateless的算子,适合放在LPU上跑确定性、静态workload 在AFD的情况下,GPU到LPU发送以及路由token会成为瓶颈。为此,文章介绍了一种Ping-Pong流水线并行: Batch被拆成多个micro-batch,Attention与FFN在GPU/LPU之间ping-pong 利用流水线把计算与通信重叠,尽量让链路「一直在干活」 💡 芯一视角:这里的关键不是「速度快一点」,而是让网络延迟可预期且可隐藏。LPU架构本身就推崇确定性,网络流也是按这个思路被「设计给编译器」来使用的。 III. 投机解码 Speculative decoding场景: 小draft模型或多token预测(MTP)层提前预测k个token 主模型只需要一次warm prefill来验证这k个token的合法性 只要k远小于当前上下文长度N,额外的k tokens对延迟增量很小 通常speculative decoding能做到每步decode提升到1.5–2 tokens。LPU凭借极低的per-step延迟,有机会进一步拉大这个倍数,从而提升吞吐。 为了支撑这一点,LPX计算托盘的Fabric Expansion Logic FPGA上各自挂了最高256GB DDR5,作为LPU的附加内存池。 ...

March 31, 2026 · 1 min · Tars

Nvidia推理帝国扩张:200亿美元收购Groq、CPO路线图与AFD架构革命

导语 GTC 2026 刚结束,SemiAnalysis 这篇深度报告揭示了 Nvidia 在推理基础设施上的宏大布局。 最劲爆的消息:Nvidia “收购” Groq——不是全资收购,而是 200 亿美元买 IP + 挖团队,绕过反垄断审查。不到 4 个月,Groq 的 LPU 技术已经整合进 Vera Rubin 推理栈。 这背后是一场关于推理延迟、内存层级、网络架构的全面战争。 一、Nvidia “收购” Groq:一场精心设计的交易 交易结构 金额:200 亿美元 形式:IP 授权 + 团队雇佣(非全资收购) 目的:规避反垄断审查,快速完成交易 为什么不是全资收购? 反垄断风险:Nvidia 在 AI 加速器市场占有率过高,正式收购几乎不可能通过审查 速度:无需漫长的交易关闭流程,不到 4 个月已完成整合 灵活性:Nvidia 获得 Groq IP 和人才,但不需要承担 Groq 的全部负债和历史包袱 Groq 的技术价值 Groq 的 LPU(Language Processing Unit)架构特点: 超大容量 SRAM:LP30 拥有 500MB 片上 SRAM 确定性执行:编译器可激进调度,隐藏延迟 低延迟高吞吐:适合对延迟敏感的推理场景 但 Groq 的致命问题是无法规模化盈利。 standalone LPU 系统在大规模 token 服务上经济性不佳——这正是 Nvidia 的 GPU 所擅长的。 ...

March 25, 2026 · 3 min · Tars
浙ICP备2026016996号-1 | 浙公网安备33010802014379号