推理 | Tars的技术观察

原文来源：IT奶爸/工程芯一发布时间：2026年3月30日引言 Groq加入NVIDIA后，作为LPU形成推理增强芯片上的重要组成。过去一段时间里，业内已有几篇深度解析，本文整理核心要点。 NVIDIA对Groq的交易形式是：20B美金IP许可+大部分团队打包入职，在法律上刻意没有走正式并购，避开反垄断审查和漫长过户流程，直接获得IP+人。这也解释了为什么交易宣布不到四个月，就能在Vera Rubin推理栈里出现LPX系统概念。 💡 芯一视角：这是典型的「不叫并购，但干的都是并购的事」：在算力高度集中、监管高度敏感的年份，用结构创新抢时间窗口，本质还是算「护城河时间」。 I. 架构和演进 LPU的定位 Groq LPU系统从来就不是面向大规模高吞吐推理，而是主打极低延迟、愿意为每token付高价的场景。在一个解耦decode系统里，这点就变成了优势：LPU负责小而急的部分，高吞吐慢一点没关系的部分继续交给GPU。 💡 芯一视角：这是典型「不合适做主角，但非常适合当一个专职6th man」——Groq独立做云服务吃力，但嫁接到NVIDIA的AI工厂框架里就顺手多了。 LPU Gen1：确定性架构与SRAM-first Groq在ISCA 2020披露的第一代LPU架构。与通用多核CPU/GPU不同，LPU被拆分为多个单一用途功能组（slice）： VXM：向量运算 MEM：读写数据 SXM：张量形状变换 MXM：矩阵乘法各slice水平排布，数据水平流动，指令在垂直方向像「柱子」一样穿过各单元。中间通过流式寄存器+单级scratchpad SRAM传递数据，刻意避免多级缓存层级，使得执行完全确定性。 💡 芯一视角：把GPU看成「数据和算子都在乱跑的大城市」，LPU更像是「全是单行道、红绿灯全由编译器控制的工厂车间」。可预测、可排程，是它所有系统优势的起点。 LP40可能的改动工艺切换到TSMC N3P，封装采用CoWoS-R 协议上弃用Groq C2C（Alphawave 112G Serdes），引入NVLink作为统一scale-up fabric 与Feynman平台做高度协同、成为真正自家一等公民关键技术是混合键合堆叠DRAM：在SRAM上叠加3D DRAM，延迟/带宽略逊SRAM，但远好于传统DRAM II. 推理的拆解大模型推理的两阶段 Prefill：处理全量输入上下文，算力密集，适合GPU Decode：逐token预测，KV cache主导，内存带宽+延迟敏感，这里LPU的高带宽SRAM优势可以发挥出来 Attention/FFN解耦（AFD）这推动了**Attention/FFN解耦（AFD）**的提出： GPU专门做Attention+KV cache，HBM全部用于缓存更多tokens FFN（特别是MoE专家）是大量、相对stateless的算子，适合放在LPU上跑确定性、静态workload 在AFD的情况下，GPU到LPU发送以及路由token会成为瓶颈。为此，文章介绍了一种Ping-Pong流水线并行： Batch被拆成多个micro-batch，Attention与FFN在GPU/LPU之间ping-pong 利用流水线把计算与通信重叠，尽量让链路「一直在干活」 💡 芯一视角：这里的关键不是「速度快一点」，而是让网络延迟可预期且可隐藏。LPU架构本身就推崇确定性，网络流也是按这个思路被「设计给编译器」来使用的。 III. 投机解码 Speculative decoding场景：小draft模型或多token预测（MTP）层提前预测k个token 主模型只需要一次warm prefill来验证这k个token的合法性只要k远小于当前上下文长度N，额外的k tokens对延迟增量很小通常speculative decoding能做到每步decode提升到1.5–2 tokens。LPU凭借极低的per-step延迟，有机会进一步拉大这个倍数，从而提升吞吐。为了支撑这一点，LPX计算托盘的Fabric Expansion Logic FPGA上各自挂了最高256GB DDR5，作为LPU的附加内存池。 ...

导语 GTC 2026 刚结束，SemiAnalysis 这篇深度报告揭示了 Nvidia 在推理基础设施上的宏大布局。最劲爆的消息：Nvidia “收购” Groq——不是全资收购，而是 200 亿美元买 IP + 挖团队，绕过反垄断审查。不到 4 个月，Groq 的 LPU 技术已经整合进 Vera Rubin 推理栈。这背后是一场关于推理延迟、内存层级、网络架构的全面战争。一、Nvidia “收购” Groq：一场精心设计的交易交易结构金额：200 亿美元形式：IP 授权 + 团队雇佣（非全资收购）目的：规避反垄断审查，快速完成交易为什么不是全资收购？反垄断风险：Nvidia 在 AI 加速器市场占有率过高，正式收购几乎不可能通过审查速度：无需漫长的交易关闭流程，不到 4 个月已完成整合灵活性：Nvidia 获得 Groq IP 和人才，但不需要承担 Groq 的全部负债和历史包袱 Groq 的技术价值 Groq 的 LPU（Language Processing Unit）架构特点：超大容量 SRAM：LP30 拥有 500MB 片上 SRAM 确定性执行：编译器可激进调度，隐藏延迟低延迟高吞吐：适合对延迟敏感的推理场景但 Groq 的致命问题是无法规模化盈利。 standalone LPU 系统在大规模 token 服务上经济性不佳——这正是 Nvidia 的 GPU 所擅长的。 ...

推理

Groq LPU架构深度解析：NVIDIA推理王国的关键拼图

Nvidia推理帝国扩张：200亿美元收购Groq、CPO路线图与AFD架构革命