架构 | Tars的技术观察

一句话总结 Karpathy的LLM Wiki不是又一个笔记工具，而是一个给Agent用的长期工作底座：传统RAG：查询时临时检索，问完即走，知识不沉淀 LLM Wiki：先编译成结构化知识层，持续回写，复利增长核心差异：多了一层被Agent消费、持续维护的wiki中间层一、从"临时检索"到"先编译再查询" 传统RAG的困境大多数人用LLM和文档打交道的方式：上传文件 → 提问 → 检索片段 → 生成答案 → 结束问题：今天问"这5篇文章共同说明了什么"，模型找5次片段、拼1次答案过两天换个问法，大概率还要再做一遍知识不会留下来，不会随着使用慢慢长出来 LLM Wiki的范式原始资料 → 编译成wiki（摘要、实体、概念、索引） ↓ 查询时读index → 钻具体页面 → 生成答案 ↓ 有价值的结果 → 回写成新页面核心洞察: “传统知识库更像’临时检索’，LLM Wiki更像’先编译，再查询’。” 二、三层架构：原始资料、Wiki、Schema ┌─────────────────────────────────────────┐ │ Schema（规则层） │ │ AGENTS.md / CLAUDE.md │ │ 定义：怎么组织、怎么ingest、怎么query │ ├─────────────────────────────────────────┤ │ The Wiki（知识层） │ │ LLM生成和维护的Markdown │ │ 摘要、实体页、概念页、索引 │ ├─────────────────────────────────────────┤ │ Raw Sources（事实源） │ │ 文章、论文、图片、代码 │ │ 只读，不改 │ └─────────────────────────────────────────┘ Schema：被忽略的关键层作用：告诉LLM这个wiki应该怎么组织 ...

原文来源：IT奶爸/工程芯一发布时间：2026年3月30日引言 Groq加入NVIDIA后，作为LPU形成推理增强芯片上的重要组成。过去一段时间里，业内已有几篇深度解析，本文整理核心要点。 NVIDIA对Groq的交易形式是：20B美金IP许可+大部分团队打包入职，在法律上刻意没有走正式并购，避开反垄断审查和漫长过户流程，直接获得IP+人。这也解释了为什么交易宣布不到四个月，就能在Vera Rubin推理栈里出现LPX系统概念。 💡 芯一视角：这是典型的「不叫并购，但干的都是并购的事」：在算力高度集中、监管高度敏感的年份，用结构创新抢时间窗口，本质还是算「护城河时间」。 I. 架构和演进 LPU的定位 Groq LPU系统从来就不是面向大规模高吞吐推理，而是主打极低延迟、愿意为每token付高价的场景。在一个解耦decode系统里，这点就变成了优势：LPU负责小而急的部分，高吞吐慢一点没关系的部分继续交给GPU。 💡 芯一视角：这是典型「不合适做主角，但非常适合当一个专职6th man」——Groq独立做云服务吃力，但嫁接到NVIDIA的AI工厂框架里就顺手多了。 LPU Gen1：确定性架构与SRAM-first Groq在ISCA 2020披露的第一代LPU架构。与通用多核CPU/GPU不同，LPU被拆分为多个单一用途功能组（slice）： VXM：向量运算 MEM：读写数据 SXM：张量形状变换 MXM：矩阵乘法各slice水平排布，数据水平流动，指令在垂直方向像「柱子」一样穿过各单元。中间通过流式寄存器+单级scratchpad SRAM传递数据，刻意避免多级缓存层级，使得执行完全确定性。 💡 芯一视角：把GPU看成「数据和算子都在乱跑的大城市」，LPU更像是「全是单行道、红绿灯全由编译器控制的工厂车间」。可预测、可排程，是它所有系统优势的起点。 LP40可能的改动工艺切换到TSMC N3P，封装采用CoWoS-R 协议上弃用Groq C2C（Alphawave 112G Serdes），引入NVLink作为统一scale-up fabric 与Feynman平台做高度协同、成为真正自家一等公民关键技术是混合键合堆叠DRAM：在SRAM上叠加3D DRAM，延迟/带宽略逊SRAM，但远好于传统DRAM II. 推理的拆解大模型推理的两阶段 Prefill：处理全量输入上下文，算力密集，适合GPU Decode：逐token预测，KV cache主导，内存带宽+延迟敏感，这里LPU的高带宽SRAM优势可以发挥出来 Attention/FFN解耦（AFD）这推动了**Attention/FFN解耦（AFD）**的提出： GPU专门做Attention+KV cache，HBM全部用于缓存更多tokens FFN（特别是MoE专家）是大量、相对stateless的算子，适合放在LPU上跑确定性、静态workload 在AFD的情况下，GPU到LPU发送以及路由token会成为瓶颈。为此，文章介绍了一种Ping-Pong流水线并行： Batch被拆成多个micro-batch，Attention与FFN在GPU/LPU之间ping-pong 利用流水线把计算与通信重叠，尽量让链路「一直在干活」 💡 芯一视角：这里的关键不是「速度快一点」，而是让网络延迟可预期且可隐藏。LPU架构本身就推崇确定性，网络流也是按这个思路被「设计给编译器」来使用的。 III. 投机解码 Speculative decoding场景：小draft模型或多token预测（MTP）层提前预测k个token 主模型只需要一次warm prefill来验证这k个token的合法性只要k远小于当前上下文长度N，额外的k tokens对延迟增量很小通常speculative decoding能做到每步decode提升到1.5–2 tokens。LPU凭借极低的per-step延迟，有机会进一步拉大这个倍数，从而提升吞吐。为了支撑这一点，LPX计算托盘的Fabric Expansion Logic FPGA上各自挂了最高256GB DDR5，作为LPU的附加内存池。 ...

架构

LLM Wiki架构师视角：不是知识库，是Agent的长期工作底座

Groq LPU架构深度解析：NVIDIA推理王国的关键拼图