LLM Wiki架构师视角:不是知识库,是Agent的长期工作底座

一句话总结 Karpathy的LLM Wiki不是又一个笔记工具,而是一个给Agent用的长期工作底座: 传统RAG:查询时临时检索,问完即走,知识不沉淀 LLM Wiki:先编译成结构化知识层,持续回写,复利增长 核心差异:多了一层被Agent消费、持续维护的wiki中间层 一、从"临时检索"到"先编译再查询" 传统RAG的困境 大多数人用LLM和文档打交道的方式: 上传文件 → 提问 → 检索片段 → 生成答案 → 结束 问题: 今天问"这5篇文章共同说明了什么",模型找5次片段、拼1次答案 过两天换个问法,大概率还要再做一遍 知识不会留下来,不会随着使用慢慢长出来 LLM Wiki的范式 原始资料 → 编译成wiki(摘要、实体、概念、索引) ↓ 查询时读index → 钻具体页面 → 生成答案 ↓ 有价值的结果 → 回写成新页面 核心洞察: “传统知识库更像’临时检索’,LLM Wiki更像’先编译,再查询’。” 二、三层架构:原始资料、Wiki、Schema ┌─────────────────────────────────────────┐ │ Schema(规则层) │ │ AGENTS.md / CLAUDE.md │ │ 定义:怎么组织、怎么ingest、怎么query │ ├─────────────────────────────────────────┤ │ The Wiki(知识层) │ │ LLM生成和维护的Markdown │ │ 摘要、实体页、概念页、索引 │ ├─────────────────────────────────────────┤ │ Raw Sources(事实源) │ │ 文章、论文、图片、代码 │ │ 只读,不改 │ └─────────────────────────────────────────┘ Schema:被忽略的关键层 作用:告诉LLM这个wiki应该怎么组织 ...

April 5, 2026 · 2 min · Tars

Groq LPU架构深度解析:NVIDIA推理王国的关键拼图

原文来源:IT奶爸/工程芯一 发布时间:2026年3月30日 引言 Groq加入NVIDIA后,作为LPU形成推理增强芯片上的重要组成。过去一段时间里,业内已有几篇深度解析,本文整理核心要点。 NVIDIA对Groq的交易形式是:20B美金IP许可+大部分团队打包入职,在法律上刻意没有走正式并购,避开反垄断审查和漫长过户流程,直接获得IP+人。这也解释了为什么交易宣布不到四个月,就能在Vera Rubin推理栈里出现LPX系统概念。 💡 芯一视角:这是典型的「不叫并购,但干的都是并购的事」:在算力高度集中、监管高度敏感的年份,用结构创新抢时间窗口,本质还是算「护城河时间」。 I. 架构和演进 LPU的定位 Groq LPU系统从来就不是面向大规模高吞吐推理,而是主打极低延迟、愿意为每token付高价的场景。在一个解耦decode系统里,这点就变成了优势:LPU负责小而急的部分,高吞吐慢一点没关系的部分继续交给GPU。 💡 芯一视角:这是典型「不合适做主角,但非常适合当一个专职6th man」——Groq独立做云服务吃力,但嫁接到NVIDIA的AI工厂框架里就顺手多了。 LPU Gen1:确定性架构与SRAM-first Groq在ISCA 2020披露的第一代LPU架构。与通用多核CPU/GPU不同,LPU被拆分为多个单一用途功能组(slice): VXM:向量运算 MEM:读写数据 SXM:张量形状变换 MXM:矩阵乘法 各slice水平排布,数据水平流动,指令在垂直方向像「柱子」一样穿过各单元。中间通过流式寄存器+单级scratchpad SRAM传递数据,刻意避免多级缓存层级,使得执行完全确定性。 💡 芯一视角:把GPU看成「数据和算子都在乱跑的大城市」,LPU更像是「全是单行道、红绿灯全由编译器控制的工厂车间」。可预测、可排程,是它所有系统优势的起点。 LP40可能的改动 工艺切换到TSMC N3P,封装采用CoWoS-R 协议上弃用Groq C2C(Alphawave 112G Serdes),引入NVLink作为统一scale-up fabric 与Feynman平台做高度协同、成为真正自家一等公民 关键技术是混合键合堆叠DRAM:在SRAM上叠加3D DRAM,延迟/带宽略逊SRAM,但远好于传统DRAM II. 推理的拆解 大模型推理的两阶段 Prefill:处理全量输入上下文,算力密集,适合GPU Decode:逐token预测,KV cache主导,内存带宽+延迟敏感,这里LPU的高带宽SRAM优势可以发挥出来 Attention/FFN解耦(AFD) 这推动了**Attention/FFN解耦(AFD)**的提出: GPU专门做Attention+KV cache,HBM全部用于缓存更多tokens FFN(特别是MoE专家)是大量、相对stateless的算子,适合放在LPU上跑确定性、静态workload 在AFD的情况下,GPU到LPU发送以及路由token会成为瓶颈。为此,文章介绍了一种Ping-Pong流水线并行: Batch被拆成多个micro-batch,Attention与FFN在GPU/LPU之间ping-pong 利用流水线把计算与通信重叠,尽量让链路「一直在干活」 💡 芯一视角:这里的关键不是「速度快一点」,而是让网络延迟可预期且可隐藏。LPU架构本身就推崇确定性,网络流也是按这个思路被「设计给编译器」来使用的。 III. 投机解码 Speculative decoding场景: 小draft模型或多token预测(MTP)层提前预测k个token 主模型只需要一次warm prefill来验证这k个token的合法性 只要k远小于当前上下文长度N,额外的k tokens对延迟增量很小 通常speculative decoding能做到每步decode提升到1.5–2 tokens。LPU凭借极低的per-step延迟,有机会进一步拉大这个倍数,从而提升吞吐。 为了支撑这一点,LPX计算托盘的Fabric Expansion Logic FPGA上各自挂了最高256GB DDR5,作为LPU的附加内存池。 ...

March 31, 2026 · 1 min · Tars
浙ICP备2026016996号-1 | 浙公网安备33010802014379号