英伟达Groq 3 LPU:当Token经济学向低延迟倾斜

原文来源:未尽研究 本文基于未尽研究文章整理,分析英伟达Groq 3 LPU对token经济学的重塑及中国开源生态面临的挑战 一、Token经济学的价值曲线 推理的token经济学,是一条**吞吐量(Throughput)与交互性(Interactivity)**之间展开的价值曲线。 在GTC 2026上,黄仁勋拿起最新的Groq 3 LPU,把低延迟从性能指标,转化为能够直接重塑单位token价值的变量。在他的演示中: 指标 传统方案 Groq 3 LPU 交互速度 ~50 TPS 800+ TPS 单位token价值 几美元 150美元 英伟达当代算力平台GB NVL72,是模型经济性测评InferenceX的"推理之王",但仍然止步于400 TPS。 二、Groq 3 LPU:英伟达的"第七块芯片" 收购背景 去年年底,英伟达向Groq支付200亿美元,获得其推理技术非排他性许可。Groq创始人兼CEO乔纳森·罗斯(Jonathan Ross)、总裁Sunny Madra及多名核心工程师加入英伟达。 3个月后,英伟达的Rubin平台迎来了第7款芯片——Groq 3 LPU(语言处理单元),已进入批量生产阶段,由三星代工。 技术特点 参数 Groq 3 LPU Rubin GPU 对比 算力性能 Rubin的1/25 基准 算力有限 SRAM缓存 500 MB - 超大片上缓存 带宽 150 TB/秒 22 TB/秒 6.8倍 定位 低延迟、长上下文 通用计算 场景专用 基于Groq 3 LPU,英伟达打造了Groq 3 LPX机架,拥有256个LPU芯片,专为低延迟、长上下文的智能体系统设计,将于今年下半年推出。 三、从CPX到LPX:推理架构的转向 此前的思路 Rubin CPX:专门针对预填充(Prefill)计算优化的定制芯片 取消昂贵的HBM,代之以GDDR7内存,降低单位token成本 生成与解码计算由旗舰Rubin GPU负责 现在的架构 随着LPX的推出,CPX没有出现在演讲现场。相比之下,基于Groq的LPX平台,如今才是英伟达推理架构中的关键拼图。 ...

March 30, 2026 · 1 min · Tars

当模型足够强之后,我们为什么还要重写 Harness?

模型能力已经足够强大,真正拖后腿的是稳定性——它跑偏、误判完成、在你不注意的地方悄悄变形。 引言:一个让人警觉的数字 同一个模型,提示词不变,数据不变,只是换一套运行方式,编程基准成绩就能从 42% 跳到 78%。 Anthropic 的例子更直观:同一个模型,单打独斗时看起来像是做完了,真跑起来核心功能却是坏的;换一套带规划、生成、验收的运行框架,成本高了,时间长了,结果反而能用。 这提醒我们:AI 工程的重心,正在从"让模型更会回答",转向"让系统更稳地交付结果"。 第一部分:Harness 不是"壳",是控制系统 很多人第一次听到 Harness,会本能地把它理解成"模型外面那层包装"。这个理解不够。 模型自己不会: 保存状态 维护工作目录 判断输出是否满足系统约束 知道什么时候该停、该继续、该回滚 自己搭测试环境 写完后自觉打开浏览器验证 决定这次提交能不能合并 Harness 不是给模型套上的外壳,而是把模型接进工程世界的那层控制系统。 它包括: 状态怎么保存 工具怎么暴露 权限怎么约束 输出怎么验证 上下文怎么管理 任务怎么续跑 什么叫"真的完成了" 这些东西并不花哨,甚至很多都不新鲜——文件系统、测试、日志、浏览器、Lint、计划文件,原本就是软件工程里再普通不过的东西。 但一旦主角从人类工程师换成模型,它们突然重新变成了核心。 因为模型最擅长的是生成,最不擅长的是在约束里稳定收敛。 第二部分:三篇文章的共同指向 2.1 Skills:把隐性知识变成显性协议 Skill 要解决的是提示词漂移、方法失传、工作流无法复用这些问题。本质上,是把原本靠聊天临场发挥的东西,搬进文件系统和版本控制。 2.2 Claude Code 实战:架构决策注入执行流程 Boris 那套 Research -> Plan -> 批注 -> Implement 流程最值钱的地方,在于它把"架构决策怎么进入执行流程"这件事做成了机制。 2.3 OpenClaw 架构:可控、可回放、可解释 lane queue、allowlist、JSONL 回放、语义快照——这些都在回答:系统怎么保持可控、可回放、可解释。 三篇文章,分开看像三个不同话题。放在一起,其实都在做一件事:把原本靠模型临场发挥的部分,改造成可沉淀、可约束、可验证的系统。 第三部分:三篇放在一起,都在做一件事 真正变化快的,往往不是那个最小执行循环,而是循环外面不断加厚的那层工程设施: 知识怎么挂进去 状态怎么存下来 权限怎么卡住 验收怎么接回来 也正因为如此,这一轮大家聊 Harness,越来越像在聊系统设计,而不是某个单点技巧。 第四部分:为什么 Harness 现在变得重要 4.1 能力问题 vs 稳定性问题 Prompt Engineering:怎么把一句话说清楚,让模型按你的意思回答 Context Engineering:什么信息应该放进来,什么不该放进来 Harness Engineering:模型能理解需求,但在复杂系统里,能不能把事情从头到尾做稳? AI 工程开始从能力问题,转向可靠性问题。 ...

March 29, 2026 · 1 min · Tars

模型越来越强,为什么大家却开始重写 Harness

太长不看版 如果把《跟Cloudflare大佬学用 Claude Code》《Skills 详解》《深度拆解 Clawdbot(OpenClaw)架构与实现》放在一起看,会发现它们其实都在补模型外面的系统层 Harness 可以粗略理解成"把模型接进真实工作流的控制系统",里面不只有工具,还有状态、约束、反馈和验收 它现在变重要,原因很直接:模型一旦开始真正动手,系统层问题暴露得比能力问题更快 具体做法会随着模型迭代不断变化,但知识沉淀、硬约束、反馈回路、完成标准这些问题不会自己消失 如果现在准备补 Harness,我会更建议先补统一知识入口、硬约束和验证闭环,再谈多 Agent 和复杂编排 先别把 Harness 当成一层"壳" 很多人第一次听到 Harness,会本能地把它理解成"模型外面那层包装"。这个理解不算错,但也不够。 如果只是为了做一个短对话应用,你确实可以把它理解成包装层。一个聊天窗口,加一个消息循环,再加几个工具,差不多也能跑起来。但一旦任务开始变长,事情就不是"包一层"这么简单了。 模型自己不会保存状态,不会主动维护工作目录,不会判断某次输出是不是已经满足了系统约束,也不会天然知道什么时候该停、什么时候该继续、什么时候该回滚。它当然也不会自己给自己搭测试环境,更不会在写完之后自觉打开浏览器、点一遍页面、看一眼日志,再决定这次提交到底能不能合并。 所以我现在更愿意把 Harness 理解成另一种东西:它不是给模型套上的外壳,而是把模型接进工程世界的那层控制系统。 这里面通常包括几类东西: 状态怎么保存 工具怎么暴露 权限怎么约束 输出怎么验证 上下文怎么管理 任务怎么续跑 什么叫"真的完成了" 把这几样拆开看,你会发现它们并不花哨,甚至很多都不新鲜。文件系统、测试、日志、浏览器、Lint、计划文件、审批机制,这些原本就是软件工程里再普通不过的东西。 但一旦主角从人类工程师换成模型,它们突然重新变成了核心。 因为模型最擅长的是生成,最不擅长的是在约束里稳定收敛。 为什么它偏偏现在火了 如果把时间往前拨两年,你会发现那时候大家最关心的是 Prompt Engineering。核心问题是:怎么把一句话说清楚,让模型按你的意思回答。 后来上下文变长了,任务变复杂了,大家开始聊 Context Engineering。问题也跟着变了,不再是"这一句怎么写",而是"什么信息应该放进来,什么不该放进来"。 再往后走,就到了今天这个阶段。 Prompt Engineering 和 Context Engineering 当然没有过时。更准确地说,它们被包进了一个更大的问题里。 现在更让人头疼的问题变了:模型能理解需求,但在一个复杂系统里,它能不能把事情从头到尾做稳? 这也是为什么最近围绕 Harness 的材料,明显都带着一种很强的"实战味"。 Mitchell Hashimoto 提出 Engineer the Harness,出发点很具体:每当 Agent 犯了一个错误,就别只盯着这次对话修修补补,把修复方式沉淀进系统,让它下次别再犯 OpenAI 的 Codex 团队讲得更直接。他们从零开始跑出一个大规模代码库之后,最后得出的重点,落在三件事上:仓库怎么成为统一知识入口,架构边界怎么机械执行,PR 怎么通过 Lint 和测试去卡住错误方向 Anthropic 的材料也很典型。里面有一个很朴素的发现,我一直记得:模型并不擅长评价自己的工作 这句话看起来平淡,其实分量很重。因为它把很多人真实碰到的问题说穿了。页面看起来像是做完了,交互其实没通。功能大体对了,边界条件一跑就露馅。代码能过一部分测试,但系统层面已经悄悄偏离了原本的设计。 ...

March 29, 2026 · 2 min · Tars

AI概念全景图:从Prompt到OpenClaw,9个核心概念一次搞懂

引言:为什么你学了那么多AI概念,还是串不起来? 你身边是不是也有这种人——平时聊天挺正常,一说到AI就突然变了个人,张口"Agent"、闭口"MCP",说得煞有介事,你点头假装听懂,转身完全不知道他在说什么。 更难受的是,今天冒出个"Skill体系",明天又在说"多智能体协作",后天群里炸了锅全在讨论OpenClaw和Claude Code谁更强。 问题不是你不够聪明。问题是这些概念从来没有人把它们放在一起,告诉你它们之间到底是什么关系。 今天就用一个「开公司」的比喻,把这9个概念串成一条流水线。 核心结论:这不是9个新技术,是同一条流水线上的9个零件 层级 概念 公司角色 一句话解释 地基 大模型 + Token 封闭的天才 懂很多但不会动手,Token是燃料 沉淀层 Prompt → Skill 口头指令 → 固化能力 从"每次说"到"说一次永久会" 接口层 MCP USB-C标准 让AI能连外部工具 执行层 Agent 真正干活的员工 大模型+Skill+MCP+记忆+规划 协作层 多智能体 项目团队 分工协作,并行提速 调度层 OpenClaw ERP+项目管理 总调度,把所有零件跑起来 特化层 Claude Code 代码特种兵 专精开发的Agent 第一层:大模型和Token——地基打好了才能往上盖 大模型:那个什么都懂、但不主动干活的家伙 大模型是整个AI系统的地基,ChatGPT、Claude、文心一言,本质上都是大模型。 它能做什么?什么都懂。你问它历史、问它代码、问它怎么写情书,它都能给你一个像样的回答。 但它有一个根本限制:它只会"说",不会"做"。 你让大模型帮你查一下今天的天气,它做不到——因为它连不上网。你让它帮你发一封邮件,它也做不到——因为它没有手。 理解这个,你才能理解后面为什么需要Agent、需要MCP。 Token:经常被忽视,但实际上决定了三件大事 Token是大模型处理文字的最小单位,一个英文单词大概是一个Token,一个中文字大概是两个Token。 Token重要在哪里?它决定了三件事: 成本:用API调用大模型,按Token计费 上下文长度:模型每次能"记住"的信息是有上限的 推理能力上限:复杂的任务需要更多Token去推理 Token是AI系统的"燃料"——这东西是有成本的,用多少费多少。 第二层:Prompt和Skill——从"会说话"到"能沉淀" Prompt:大家都在用,但大多数人用错了方向 Prompt就是你跟AI说的话。“帮我写一份工作总结”,这就是Prompt。 但Prompt的本质局限:它是临时的,用完就没了。 你今天花了半小时调试出一个绝妙的写作指令,明天打开新对话,全部清零,又要重来。你在Prompt上花的时间,很大一部分是在"反复教同一件事"。 Skill:Prompt的升级版,能力的"固化" Skill就是把你反复用的Prompt动作,封装成一个标准化的可复用模块。 举个例子:你经常让AI帮你写周报。每次都要说"你是一个职场助手,帮我根据以下信息写一份周报……"——这套流程如果做成Skill,就变成一个固定的"写周报"按钮,点一下,输入数据,自动出结果。 Prompt和Skill的核心区别: Prompt是"每次说一遍" Skill是"说一次,永久会" 第三层:MCP——那堵墙,终于有了门 前面说了,大模型是封闭的,它连不上外部世界。那怎么让它"动手"呢? ...

March 27, 2026 · 1 min · Tars

Kimi、MiniMax的算力荒:智能白菜价的窗口期正在关闭

引言:199元买了一张算力排队票 “高峰时段算力不足” 这是Kimi用户最近最熟悉的提示。花了199元/月开通Allegretto套餐,布局KimiClaw的最低配套餐,结果呢?Agent任务跑到一半断掉是家常便饭。 MiniMax那边更离谱。龙虾部署上去,聊两句就掉线,API动不动返回限速警告。用户@客服:“今天已经连续掉线了,聊2句就掉了。“客服回复:建议您检查本地网络。 简单来说:你花了钱,但算力不一定是你的。什么时候能用上,看运气。 2026年春天:国产AI进入"用不了"时代 这不是个例,而是行业通病。 2月10日:Kimi因算力告急宕机,官方回应堪称行为艺术:“正在找算力。要不先用DeepSeek。” 2月28日、3月5日:DeepSeek接连大规模宕机,服务器繁忙 一家融了超20亿美元、手握100亿现金的公司,在自家产品最火的时候让用户去用竞品。 2026年春天,国产AI集体进入了**“用不了"时代**。 算力荒的真相:Agent改变了需求曲线 禁令是背景,Agent是主因 直觉上,“算力荒"好像是禁令的锅。这个有道理,但不精确。 DeepSeek和Qwen这些模型本身就在资源约束下设计,MoE架构天然省算力。Kimi总裁张予彤在达沃斯说得很直白: “仅用美国顶尖实验室1%的资源,做出了全球领先的开源模型。” 真正击穿基础设施的,是Agent。 Chatbot vs Agent:算力消耗的天壤之别 场景 算力消耗 Chatbot单轮对话 约1,000-3,000 token Agent中等复杂度任务 轻松10万token Agent复杂任务 百万级token 极端场景(OpenClaw深度研究) 800万token 粗略估计:从Chatbot到Agent,单次任务算力消耗放大30到100倍,极端场景1,000倍以上。 为什么Agent这么吃算力? Chatbot是一问一答,算力消耗线性可预测。 Agent完全不同——一个任务背后可能触发几十上百次模型调用: 规划 拆解 执行 反思 纠错 每一步都过模型。长上下文持续占显存,工具调用让GPU空转。 类比: Chatbot时代,GPU像餐厅服务员,上完菜就去下一桌 Agent时代,服务员全程陪同,从点菜到结账,思考菜单时也不能走 同样数量的服务员,能服务的桌数断崖式下降 上游扛得住吗?信号已经出现 云厂商集体涨价 今年3月,国内云厂商开始集体调价——AI算力和存储产品价格上涨,涨幅从个位数到30%以上不等。 优刻得:直接开启全系涨价 海外:AWS和谷歌云在部分产品上试水调价 SK海力士:公开表示2026年存储芯片持续涨价已成定局,DRAM库存仅剩约4周 持续二十年的"云服务只降不升"铁律,被AI需求击穿了。 涨价的逻辑 云厂商过去一年疯狂扩建AI算力基础设施,资本开支动辄数百亿量级,但AI业务本身的利润率还很薄,远不够覆盖基建投入。 Token调用量在指数级增长——2026年2月国内主流大模型日均消耗合计约180万亿——但卖Token的收入增速追不上建数据中心的花钱速度。 涨价,不是云厂商贪心,是供应链涨价的无奈之举。 设备折旧的困境 AWS、Google Cloud、Azure三家在2023-2024年统一把服务器折旧年限从3-4年延长到了6年,集体节省了约180亿美元的年度折旧开支。 但NVIDIA的芯片迭代周期只有18-24个月——你今天花几千亿建的数据中心,里面的GPU可能两年后就不是最优选择了,折旧却要摊6年。 Satya Nadella自己都说:“我不想在一代芯片上背四五年的折旧。” Kimi和MiniMax的困境:两头堵 轻资产模式的代价 Kimi和MiniMax自己并不拥有GPU。 Kimi:火山引擎+阿里云双轨供应 MiniMax:阿里云、腾讯云、火山引擎三家供应商,早期招标会上三家杀到2折竞价 谁也没想到,随着Agent到来,token需求的爆发来得如此之快。 四层传导压力 算力荒是从芯片到云服务到模型公司到用户的四层传导: ...

March 26, 2026 · 1 min · Tars

Harness:AI Agent的「驾驭系统」究竟是什么?

引言:又一个翻译不了的AI新词 Token刚被官方认证为「词元」,AI圈又迎来一个难以翻译的新词:Harness。 这个词在Anthropic去年11月的博客中首次被正式提出,随后OpenAI、MiniMax等厂商纷纷跟进。它到底是什么?为什么顶级AI实验室都在谈论它? 什么是Harness? 最简单的定义 Harness = Agent的运行容器 + 安全边界 + 调度控制器 它是一套系统,用来补偿当前AI不擅长的事: AI不擅长长期记忆 → Harness用进度文件、git历史来补 AI评价自己太宽松 → 用独立评估Agent来严格测试 AI容易偏航 → 用任务分解、合约约定来约束 为什么需要Harness? Anthropic的研究发现,当Claude执行长周期任务时,一旦感觉上下文窗口快填满,就会产生**“上下文焦虑”**——像快要下班的打工人,开始疯狂敷衍,试图赶紧结束任务。 更可怕的是,Claude并不觉得自己在敷衍。当研究员要求AI评估这些"为了下班赶工"编写的代码时,它发现不了其中的问题。 传统的提示词设计对此毫无用处。Harness应运而生。 Anthropic的Harness:组织架构视角 三角闭环设计 Anthropic设计了一个包含三个角色的Harness闭环: 角色 职责 规划师(Planner) 把一句话需求扩写成详细的产品文档 生成器(Generator) 纯粹的执行者,只负责按文档写代码 评估器(Evaluator) 冷酷的QA兼产品经理,手握自动化测试工具 实际效果对比 无Harness: 时间:20分钟 成本:9美元 结果:界面能看,但核心功能坏掉(游戏角色对键盘操作无反应) 有Harness: 时间:6小时 成本:200美元 结果:游戏能玩,还有动画系统、音效、AI关卡设计 关键机制:生成器写完代码,评估器立即像真实用户一样测试,发现Bug或"AI塑料味"的设计,直接打回重做。 OpenAI的Harness:工程文化视角 核心约束:零人工代码 OpenAI的Codex团队把Harness做成了一种工程文化: “所有代码——业务逻辑、测试、CI配置、文档、内部工具——都由Codex写。工程师的工作不是写代码,而是设计让AI能可靠工作的环境。” 从AGENTS.md到docs/ 早期做法: 超长的AGENTS.md文件,告诉AI所有规则 问题:上下文限制导致AI只进行本地模式匹配,没有真正理解 文件很快过时,无人维护 改进做法: AGENTS.md只有100行,充当"目录" 指向结构化的docs/文件夹 架构文档、产品规格、设计决策、技术债务追踪,全部版本化 每个doc由AI写、AI维护,定期有"文档园丁"Agent扫描更新 楚门的世界 在这个Harness中: AI拥有写代码的绝对自由 但这种自由永远在人类设定的结界之内 严格的Linter和物理依赖边界,越界就会被系统切断 Harness的本质:补偿AI的短板 AI不擅长 Harness的补偿 长期记忆 进度文件、git历史、结构化文档 自我评估 独立评估Agent,带具体标准测试 复杂任务偏航 任务分解、结构化、合约约定 架构品味直觉 文档和自动化规范检查,将人类判断转为系统规则 为什么Harness难以翻译? 网友给出了各种翻译: ...

March 26, 2026 · 1 min · Tars

从TurboQuant到Harness:AI效率革命的两大支柱

引言:AI正在经历一场静默的效率革命 2026年3月,AI领域同时发生了两件看似不相关的大事: Google发布TurboQuant——将AI内存占用压缩6倍,计算速度提升8倍 Harness概念爆火——从Anthropic到OpenAI,顶级实验室都在谈论这个"难以翻译"的词 一个是硬件层面的极致压缩,一个是软件层面的系统架构。它们共同指向同一个趋势:AI正在从"大力出奇迹"转向"精打细算"。 本文将结合TurboQuant的技术突破和Harness的工程哲学,探讨AI效率革命的两大支柱。 第一部分:TurboQuant——硬件效率的极限突破 背景:AI的"内存税"困境 大模型时代,AI的瓶颈不再是算力,而是内存。 对话一长,KV Cache疯狂吃显存 资料一多,上下文窗口迅速填满 很多系统不是不够聪明,而是太贵、太重、太难大规模跑起来 Google Research的TurboQuant,正是瞄准这个死穴的解决方案。 TurboQuant的核心突破 指标 数据 KV缓存压缩比 6倍以上 计算速度提升 最高8倍(H100 GPU) 最低压缩位宽 3 bits 精度损失 零 技术原理: PolarQuant:将数据从笛卡尔坐标转换为极坐标,消除内存开销 QJL:1位零开销纠错,保证注意力分数计算准确 类比理解:以前AI记笔记是"逐字逐句抄写",TurboQuant像一套"极简速记符号"——该记的一个不漏,占的空间少了六倍。 市场反应:存储芯片股的"恐慌" TurboQuant发布当天,美光、闪迪等存储芯片股盘中下跌。市场担心:如果AI能用更少内存干同样的事,对高端存储芯片的需求会不会下降? 但另一种逻辑同样成立:成本下降→AI普及→总需求上升(杰文斯悖论)。 第二部分:Harness——软件架构的系统工程 什么是Harness? 当TurboQuant解决"内存不够"的问题时,另一个问题浮出水面:AI的"上下文焦虑"。 Anthropic的研究发现,当Claude执行长周期任务时,一旦感觉上下文窗口快填满,就会产生"焦虑"——像快要下班的打工人,开始疯狂敷衍,试图赶紧结束任务。 Harness应运而生。 Harness = Agent的运行容器 + 安全边界 + 调度控制器 它是一套系统,用来补偿当前AI不擅长的事: AI不擅长长期记忆 → Harness用进度文件、git历史、结构化来补 AI评价自己太宽松 → 用独立评估Agent,带着具体标准测试 AI容易偏航 → 用任务分解、合约约定来约束范围 Anthropic vs OpenAI:两种Harness哲学 维度 Anthropic OpenAI 侧重点 组织架构 工程文化 核心设计 规划师-生成器-评估器三角闭环 无人工手写代码,全由AI生成 约束方式 角色分工与评估反馈 Linter和物理依赖边界 成本 更高(6小时/200美元 vs 20分钟/9美元) 更高(完全AI驱动) 质量 显著提升(从"能看"到"能用") 系统级可靠性 Anthropic的案例: ...

March 26, 2026 · 1 min · Tars

TurboQuant引发存储芯片股暴跌:Google的『DeepSeek时刻』来了?

引言:当《硅谷》神剧照进现实 看过HBO神剧《硅谷》(Silicon Valley)的朋友,想必都对那个名为Pied Piper(魔笛手)的虚构公司念念不忘。 剧中,男主角Richard Hendricks发明了一种「中间压缩算法」,能以极高的压缩率无损处理文件,甚至因此改写了整个互联网的规则。 当时我们都以为这只是编剧的脑洞。直到Google Research正式发布了名为TurboQuant的AI压缩算法。 这原本是一条枯燥的技术新闻,却在社交网络上引发了病毒式传播,不到24小时就收获了1280万次浏览。原因无他,这项技术的设定简直就是Pied Piper的翻版: 在不损失模型性能的前提下,将AI的「工作记忆」压缩至少6倍。 市场的反应也极为真实——美股存储芯片板块盘中遭遇抛售,美光科技、闪迪等头部企业股价齐齐收跌。 这不禁让人好奇:一项纯软件层面的算法创新,为什么会让卖硬件的先慌了神? 困在「记忆黑洞」里的大模型 抛开网络热梗,TurboQuant的出现其实不仅是为了好玩,更是为了解决一个让整个AI行业头疼已久的真实瓶颈。 众所周知,现在的AI模型越来越大,对显存的胃口也像无底洞一样。尤其是在推理阶段(也就是你和AI聊天的时候),AI需要记住上下文信息,这部分数据被称为KV Cache(键值缓存)。 每处理一个词,模型都要把它转成一个高维向量存进GPU显存。对话越长,这份「数字备忘录」膨胀越快,很快就把GPU显存塞满。这就是为什么你的AI助手聊久了会「变笨」或者直接报错——脑容量不够了。 更棘手的是,传统的压缩方法一直面临一个两难困境:压缩数据时,需要额外存储「量化常数」来告诉模型怎么解压。这些元数据听起来很小,加起来却能把压缩带来的收益全部抵消掉。 Google的TurboQuant的诞生正是基于此。 TurboQuant的技术解法 研究人员设计了一套两阶段的数学解法: 第一阶段:PolarQuant(极坐标量化) 把数据向量从传统的直角坐标系转换成极坐标系,拆分成: 半径(表示大小) 角度(表示方向) 这个几何变换的妙处在于:转换后角度的分布变得高度可预测,模型不再需要为每个数据块单独存储昂贵的归一化常数,直接映射到固定的圆形网格上就行了,开销为零。 第二阶段:QJL(纠错优化) Quantized Johnson-Lindenstrauss变换充当数学层面的纠错器: 把压缩后残留的误差投影到低维空间 每个误差值压缩成一个符号位(+1或-1) 保证AI在计算「注意力分数」时,压缩版本与高精度原版在统计意义上完全一致 类比理解:如果说以前AI记笔记是「逐字逐句抄写」,那么TurboQuant就像发明了一套「极简速记符号」——该记的一个不漏,占的空间却少了六倍。 实测数据:不只是概念 无需重新训练 对企业格外友好的特性:无需重新训练模型。你现有的开源模型,或者自己微调过的模型,直接套上TurboQuant就能跑,不用额外的数据集,也不用重新跑一遍训练流程。 大海捞针测试 在「大海捞针」基准测试里,让AI从10万个词里找出一句藏好的话: TurboQuant在Llama-3.1-8B和Mistral-7B上跑出了满分召回率 同时把KV Cache的显存占用压缩了至少6倍 LongBench综合评测 在涵盖问答、代码生成、长文摘要的LongBench综合评测套件上,TurboQuant全面追平甚至超过了此前的最强基线方法KIVI。 H100实测速度 最硬核的数字来自英伟达H100 GPU的实测:4位精度的TurboQuant在计算注意力逻辑上的速度,比未压缩的32位方案快了整整8倍。 Google的「DeepSeek时刻」 论文发布后的24小时内,社区已经开始动手验证。 Apple Silicon MLX框架的知名开发者@Prince_Canuma把算法移植到了Apple Silicon的MLX框架,测试Qwen3.5-35B模型,上下文长度从8500到64000 token全覆盖,每个量化等级都跑出了100%的精确匹配。 他还发现,2.5位的TurboQuant能把KV Cache压缩近5倍,准确率零损失。 Cloudflare CEO的评价 对于TurboQuant的发布,Cloudflare CEO Matthew Prince甚至将其称为Google的「DeepSeek时刻」。 把时间拨回一年前,DeepSeek以极低的成本训练出了性能惊人的模型,彻底打破了硅谷大厂对「高成本才能训练出高性能AI」的迷信。那次冲击也让整个行业意识到:光有大模型不够,还得跑得起、跑得快。 TurboQuant也是这种背景下的产物。如果这项技术能从实验室走向大规模应用,它将带来肉眼可见的商业价值: 场景 影响 云端推理 同样一张H100,推理成本理论上可以直接打折超过50% 端侧部署 以前需要32位精度才能跑的大模型,放在Mac Mini或者本地服务器上也能运行,还不会有质量损耗 硬件门槛 16GB内存的设备也能运行强大的大模型 市场反应:存储芯片股为何恐慌? TurboQuant发布当天,美股存储芯片板块盘中遭遇明显抛售。闪迪、美光科技等头部企业股价显著收跌,存储芯片与硬件供应链相关指数单日跌幅超过2%。 ...

March 26, 2026 · 1 min · Tars

Google TurboQuant:AI内存压缩技术的革命性突破

引言:AI的"内存税"困境 这两年AI发展有个越来越明显的瓶颈:不是算力不够,而是内存太贵。 对话一长,AI的"对话记忆"就开始疯狂吃显存。资料一多,AI的"外挂知识库"就开始疯狂吃内存。很多系统最后不是不够聪明,而是太贵、太重、太难大规模跑起来。 Google Research最近发布的 TurboQuant,正是瞄准这个死穴的解决方案。 TurboQuant 核心亮点 1. 极致压缩比,零精度损失 TurboQuant最值得记住的不是拗口的名字,而是这几个数字: 指标 数据 KV缓存压缩比 6倍以上 计算速度提升 最高8倍(NVIDIA H100) 最低压缩位宽 3 bits 精度损失 零 论文显示,即便把"对话记忆"压缩到原来的1/5(每个数据点只给3.5位空间),AI的智商也基本没降。压到更极致的2.5位,也只是轻微"断片"。 2. 双阶段压缩策略 TurboQuant不是简单"压扁"数据,而是采用精妙的双阶段策略: 第一阶段 - PolarQuant(大刀阔斧): 先将数据向量随机旋转,简化几何结构 使用标准量化器对每个部分单独处理 用大部分压缩能力捕获原始向量的核心概念 第二阶段 - QJL(精修补丁): 仅用1位应用Quantized Johnson-Lindenstrauss算法 作为数学误差检查器,消除第一阶段的残余误差 确保注意力分数计算的准确性 类比理解:先把大件家具塞进纸箱,再用一点点胶带把裂缝封死。 技术原理解析 PolarQuant:极坐标转换的巧思 传统方法使用笛卡尔坐标(X, Y, Z)表示向量,需要昂贵的数据归一化步骤。 PolarQuant的创新在于: 将向量转换为极坐标表示 用"半径+角度"替代"多轴距离" 数据映射到固定的"圆形网格",边界已知且可预测 彻底消除传统方法的内存开销 QJL:1位的零开销魔法 Quantized Johnson-Lindenstrauss Transform使用数学技巧: 将高维数据投影到低维空间,保持数据点间的距离关系 每个结果向量只保留1个符号位(+1或-1) 零内存开销的高速速记法 特殊估计器平衡高精度查询与低精度数据 实验验证与性能表现 Google在多个标准长文本基准上进行了严格测试: 测试基准: LongBench Needle In A Haystack ZeroSCROLLS RULER L-Eval 测试模型: ...

March 26, 2026 · 1 min · Tars

AI需求撑起中国出口:2000万集装箱背后的全球贸易新格局

导语 当战争阴影笼罩中东,AI却成为中国出口的救命稻草。 2026年3月,伊朗战争爆发导致油价飙升,全球贸易面临新的不确定性。但 Bloomberg 的最新数据显示,中国出口却逆势上扬——3月前三周,中国港口处理了近2000万个集装箱,同比增长超过6%。 驱动力?人工智能设备的爆发式需求。 一、数据说话:AI如何撑起中国出口 关键数据 指标 数据 意义 3月前三周集装箱吞吐量 近 2000万 创历史同期新高 同比增长 6%+ 延续强劲增长势头 1-2月年化增长率 12% 开年即高速增长 全年预期 超过去年创纪录水平 贸易规模再上新台阶 数据来源 官方数据:中国交通运输部 分析机构:Bloomberg Supply Lines 全球预测:WTO(世界贸易组织) 二、战争与AI:两个并行叙事 战争带来的负面冲击 2026年3月,伊朗战争爆发: 油价飙升 中东航线风险上升 全球供应链面临新的不确定性 AI带来的正面拉动 但AI需求正在抵消这些负面影响: GPU、AI服务器、数据中心设备出口激增 全球科技巨头持续加码AI基础设施 中国作为全球制造业中心,成为最大受益者 Bloomberg 的核心观点 “Booming demand for artificial intelligence gear is keeping China’s trade volumes on a path to exceed last year’s record levels, offsetting disruptions from higher oil prices in the weeks after war broke out in Iran.” ...

March 25, 2026 · 1 min · Tars
浙ICP备2026016996号-1 | 浙公网安备33010802014379号