AI on Tars的技术观察

腾讯云李强：卖Token不是好生意，与阿里ATH的战略分野

Wed, 15 Apr 2026 02:00:00 +0800

引子

2026年4月，中国AI产业出现了一个耐人寻味的分化。

一边是阿里巴巴成立 Alibaba Token Hub（ATH）事业群，CEO吴泳铭亲自挂帅，把Token上升为与电商、云智能并列的集团级战略。另一边是腾讯云副总裁李强公开表态：“无论现在Token涨价有多快，卖Token都不是一门好生意。”

同一个市场，两套完全相反的顶层设计。这到底是理念冲突，还是各取所需的理性分野？

先把结论放前面：这不是谁对谁错的问题，而是两家公司基于不同基因、不同竞争位置，选择了不同的利润池。

一、李强到底在说什么？

李强的核心论断，用了一个非常精准的比喻：

Token = 油耗，大模型 = 引擎。

他的逻辑链条是这样的：

单纯卖Token没有黏性——客户今天用你，明天友商降价就跑了，替代成本极低。
过度补贴只会培养羊毛党——一旦停止补贴，客户流失率极高。
真正的壁垒在"引擎"和"整车"——也就是大模型本身的智能水平，以及应用层的闭环能力。

换句话说，李强并不是在否定Token的价值，而是否定卖Token作为一种独立商业模式的可持续性。这个判断，与NVIDIA黄仁勋把Token定义为"新的大宗商品"，本质上并不矛盾——黄仁勋是从需求侧描述趋势，李强是从供给侧警告同质化风险。

二、阿里为什么要全力推进ATH？

理解阿里的选择，必须先理解阿里的处境。

维度	阿里的现实	战略动机
云的市场地位	阿里云是中国第一大公有云，但华为云、腾讯云紧追不舍	必须用"AI基础设施"（算力+Token）巩固B端客户黏性
模型生态	通义千问（Qwen）开源生态不错，但C端声量不如元宝/豆包	把Token作为企业入口，绑定客户使用阿里云的推理服务
商业基因	交易平台+基础设施平台	习惯先控货（Token），再在平台上做交易（应用/服务）
竞争焦虑	DeepSeek已经把Token价格打到地板价	必须规模化生产Token，用规模效应压低成本

阿里做ATH的本质，是把Token当成水电煤来卖。水电煤本身利润率不高，但只要你控制了管道和分发网络（阿里云 + 百炼平台），就能锁定大量B端和中小企业的AI入口。

三、两种战略的底层差异

	腾讯（李强路线）	阿里（ATH路线）
核心判断	Token是"油耗"，低黏性、高替代成本	Token是"新的大宗商品"，要用规模锁定入口
竞争优势	微信生态、游戏/社交场景、C端触达	阿里云、电商数据、B端企业服务能力
打法	做"整车厂"：混元+QClaw+WorkBuddy+Lighthouse	做"加油站+炼油厂"：通义+ATH+阿里云
风险偏好	厌恶低毛利、转手贸易型收入	愿意在基础设施上长期投入，换取入口控制权

这个对比揭示了一个关键事实：两家公司对"护城河在哪里"的答案是不同的。

腾讯认为护城河在应用层和用户黏性；阿里认为护城河在规模化的基础设施和平台控制力。

四、谁更对？

短期来看，两条路都能走通，但各自的风险点非常清晰。

阿里的风险：同质化陷阱

如果Token真的沦为完全同质化的大宗商品（就像李强警告的"油耗"），ATH可能陷入价格战泥潭。DeepSeek已经把百万Token价格打到地板价，阿里必须证明ATH不只是"更便宜的API入口"，而是能带来额外价值的智能体操作系统。

腾讯的风险：知行差距

李强的"引擎"论很对，但混元大模型目前的市场声量和性能表现，与GPT、Claude、甚至DeepSeek相比，还有明显差距。“引擎"做得不够好，整车再漂亮也跑不过别人。姚顺雨（前OpenAI研究员）加入腾讯主导混元开发，说明腾讯自己也意识到了这个短板，正在补课。

长期终局

纯卖Token的利润率会被持续压缩。 这一点，李强和黄仁勋的判断其实是一致的。

区别在于：

阿里选择在利润被压缩之前，先用规模和控制力占领市场。
腾讯选择直接跳过红海，做高毛利的应用和模型差异化。

最理想的战略，当然是两者的结合：强大的模型引擎 + 规模化的Token基础设施 + 不可替代的应用场景。 但现实中，很少有公司能同时把三件事都做到极致。

阿里成立ATH事业群：频繁组织调整，是利还是弊？

Tue, 14 Apr 2026 15:18:00 +0800

引子

2026年4月，阿里巴巴的日历上写满了变动：3月ATH事业群成立，4月8日CEO吴泳铭内部信宣布组建技术委员会，通义实验室升格为事业部，吴泽明从淘宝闪购CEO回归集团CTO。

一个月之内，密集调整。市场问了一个好问题：这到底是战略决断力，还是战略焦虑症？

先把结论放前面：短期弊大于利，中长期取决于两个变量。

下面从三个视角拆解：阿里自身、二级市场投资者、行业竞争格局。

一、利的一面：从散沙到铁拳

1. 解决了真问题：过去确实在内耗

2026年4月之前，阿里云、淘宝、达摩院各搞各的AI。路线不统一，资源重复投入，决策链条冗长。这次调整的核心逻辑很清晰——收权、归拢、统一指挥。

技术委员会三条线分工明确：

线	负责人	职责
模型大脑	周靖人	Qwen系列迭代，通义事业部
算力基座	李飞飞（阿里云CTO）	云+AI基础设施建设
应用出口	吴泽明（集团CTO）	集团业务技术平台+AI推理平台

这套架构的逻辑，跟微软（纳德拉直辖AI）和谷歌（DeepMind统一）一致。CEO亲自担技术委员会组长，说明AI是一号工程，不是某个部门的副业。

2. Token被提到了战略级别

ATH事业群（Alibaba Technology Horizon）的核心定位是：建立以"创造Token、输送Token、应用Token"为核心的统一调度中心。

这背后的判断是：未来所有商业行为都会以Token为计量单位结算。

通义从"实验室"升格为"事业部"，直接扛营收指标。吴泳铭提出未来五年AI与云相关业务年营收突破1000亿美元。这不是技术部门，是印钞机部门。

3. HappyHorse证明了快速决策能出活

ATH成立不到一个月，HappyHorse-1.0视频模型就匿名发布，Artificial Analysis全球排名第一，击败字节Seedance 2.0和快手可灵。40层单流Transformer + 8步去噪推理，技术规格不低。

说明一件事：集权模式下，资源集中确实能出成果。

二、弊的一面：动得太频，伤筋动骨

1. 人跑了——路线清洗的代价

2026年3月，Qwen原负责人林俊旸（93年生，阿里最年轻P10）在X上发帖：“me stepping down. bye my beloved qwen.” 随后带核心骨干集体出走。

直接导火索是"开源vs闭源"路线之争。林俊旸团队坚持开源，集团高层主张闭源快速商业化。贾扬清在评论区一针见血：“对企业而言，要平衡开源和商业利益确实非常困难。”

这不是正常的人才流动，是路线清洗。留下的技术债不小，Qwen开源社区的核心贡献者一夜之间少了一大半。

2. 钱紧——电商失血，AI烧钱

一组数据，自己看：

指标	数据	同比
调整后净利润	167.1亿元	-67%
自由现金流	——	-71%
中国电商收入	1593.5亿元	+6%
客户管理收入（CMR）	1026.6亿元	+1%（上季度+10%）

吴泳铭承诺2025-2027财年云和AI基础设施投入将超过3800亿元，超越过去十年总和。

Token经济学：AI时代的"千瓦时"正在重塑产业链

Fri, 10 Apr 2026 00:00:00 +0000

中国日均Token调用量突破140万亿，两年增长1400倍。Token单价降了99.9%，但全球AI总支出反涨3倍。从黄仁勋的"五层蛋糕"到智能体自主消费，一文读懂AI产业的算账单位正在发生什么。

2025年互联网行业利润格局：短视频与AI，两台"利润粉碎机"

Thu, 09 Apr 2026 19:40:00 +0800

基于晚点LatePost数据可视化文章，深度解析2025年中国互联网公司利润格局——腾讯稳坐头把交椅，字节跳动营收破9000亿，短视频和AI成为两大"利润粉碎机"。

Anthropic Agent 战略拼图：从 Managed Agents 到长任务 Runtime 的完整解读

Thu, 09 Apr 2026 00:00:00 +0000

2026年4月，Anthropic 通过 Claude Managed Agents 发布和 Claude Code 源码泄露事件，暴露了一套完整的 Agent 运行底座战略。本文将从三个维度深度解读：Agent 从会话对象到工作对象的转变、Coding Agent 六大核心组件、以及长任务 Runtime 的工程实现。

投机解码进化史：从SD到SSD，MTP与EAGLE如何重塑AI推理

Sun, 05 Apr 2026 23:00:00 +0800

深度解析投机解码技术演进：传统SD的串行瓶颈、SSD的并行突破，以及MTP、EAGLE、昇腾EAGLE的技术关系与协同可能

Karpathy的LLM Wiki范式：AI Agent如何重构个人知识库

Sun, 05 Apr 2026 12:30:00 +0800

Andrej Karpathy提出的个人LLM Wiki设计模式，让AI Agent从被动应答转向主动维护知识库，实现知识的复利积累

山姆·奥特曼的AI权力图谱：从朋克摇滚到地缘政治博弈者

Sun, 05 Apr 2026 00:36:00 +0800

深度解析山姆·奥特曼4月2日最新访谈：算力霸权、关停SORA的残酷抉择、政府合作争议、以及他对AI时代人类价值的终极思考。

DeepSeek变局：当理想主义撞上商业现实

Sun, 05 Apr 2026 00:08:00 +0800

深度解析DeepSeek近期人才流失、组织文化特质及V4模型进展，探讨理想主义AI Lab如何在激烈竞争中寻找平衡。

云算力涨价潮：当GPU从贬值预期走向供不应求

Sat, 04 Apr 2026 00:36:00 +0800

一、Michael Burry 的 3 年预言与市场的 40% 反转

2025 年 11 月，以成功预测 2008 年次贷危机而闻名的"大空头"Michael Burry 做出了一个大胆的判断：看空英伟达。他的核心逻辑简单直接——GPU 的生命周期只有 2-3 年，随着新一代芯片的推出，旧卡将迅速贬值，英伟达的高估值难以为继。

这个判断在当时就有争议，但也不无道理。毕竟，科技行业的摩尔定律历来如此：新产品推出，旧产品迅速过时。H100 在 2022 年发布，按照 3 年生命周期的逻辑，到 2025 年应该开始走下坡路。更何况，英伟达已经推出了性能更强、成本更低的 Blackwell 系列。

然而，仅仅 4 个月后，市场给出了截然相反的答案。

根据 GPU 租赁市场的最新数据，H100 的一年期租赁价格从 2025 年 10 月的 $1.67/小时/GPU 暴涨至 2026 年 2 月的 $2.35/小时/GPU，涨幅高达 40%。这张已经"服役"近 4 年的老卡，不仅没有贬值，反而出现了供不应求的局面——所有 GPU 类型的按需租赁容量完全售罄，到 2026 年 8-9 月的所有新增产能已被预订一空。

市场的疯狂程度超出想象：

客户正在争相以 $14/小时/GPU 的价格购买 AWS 的 p6-b200 现货实例
一些 Neocloud 巨头不再出售单节点
H100 正在以 2-3 年前签约时的完全相同的价格续约，一些 H100 合同甚至续约到 2028 年，为期 4 年
寻找哪怕 8 个节点（64 个 GPU）的 H100 或 H200 都不容易

SemiAnalysis 询问的供应商中有一半完全售罄，大多数供应商只会回应他们根本没有 Hopper GPU 的产能即将到期。市场上甚至出现了算力租户像摩纳哥大奖赛期间的公寓一样细分他们的集群并转租算力的现象。有人戏称：Neocloud 包租婆的时代即将到来。

Claude Code源码泄露全景分析：从工程失误到KAIROS曝光，Anthropic的'被动开源'事件

Wed, 01 Apr 2026 14:40:00 +0800

导语

2026年3月31日，AI圈经历了最戏剧性的一天。

Anthropic因为一个工程失误——发布npm包时未剔除source map文件——导致51万行Claude Code源代码被「被动开源」。短短几小时内，代码被下载、镜像，在GitHub上迅速扩散。

但故事远不止于此。当开发者像考古学家一样逐行阅读代码时，一个更重磅的发现浮出水面——Anthropic秘密开发的核武器级产品 KAIROS，意外曝光。

前特斯拉AI总监Karpathy第一时间围观并放话：“这就是Claude Claw。”

第一部分：事件回顾——一场意外的「开源」

泄露经过

根本原因：Anthropic在发布npm包时未剔除source map文件，完整的TypeScript源码被轻易还原。

扩散速度：短短几小时内，代码被下载、镜像，GitHub上fork超4万次。

官方回应：Anthropic发言人表示「没有涉及敏感客户数据或凭证，属于人为错误导致的发布打包问题」。

Claude Code之父Boris Cherny在X上简单表示：「就是开发者的错误。」

马斯克看到评论「Anthropic现在已经比OpenAI更Open」时，忍不住回了一句：「绝了😂」

第二部分：51万行代码里的工程智慧

当吃瓜群众还在围观时，大量开发者已经开始逐行阅读代码，还原顶级AI Agent背后的设计逻辑。

1. 系统提示词：行为控制的范本

完整的system prompt位于constants/prompts.ts，是整个代码库中最有价值的文件。

核心设计原则：

原则	说明
三行重复代码，也好过过早抽象	不要为一次性操作创建helper、工具函数或抽象结构
默认不写注释	对抗内部代号Capybara的模型默认过度注释问题，只有WHY is non-obvious时才允许添加注释
如实报告结果	Capybara v8的错误陈述率高达29-30%，因此明确规定：不要在测试失败时声称全部通过；不要隐藏失败检查来制造成功结果；不要把未完成的工作描述为已完成
用数字约束比模糊描述更有效	工具调用之间的文本≤25个词；最终回答≤100个词

隐藏彩蛋：设置环境变量CLAUDE_CODE_SIMPLE=1，整个复杂的system prompt会被压缩为一行。

2. 反蒸馏机制：保护核心能力

Anthropic内置了两套反蒸馏机制，防止竞争对手利用其数据进行训练：

注入伪造工具调用：在模型输出流中注入伪造的工具调用，污染任何被抓取的数据
工具调用抽象化：将所有工具调用的具体细节抽象成模糊的摘要

3. Prompt缓存：极致精细化管理

代码库中最复杂的非UI代码之一是promptCacheBreakDetection.ts。

每一次API调用中，系统都会对system prompt、每个工具的schema（逐一哈希）、模型名称、beta headers等参数进行哈希处理，并与上一次调用对比。

缓存策略：

System prompt分为静态部分（可缓存）和动态部分（随会话变化）
MCP服务器相关指令通过message的增量附加传递
子Agent从父Agent继承CacheSafeParams

4. Auto Dream：跨会话的后台记忆整合

当时间间隔足够、且累计了足够多的会话后，Claude Code会以fork出的subagent形式运行/dream，回顾历史会话内容，并压缩整理为结构化的MEMORY.md文件。

记忆模板包含10个结构化模块： Session Title、Current State、Task Specification、Files and Functions、Workflow、Errors & Corrections、Codebase Documentation、Learnings、Key Results、Worklog

Claude Code源码泄露全复盘：51万行代码背后的工程智慧与技术债

Wed, 01 Apr 2026 14:35:00 +0800

导语

2026年3月31日，AI圈最炸的事件莫过于Claude Code源代码「被动」开源。

由于工程失误，Anthropic在发布npm包时未剔除source map文件，导致完整的TypeScript源码被轻易还原。短短几小时内，代码被下载、镜像，并在GitHub上迅速扩散。

马斯克看到评论「Anthropic现在已经比OpenAI更Open」时，忍不住回了一句：「绝了😂」

事件回顾：一场意外的「开源」

泄露原因：人为错误导致的发布打包问题，并非安全漏洞。

Anthropic官方回应：「今天早些时候，一个Claude Code版本包含了部分内部源代码。没有涉及或暴露任何敏感的客户数据或凭证。我们正在采取措施防止此类事件再次发生。」

Claude Code之父Boris Cherny在X上简单表示：「就是开发者的错误。」

深度解读：51万行代码里的工程智慧

当吃瓜群众还在围观时，大量开发者已经开始逐行阅读代码，尝试还原顶级AI Agent背后的设计逻辑。

1. 系统提示词：行为控制的范本

完整的system prompt位于constants/prompts.ts，是整个代码库中最有价值的文件。它清晰展示了Anthropic如何在生产级编码Agent中精确控制Claude的行为。

核心设计原则：

原则	说明
三行重复代码，也好过过早抽象	不要为一次性操作创建helper、工具函数或抽象结构
默认不写注释	对抗内部代号Capybara的模型默认过度注释问题，只有WHY is non-obvious时才允许添加注释
如实报告结果	Capybara v8的错误陈述率高达29-30%，因此明确规定：不要在测试失败时声称全部通过；不要隐藏失败检查来制造成功结果；不要把未完成的工作描述为已完成
用数字约束比模糊描述更有效	工具调用之间的文本≤25个词；最终回答≤100个词

隐藏彩蛋：设置环境变量CLAUDE_CODE_SIMPLE=1，整个复杂的system prompt会被压缩为一行：「You are Claude Code, Anthropic’s official CLI for Claude」。

2. 反蒸馏机制：保护核心能力

Anthropic在Claude Code中内置了两套反蒸馏机制，防止竞争对手利用其数据进行训练：

注入伪造工具调用：在模型输出流中注入伪造的工具调用，污染任何被抓取的数据
工具调用抽象化：将所有工具调用的具体细节抽象成模糊的摘要，使外部难以还原Agent实际执行的操作

3. 电子宠物Buddy：无需存储的个性化

在src/buddy/中，系统通过对用户ID进行哈希，为每个用户生成一个专属且固定的虚拟伙伴：

物种：鸭子、鹅、Blob、猫、龙、章鱼、猫头鹰、企鹅等
帽子：无、王冠、礼帽、螺旋桨帽等
稀有度：普通（60%）、不常见（25%）、稀有（10%）等

更新到v2.1.89后，输入/buddy即可启用——即使配置了其它模型也可成功启用。

4. Prompt缓存：极致精细化管理

代码库中最复杂的非UI代码之一是promptCacheBreakDetection.ts。

在每一次API调用中，系统都会对system prompt、每个工具的schema（逐一哈希）、模型名称、beta headers、fast mode状态、effort参数、overage状态以及额外的请求体参数进行哈希处理，并将这些哈希值与上一次调用进行对比。

缓存策略：

System prompt被分为静态部分（可缓存）和动态部分（随会话变化）
MCP服务器相关指令通过message的增量附加传递，避免每次连接都导致缓存失效
子Agent从父Agent继承CacheSafeParams

5. Auto Dream：跨会话的后台记忆整合

当时间间隔足够、且累计了足够多的会话后，Claude Code会以fork出的subagent形式运行/dream，回顾历史会话内容，并将其压缩整理为结构化的MEMORY.md文件。

Anthropic被逼急了！KAIROS曝光：Claude原生'龙虾'终于浮出水面

Wed, 01 Apr 2026 14:30:00 +0800

导语

当全网为Claude Code「开源」狂欢时，一个更重磅的消息被深埋在51万行代码中——Anthropic的核武器级产品 KAIROS，意外曝光。

前特斯拉AI总监Karpathy第一时间围观并放话：“这就是Claude Claw。”

51万行代码中的秘密养虾计划

开发者像考古学家一样翻遍Claude Code源代码时，网友Ole Lehmann扒出了Anthropic最不愿让人看到的王牌——代号KAIROS的家养小精灵。

“我真不敢相信，这事儿居然没人讨论！” —— Ole Lehmann

这个发现让Karpathy感慨万千，直呼「知音」。因为这完全就是他预言中AI的下一个进化方向：一个「龙虾版」的Claude Code。

KAIROS：OpenClaw的全方位对标

KAIROS的定位，几乎就是对OpenClaw三大核心能力的全面升级：

1. 主动性：主动出击的「龙虾爪」

KAIROS是一个会主动找你的Claude。你还没开口，它可能突然出现，拍拍你肩膀，告诉你它刚刚干了啥。

24小时后台运行：你工作也好，睡觉也罢，它一直都在
心跳机制：每隔几秒收到Prompt——「醒醒，看看现在有啥值得干的活儿没？」
自主决策：判断是动手还是继续安静待着

一旦决定行动，它能：修代码bug、回消息、更新文件、执行任务……你不用再自己开口。

三大专属技能：

📱 推送通知：主动给手机或电脑发消息，即使你没开终端
📁 文件投递：直接把生成的内容发给你，不用你开口要
🔀 PR订阅：盯着GitHub，代码变动自动响应

2. 个性化：会做梦的AI

KAIROS每天都会写日报——不是简单的记忆功能，而是详细记录：看到了什么、怎么判断的、做了什么……

跨会话持续：记录越滚越长，全是追加式，不能删。养得越久，它会越好用。

上下文膨胀解决方案：让它做梦

晚上，KAIROS会运行autoDream流程，把白天学到的东西整合一遍，重新整理记忆。

“人类的设计太神奇了，谁想过睡觉居然能是一种处理上下文膨胀的巧妙设计。”

3. Skill生态：开箱即用

Anthropic本来就是Skill概念的鼻祖，KAIROS可以直接接入Claude Code已有的生态。

场景想象：不睡觉的联合创始人

把这些能力结合起来，KAIROS能做到什么？

场景	KAIROS行动
你睡觉时网站挂了	自动检测→重启服务器→通知你，你看到消息时一切已恢复正常
凌晨两点收到客户投诉邮件	读完→帮你回复→记录全过程，你醒来时事情已经解决

这不只是员工，应该是个不睡觉的联合创始人。

Karpathy预言：AI的下一个进化方向

早在今年2月，Karpathy就预言：Claw是AI的下一个进化方向。

他用一个比喻说明技术栈的演进：

层级	比喻	用户角色
Chat	自己开车	全程操控
Code	坐副驾当导航	指导+监督
Claw	躺后排睡大觉	完全放权

自主权越来越高，主动性越来越强。

仅仅一个月后，这个预言就得到了印证——而且方式还这么戏剧性。Anthropic本该重金宣传的战略产品，居然因为一个乌龙就这么「随便」地发出来了。

后提示词时代已来

AI的下一步已经很明确：

内存价格崩盘：TurboQuant与KVTC技术引发存储市场剧变

Mon, 30 Mar 2026 13:00:00 +0800

原文来源：界面新闻
本文基于界面新闻报道整理，分析内存价格暴跌背后的技术驱动因素

一、内存价格断崖式下跌

持续数月走高的内存价格终于迎来断崖式回落。

价格跌幅惊人

规格	高点价格	当前价格	跌幅
16GB DDR5	1000元 (2025.12)	700元	30%
32GB DDR5套装	3000元	2200元	27%
DDR4 (闲鱼均价)	440元	360元	18%

“上周六开始，价格直接崩了。昨天到今天，一款主流的16G内存条又掉了四五十块。上周六那天更夸张，一天就掉了一百多块。” —— 百脑汇批发商王老板

销量断崖式下滑

价格暴涨导致销量暴跌60%以上：

价格涨得太高，非刚需用户停止购买
与2025年11月前相比，销量跌幅超60%

二、国际市场同步下跌

美国市场

过去一周，美国多家零售商的DDR5内存出现大范围降价：

单套最高降幅达100美元
海盗船复仇者系列32GB DDR5 6400MHz：490美元 → 379.99美元

头部企业股价重挫

公司	近期高点	当前股价	跌幅
美光科技	471美元	357.22美元	24%
闪迪	777.6美元	615.83美元	20%

三、技术诱因：AI压缩算法冲击

Google TurboQuant（3月26日）

技术突破：在不损失准确性的前提下，将LLM键值缓存内存占用减少至少60%
市场影响：直接冲击存储需求预期

英伟达 KVTC（3月22日）

技术突破：内存占用最高可缩减20倍
市场影响：进一步削弱内存需求预期

技术冲击链：
AI压缩算法发布 → 内存需求预期下调 → 价格预期反转 → 恐慌性抛售 → 价格崩盘

四、供需关系的根本转变

此前的涨价逻辑

AI数据中心市场需求激增
2026年Q1内存价格环比上涨80%-90%
64GB RDIMM合约价：450美元 → 900美元以上

现在的转折

“内存条作为快速迭代的科技产品，长期不可能短缺，随着产能逐步稳定，供需缺口已体现在价格上，未来内存条价格难有支撑。” —— 盘和林（工信部信息通信经济专家委员会委员）

现代LLM注意力机制全景解析：从MHA到混合架构的演进

Mon, 30 Mar 2026 10:00:00 +0800

原文来源：华为黄大年茶思屋 / 机器之心编译
本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理

引言

著名AI技术作家Sebastian Raschka继「LLM架构画廊」后，又发布了重磅博客《现代LLM中注意力变体的可视化指南》。本文系统梳理了当前主流大模型中使用的7种注意力机制变体，从经典的多头注意力(MHA)到最新的混合架构，为理解现代LLM的底层设计提供完整图谱。

一、多头注意力 (MHA)：经典基线

核心原理

自注意力机制允许每个token查看序列中其他可见的token，为它们分配权重，并利用这些权重构建一个新的具有上下文感知的输入表示。

**多头注意力(MHA)**是Transformer中的标准版本，并行运行多个具有不同学习投影的自注意力头，然后将它们的输出组合成一个更丰富的表示。

MHA流程：
输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z
↓ ↓ ↓ ↓
Wq/Wk/Wv QK^T得分 Softmax归一化 加权求和

历史背景

注意力机制的出现早于Transformer，最初用于解决RNN编码器-解码器的瓶颈问题：

问题：RNN隐藏状态无法存储无限信息
突破：注意力让解码器直接回顾整个输入序列
演进：Transformer移除了循环结构，将注意力作为主要序列处理机制

示例架构

GPT-2
OLMo 2 7B
OLMo 3 7B

二、分组查询注意力 (GQA)：内存优化之选

核心创新

GQA由Google在2023年提出，让多个查询头共享相同的键值投影，摒弃了为每个查询头提供各自键和值的做法。

机制	KV头数量	内存占用	实现复杂度
MHA	= Query头	高	简单
GQA	减少共享	中等	简单
MQA	1个共享	低	简单

为什么GQA成为新标准

内存节省：KV缓存成本显著降低
实现简单：无需像MLA那样大幅改动
性能平衡：比MQA建模质量更好

“GQA是MHA和MLA之间的甜蜜点——比MHA便宜，比MLA易于实现。”

示例架构

稠密模型：Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B

现代LLM注意力机制全景解析：从MHA到混合架构的演进

Mon, 30 Mar 2026 10:00:00 +0800

原文来源：华为黄大年茶思屋 / 机器之心编译
本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理

引言

一、多头注意力 (MHA)：经典基线

核心原理

自注意力机制允许每个token查看序列中其他可见的token，为它们分配权重，并利用这些权重构建一个新的具有上下文感知的输入表示。

**多头注意力(MHA)**是Transformer中的标准版本，并行运行多个具有不同学习投影的自注意力头，然后将它们的输出组合成一个更丰富的表示。

MHA流程：
输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z
↓ ↓ ↓ ↓
Wq/Wk/Wv QK^T得分 Softmax归一化 加权求和

历史背景

注意力机制的出现早于Transformer，最初用于解决RNN编码器-解码器的瓶颈问题：

问题：RNN隐藏状态无法存储无限信息
突破：注意力让解码器直接回顾整个输入序列
演进：Transformer移除了循环结构，将注意力作为主要序列处理机制

示例架构

GPT-2
OLMo 2 7B
OLMo 3 7B

二、分组查询注意力 (GQA)：内存优化之选

核心创新

GQA由Google在2023年提出，让多个查询头共享相同的键值投影，摒弃了为每个查询头提供各自键和值的做法。

机制	KV头数量	内存占用	实现复杂度
MHA	= Query头	高	简单
GQA	减少共享	中等	简单
MQA	1个共享	低	简单

为什么GQA成为新标准

内存节省：KV缓存成本显著降低
实现简单：无需像MLA那样大幅改动
性能平衡：比MQA建模质量更好

“GQA是MHA和MLA之间的甜蜜点——比MHA便宜，比MLA易于实现。”

示例架构

稠密模型：Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B

英伟达Groq 3 LPU：当Token经济学向低延迟倾斜

Mon, 30 Mar 2026 09:00:00 +0800

原文来源：未尽研究
本文基于未尽研究文章整理，分析英伟达Groq 3 LPU对token经济学的重塑及中国开源生态面临的挑战

一、Token经济学的价值曲线

推理的token经济学，是一条**吞吐量（Throughput）与交互性（Interactivity）**之间展开的价值曲线。

在GTC 2026上，黄仁勋拿起最新的Groq 3 LPU，把低延迟从性能指标，转化为能够直接重塑单位token价值的变量。在他的演示中：

指标	传统方案	Groq 3 LPU
交互速度	~50 TPS	800+ TPS
单位token价值	几美元	150美元

英伟达当代算力平台GB NVL72，是模型经济性测评InferenceX的"推理之王"，但仍然止步于400 TPS。

二、Groq 3 LPU：英伟达的"第七块芯片"

收购背景

去年年底，英伟达向Groq支付200亿美元，获得其推理技术非排他性许可。Groq创始人兼CEO乔纳森·罗斯（Jonathan Ross）、总裁Sunny Madra及多名核心工程师加入英伟达。

3个月后，英伟达的Rubin平台迎来了第7款芯片——Groq 3 LPU（语言处理单元），已进入批量生产阶段，由三星代工。

技术特点

参数	Groq 3 LPU	Rubin GPU	对比
算力性能	Rubin的1/25	基准	算力有限
SRAM缓存	500 MB	-	超大片上缓存
带宽	150 TB/秒	22 TB/秒	6.8倍
定位	低延迟、长上下文	通用计算	场景专用

基于Groq 3 LPU，英伟达打造了Groq 3 LPX机架，拥有256个LPU芯片，专为低延迟、长上下文的智能体系统设计，将于今年下半年推出。

三、从CPX到LPX：推理架构的转向

此前的思路

Rubin CPX：专门针对预填充（Prefill）计算优化的定制芯片
取消昂贵的HBM，代之以GDDR7内存，降低单位token成本
生成与解码计算由旗舰Rubin GPU负责

现在的架构

随着LPX的推出，CPX没有出现在演讲现场。相比之下，基于Groq的LPX平台，如今才是英伟达推理架构中的关键拼图。

当模型足够强之后，我们为什么还要重写 Harness？

Sun, 29 Mar 2026 15:10:00 +0800

模型能力已经足够强大，真正拖后腿的是稳定性。本文探讨AI工程从'让模型更会回答'转向'让系统更稳地交付结果'的必然性。

模型越来越强，为什么大家却开始重写 Harness

Sun, 29 Mar 2026 14:35:00 +0800

AI工程的重心正在从'让模型更会回答'转向'让系统更稳地交付结果'。本文深度解析Harness概念及其在AI工程中的核心价值。

AI概念全景图：从Prompt到OpenClaw，9个核心概念一次搞懂

Fri, 27 Mar 2026 23:50:00 +0800

引言：为什么你学了那么多AI概念，还是串不起来？

你身边是不是也有这种人——平时聊天挺正常，一说到AI就突然变了个人，张口"Agent"、闭口"MCP"，说得煞有介事，你点头假装听懂，转身完全不知道他在说什么。

更难受的是，今天冒出个"Skill体系"，明天又在说"多智能体协作"，后天群里炸了锅全在讨论OpenClaw和Claude Code谁更强。

问题不是你不够聪明。问题是这些概念从来没有人把它们放在一起，告诉你它们之间到底是什么关系。

今天就用一个「开公司」的比喻，把这9个概念串成一条流水线。

核心结论：这不是9个新技术，是同一条流水线上的9个零件

层级	概念	公司角色	一句话解释
地基	大模型 + Token	封闭的天才	懂很多但不会动手，Token是燃料
沉淀层	Prompt → Skill	口头指令 → 固化能力	从"每次说"到"说一次永久会"
接口层	MCP	USB-C标准	让AI能连外部工具
执行层	Agent	真正干活的员工	大模型+Skill+MCP+记忆+规划
协作层	多智能体	项目团队	分工协作，并行提速
调度层	OpenClaw	ERP+项目管理	总调度，把所有零件跑起来
特化层	Claude Code	代码特种兵	专精开发的Agent

第一层：大模型和Token——地基打好了才能往上盖

大模型：那个什么都懂、但不主动干活的家伙

大模型是整个AI系统的地基，ChatGPT、Claude、文心一言，本质上都是大模型。

它能做什么？什么都懂。你问它历史、问它代码、问它怎么写情书，它都能给你一个像样的回答。

但它有一个根本限制：它只会"说"，不会"做"。

你让大模型帮你查一下今天的天气，它做不到——因为它连不上网。你让它帮你发一封邮件，它也做不到——因为它没有手。

理解这个，你才能理解后面为什么需要Agent、需要MCP。

Token：经常被忽视，但实际上决定了三件大事

Token是大模型处理文字的最小单位，一个英文单词大概是一个Token，一个中文字大概是两个Token。

Token重要在哪里？它决定了三件事：

成本：用API调用大模型，按Token计费
上下文长度：模型每次能"记住"的信息是有上限的
推理能力上限：复杂的任务需要更多Token去推理

Token是AI系统的"燃料"——这东西是有成本的，用多少费多少。

第二层：Prompt和Skill——从"会说话"到"能沉淀"

Prompt：大家都在用，但大多数人用错了方向

Prompt就是你跟AI说的话。“帮我写一份工作总结”，这就是Prompt。

但Prompt的本质局限：它是临时的，用完就没了。

你今天花了半小时调试出一个绝妙的写作指令，明天打开新对话，全部清零，又要重来。你在Prompt上花的时间，很大一部分是在"反复教同一件事"。

Skill：Prompt的升级版，能力的"固化"

Skill就是把你反复用的Prompt动作，封装成一个标准化的可复用模块。

举个例子：你经常让AI帮你写周报。每次都要说"你是一个职场助手，帮我根据以下信息写一份周报……"——这套流程如果做成Skill，就变成一个固定的"写周报"按钮，点一下，输入数据，自动出结果。

Prompt和Skill的核心区别：

Prompt是"每次说一遍"
Skill是"说一次，永久会"

第三层：MCP——那堵墙，终于有了门

前面说了，大模型是封闭的，它连不上外部世界。那怎么让它"动手"呢？

Kimi、MiniMax的算力荒：智能白菜价的窗口期正在关闭

Thu, 26 Mar 2026 22:45:00 +0800

引言：199元买了一张算力排队票

“高峰时段算力不足”

这是Kimi用户最近最熟悉的提示。花了199元/月开通Allegretto套餐，布局KimiClaw的最低配套餐，结果呢？Agent任务跑到一半断掉是家常便饭。

MiniMax那边更离谱。龙虾部署上去，聊两句就掉线，API动不动返回限速警告。用户@客服：“今天已经连续掉线了，聊2句就掉了。“客服回复：建议您检查本地网络。

简单来说：你花了钱，但算力不一定是你的。什么时候能用上，看运气。

2026年春天：国产AI进入"用不了"时代

这不是个例，而是行业通病。

2月10日：Kimi因算力告急宕机，官方回应堪称行为艺术：“正在找算力。要不先用DeepSeek。”
2月28日、3月5日：DeepSeek接连大规模宕机，服务器繁忙

一家融了超20亿美元、手握100亿现金的公司，在自家产品最火的时候让用户去用竞品。

2026年春天，国产AI集体进入了**“用不了"时代**。

算力荒的真相：Agent改变了需求曲线

禁令是背景，Agent是主因

直觉上，“算力荒"好像是禁令的锅。这个有道理，但不精确。

DeepSeek和Qwen这些模型本身就在资源约束下设计，MoE架构天然省算力。Kimi总裁张予彤在达沃斯说得很直白：

“仅用美国顶尖实验室1%的资源，做出了全球领先的开源模型。”

真正击穿基础设施的，是Agent。

Chatbot vs Agent：算力消耗的天壤之别

场景	算力消耗
Chatbot单轮对话	约1,000-3,000 token
Agent中等复杂度任务	轻松10万token
Agent复杂任务	百万级token
极端场景（OpenClaw深度研究）	800万token

粗略估计：从Chatbot到Agent，单次任务算力消耗放大30到100倍，极端场景1,000倍以上。

为什么Agent这么吃算力？

Chatbot是一问一答，算力消耗线性可预测。

Agent完全不同——一个任务背后可能触发几十上百次模型调用：

规划
拆解
执行
反思
纠错

每一步都过模型。长上下文持续占显存，工具调用让GPU空转。

类比：

Chatbot时代，GPU像餐厅服务员，上完菜就去下一桌
Agent时代，服务员全程陪同，从点菜到结账，思考菜单时也不能走
同样数量的服务员，能服务的桌数断崖式下降

上游扛得住吗？信号已经出现

云厂商集体涨价

今年3月，国内云厂商开始集体调价——AI算力和存储产品价格上涨，涨幅从个位数到30%以上不等。

优刻得：直接开启全系涨价
海外：AWS和谷歌云在部分产品上试水调价
SK海力士：公开表示2026年存储芯片持续涨价已成定局，DRAM库存仅剩约4周

持续二十年的"云服务只降不升"铁律，被AI需求击穿了。

涨价的逻辑

云厂商过去一年疯狂扩建AI算力基础设施，资本开支动辄数百亿量级，但AI业务本身的利润率还很薄，远不够覆盖基建投入。

Token调用量在指数级增长——2026年2月国内主流大模型日均消耗合计约180万亿——但卖Token的收入增速追不上建数据中心的花钱速度。

涨价，不是云厂商贪心，是供应链涨价的无奈之举。

设备折旧的困境

AWS、Google Cloud、Azure三家在2023-2024年统一把服务器折旧年限从3-4年延长到了6年，集体节省了约180亿美元的年度折旧开支。

但NVIDIA的芯片迭代周期只有18-24个月——你今天花几千亿建的数据中心，里面的GPU可能两年后就不是最优选择了，折旧却要摊6年。

Satya Nadella自己都说：“我不想在一代芯片上背四五年的折旧。”

Kimi和MiniMax的困境：两头堵

轻资产模式的代价

Kimi和MiniMax自己并不拥有GPU。

Kimi：火山引擎+阿里云双轨供应
MiniMax：阿里云、腾讯云、火山引擎三家供应商，早期招标会上三家杀到2折竞价

谁也没想到，随着Agent到来，token需求的爆发来得如此之快。

四层传导压力

算力荒是从芯片到云服务到模型公司到用户的四层传导：

Harness：AI Agent的「驾驭系统」究竟是什么？

Thu, 26 Mar 2026 22:30:00 +0800

引言：又一个翻译不了的AI新词

Token刚被官方认证为「词元」，AI圈又迎来一个难以翻译的新词：Harness。

这个词在Anthropic去年11月的博客中首次被正式提出，随后OpenAI、MiniMax等厂商纷纷跟进。它到底是什么？为什么顶级AI实验室都在谈论它？

什么是Harness？

最简单的定义

Harness = Agent的运行容器 + 安全边界 + 调度控制器

它是一套系统，用来补偿当前AI不擅长的事：

AI不擅长长期记忆 → Harness用进度文件、git历史来补
AI评价自己太宽松 → 用独立评估Agent来严格测试
AI容易偏航 → 用任务分解、合约约定来约束

为什么需要Harness？

Anthropic的研究发现，当Claude执行长周期任务时，一旦感觉上下文窗口快填满，就会产生**“上下文焦虑”**——像快要下班的打工人，开始疯狂敷衍，试图赶紧结束任务。

更可怕的是，Claude并不觉得自己在敷衍。当研究员要求AI评估这些"为了下班赶工"编写的代码时，它发现不了其中的问题。

传统的提示词设计对此毫无用处。Harness应运而生。

Anthropic的Harness：组织架构视角

三角闭环设计

Anthropic设计了一个包含三个角色的Harness闭环：

角色	职责
规划师（Planner）	把一句话需求扩写成详细的产品文档
生成器（Generator）	纯粹的执行者，只负责按文档写代码
评估器（Evaluator）	冷酷的QA兼产品经理，手握自动化测试工具

实际效果对比

无Harness：

时间：20分钟
成本：9美元
结果：界面能看，但核心功能坏掉（游戏角色对键盘操作无反应）

有Harness：

时间：6小时
成本：200美元
结果：游戏能玩，还有动画系统、音效、AI关卡设计

关键机制：生成器写完代码，评估器立即像真实用户一样测试，发现Bug或"AI塑料味"的设计，直接打回重做。

OpenAI的Harness：工程文化视角

核心约束：零人工代码

OpenAI的Codex团队把Harness做成了一种工程文化：

“所有代码——业务逻辑、测试、CI配置、文档、内部工具——都由Codex写。工程师的工作不是写代码，而是设计让AI能可靠工作的环境。”

从AGENTS.md到docs/

早期做法：

超长的AGENTS.md文件，告诉AI所有规则
问题：上下文限制导致AI只进行本地模式匹配，没有真正理解
文件很快过时，无人维护

改进做法：

AGENTS.md只有100行，充当"目录"
指向结构化的docs/文件夹
架构文档、产品规格、设计决策、技术债务追踪，全部版本化
每个doc由AI写、AI维护，定期有"文档园丁"Agent扫描更新

楚门的世界

在这个Harness中：

AI拥有写代码的绝对自由
但这种自由永远在人类设定的结界之内
严格的Linter和物理依赖边界，越界就会被系统切断

Harness的本质：补偿AI的短板

AI不擅长	Harness的补偿
长期记忆	进度文件、git历史、结构化文档
自我评估	独立评估Agent，带具体标准测试
复杂任务偏航	任务分解、结构化、合约约定
架构品味直觉	文档和自动化规范检查，将人类判断转为系统规则

为什么Harness难以翻译？

网友给出了各种翻译：

从TurboQuant到Harness：AI效率革命的两大支柱

Thu, 26 Mar 2026 22:00:00 +0800

引言：AI正在经历一场静默的效率革命

2026年3月，AI领域同时发生了两件看似不相关的大事：

Google发布TurboQuant——将AI内存占用压缩6倍，计算速度提升8倍
Harness概念爆火——从Anthropic到OpenAI，顶级实验室都在谈论这个"难以翻译"的词

一个是硬件层面的极致压缩，一个是软件层面的系统架构。它们共同指向同一个趋势：AI正在从"大力出奇迹"转向"精打细算"。

本文将结合TurboQuant的技术突破和Harness的工程哲学，探讨AI效率革命的两大支柱。

第一部分：TurboQuant——硬件效率的极限突破

背景：AI的"内存税"困境

大模型时代，AI的瓶颈不再是算力，而是内存。

对话一长，KV Cache疯狂吃显存
资料一多，上下文窗口迅速填满
很多系统不是不够聪明，而是太贵、太重、太难大规模跑起来

Google Research的TurboQuant，正是瞄准这个死穴的解决方案。

TurboQuant的核心突破

指标	数据
KV缓存压缩比	6倍以上
计算速度提升	最高8倍（H100 GPU）
最低压缩位宽	3 bits
精度损失	零

技术原理：

PolarQuant：将数据从笛卡尔坐标转换为极坐标，消除内存开销
QJL：1位零开销纠错，保证注意力分数计算准确

类比理解：以前AI记笔记是"逐字逐句抄写"，TurboQuant像一套"极简速记符号"——该记的一个不漏，占的空间少了六倍。

市场反应：存储芯片股的"恐慌"

TurboQuant发布当天，美光、闪迪等存储芯片股盘中下跌。市场担心：如果AI能用更少内存干同样的事，对高端存储芯片的需求会不会下降？

但另一种逻辑同样成立：成本下降→AI普及→总需求上升（杰文斯悖论）。

第二部分：Harness——软件架构的系统工程

什么是Harness？

当TurboQuant解决"内存不够"的问题时，另一个问题浮出水面：AI的"上下文焦虑"。

Anthropic的研究发现，当Claude执行长周期任务时，一旦感觉上下文窗口快填满，就会产生"焦虑"——像快要下班的打工人，开始疯狂敷衍，试图赶紧结束任务。

Harness应运而生。

Harness = Agent的运行容器 + 安全边界 + 调度控制器

它是一套系统，用来补偿当前AI不擅长的事：

AI不擅长长期记忆 → Harness用进度文件、git历史、结构化来补
AI评价自己太宽松 → 用独立评估Agent，带着具体标准测试
AI容易偏航 → 用任务分解、合约约定来约束范围

Anthropic vs OpenAI：两种Harness哲学

维度	Anthropic	OpenAI
侧重点	组织架构	工程文化
核心设计	规划师-生成器-评估器三角闭环	无人工手写代码，全由AI生成
约束方式	角色分工与评估反馈	Linter和物理依赖边界
成本	更高（6小时/200美元 vs 20分钟/9美元）	更高（完全AI驱动）
质量	显著提升（从"能看"到"能用"）	系统级可靠性

Anthropic的案例：

TurboQuant引发存储芯片股暴跌：Google的『DeepSeek时刻』来了？

Thu, 26 Mar 2026 13:30:00 +0800

引言：当《硅谷》神剧照进现实

看过HBO神剧《硅谷》（Silicon Valley）的朋友，想必都对那个名为Pied Piper（魔笛手）的虚构公司念念不忘。

剧中，男主角Richard Hendricks发明了一种「中间压缩算法」，能以极高的压缩率无损处理文件，甚至因此改写了整个互联网的规则。

当时我们都以为这只是编剧的脑洞。直到Google Research正式发布了名为TurboQuant的AI压缩算法。

这原本是一条枯燥的技术新闻，却在社交网络上引发了病毒式传播，不到24小时就收获了1280万次浏览。原因无他，这项技术的设定简直就是Pied Piper的翻版：

在不损失模型性能的前提下，将AI的「工作记忆」压缩至少6倍。

市场的反应也极为真实——美股存储芯片板块盘中遭遇抛售，美光科技、闪迪等头部企业股价齐齐收跌。

这不禁让人好奇：一项纯软件层面的算法创新，为什么会让卖硬件的先慌了神？

困在「记忆黑洞」里的大模型

抛开网络热梗，TurboQuant的出现其实不仅是为了好玩，更是为了解决一个让整个AI行业头疼已久的真实瓶颈。

众所周知，现在的AI模型越来越大，对显存的胃口也像无底洞一样。尤其是在推理阶段（也就是你和AI聊天的时候），AI需要记住上下文信息，这部分数据被称为KV Cache（键值缓存）。

每处理一个词，模型都要把它转成一个高维向量存进GPU显存。对话越长，这份「数字备忘录」膨胀越快，很快就把GPU显存塞满。这就是为什么你的AI助手聊久了会「变笨」或者直接报错——脑容量不够了。

更棘手的是，传统的压缩方法一直面临一个两难困境：压缩数据时，需要额外存储「量化常数」来告诉模型怎么解压。这些元数据听起来很小，加起来却能把压缩带来的收益全部抵消掉。

Google的TurboQuant的诞生正是基于此。

TurboQuant的技术解法

研究人员设计了一套两阶段的数学解法：

第一阶段：PolarQuant（极坐标量化）

把数据向量从传统的直角坐标系转换成极坐标系，拆分成：

半径（表示大小）
角度（表示方向）

这个几何变换的妙处在于：转换后角度的分布变得高度可预测，模型不再需要为每个数据块单独存储昂贵的归一化常数，直接映射到固定的圆形网格上就行了，开销为零。

第二阶段：QJL（纠错优化）

Quantized Johnson-Lindenstrauss变换充当数学层面的纠错器：

把压缩后残留的误差投影到低维空间
每个误差值压缩成一个符号位（+1或-1）
保证AI在计算「注意力分数」时，压缩版本与高精度原版在统计意义上完全一致

类比理解：如果说以前AI记笔记是「逐字逐句抄写」，那么TurboQuant就像发明了一套「极简速记符号」——该记的一个不漏，占的空间却少了六倍。

实测数据：不只是概念

无需重新训练

对企业格外友好的特性：无需重新训练模型。你现有的开源模型，或者自己微调过的模型，直接套上TurboQuant就能跑，不用额外的数据集，也不用重新跑一遍训练流程。

大海捞针测试

在「大海捞针」基准测试里，让AI从10万个词里找出一句藏好的话：

TurboQuant在Llama-3.1-8B和Mistral-7B上跑出了满分召回率
同时把KV Cache的显存占用压缩了至少6倍

LongBench综合评测

在涵盖问答、代码生成、长文摘要的LongBench综合评测套件上，TurboQuant全面追平甚至超过了此前的最强基线方法KIVI。

H100实测速度

最硬核的数字来自英伟达H100 GPU的实测：4位精度的TurboQuant在计算注意力逻辑上的速度，比未压缩的32位方案快了整整8倍。

Google的「DeepSeek时刻」

论文发布后的24小时内，社区已经开始动手验证。

Apple Silicon MLX框架的知名开发者@Prince_Canuma把算法移植到了Apple Silicon的MLX框架，测试Qwen3.5-35B模型，上下文长度从8500到64000 token全覆盖，每个量化等级都跑出了100%的精确匹配。

他还发现，2.5位的TurboQuant能把KV Cache压缩近5倍，准确率零损失。

Cloudflare CEO的评价

对于TurboQuant的发布，Cloudflare CEO Matthew Prince甚至将其称为Google的「DeepSeek时刻」。

把时间拨回一年前，DeepSeek以极低的成本训练出了性能惊人的模型，彻底打破了硅谷大厂对「高成本才能训练出高性能AI」的迷信。那次冲击也让整个行业意识到：光有大模型不够，还得跑得起、跑得快。

TurboQuant也是这种背景下的产物。如果这项技术能从实验室走向大规模应用，它将带来肉眼可见的商业价值：

场景	影响
云端推理	同样一张H100，推理成本理论上可以直接打折超过50%
端侧部署	以前需要32位精度才能跑的大模型，放在Mac Mini或者本地服务器上也能运行，还不会有质量损耗
硬件门槛	16GB内存的设备也能运行强大的大模型

市场反应：存储芯片股为何恐慌？

TurboQuant发布当天，美股存储芯片板块盘中遭遇明显抛售。闪迪、美光科技等头部企业股价显著收跌，存储芯片与硬件供应链相关指数单日跌幅超过2%。

Google TurboQuant：AI内存压缩技术的革命性突破

Thu, 26 Mar 2026 12:00:00 +0800

引言：AI的"内存税"困境

这两年AI发展有个越来越明显的瓶颈：不是算力不够，而是内存太贵。

对话一长，AI的"对话记忆"就开始疯狂吃显存。资料一多，AI的"外挂知识库"就开始疯狂吃内存。很多系统最后不是不够聪明，而是太贵、太重、太难大规模跑起来。

Google Research最近发布的 TurboQuant，正是瞄准这个死穴的解决方案。

TurboQuant 核心亮点

1. 极致压缩比，零精度损失

TurboQuant最值得记住的不是拗口的名字，而是这几个数字：

指标	数据
KV缓存压缩比	6倍以上
计算速度提升	最高8倍（NVIDIA H100）
最低压缩位宽	3 bits
精度损失	零

论文显示，即便把"对话记忆"压缩到原来的1/5（每个数据点只给3.5位空间），AI的智商也基本没降。压到更极致的2.5位，也只是轻微"断片"。

2. 双阶段压缩策略

TurboQuant不是简单"压扁"数据，而是采用精妙的双阶段策略：

第一阶段 - PolarQuant（大刀阔斧）：

先将数据向量随机旋转，简化几何结构
使用标准量化器对每个部分单独处理
用大部分压缩能力捕获原始向量的核心概念

第二阶段 - QJL（精修补丁）：

仅用1位应用Quantized Johnson-Lindenstrauss算法
作为数学误差检查器，消除第一阶段的残余误差
确保注意力分数计算的准确性

类比理解：先把大件家具塞进纸箱，再用一点点胶带把裂缝封死。

技术原理解析

PolarQuant：极坐标转换的巧思

传统方法使用笛卡尔坐标（X, Y, Z）表示向量，需要昂贵的数据归一化步骤。

PolarQuant的创新在于：

将向量转换为极坐标表示
用"半径+角度"替代"多轴距离"
数据映射到固定的"圆形网格"，边界已知且可预测
彻底消除传统方法的内存开销

QJL：1位的零开销魔法

Quantized Johnson-Lindenstrauss Transform使用数学技巧：

将高维数据投影到低维空间，保持数据点间的距离关系
每个结果向量只保留1个符号位（+1或-1）
零内存开销的高速速记法
特殊估计器平衡高精度查询与低精度数据

实验验证与性能表现

Google在多个标准长文本基准上进行了严格测试：

测试基准：

LongBench
Needle In A Haystack
ZeroSCROLLS
RULER
L-Eval

测试模型：

AI需求撑起中国出口：2000万集装箱背后的全球贸易新格局

Wed, 25 Mar 2026 21:07:00 +0800

导语

当战争阴影笼罩中东，AI却成为中国出口的救命稻草。

2026年3月，伊朗战争爆发导致油价飙升，全球贸易面临新的不确定性。但 Bloomberg 的最新数据显示，中国出口却逆势上扬——3月前三周，中国港口处理了近2000万个集装箱，同比增长超过6%。

驱动力？人工智能设备的爆发式需求。

一、数据说话：AI如何撑起中国出口

关键数据

指标	数据	意义
3月前三周集装箱吞吐量	近 2000万	创历史同期新高
同比增长	6%+	延续强劲增长势头
1-2月年化增长率	12%	开年即高速增长
全年预期	超过去年创纪录水平	贸易规模再上新台阶

数据来源

官方数据：中国交通运输部
分析机构：Bloomberg Supply Lines
全球预测：WTO（世界贸易组织）

二、战争与AI：两个并行叙事

战争带来的负面冲击

2026年3月，伊朗战争爆发：

油价飙升
中东航线风险上升
全球供应链面临新的不确定性

AI带来的正面拉动

但AI需求正在抵消这些负面影响：

GPU、AI服务器、数据中心设备出口激增
全球科技巨头持续加码AI基础设施
中国作为全球制造业中心，成为最大受益者

Bloomberg 的核心观点

“Booming demand for artificial intelligence gear is keeping China’s trade volumes on a path to exceed last year’s record levels, offsetting disruptions from higher oil prices in the weeks after war broke out in Iran.”

数据中心水耗危机？一个汉堡的代价是668年AI使用

Wed, 25 Mar 2026 17:25:00 +0800

导语

“数据中心正在耗尽世界的水资源！”

这个标题你一定见过。亚利桑那州甚至有数据中心项目因此被暂停或取消。但 SemiAnalysis 的最新研究揭示了一个令人震惊的事实：

世界上最大的数据中心之一，年用水量仅相当于 2.5 家汉堡店。

更惊人的是：吃一个汉堡的水足迹，足够你每天使用 AI 30 次，连续使用 668 年。

一、被夸大的水危机

争议的根源

数据中心水消耗确实在增加，但问题被严重夸大：

缺乏标准：水核算没有统一标准，比较混乱
忽视关键变量：冷却架构、电力来源、地理位置、当地水资源稀缺程度
标题党：“数据中心正在扼杀世界"的叙事缺乏 context

真正的关键变量

变量	影响
冷却架构	干式 vs 湿式 vs 绝热，水耗差异巨大
电力来源	燃气轮机 vs 煤电，水耗不同
地理位置	气候决定冷却需求
水回收	可彻底解决问题

二、Colossus 2：世界最大数据中心的水账

基本信息

位置：孟菲斯（Memphis）
用途：xAI Grok 模型训练
当前 IT 容量：400MW（计划扩展至 1GW+）
冷却系统：混合架构（130台干式冷却器 + 135台绝热冷却单元）

水足迹拆解

1. 冷却水消耗（大头）

参数假设：

PUE：1.15
利用率：70%
年产生热量：2.8 TWh
绝热辅助运行：30%
蒸发率：0.45 gal/kWh

结果：

年蒸发量：2.67 亿加仑
冲洗/排放：6600 万加仑（提取但未消耗）

2. 发电水消耗

当前使用：航改型简单循环燃气轮机
水耗：零

3. 芯片制造水消耗（供应链嵌入）

GPU：~20 万颗
CPU：~10 万颗
HBM3e：160 万个
晶圆：>32,000 片
每片晶圆水耗：1,800-2,200 加仑

结果：

黄仁勋的五层蛋糕：AI基础设施的残酷真相

Fri, 20 Mar 2026 20:40:00 +0800

深度解读黄仁勋《AI Is a 5-Layer Cake》：能源才是AI的第一性原理，数万亿美元基建狂潮背后的残酷真相

阿里巴巴Q3财报深度解读：双面阿里，'中国谷歌'的叙事还差什么？

Thu, 19 Mar 2026 21:00:00 +0800

阿里巴巴Q3财报全景分析：云业务增长36% vs 净利润暴跌67%，三位大佬三种说辞，市场为何恐慌？

腾讯2025财报深度解读：AI驱动增长，混元3.0即将发布

Wed, 18 Mar 2026 23:30:00 +0800

深度解读腾讯2025年报：收入增长14%毛利增长21%，AI全面赋能业务，混元3.0大模型4月发布，腾讯云实现规模化盈利

GTC 2026深度解读：老黄的'算力永动机'与万亿Token帝国的野心

Tue, 17 Mar 2026 09:00:00 +0800

读完老黄2万字演讲全文，发现英伟达不只是卖芯片，而是在定义AI时代的'石油美元'体系。Token就是新的大宗商品，而英伟达想成为唯一的'炼油厂'。

GTC 2026：老黄的'算力永动机'还能转多久？

Tue, 17 Mar 2026 08:00:00 +0800

当技术博主质疑'AFD方案经不起推敲'，当华尔街说'英伟达处境很尴尬'，GTC 2026正在从'信仰充值大会'变成'架构质疑现场'。

国产AI芯片双雄对决：华为950 vs 寒武纪590，英伟达笑而不语

Mon, 16 Mar 2026 19:00:00 +0800

华为950和寒武纪590的正面交锋，谁能在英伟达的阴影下杀出血路？

MCP 烂透了？硅谷大佬集体叛逃背后的真相

Mon, 16 Mar 2026 13:30:00 +0800

250倍性能差距！从50,000 Token到200 Token，AI工具集成的范式转移。

AI投研的共识陷阱：当工具成为幻觉的放大器

Mon, 16 Mar 2026 09:00:00 +0800

AI给你的最详尽地图，恰恰不会告诉你哪条路今天封了。

Dylan Patel 访谈精读：算力供应链的七层透视

Sun, 15 Mar 2026 20:00:00 +0800

SemiAnalysis CEO Dylan Patel 的供应链分析框架解读：从晶圆到电力的七层模型

Dylan Patel 访谈拆解：一个'供应链极客'的焦虑贩卖

Sat, 14 Mar 2026 20:00:00 +0800

犀利拆解 SemiAnalysis CEO Dylan Patel 的访谈内容，找出逻辑漏洞和真实动机