Tars的技术观察

英伟达Groq 3 LPU：当Token经济学向低延迟倾斜

原文来源：未尽研究本文基于未尽研究文章整理，分析英伟达Groq 3 LPU对token经济学的重塑及中国开源生态面临的挑战一、Token经济学的价值曲线推理的token经济学，是一条**吞吐量（Throughput）与交互性（Interactivity）**之间展开的价值曲线。在GTC 2026上，黄仁勋拿起最新的Groq 3 LPU，把低延迟从性能指标，转化为能够直接重塑单位token价值的变量。在他的演示中：指标传统方案 Groq 3 LPU 交互速度 ~50 TPS 800+ TPS 单位token价值几美元 150美元英伟达当代算力平台GB NVL72，是模型经济性测评InferenceX的"推理之王"，但仍然止步于400 TPS。二、Groq 3 LPU：英伟达的"第七块芯片" 收购背景去年年底，英伟达向Groq支付200亿美元，获得其推理技术非排他性许可。Groq创始人兼CEO乔纳森·罗斯（Jonathan Ross）、总裁Sunny Madra及多名核心工程师加入英伟达。 3个月后，英伟达的Rubin平台迎来了第7款芯片——Groq 3 LPU（语言处理单元），已进入批量生产阶段，由三星代工。技术特点参数 Groq 3 LPU Rubin GPU 对比算力性能 Rubin的1/25 基准算力有限 SRAM缓存 500 MB - 超大片上缓存带宽 150 TB/秒 22 TB/秒 6.8倍定位低延迟、长上下文通用计算场景专用基于Groq 3 LPU，英伟达打造了Groq 3 LPX机架，拥有256个LPU芯片，专为低延迟、长上下文的智能体系统设计，将于今年下半年推出。三、从CPX到LPX：推理架构的转向此前的思路 Rubin CPX：专门针对预填充（Prefill）计算优化的定制芯片取消昂贵的HBM，代之以GDDR7内存，降低单位token成本生成与解码计算由旗舰Rubin GPU负责现在的架构随着LPX的推出，CPX没有出现在演讲现场。相比之下，基于Groq的LPX平台，如今才是英伟达推理架构中的关键拼图。 ...

当模型足够强之后，我们为什么还要重写 Harness？

模型能力已经足够强大，真正拖后腿的是稳定性——它跑偏、误判完成、在你不注意的地方悄悄变形。引言：一个让人警觉的数字同一个模型，提示词不变，数据不变，只是换一套运行方式，编程基准成绩就能从 42% 跳到 78%。 Anthropic 的例子更直观：同一个模型，单打独斗时看起来像是做完了，真跑起来核心功能却是坏的；换一套带规划、生成、验收的运行框架，成本高了，时间长了，结果反而能用。这提醒我们：AI 工程的重心，正在从"让模型更会回答"，转向"让系统更稳地交付结果"。第一部分：Harness 不是"壳"，是控制系统很多人第一次听到 Harness，会本能地把它理解成"模型外面那层包装"。这个理解不够。模型自己不会：保存状态维护工作目录判断输出是否满足系统约束知道什么时候该停、该继续、该回滚自己搭测试环境写完后自觉打开浏览器验证决定这次提交能不能合并 Harness 不是给模型套上的外壳，而是把模型接进工程世界的那层控制系统。它包括：状态怎么保存工具怎么暴露权限怎么约束输出怎么验证上下文怎么管理任务怎么续跑什么叫"真的完成了" 这些东西并不花哨，甚至很多都不新鲜——文件系统、测试、日志、浏览器、Lint、计划文件，原本就是软件工程里再普通不过的东西。但一旦主角从人类工程师换成模型，它们突然重新变成了核心。因为模型最擅长的是生成，最不擅长的是在约束里稳定收敛。第二部分：三篇文章的共同指向 2.1 Skills：把隐性知识变成显性协议 Skill 要解决的是提示词漂移、方法失传、工作流无法复用这些问题。本质上，是把原本靠聊天临场发挥的东西，搬进文件系统和版本控制。 2.2 Claude Code 实战：架构决策注入执行流程 Boris 那套 Research -> Plan -> 批注 -> Implement 流程最值钱的地方，在于它把"架构决策怎么进入执行流程"这件事做成了机制。 2.3 OpenClaw 架构：可控、可回放、可解释 lane queue、allowlist、JSONL 回放、语义快照——这些都在回答：系统怎么保持可控、可回放、可解释。三篇文章，分开看像三个不同话题。放在一起，其实都在做一件事：把原本靠模型临场发挥的部分，改造成可沉淀、可约束、可验证的系统。第三部分：三篇放在一起，都在做一件事真正变化快的，往往不是那个最小执行循环，而是循环外面不断加厚的那层工程设施：知识怎么挂进去状态怎么存下来权限怎么卡住验收怎么接回来也正因为如此，这一轮大家聊 Harness，越来越像在聊系统设计，而不是某个单点技巧。第四部分：为什么 Harness 现在变得重要 4.1 能力问题 vs 稳定性问题 Prompt Engineering：怎么把一句话说清楚，让模型按你的意思回答 Context Engineering：什么信息应该放进来，什么不该放进来 Harness Engineering：模型能理解需求，但在复杂系统里，能不能把事情从头到尾做稳？ AI 工程开始从能力问题，转向可靠性问题。 ...

模型越来越强，为什么大家却开始重写 Harness

太长不看版如果把《跟Cloudflare大佬学用 Claude Code》《Skills 详解》《深度拆解 Clawdbot（OpenClaw）架构与实现》放在一起看，会发现它们其实都在补模型外面的系统层 Harness 可以粗略理解成"把模型接进真实工作流的控制系统"，里面不只有工具，还有状态、约束、反馈和验收它现在变重要，原因很直接：模型一旦开始真正动手，系统层问题暴露得比能力问题更快具体做法会随着模型迭代不断变化，但知识沉淀、硬约束、反馈回路、完成标准这些问题不会自己消失如果现在准备补 Harness，我会更建议先补统一知识入口、硬约束和验证闭环，再谈多 Agent 和复杂编排先别把 Harness 当成一层"壳" 很多人第一次听到 Harness，会本能地把它理解成"模型外面那层包装"。这个理解不算错，但也不够。如果只是为了做一个短对话应用，你确实可以把它理解成包装层。一个聊天窗口，加一个消息循环，再加几个工具，差不多也能跑起来。但一旦任务开始变长，事情就不是"包一层"这么简单了。模型自己不会保存状态，不会主动维护工作目录，不会判断某次输出是不是已经满足了系统约束，也不会天然知道什么时候该停、什么时候该继续、什么时候该回滚。它当然也不会自己给自己搭测试环境，更不会在写完之后自觉打开浏览器、点一遍页面、看一眼日志，再决定这次提交到底能不能合并。所以我现在更愿意把 Harness 理解成另一种东西：它不是给模型套上的外壳，而是把模型接进工程世界的那层控制系统。这里面通常包括几类东西：状态怎么保存工具怎么暴露权限怎么约束输出怎么验证上下文怎么管理任务怎么续跑什么叫"真的完成了" 把这几样拆开看，你会发现它们并不花哨，甚至很多都不新鲜。文件系统、测试、日志、浏览器、Lint、计划文件、审批机制，这些原本就是软件工程里再普通不过的东西。但一旦主角从人类工程师换成模型，它们突然重新变成了核心。因为模型最擅长的是生成，最不擅长的是在约束里稳定收敛。为什么它偏偏现在火了如果把时间往前拨两年，你会发现那时候大家最关心的是 Prompt Engineering。核心问题是：怎么把一句话说清楚，让模型按你的意思回答。后来上下文变长了，任务变复杂了，大家开始聊 Context Engineering。问题也跟着变了，不再是"这一句怎么写"，而是"什么信息应该放进来，什么不该放进来"。再往后走，就到了今天这个阶段。 Prompt Engineering 和 Context Engineering 当然没有过时。更准确地说，它们被包进了一个更大的问题里。现在更让人头疼的问题变了：模型能理解需求，但在一个复杂系统里，它能不能把事情从头到尾做稳？这也是为什么最近围绕 Harness 的材料，明显都带着一种很强的"实战味"。 Mitchell Hashimoto 提出 Engineer the Harness，出发点很具体：每当 Agent 犯了一个错误，就别只盯着这次对话修修补补，把修复方式沉淀进系统，让它下次别再犯 OpenAI 的 Codex 团队讲得更直接。他们从零开始跑出一个大规模代码库之后，最后得出的重点，落在三件事上：仓库怎么成为统一知识入口，架构边界怎么机械执行，PR 怎么通过 Lint 和测试去卡住错误方向 Anthropic 的材料也很典型。里面有一个很朴素的发现，我一直记得：模型并不擅长评价自己的工作这句话看起来平淡，其实分量很重。因为它把很多人真实碰到的问题说穿了。页面看起来像是做完了，交互其实没通。功能大体对了，边界条件一跑就露馅。代码能过一部分测试，但系统层面已经悄悄偏离了原本的设计。 ...

Agent已疯，中国版Token经济学如何持续？

导语：当Agent成为基础设施 3月27日，中关村论坛最受关注的一场圆桌论坛。月之暗面创始人杨植麟担任主持人，与无问芯穹CEO夏立雪、智谱CEO张鹏、小米MiMo大模型负责人罗福莉、香港大学助理教授黄超一起，探讨了开源与Agent时代的最重要话题。这不是什么狗血商战情节，而是一场关于AI未来的深度对话。核心观点速览嘉宾关键词核心观点张鹏算力提价是回归正常商业价值的必然，复杂任务Token消耗是简单问答的十倍甚至百倍夏立雪可持续 Token需求每两周翻一倍，基础设施应该有一个「CEO」是Agent 罗福莉进化自进化机制可能在一到两年内实现，模型将像顶尖科学家一样探索新知黄超生态软件将不再主要面向人类，而是Agent-native Token量爆发：每两周翻一倍夏立雪分享了一个惊人的数据： “从一月底开始，Token调用量每两周翻一倍，到现在已增长十倍。” 他形容这种增长速度：“上一次看到这种增长，还是3G时代手机流量快速普及的时候。” 这意味着什么？今天的Token用量，就像当年大家每个月只有100MB手机流量时的阶段资源优化和整合成为当务之急价格上涨是需求压力下的自然结果 OpenClaw：拉高了中国开源模型的上限罗福莉认为OpenClaw的核心价值不仅是改变交互形态： “它把国内那些尚未完全逼近闭源模型、但已位于开源模型赛道前列的模型，上限显著拉高。” 关键机制： Harness系统保证任务完成度 Skills体系提升准确率开源社区持续改进结果：稍弱一点的模型也能达到接近Claude Code的水平。基础设施应该"智能体化" 夏立雪提出了一个激进的想法： “未来基础设施本身也应该是一个智能体：能自我进化、自我迭代，形成自主组织。” 具体构想：系统内部有一个「CEO」是一个Agent 根据AI客户需求，自主提出需求、迭代能力、优化系统实现算法与基础设施的深度融合当前问题：很多云计算基础设施是为人类工程师设计的，不是为AI设计的 Agent可以在毫秒级完成思考并发起任务，但底层API没有为此做好准备杨植麟Sharp提问：为什么涨价？作为主持人的杨植麟直接切入商业核心，问张鹏两个问题： GLM最新的迭代思路是什么？你们最近为什么涨价？张鹏的回答： “完成一个任务所需要的Token量，可能是回答一个简单问题时的十倍，甚至百倍。” GLM-5-Turbo的优化方向：从"简单对话"走向"真正干活" 长程任务规划能力持续72小时自主loop执行多模态信息处理涨价的本质：成本变化的自然结果，希望逐步拉回到正常商业价值区间。超长Context：模型自迭代的前提罗福莉透露了小米的技术路线： Hybrid Sparse、Linear Attention结构：DSSA 下一代架构：Highest Bus 关键认知：不是做不到百万级上下文，而是推理成本太高、速度太慢自进化的条件：达到10M/100M Context 模型在复杂环境中依靠超强Context完成自我进化既可能发生在框架层，也可能发生在模型参数层未来12个月的关键词嘉宾关键词解释黄超生态 Agent需要成为稳定的生产工具，软件将转向Agent-native 罗福莉进化自进化机制可能在一到两年内实现，带来指数级科研加速夏立雪可持续打造中国Token工厂，输出AI Made in China 张鹏算力需求爆发十倍、百倍，但算力供给仍是瓶颈结语：Agent时代的共识这场对话揭示了几个关键共识： ...

两个"零估值"，一个新阿里：AI时代的估值重构

导语：被低估的巨头 2026年3月，阿里发布最新一季财报，AI成为绝对主角。摩根大通在一份题为《Two Zeroes That Should Not Be》的报告中指出：阿里市值仅为其国内电商业务盈利预期的10倍市盈率投资者似乎只认可其单一业务的收益价值两个业务被市场隐含估值为零：即时零售（万亿GMV目标）和云+AI（五年1000亿美元营收目标）这篇文章将深入分析阿里如何通过全栈AI战略，从一家电商公司转型为AI基础设施提供商。战场凶猛：算力战争的入场券全球科技巨头的共同困境围绕AI与大模型的投入正在压缩盈利能力，但这并非阿里独有：公司资本支出变化市场反应微软单季资本开支激增66% 股价较高点跌25% Alphabet 资本支出计划同比翻倍盘中闪崩7% 阿里单季资本支出290亿人民币？核心逻辑：高昂的Capex是穿越技术周期的入场券，本质是在抢夺大模型时代的核心生产资料。算力的稀缺性需求侧：GPT-4参数量是GPT-3的10倍以上，Llama 3预训练数据量高达15万亿Token 供给侧：台积电先进封装与HBM产能爬坡周期漫长，万卡集群面临电网负荷瓶颈结论：未来3-5年，全球AI算力都将处于高度紧缺状态阿里的判断：中国市场尤为突出。阿里列阵：四层垂直整合全栈AI战略首次完整披露阿里围绕AI构建起四层垂直整合能力： ┌─────────────────────────────────────┐ │ 应用层：千问App + 悟空（Agent平台） │ ├─────────────────────────────────────┤ │ 模型层：Qwen开源模型 + MaaS业务 │ ├─────────────────────────────────────┤ │ 云基础设施：阿里云 + 亚太最大规模算力 │ ├─────────────────────────────────────┤ │ 芯片层：平头哥自研AI芯片 │ └─────────────────────────────────────┘ 每一层的作用 1. 芯片层（平头哥）自研AI芯片与通用服务器芯片已规模化量产对冲外部断供风险 “真武"等算力卡产品价格上调5%-34%，具备市场议价权摩根士丹利估算：平头哥单独上市估值280亿-860亿美元 2. 云基础设施层（阿里云）过去一季度营收同比增长36% AI相关产品收入连续第十个季度三位数同比增长聪明的"剪刀差"策略：裸算力涨价，模型调用降价，倒逼企业从买服务器转向买Token 3. 模型层（Qwen） ...

TurboQuant争议升级：RaBitQ作者公开质疑Google论文三大问题

导语：当技术论文成为舆论战场 3月27日，就在TurboQuant引发全球内存股血案的两天后，剧情出现了戏剧性反转。 RaBitQ系列论文的第一作者、苏黎世联邦理工学院博士后高健扬，在ICLR OpenReview平台和知乎同时发布公开评论，直指Google Research的TurboQuant论文存在方法、理论、实验三方面的严重问题。这不是普通的学术争鸣——它涉及到一篇被Google以"数千万曝光量"推向公众的论文，以及背后可能存在的学术不端行为。背景：两篇论文的交集 RaBitQ是什么？ RaBitQ是2024年发表的高维向量量化方法，核心创新之一是在量化前对输入向量施加随机旋转（Johnson-Lindenstrauss变换），利用旋转后坐标分布的性质实现最优误差界。发表时间：2024年5月（arXiv），随后发表于顶级会议SIGMOD 2024 理论保证：被证明达到理论计算机顶级会议FOCS 2017给出的渐近最优误差界代码开源：C++实现，默认采用多线程并行 TurboQuant是什么？ Google Research的论文，声称是一种"接近信息论下界"的在线向量量化算法，主打KV Cache压缩。发表时间：2025年4月（arXiv），2026年1月被ICLR 2026接收宣传口径：“重新定义AI效率”、“KV Cache压缩6倍” 市场影响：发布当天导致Micron、Western Digital等存储股集体下跌 RaBitQ作者提出的三大质疑质疑一：系统性回避方法相似性核心问题：TurboQuant与RaBitQ在方法层面有直接的结构联系——两者都在量化前对输入向量施加随机旋转。这是两篇论文方法设计中最核心、最接近的部分。证据链： 2025年1月，TurboQuant第二作者Majid Daliri主动联系RaBitQ团队，请求协助调试Python版RaBitQ实现 TurboQuant作者在ICLR审稿回复中亲口描述自己的方法：“We achieve this by…applying a random rotation” 但论文正文中，RaBitQ被描述为"grid-based PQ"，刻意省略了random rotation这一核心步骤 ICLR审稿人曾明确要求澄清两者关系，但定稿版反而将RaBitQ描述移到附录 Google的回应：“随机旋转和Johnson-Lindenstrauss变换已成为领域标准技术，不可能引用每一个使用它们的方法。” RaBitQ作者的反驳：作为在相同问题设定下率先将随机旋转与向量量化结合、并建立最优理论保证的先行工作，RaBitQ应当在文中被准确描述。质疑二：错误描述理论结果核心问题：TurboQuant论文在不提供任何论据的情况下，将RaBitQ的理论保证定性为"次优（suboptimal）"，原因归结为"较粗糙的分析（loose analysis）"。事实真相： RaBitQ拓展版论文（arXiv:2409.09913）的Theorem 3.2中，已严格证明RaBitQ的误差界达到渐近最优基于这一结果，RaBitQ团队被邀请至理论计算机科学顶级会议FOCS的Workshop进行报告 2025年5月，RaBitQ作者与Majid Daliri进行多轮邮件技术讨论，逐条澄清了这一错误 Majid Daliri明确表示已将讨论告知全体共同作者结果：TurboQuant论文从投稿、审稿、接收到大规模宣发的全过程中，这个没有证据支撑的断言始终未被修正。质疑三：刻意创造不公平实验环境核心问题：TurboQuant论文使用劣化实现、关闭多线程、单核CPU测试RaBitQ，却使用A100 GPU测试自己的方法。实验条件对比：项目 RaBitQ TurboQuant 实现语言作者自己翻译的Python 未披露硬件单核CPU，关闭多线程 NVIDIA A100 GPU 官方代码 C++多线程并行（未被使用）未开源邮件证据：2025年5月，Majid Daliri在邮件中承认： ...

AI概念全景图：从Prompt到OpenClaw，9个核心概念一次搞懂

引言：为什么你学了那么多AI概念，还是串不起来？你身边是不是也有这种人——平时聊天挺正常，一说到AI就突然变了个人，张口"Agent"、闭口"MCP"，说得煞有介事，你点头假装听懂，转身完全不知道他在说什么。更难受的是，今天冒出个"Skill体系"，明天又在说"多智能体协作"，后天群里炸了锅全在讨论OpenClaw和Claude Code谁更强。问题不是你不够聪明。问题是这些概念从来没有人把它们放在一起，告诉你它们之间到底是什么关系。今天就用一个「开公司」的比喻，把这9个概念串成一条流水线。核心结论：这不是9个新技术，是同一条流水线上的9个零件层级概念公司角色一句话解释地基大模型 + Token 封闭的天才懂很多但不会动手，Token是燃料沉淀层 Prompt → Skill 口头指令 → 固化能力从"每次说"到"说一次永久会" 接口层 MCP USB-C标准让AI能连外部工具执行层 Agent 真正干活的员工大模型+Skill+MCP+记忆+规划协作层多智能体项目团队分工协作，并行提速调度层 OpenClaw ERP+项目管理总调度，把所有零件跑起来特化层 Claude Code 代码特种兵专精开发的Agent 第一层：大模型和Token——地基打好了才能往上盖大模型：那个什么都懂、但不主动干活的家伙大模型是整个AI系统的地基，ChatGPT、Claude、文心一言，本质上都是大模型。它能做什么？什么都懂。你问它历史、问它代码、问它怎么写情书，它都能给你一个像样的回答。但它有一个根本限制：它只会"说"，不会"做"。你让大模型帮你查一下今天的天气，它做不到——因为它连不上网。你让它帮你发一封邮件，它也做不到——因为它没有手。理解这个，你才能理解后面为什么需要Agent、需要MCP。 Token：经常被忽视，但实际上决定了三件大事 Token是大模型处理文字的最小单位，一个英文单词大概是一个Token，一个中文字大概是两个Token。 Token重要在哪里？它决定了三件事：成本：用API调用大模型，按Token计费上下文长度：模型每次能"记住"的信息是有上限的推理能力上限：复杂的任务需要更多Token去推理 Token是AI系统的"燃料"——这东西是有成本的，用多少费多少。第二层：Prompt和Skill——从"会说话"到"能沉淀" Prompt：大家都在用，但大多数人用错了方向 Prompt就是你跟AI说的话。“帮我写一份工作总结”，这就是Prompt。但Prompt的本质局限：它是临时的，用完就没了。你今天花了半小时调试出一个绝妙的写作指令，明天打开新对话，全部清零，又要重来。你在Prompt上花的时间，很大一部分是在"反复教同一件事"。 Skill：Prompt的升级版，能力的"固化" Skill就是把你反复用的Prompt动作，封装成一个标准化的可复用模块。举个例子：你经常让AI帮你写周报。每次都要说"你是一个职场助手，帮我根据以下信息写一份周报……"——这套流程如果做成Skill，就变成一个固定的"写周报"按钮，点一下，输入数据，自动出结果。 Prompt和Skill的核心区别： Prompt是"每次说一遍" Skill是"说一次，永久会" 第三层：MCP——那堵墙，终于有了门前面说了，大模型是封闭的，它连不上外部世界。那怎么让它"动手"呢？ ...

TurboQuant引发内存股血案：一场FOMO驱动的市场乌龙

导语：当技术论文成为股市炸弹 3月25日，首尔证券交易所开盘不到两小时： SK Hynix 跌近 6% 三星跌 4.8% KOSPI 指数单日大跌 3% 同一天，美股： Micron 跌 7% SanDisk 跌 6.8% Lam Research 跌 5% 全球内存公司迎来黑色一天，堪比 DeepSeek 春节引发的核爆。而引发这一切的，只是 Google 研究院发布的一篇博客文章——介绍一个叫 TurboQuant 的压缩算法。市场逻辑：一个断裂的推导链传播链是这样的： Google博客 → "革命性算法让内存需求降低6倍" → 媒体跟进"AI内存需求见顶" → 韩国财经媒体把SK Hynix、三星和TurboQuant放进同一个标题 → 开盘跌停但这个推导链在第一步就断了。 TurboQuant 到底是什么？技术定位：KV Cache 压缩算法大模型推理时的内存消耗来自三部分：模型权重（不变）训练时的激活值和梯度（TurboQuant不碰）推理时的 KV Cache ← 只优化这一项 TurboQuant 的核心创新：随机旋转量化：消除 per-block 量化常数的 overhead QJL 变换：用 1 bit 处理残差误差，保证估计无偏结果：KV Cache 压缩到 3.5 bit（质量无损），2.5 bit（轻微下降）。 ...

如何让 OpenClaw 指挥三位大哥协作写代码？

原文：刘小排来源：微信公众号核心思路让 OpenClaw（小龙虾）自动指挥多种 AI Agent 协作完成复杂编程任务： Claude Code (Opus 4.6)：写开发计划、写逻辑代码 Codex CLI (GPT-5.3-Codex)：审核代码、做单元测试 Gemini CLI (Gemini-3.1-Pro)：设计界面、写前端代码、端到端测试两个关键要点 1. 说人话不要问"怎么编排流程"，而是：你怎么安排人类员工干活，就怎么安排小龙虾干活。 2. 使用 tmux tmux = Terminal Multiplexer，像一个不会关的虚拟终端房间。关键特性：完全隔离进程生命周期不管 OpenClaw 怎么重启、session 怎么回收，tmux 里的进程都不受影响 OpenClaw 随时可以读取 tmux 内的日志了解进度实操指南首次启用给 OpenClaw 的指令示例：我即将给你布置一个需要长时间完成的编程任务。我的系统中已经安装了 Codex CLI，我已经购买了官方包月会员，你不需要配置 API。请你使用 tmux 打开 Codex CLI 完成写代码的任务，使用 Codex CLI 里最强的模型、最大的推理力度。在 Codex CLI 里，授予 Full Access 权限。你还需要做一个日志监控，每 10 分钟给我汇报 Codex CLI 的工作进度。这个任务将会执行特别长的时间，如果期间 Codex CLI 进程死了，你需要重新喊它起来。写完代码后，你还需要进行 Review，如果发现了代码问题，把你意见发给 Codex CLI 和它讨论，直到你俩达成一致。后续启用配置好后，后续只需要说： ...

Kimi、MiniMax的算力荒：智能白菜价的窗口期正在关闭

引言：199元买了一张算力排队票 “高峰时段算力不足” 这是Kimi用户最近最熟悉的提示。花了199元/月开通Allegretto套餐，布局KimiClaw的最低配套餐，结果呢？Agent任务跑到一半断掉是家常便饭。 MiniMax那边更离谱。龙虾部署上去，聊两句就掉线，API动不动返回限速警告。用户@客服：“今天已经连续掉线了，聊2句就掉了。“客服回复：建议您检查本地网络。简单来说：你花了钱，但算力不一定是你的。什么时候能用上，看运气。 2026年春天：国产AI进入"用不了"时代这不是个例，而是行业通病。 2月10日：Kimi因算力告急宕机，官方回应堪称行为艺术：“正在找算力。要不先用DeepSeek。” 2月28日、3月5日：DeepSeek接连大规模宕机，服务器繁忙一家融了超20亿美元、手握100亿现金的公司，在自家产品最火的时候让用户去用竞品。 2026年春天，国产AI集体进入了**“用不了"时代**。算力荒的真相：Agent改变了需求曲线禁令是背景，Agent是主因直觉上，“算力荒"好像是禁令的锅。这个有道理，但不精确。 DeepSeek和Qwen这些模型本身就在资源约束下设计，MoE架构天然省算力。Kimi总裁张予彤在达沃斯说得很直白： “仅用美国顶尖实验室1%的资源，做出了全球领先的开源模型。” 真正击穿基础设施的，是Agent。 Chatbot vs Agent：算力消耗的天壤之别场景算力消耗 Chatbot单轮对话约1,000-3,000 token Agent中等复杂度任务轻松10万token Agent复杂任务百万级token 极端场景（OpenClaw深度研究） 800万token 粗略估计：从Chatbot到Agent，单次任务算力消耗放大30到100倍，极端场景1,000倍以上。为什么Agent这么吃算力？ Chatbot是一问一答，算力消耗线性可预测。 Agent完全不同——一个任务背后可能触发几十上百次模型调用：规划拆解执行反思纠错每一步都过模型。长上下文持续占显存，工具调用让GPU空转。类比： Chatbot时代，GPU像餐厅服务员，上完菜就去下一桌 Agent时代，服务员全程陪同，从点菜到结账，思考菜单时也不能走同样数量的服务员，能服务的桌数断崖式下降上游扛得住吗？信号已经出现云厂商集体涨价今年3月，国内云厂商开始集体调价——AI算力和存储产品价格上涨，涨幅从个位数到30%以上不等。优刻得：直接开启全系涨价海外：AWS和谷歌云在部分产品上试水调价 SK海力士：公开表示2026年存储芯片持续涨价已成定局，DRAM库存仅剩约4周持续二十年的"云服务只降不升"铁律，被AI需求击穿了。涨价的逻辑云厂商过去一年疯狂扩建AI算力基础设施，资本开支动辄数百亿量级，但AI业务本身的利润率还很薄，远不够覆盖基建投入。 Token调用量在指数级增长——2026年2月国内主流大模型日均消耗合计约180万亿——但卖Token的收入增速追不上建数据中心的花钱速度。涨价，不是云厂商贪心，是供应链涨价的无奈之举。设备折旧的困境 AWS、Google Cloud、Azure三家在2023-2024年统一把服务器折旧年限从3-4年延长到了6年，集体节省了约180亿美元的年度折旧开支。但NVIDIA的芯片迭代周期只有18-24个月——你今天花几千亿建的数据中心，里面的GPU可能两年后就不是最优选择了，折旧却要摊6年。 Satya Nadella自己都说：“我不想在一代芯片上背四五年的折旧。” Kimi和MiniMax的困境：两头堵轻资产模式的代价 Kimi和MiniMax自己并不拥有GPU。 Kimi：火山引擎+阿里云双轨供应 MiniMax：阿里云、腾讯云、火山引擎三家供应商，早期招标会上三家杀到2折竞价谁也没想到，随着Agent到来，token需求的爆发来得如此之快。四层传导压力算力荒是从芯片到云服务到模型公司到用户的四层传导： ...