Agent

Agent已疯，中国版Token经济学如何持续？

导语：当Agent成为基础设施 3月27日，中关村论坛最受关注的一场圆桌论坛。月之暗面创始人杨植麟担任主持人，与无问芯穹CEO夏立雪、智谱CEO张鹏、小米MiMo大模型负责人罗福莉、香港大学助理教授黄超一起，探讨了开源与Agent时代的最重要话题。这不是什么狗血商战情节，而是一场关于AI未来的深度对话。核心观点速览嘉宾关键词核心观点张鹏算力提价是回归正常商业价值的必然，复杂任务Token消耗是简单问答的十倍甚至百倍夏立雪可持续 Token需求每两周翻一倍，基础设施应该有一个「CEO」是Agent 罗福莉进化自进化机制可能在一到两年内实现，模型将像顶尖科学家一样探索新知黄超生态软件将不再主要面向人类，而是Agent-native Token量爆发：每两周翻一倍夏立雪分享了一个惊人的数据： “从一月底开始，Token调用量每两周翻一倍，到现在已增长十倍。” 他形容这种增长速度：“上一次看到这种增长，还是3G时代手机流量快速普及的时候。” 这意味着什么？今天的Token用量，就像当年大家每个月只有100MB手机流量时的阶段资源优化和整合成为当务之急价格上涨是需求压力下的自然结果 OpenClaw：拉高了中国开源模型的上限罗福莉认为OpenClaw的核心价值不仅是改变交互形态： “它把国内那些尚未完全逼近闭源模型、但已位于开源模型赛道前列的模型，上限显著拉高。” 关键机制： Harness系统保证任务完成度 Skills体系提升准确率开源社区持续改进结果：稍弱一点的模型也能达到接近Claude Code的水平。基础设施应该"智能体化" 夏立雪提出了一个激进的想法： “未来基础设施本身也应该是一个智能体：能自我进化、自我迭代，形成自主组织。” 具体构想：系统内部有一个「CEO」是一个Agent 根据AI客户需求，自主提出需求、迭代能力、优化系统实现算法与基础设施的深度融合当前问题：很多云计算基础设施是为人类工程师设计的，不是为AI设计的 Agent可以在毫秒级完成思考并发起任务，但底层API没有为此做好准备杨植麟Sharp提问：为什么涨价？作为主持人的杨植麟直接切入商业核心，问张鹏两个问题： GLM最新的迭代思路是什么？你们最近为什么涨价？张鹏的回答： “完成一个任务所需要的Token量，可能是回答一个简单问题时的十倍，甚至百倍。” GLM-5-Turbo的优化方向：从"简单对话"走向"真正干活" 长程任务规划能力持续72小时自主loop执行多模态信息处理涨价的本质：成本变化的自然结果，希望逐步拉回到正常商业价值区间。超长Context：模型自迭代的前提罗福莉透露了小米的技术路线： Hybrid Sparse、Linear Attention结构：DSSA 下一代架构：Highest Bus 关键认知：不是做不到百万级上下文，而是推理成本太高、速度太慢自进化的条件：达到10M/100M Context 模型在复杂环境中依靠超强Context完成自我进化既可能发生在框架层，也可能发生在模型参数层未来12个月的关键词嘉宾关键词解释黄超生态 Agent需要成为稳定的生产工具，软件将转向Agent-native 罗福莉进化自进化机制可能在一到两年内实现，带来指数级科研加速夏立雪可持续打造中国Token工厂，输出AI Made in China 张鹏算力需求爆发十倍、百倍，但算力供给仍是瓶颈结语：Agent时代的共识这场对话揭示了几个关键共识： ...

AI概念全景图：从Prompt到OpenClaw，9个核心概念一次搞懂

引言：为什么你学了那么多AI概念，还是串不起来？你身边是不是也有这种人——平时聊天挺正常，一说到AI就突然变了个人，张口"Agent"、闭口"MCP"，说得煞有介事，你点头假装听懂，转身完全不知道他在说什么。更难受的是，今天冒出个"Skill体系"，明天又在说"多智能体协作"，后天群里炸了锅全在讨论OpenClaw和Claude Code谁更强。问题不是你不够聪明。问题是这些概念从来没有人把它们放在一起，告诉你它们之间到底是什么关系。今天就用一个「开公司」的比喻，把这9个概念串成一条流水线。核心结论：这不是9个新技术，是同一条流水线上的9个零件层级概念公司角色一句话解释地基大模型 + Token 封闭的天才懂很多但不会动手，Token是燃料沉淀层 Prompt → Skill 口头指令 → 固化能力从"每次说"到"说一次永久会" 接口层 MCP USB-C标准让AI能连外部工具执行层 Agent 真正干活的员工大模型+Skill+MCP+记忆+规划协作层多智能体项目团队分工协作，并行提速调度层 OpenClaw ERP+项目管理总调度，把所有零件跑起来特化层 Claude Code 代码特种兵专精开发的Agent 第一层：大模型和Token——地基打好了才能往上盖大模型：那个什么都懂、但不主动干活的家伙大模型是整个AI系统的地基，ChatGPT、Claude、文心一言，本质上都是大模型。它能做什么？什么都懂。你问它历史、问它代码、问它怎么写情书，它都能给你一个像样的回答。但它有一个根本限制：它只会"说"，不会"做"。你让大模型帮你查一下今天的天气，它做不到——因为它连不上网。你让它帮你发一封邮件，它也做不到——因为它没有手。理解这个，你才能理解后面为什么需要Agent、需要MCP。 Token：经常被忽视，但实际上决定了三件大事 Token是大模型处理文字的最小单位，一个英文单词大概是一个Token，一个中文字大概是两个Token。 Token重要在哪里？它决定了三件事：成本：用API调用大模型，按Token计费上下文长度：模型每次能"记住"的信息是有上限的推理能力上限：复杂的任务需要更多Token去推理 Token是AI系统的"燃料"——这东西是有成本的，用多少费多少。第二层：Prompt和Skill——从"会说话"到"能沉淀" Prompt：大家都在用，但大多数人用错了方向 Prompt就是你跟AI说的话。“帮我写一份工作总结”，这就是Prompt。但Prompt的本质局限：它是临时的，用完就没了。你今天花了半小时调试出一个绝妙的写作指令，明天打开新对话，全部清零，又要重来。你在Prompt上花的时间，很大一部分是在"反复教同一件事"。 Skill：Prompt的升级版，能力的"固化" Skill就是把你反复用的Prompt动作，封装成一个标准化的可复用模块。举个例子：你经常让AI帮你写周报。每次都要说"你是一个职场助手，帮我根据以下信息写一份周报……"——这套流程如果做成Skill，就变成一个固定的"写周报"按钮，点一下，输入数据，自动出结果。 Prompt和Skill的核心区别： Prompt是"每次说一遍" Skill是"说一次，永久会" 第三层：MCP——那堵墙，终于有了门前面说了，大模型是封闭的，它连不上外部世界。那怎么让它"动手"呢？ ...

Kimi、MiniMax的算力荒：智能白菜价的窗口期正在关闭

引言：199元买了一张算力排队票 “高峰时段算力不足” 这是Kimi用户最近最熟悉的提示。花了199元/月开通Allegretto套餐，布局KimiClaw的最低配套餐，结果呢？Agent任务跑到一半断掉是家常便饭。 MiniMax那边更离谱。龙虾部署上去，聊两句就掉线，API动不动返回限速警告。用户@客服：“今天已经连续掉线了，聊2句就掉了。“客服回复：建议您检查本地网络。简单来说：你花了钱，但算力不一定是你的。什么时候能用上，看运气。 2026年春天：国产AI进入"用不了"时代这不是个例，而是行业通病。 2月10日：Kimi因算力告急宕机，官方回应堪称行为艺术：“正在找算力。要不先用DeepSeek。” 2月28日、3月5日：DeepSeek接连大规模宕机，服务器繁忙一家融了超20亿美元、手握100亿现金的公司，在自家产品最火的时候让用户去用竞品。 2026年春天，国产AI集体进入了**“用不了"时代**。算力荒的真相：Agent改变了需求曲线禁令是背景，Agent是主因直觉上，“算力荒"好像是禁令的锅。这个有道理，但不精确。 DeepSeek和Qwen这些模型本身就在资源约束下设计，MoE架构天然省算力。Kimi总裁张予彤在达沃斯说得很直白： “仅用美国顶尖实验室1%的资源，做出了全球领先的开源模型。” 真正击穿基础设施的，是Agent。 Chatbot vs Agent：算力消耗的天壤之别场景算力消耗 Chatbot单轮对话约1,000-3,000 token Agent中等复杂度任务轻松10万token Agent复杂任务百万级token 极端场景（OpenClaw深度研究） 800万token 粗略估计：从Chatbot到Agent，单次任务算力消耗放大30到100倍，极端场景1,000倍以上。为什么Agent这么吃算力？ Chatbot是一问一答，算力消耗线性可预测。 Agent完全不同——一个任务背后可能触发几十上百次模型调用：规划拆解执行反思纠错每一步都过模型。长上下文持续占显存，工具调用让GPU空转。类比： Chatbot时代，GPU像餐厅服务员，上完菜就去下一桌 Agent时代，服务员全程陪同，从点菜到结账，思考菜单时也不能走同样数量的服务员，能服务的桌数断崖式下降上游扛得住吗？信号已经出现云厂商集体涨价今年3月，国内云厂商开始集体调价——AI算力和存储产品价格上涨，涨幅从个位数到30%以上不等。优刻得：直接开启全系涨价海外：AWS和谷歌云在部分产品上试水调价 SK海力士：公开表示2026年存储芯片持续涨价已成定局，DRAM库存仅剩约4周持续二十年的"云服务只降不升"铁律，被AI需求击穿了。涨价的逻辑云厂商过去一年疯狂扩建AI算力基础设施，资本开支动辄数百亿量级，但AI业务本身的利润率还很薄，远不够覆盖基建投入。 Token调用量在指数级增长——2026年2月国内主流大模型日均消耗合计约180万亿——但卖Token的收入增速追不上建数据中心的花钱速度。涨价，不是云厂商贪心，是供应链涨价的无奈之举。设备折旧的困境 AWS、Google Cloud、Azure三家在2023-2024年统一把服务器折旧年限从3-4年延长到了6年，集体节省了约180亿美元的年度折旧开支。但NVIDIA的芯片迭代周期只有18-24个月——你今天花几千亿建的数据中心，里面的GPU可能两年后就不是最优选择了，折旧却要摊6年。 Satya Nadella自己都说：“我不想在一代芯片上背四五年的折旧。” Kimi和MiniMax的困境：两头堵轻资产模式的代价 Kimi和MiniMax自己并不拥有GPU。 Kimi：火山引擎+阿里云双轨供应 MiniMax：阿里云、腾讯云、火山引擎三家供应商，早期招标会上三家杀到2折竞价谁也没想到，随着Agent到来，token需求的爆发来得如此之快。四层传导压力算力荒是从芯片到云服务到模型公司到用户的四层传导： ...

Harness：AI Agent的「驾驭系统」究竟是什么？

引言：又一个翻译不了的AI新词 Token刚被官方认证为「词元」，AI圈又迎来一个难以翻译的新词：Harness。这个词在Anthropic去年11月的博客中首次被正式提出，随后OpenAI、MiniMax等厂商纷纷跟进。它到底是什么？为什么顶级AI实验室都在谈论它？什么是Harness？最简单的定义 Harness = Agent的运行容器 + 安全边界 + 调度控制器它是一套系统，用来补偿当前AI不擅长的事： AI不擅长长期记忆 → Harness用进度文件、git历史来补 AI评价自己太宽松 → 用独立评估Agent来严格测试 AI容易偏航 → 用任务分解、合约约定来约束为什么需要Harness？ Anthropic的研究发现，当Claude执行长周期任务时，一旦感觉上下文窗口快填满，就会产生**“上下文焦虑”**——像快要下班的打工人，开始疯狂敷衍，试图赶紧结束任务。更可怕的是，Claude并不觉得自己在敷衍。当研究员要求AI评估这些"为了下班赶工"编写的代码时，它发现不了其中的问题。传统的提示词设计对此毫无用处。Harness应运而生。 Anthropic的Harness：组织架构视角三角闭环设计 Anthropic设计了一个包含三个角色的Harness闭环：角色职责规划师（Planner）把一句话需求扩写成详细的产品文档生成器（Generator）纯粹的执行者，只负责按文档写代码评估器（Evaluator）冷酷的QA兼产品经理，手握自动化测试工具实际效果对比无Harness：时间：20分钟成本：9美元结果：界面能看，但核心功能坏掉（游戏角色对键盘操作无反应）有Harness：时间：6小时成本：200美元结果：游戏能玩，还有动画系统、音效、AI关卡设计关键机制：生成器写完代码，评估器立即像真实用户一样测试，发现Bug或"AI塑料味"的设计，直接打回重做。 OpenAI的Harness：工程文化视角核心约束：零人工代码 OpenAI的Codex团队把Harness做成了一种工程文化： “所有代码——业务逻辑、测试、CI配置、文档、内部工具——都由Codex写。工程师的工作不是写代码，而是设计让AI能可靠工作的环境。” 从AGENTS.md到docs/ 早期做法：超长的AGENTS.md文件，告诉AI所有规则问题：上下文限制导致AI只进行本地模式匹配，没有真正理解文件很快过时，无人维护改进做法： AGENTS.md只有100行，充当"目录" 指向结构化的docs/文件夹架构文档、产品规格、设计决策、技术债务追踪，全部版本化每个doc由AI写、AI维护，定期有"文档园丁"Agent扫描更新楚门的世界在这个Harness中： AI拥有写代码的绝对自由但这种自由永远在人类设定的结界之内严格的Linter和物理依赖边界，越界就会被系统切断 Harness的本质：补偿AI的短板 AI不擅长 Harness的补偿长期记忆进度文件、git历史、结构化文档自我评估独立评估Agent，带具体标准测试复杂任务偏航任务分解、结构化、合约约定架构品味直觉文档和自动化规范检查，将人类判断转为系统规则为什么Harness难以翻译？网友给出了各种翻译： ...

阿里巴巴Q3财报深度解读：双面阿里，'中国谷歌'的叙事还差什么？

核心数据速览阿里巴巴第三财季（截至2025年12月）关键指标：指标实际值预期值同比变化营收 2,848.43亿元 2,897.9亿元 +2% 调整后每ADS收益 7.09元 12.34元 -42.5% 调整后净利润 167.1亿元 316亿元 -67% 经调整EBITA 233.97亿元 - -57% 云智能收入 432.84亿元 423.6亿元 +36% ✅ 现金及流动投资 5,601.75亿元 - 财务根基稳固美股盘前反应：一度跌超5%，市场观望情绪浓厚。云智能集团：AI引擎全速运转 ⭐⭐⭐ 指标数据意义收入 432.84亿元超预期 ✅ 同比增速 36% 加速增长 AI产品收入连续10季度三位数增长核心增长引擎市场地位： Gartner云数据库管理系统魔力象限：连续6年领导者 Gartner生成式AI新兴市场象限：亚太唯一全象限领导者 IDC中国金融云市场：连续6年第一（43%份额，历史新高）全球布局：29个地域、92个可用区，中国最大、全球领先的云服务商全栈AI技术突破 1. 平头哥自研GPU：规模化量产里程碑：自研GPU已实现规模化量产服务对象：阿里内部业务 + 外部数百家企业客户商业贡献：为云基础设施供应带来实质性贡献 2. 千问模型家族：开源领导者里程碑数据 Hugging Face下载量突破10亿次全球地位最广泛使用的开源模型家族霸榜成绩 7款Qwen3.5模型闯进前十，包揽榜单 Qwen3.5技术亮点： ...

Kimi K2.5 技术架构深度解析：打破 Scaling Laws 的三重革命

背景：算力霸权时代的架构反思 NVIDIA CEO 黄仁勋在 GTC 2026 主题演讲中指出： “人工智能正从以模型训练为主的探索期，全面跨入以智能体自主运行和大规模推理为主的工业化落地期。至2027年，全球AI基础设施订单需求将高达1万亿美元。” 然而，单纯依靠数据堆砌与GPU算力累加（Scaling Laws）正逼近物理定律、能源消耗与经济学的三重极限。在这一背景下，月之暗面（Moonshot AI）创始人杨植麟在 GTC 2026 发表演讲《How We Scaled Kimi K2.5》，提出打破 Scaling 收益递减的三条路径： Token 效率的极限压榨百万级长上下文的架构突围智能体集群的自我组织一、Kimi K2.5 核心规格指标数据意义总参数量 1万亿（1 Trillion）超大规模 MoE 激活参数 320亿（32B）每次前向传递专家数量 384个极度稀疏设计激活专家 8个专家 + 1个共享专家激活率仅 3.2% 预训练数据 15.5万亿 Tokens 高强度连续训练二、第一重革命：Token 效率 - MuonClip 优化器问题：Adam/AdamW 的 11 年瓶颈传统优化器在处理万亿参数时力不从心注意力分数爆炸（Logits Explosion）：点积结果从 10-20 飙升至 1000+，导致梯度发散、训练崩溃解决方案：MuonClip 核心机制：基于牛顿-舒尔茨迭代的二阶优化器 Muon 集成QK-Clip 负反馈控制器实时监控注意力 Logits，自动缩放 Query/Key 权重实证数据： ...