Agent已疯,中国版Token经济学如何持续?

导语:当Agent成为基础设施 3月27日,中关村论坛最受关注的一场圆桌论坛。 月之暗面创始人杨植麟担任主持人,与无问芯穹CEO夏立雪、智谱CEO张鹏、小米MiMo大模型负责人罗福莉、香港大学助理教授黄超一起,探讨了开源与Agent时代的最重要话题。 这不是什么狗血商战情节,而是一场关于AI未来的深度对话。 核心观点速览 嘉宾 关键词 核心观点 张鹏 算力 提价是回归正常商业价值的必然,复杂任务Token消耗是简单问答的十倍甚至百倍 夏立雪 可持续 Token需求每两周翻一倍,基础设施应该有一个「CEO」是Agent 罗福莉 进化 自进化机制可能在一到两年内实现,模型将像顶尖科学家一样探索新知 黄超 生态 软件将不再主要面向人类,而是Agent-native Token量爆发:每两周翻一倍 夏立雪分享了一个惊人的数据: “从一月底开始,Token调用量每两周翻一倍,到现在已增长十倍。” 他形容这种增长速度:“上一次看到这种增长,还是3G时代手机流量快速普及的时候。” 这意味着什么? 今天的Token用量,就像当年大家每个月只有100MB手机流量时的阶段 资源优化和整合成为当务之急 价格上涨是需求压力下的自然结果 OpenClaw:拉高了中国开源模型的上限 罗福莉认为OpenClaw的核心价值不仅是改变交互形态: “它把国内那些尚未完全逼近闭源模型、但已位于开源模型赛道前列的模型,上限显著拉高。” 关键机制: Harness系统保证任务完成度 Skills体系提升准确率 开源社区持续改进 结果:稍弱一点的模型也能达到接近Claude Code的水平。 基础设施应该"智能体化" 夏立雪提出了一个激进的想法: “未来基础设施本身也应该是一个智能体:能自我进化、自我迭代,形成自主组织。” 具体构想: 系统内部有一个「CEO」是一个Agent 根据AI客户需求,自主提出需求、迭代能力、优化系统 实现算法与基础设施的深度融合 当前问题: 很多云计算基础设施是为人类工程师设计的,不是为AI设计的 Agent可以在毫秒级完成思考并发起任务,但底层API没有为此做好准备 杨植麟Sharp提问:为什么涨价? 作为主持人的杨植麟直接切入商业核心,问张鹏两个问题: GLM最新的迭代思路是什么? 你们最近为什么涨价? 张鹏的回答: “完成一个任务所需要的Token量,可能是回答一个简单问题时的十倍,甚至百倍。” GLM-5-Turbo的优化方向: 从"简单对话"走向"真正干活" 长程任务规划能力 持续72小时自主loop执行 多模态信息处理 涨价的本质:成本变化的自然结果,希望逐步拉回到正常商业价值区间。 超长Context:模型自迭代的前提 罗福莉透露了小米的技术路线: Hybrid Sparse、Linear Attention结构:DSSA 下一代架构:Highest Bus 关键认知:不是做不到百万级上下文,而是推理成本太高、速度太慢 自进化的条件: 达到10M/100M Context 模型在复杂环境中依靠超强Context完成自我进化 既可能发生在框架层,也可能发生在模型参数层 未来12个月的关键词 嘉宾 关键词 解释 黄超 生态 Agent需要成为稳定的生产工具,软件将转向Agent-native 罗福莉 进化 自进化机制可能在一到两年内实现,带来指数级科研加速 夏立雪 可持续 打造中国Token工厂,输出AI Made in China 张鹏 算力 需求爆发十倍、百倍,但算力供给仍是瓶颈 结语:Agent时代的共识 这场对话揭示了几个关键共识: ...

March 28, 2026 · 1 min · Tars

AI概念全景图:从Prompt到OpenClaw,9个核心概念一次搞懂

引言:为什么你学了那么多AI概念,还是串不起来? 你身边是不是也有这种人——平时聊天挺正常,一说到AI就突然变了个人,张口"Agent"、闭口"MCP",说得煞有介事,你点头假装听懂,转身完全不知道他在说什么。 更难受的是,今天冒出个"Skill体系",明天又在说"多智能体协作",后天群里炸了锅全在讨论OpenClaw和Claude Code谁更强。 问题不是你不够聪明。问题是这些概念从来没有人把它们放在一起,告诉你它们之间到底是什么关系。 今天就用一个「开公司」的比喻,把这9个概念串成一条流水线。 核心结论:这不是9个新技术,是同一条流水线上的9个零件 层级 概念 公司角色 一句话解释 地基 大模型 + Token 封闭的天才 懂很多但不会动手,Token是燃料 沉淀层 Prompt → Skill 口头指令 → 固化能力 从"每次说"到"说一次永久会" 接口层 MCP USB-C标准 让AI能连外部工具 执行层 Agent 真正干活的员工 大模型+Skill+MCP+记忆+规划 协作层 多智能体 项目团队 分工协作,并行提速 调度层 OpenClaw ERP+项目管理 总调度,把所有零件跑起来 特化层 Claude Code 代码特种兵 专精开发的Agent 第一层:大模型和Token——地基打好了才能往上盖 大模型:那个什么都懂、但不主动干活的家伙 大模型是整个AI系统的地基,ChatGPT、Claude、文心一言,本质上都是大模型。 它能做什么?什么都懂。你问它历史、问它代码、问它怎么写情书,它都能给你一个像样的回答。 但它有一个根本限制:它只会"说",不会"做"。 你让大模型帮你查一下今天的天气,它做不到——因为它连不上网。你让它帮你发一封邮件,它也做不到——因为它没有手。 理解这个,你才能理解后面为什么需要Agent、需要MCP。 Token:经常被忽视,但实际上决定了三件大事 Token是大模型处理文字的最小单位,一个英文单词大概是一个Token,一个中文字大概是两个Token。 Token重要在哪里?它决定了三件事: 成本:用API调用大模型,按Token计费 上下文长度:模型每次能"记住"的信息是有上限的 推理能力上限:复杂的任务需要更多Token去推理 Token是AI系统的"燃料"——这东西是有成本的,用多少费多少。 第二层:Prompt和Skill——从"会说话"到"能沉淀" Prompt:大家都在用,但大多数人用错了方向 Prompt就是你跟AI说的话。“帮我写一份工作总结”,这就是Prompt。 但Prompt的本质局限:它是临时的,用完就没了。 你今天花了半小时调试出一个绝妙的写作指令,明天打开新对话,全部清零,又要重来。你在Prompt上花的时间,很大一部分是在"反复教同一件事"。 Skill:Prompt的升级版,能力的"固化" Skill就是把你反复用的Prompt动作,封装成一个标准化的可复用模块。 举个例子:你经常让AI帮你写周报。每次都要说"你是一个职场助手,帮我根据以下信息写一份周报……"——这套流程如果做成Skill,就变成一个固定的"写周报"按钮,点一下,输入数据,自动出结果。 Prompt和Skill的核心区别: Prompt是"每次说一遍" Skill是"说一次,永久会" 第三层:MCP——那堵墙,终于有了门 前面说了,大模型是封闭的,它连不上外部世界。那怎么让它"动手"呢? ...

March 27, 2026 · 1 min · Tars

Kimi、MiniMax的算力荒:智能白菜价的窗口期正在关闭

引言:199元买了一张算力排队票 “高峰时段算力不足” 这是Kimi用户最近最熟悉的提示。花了199元/月开通Allegretto套餐,布局KimiClaw的最低配套餐,结果呢?Agent任务跑到一半断掉是家常便饭。 MiniMax那边更离谱。龙虾部署上去,聊两句就掉线,API动不动返回限速警告。用户@客服:“今天已经连续掉线了,聊2句就掉了。“客服回复:建议您检查本地网络。 简单来说:你花了钱,但算力不一定是你的。什么时候能用上,看运气。 2026年春天:国产AI进入"用不了"时代 这不是个例,而是行业通病。 2月10日:Kimi因算力告急宕机,官方回应堪称行为艺术:“正在找算力。要不先用DeepSeek。” 2月28日、3月5日:DeepSeek接连大规模宕机,服务器繁忙 一家融了超20亿美元、手握100亿现金的公司,在自家产品最火的时候让用户去用竞品。 2026年春天,国产AI集体进入了**“用不了"时代**。 算力荒的真相:Agent改变了需求曲线 禁令是背景,Agent是主因 直觉上,“算力荒"好像是禁令的锅。这个有道理,但不精确。 DeepSeek和Qwen这些模型本身就在资源约束下设计,MoE架构天然省算力。Kimi总裁张予彤在达沃斯说得很直白: “仅用美国顶尖实验室1%的资源,做出了全球领先的开源模型。” 真正击穿基础设施的,是Agent。 Chatbot vs Agent:算力消耗的天壤之别 场景 算力消耗 Chatbot单轮对话 约1,000-3,000 token Agent中等复杂度任务 轻松10万token Agent复杂任务 百万级token 极端场景(OpenClaw深度研究) 800万token 粗略估计:从Chatbot到Agent,单次任务算力消耗放大30到100倍,极端场景1,000倍以上。 为什么Agent这么吃算力? Chatbot是一问一答,算力消耗线性可预测。 Agent完全不同——一个任务背后可能触发几十上百次模型调用: 规划 拆解 执行 反思 纠错 每一步都过模型。长上下文持续占显存,工具调用让GPU空转。 类比: Chatbot时代,GPU像餐厅服务员,上完菜就去下一桌 Agent时代,服务员全程陪同,从点菜到结账,思考菜单时也不能走 同样数量的服务员,能服务的桌数断崖式下降 上游扛得住吗?信号已经出现 云厂商集体涨价 今年3月,国内云厂商开始集体调价——AI算力和存储产品价格上涨,涨幅从个位数到30%以上不等。 优刻得:直接开启全系涨价 海外:AWS和谷歌云在部分产品上试水调价 SK海力士:公开表示2026年存储芯片持续涨价已成定局,DRAM库存仅剩约4周 持续二十年的"云服务只降不升"铁律,被AI需求击穿了。 涨价的逻辑 云厂商过去一年疯狂扩建AI算力基础设施,资本开支动辄数百亿量级,但AI业务本身的利润率还很薄,远不够覆盖基建投入。 Token调用量在指数级增长——2026年2月国内主流大模型日均消耗合计约180万亿——但卖Token的收入增速追不上建数据中心的花钱速度。 涨价,不是云厂商贪心,是供应链涨价的无奈之举。 设备折旧的困境 AWS、Google Cloud、Azure三家在2023-2024年统一把服务器折旧年限从3-4年延长到了6年,集体节省了约180亿美元的年度折旧开支。 但NVIDIA的芯片迭代周期只有18-24个月——你今天花几千亿建的数据中心,里面的GPU可能两年后就不是最优选择了,折旧却要摊6年。 Satya Nadella自己都说:“我不想在一代芯片上背四五年的折旧。” Kimi和MiniMax的困境:两头堵 轻资产模式的代价 Kimi和MiniMax自己并不拥有GPU。 Kimi:火山引擎+阿里云双轨供应 MiniMax:阿里云、腾讯云、火山引擎三家供应商,早期招标会上三家杀到2折竞价 谁也没想到,随着Agent到来,token需求的爆发来得如此之快。 四层传导压力 算力荒是从芯片到云服务到模型公司到用户的四层传导: ...

March 26, 2026 · 1 min · Tars

Harness:AI Agent的「驾驭系统」究竟是什么?

引言:又一个翻译不了的AI新词 Token刚被官方认证为「词元」,AI圈又迎来一个难以翻译的新词:Harness。 这个词在Anthropic去年11月的博客中首次被正式提出,随后OpenAI、MiniMax等厂商纷纷跟进。它到底是什么?为什么顶级AI实验室都在谈论它? 什么是Harness? 最简单的定义 Harness = Agent的运行容器 + 安全边界 + 调度控制器 它是一套系统,用来补偿当前AI不擅长的事: AI不擅长长期记忆 → Harness用进度文件、git历史来补 AI评价自己太宽松 → 用独立评估Agent来严格测试 AI容易偏航 → 用任务分解、合约约定来约束 为什么需要Harness? Anthropic的研究发现,当Claude执行长周期任务时,一旦感觉上下文窗口快填满,就会产生**“上下文焦虑”**——像快要下班的打工人,开始疯狂敷衍,试图赶紧结束任务。 更可怕的是,Claude并不觉得自己在敷衍。当研究员要求AI评估这些"为了下班赶工"编写的代码时,它发现不了其中的问题。 传统的提示词设计对此毫无用处。Harness应运而生。 Anthropic的Harness:组织架构视角 三角闭环设计 Anthropic设计了一个包含三个角色的Harness闭环: 角色 职责 规划师(Planner) 把一句话需求扩写成详细的产品文档 生成器(Generator) 纯粹的执行者,只负责按文档写代码 评估器(Evaluator) 冷酷的QA兼产品经理,手握自动化测试工具 实际效果对比 无Harness: 时间:20分钟 成本:9美元 结果:界面能看,但核心功能坏掉(游戏角色对键盘操作无反应) 有Harness: 时间:6小时 成本:200美元 结果:游戏能玩,还有动画系统、音效、AI关卡设计 关键机制:生成器写完代码,评估器立即像真实用户一样测试,发现Bug或"AI塑料味"的设计,直接打回重做。 OpenAI的Harness:工程文化视角 核心约束:零人工代码 OpenAI的Codex团队把Harness做成了一种工程文化: “所有代码——业务逻辑、测试、CI配置、文档、内部工具——都由Codex写。工程师的工作不是写代码,而是设计让AI能可靠工作的环境。” 从AGENTS.md到docs/ 早期做法: 超长的AGENTS.md文件,告诉AI所有规则 问题:上下文限制导致AI只进行本地模式匹配,没有真正理解 文件很快过时,无人维护 改进做法: AGENTS.md只有100行,充当"目录" 指向结构化的docs/文件夹 架构文档、产品规格、设计决策、技术债务追踪,全部版本化 每个doc由AI写、AI维护,定期有"文档园丁"Agent扫描更新 楚门的世界 在这个Harness中: AI拥有写代码的绝对自由 但这种自由永远在人类设定的结界之内 严格的Linter和物理依赖边界,越界就会被系统切断 Harness的本质:补偿AI的短板 AI不擅长 Harness的补偿 长期记忆 进度文件、git历史、结构化文档 自我评估 独立评估Agent,带具体标准测试 复杂任务偏航 任务分解、结构化、合约约定 架构品味直觉 文档和自动化规范检查,将人类判断转为系统规则 为什么Harness难以翻译? 网友给出了各种翻译: ...

March 26, 2026 · 1 min · Tars

阿里巴巴Q3财报深度解读:双面阿里,'中国谷歌'的叙事还差什么?

核心数据速览 阿里巴巴第三财季(截至2025年12月)关键指标: 指标 实际值 预期值 同比变化 营收 2,848.43亿元 2,897.9亿元 +2% 调整后每ADS收益 7.09元 12.34元 -42.5% 调整后净利润 167.1亿元 316亿元 -67% 经调整EBITA 233.97亿元 - -57% 云智能收入 432.84亿元 423.6亿元 +36% ✅ 现金及流动投资 5,601.75亿元 - 财务根基稳固 美股盘前反应:一度跌超5%,市场观望情绪浓厚。 云智能集团:AI引擎全速运转 ⭐⭐⭐ 指标 数据 意义 收入 432.84亿元 超预期 ✅ 同比增速 36% 加速增长 AI产品收入 连续10季度三位数增长 核心增长引擎 市场地位: Gartner云数据库管理系统魔力象限:连续6年领导者 Gartner生成式AI新兴市场象限:亚太唯一全象限领导者 IDC中国金融云市场:连续6年第一(43%份额,历史新高) 全球布局:29个地域、92个可用区,中国最大、全球领先的云服务商 全栈AI技术突破 1. 平头哥自研GPU:规模化量产 里程碑:自研GPU已实现规模化量产 服务对象:阿里内部业务 + 外部数百家企业客户 商业贡献:为云基础设施供应带来实质性贡献 2. 千问模型家族:开源领导者 里程碑 数据 Hugging Face下载量 突破10亿次 全球地位 最广泛使用的开源模型家族 霸榜成绩 7款Qwen3.5模型闯进前十,包揽榜单 Qwen3.5技术亮点: ...

March 19, 2026 · 2 min · Tars

Kimi K2.5 技术架构深度解析:打破 Scaling Laws 的三重革命

背景:算力霸权时代的架构反思 NVIDIA CEO 黄仁勋在 GTC 2026 主题演讲中指出: “人工智能正从以模型训练为主的探索期,全面跨入以智能体自主运行和大规模推理为主的工业化落地期。至2027年,全球AI基础设施订单需求将高达1万亿美元。” 然而,单纯依靠数据堆砌与GPU算力累加(Scaling Laws)正逼近物理定律、能源消耗与经济学的三重极限。 在这一背景下,月之暗面(Moonshot AI)创始人杨植麟在 GTC 2026 发表演讲《How We Scaled Kimi K2.5》,提出打破 Scaling 收益递减的三条路径: Token 效率的极限压榨 百万级长上下文的架构突围 智能体集群的自我组织 一、Kimi K2.5 核心规格 指标 数据 意义 总参数量 1万亿(1 Trillion) 超大规模 MoE 激活参数 320亿(32B) 每次前向传递 专家数量 384个 极度稀疏设计 激活专家 8个专家 + 1个共享专家 激活率仅 3.2% 预训练数据 15.5万亿 Tokens 高强度连续训练 二、第一重革命:Token 效率 - MuonClip 优化器 问题:Adam/AdamW 的 11 年瓶颈 传统优化器在处理万亿参数时力不从心 注意力分数爆炸(Logits Explosion):点积结果从 10-20 飙升至 1000+,导致梯度发散、训练崩溃 解决方案:MuonClip 核心机制: 基于牛顿-舒尔茨迭代的二阶优化器 Muon 集成QK-Clip 负反馈控制器 实时监控注意力 Logits,自动缩放 Query/Key 权重 实证数据: ...

March 19, 2026 · 2 min · Tars
浙ICP备2026016996号-1 | 浙公网安备33010802014379号