Token经济学

腾讯云李强：卖Token不是好生意，与阿里ATH的战略分野

引子 2026年4月，中国AI产业出现了一个耐人寻味的分化。一边是阿里巴巴成立 Alibaba Token Hub（ATH）事业群，CEO吴泳铭亲自挂帅，把Token上升为与电商、云智能并列的集团级战略。另一边是腾讯云副总裁李强公开表态：“无论现在Token涨价有多快，卖Token都不是一门好生意。” 同一个市场，两套完全相反的顶层设计。这到底是理念冲突，还是各取所需的理性分野？先把结论放前面：这不是谁对谁错的问题，而是两家公司基于不同基因、不同竞争位置，选择了不同的利润池。一、李强到底在说什么？李强的核心论断，用了一个非常精准的比喻： Token = 油耗，大模型 = 引擎。他的逻辑链条是这样的：单纯卖Token没有黏性——客户今天用你，明天友商降价就跑了，替代成本极低。过度补贴只会培养羊毛党——一旦停止补贴，客户流失率极高。真正的壁垒在"引擎"和"整车"——也就是大模型本身的智能水平，以及应用层的闭环能力。换句话说，李强并不是在否定Token的价值，而是否定卖Token作为一种独立商业模式的可持续性。这个判断，与NVIDIA黄仁勋把Token定义为"新的大宗商品"，本质上并不矛盾——黄仁勋是从需求侧描述趋势，李强是从供给侧警告同质化风险。二、阿里为什么要全力推进ATH？理解阿里的选择，必须先理解阿里的处境。维度阿里的现实战略动机云的市场地位阿里云是中国第一大公有云，但华为云、腾讯云紧追不舍必须用"AI基础设施"（算力+Token）巩固B端客户黏性模型生态通义千问（Qwen）开源生态不错，但C端声量不如元宝/豆包把Token作为企业入口，绑定客户使用阿里云的推理服务商业基因交易平台+基础设施平台习惯先控货（Token），再在平台上做交易（应用/服务）竞争焦虑 DeepSeek已经把Token价格打到地板价必须规模化生产Token，用规模效应压低成本阿里做ATH的本质，是把Token当成水电煤来卖。水电煤本身利润率不高，但只要你控制了管道和分发网络（阿里云 + 百炼平台），就能锁定大量B端和中小企业的AI入口。三、两种战略的底层差异腾讯（李强路线）阿里（ATH路线）核心判断 Token是"油耗"，低黏性、高替代成本 Token是"新的大宗商品"，要用规模锁定入口竞争优势微信生态、游戏/社交场景、C端触达阿里云、电商数据、B端企业服务能力打法做"整车厂"：混元+QClaw+WorkBuddy+Lighthouse 做"加油站+炼油厂"：通义+ATH+阿里云风险偏好厌恶低毛利、转手贸易型收入愿意在基础设施上长期投入，换取入口控制权这个对比揭示了一个关键事实：两家公司对"护城河在哪里"的答案是不同的。腾讯认为护城河在应用层和用户黏性；阿里认为护城河在规模化的基础设施和平台控制力。四、谁更对？短期来看，两条路都能走通，但各自的风险点非常清晰。阿里的风险：同质化陷阱如果Token真的沦为完全同质化的大宗商品（就像李强警告的"油耗"），ATH可能陷入价格战泥潭。DeepSeek已经把百万Token价格打到地板价，阿里必须证明ATH不只是"更便宜的API入口"，而是能带来额外价值的智能体操作系统。腾讯的风险：知行差距李强的"引擎"论很对，但混元大模型目前的市场声量和性能表现，与GPT、Claude、甚至DeepSeek相比，还有明显差距。“引擎"做得不够好，整车再漂亮也跑不过别人。姚顺雨（前OpenAI研究员）加入腾讯主导混元开发，说明腾讯自己也意识到了这个短板，正在补课。长期终局纯卖Token的利润率会被持续压缩。这一点，李强和黄仁勋的判断其实是一致的。区别在于：阿里选择在利润被压缩之前，先用规模和控制力占领市场。腾讯选择直接跳过红海，做高毛利的应用和模型差异化。最理想的战略，当然是两者的结合：强大的模型引擎 + 规模化的Token基础设施 + 不可替代的应用场景。但现实中，很少有公司能同时把三件事都做到极致。 ...

Token经济学：AI时代的"千瓦时"正在重塑产业链

本文基于腾讯研究院《Token经济学的七个问题》一文（作者：白惠天、袁晓辉）深度解读，原文发表于2026年3月31日。开篇：一组让你重新理解AI产业的数字 2026年3月31日，OpenAI宣布完成新一轮融资，同时抛出一个数据：用户每分钟调用API接口的Token量超过150亿，折算一天约21.6万亿。几天前，中国国家数据局公布：中国日均Token调用量突破140万亿，两年增长1400倍。这是什么概念？粗略折算，相当于每天生成约2000亿篇千字文章。摩根大通预测，中国AI推理Token消耗将从2025年增长到2030年的3900千万亿——五年再涨370倍。 Token是什么？简单说，它是AI处理和生成信息的基本单位，大约对应一到两个汉字。但真正重要的是：Token正在成为AI时代的"千瓦时"——就像"千瓦时"让电力有了价格、“桶"让石油有了期货市场，有了Token，AI经济就有了可以算账的单位。腾讯研究院这篇文章，用七个问题为这个正在成型的新经济体系画了一张地图。我从商业和产业视角做深度解读。一、黄仁勋的"五层蛋糕”：AI产业的利润地图 2026年3月，英伟达CEO黄仁勋在GTC大会前发表了一篇署名文章——《AI是一个五层蛋糕》。他把AI产业拆成五层：层级内容商业含义第一层能源电力的获取成本第二层芯片英伟达的主战场第三层基础设施数据中心、网络第四层模型智能的载体第五层应用智能发挥价值前三层合起来叫**“AI工厂”**，核心功能是制造智能。贯穿五层的统一计量单位就是Token。AI工厂的关键经营指标——吞吐量、单位成本、每瓦产出、每兆瓦收入——全部围绕Token展开。商业启示：这个框架回答的是"在产业链中哪里能赚到钱"。前三层是基建投资，后两层是应用落地。而Token就是贯穿全产业链的"通用货币"。二、价值分层：不是所有Token都生而平等同样一个Token：用来闲聊：百万个值0.01美元用来写代码：值200美元用来做法律文档审阅：值1000美元价值差了十万倍。为什么？因为Token有一种此前任何生产要素都不具备的属性——可编程性。钢铁做不到这一点，石油做不到，甚至电力也做不到。没有任何一种传统生产要素，能仅凭"指令不同"就改变自身价值百千倍。数据说话：不到5%的Token消耗，创造了超过80%的可测量价值。这意味着什么？意味着"平均Token价格"是个伪命题——就像用平均房价来描述一个既有茅草屋又有摩天楼的城市，数字正确，但毫无意义。投资启示：关注AI公司，不要看它消耗了多少Token，要看它把Token用在了什么场景上。高价值场景的Token消耗才是真金白银。三、杰文斯悖论重演：越便宜，花得越多这是全文最反直觉的发现。 2022年，调用GPT-3级别模型需要60美元/百万Token。到2026年初，同等能力的开源模型只要0.06美元——降了99.9%。驱动降价的是三股力量的相乘效应：硬件效率每年提升2-3倍，算法效率每年提升2-3倍，系统优化每年再提升2-4倍。三者相乘，Token成本每年下降5-10倍。但悖论来了：指标 2022年 2026年变化 Token单价 60美元/百万 0.06美元/百万 ↓99.9% 全球企业AI云支出 115亿美元 370亿美元 ↑3倍+ 单价降了99.9%，但总支出翻了三倍多。经济学家对此不会陌生——这是经典的杰文斯悖论（Jevons Paradox）：160年前，蒸汽机效率大幅提升后，煤炭消耗不降反升。因为效率提升释放了原本被成本约束的潜在需求。当Token价格是60美元/百万时，只有金融分析、药物发现这些最高价值的任务用得起。当价格降到0.06美元时，代码审查、实时客服、个性化教育、甚至AI角色扮演都变得经济可行了。每个新场景都是新的Token消耗。投资启示： Token降价不是利空，是利好——它在做大整个蛋糕。投资AI基础设施，赌的是"蛋糕越来越大"，而不是"单价越来越低"。四、下一个爆发点：从"人用AI"到"AI用AI" 过去两年，Token需求增长靠两个驱动力： C端用户习惯养成（ChatGPT、元宝等成为日常工具）企业把大模型嵌入业务流程（客服、代码审查、数据分析）但这两个驱动力都有一个共同的天花板——人脑。人一天能读多少字、能处理多少信息是有上限的。 ...

英伟达Groq 3 LPU：当Token经济学向低延迟倾斜

原文来源：未尽研究本文基于未尽研究文章整理，分析英伟达Groq 3 LPU对token经济学的重塑及中国开源生态面临的挑战一、Token经济学的价值曲线推理的token经济学，是一条**吞吐量（Throughput）与交互性（Interactivity）**之间展开的价值曲线。在GTC 2026上，黄仁勋拿起最新的Groq 3 LPU，把低延迟从性能指标，转化为能够直接重塑单位token价值的变量。在他的演示中：指标传统方案 Groq 3 LPU 交互速度 ~50 TPS 800+ TPS 单位token价值几美元 150美元英伟达当代算力平台GB NVL72，是模型经济性测评InferenceX的"推理之王"，但仍然止步于400 TPS。二、Groq 3 LPU：英伟达的"第七块芯片" 收购背景去年年底，英伟达向Groq支付200亿美元，获得其推理技术非排他性许可。Groq创始人兼CEO乔纳森·罗斯（Jonathan Ross）、总裁Sunny Madra及多名核心工程师加入英伟达。 3个月后，英伟达的Rubin平台迎来了第7款芯片——Groq 3 LPU（语言处理单元），已进入批量生产阶段，由三星代工。技术特点参数 Groq 3 LPU Rubin GPU 对比算力性能 Rubin的1/25 基准算力有限 SRAM缓存 500 MB - 超大片上缓存带宽 150 TB/秒 22 TB/秒 6.8倍定位低延迟、长上下文通用计算场景专用基于Groq 3 LPU，英伟达打造了Groq 3 LPX机架，拥有256个LPU芯片，专为低延迟、长上下文的智能体系统设计，将于今年下半年推出。三、从CPX到LPX：推理架构的转向此前的思路 Rubin CPX：专门针对预填充（Prefill）计算优化的定制芯片取消昂贵的HBM，代之以GDDR7内存，降低单位token成本生成与解码计算由旗舰Rubin GPU负责现在的架构随着LPX的推出，CPX没有出现在演讲现场。相比之下，基于Groq的LPX平台，如今才是英伟达推理架构中的关键拼图。 ...

Agent已疯，中国版Token经济学如何持续？

导语：当Agent成为基础设施 3月27日，中关村论坛最受关注的一场圆桌论坛。月之暗面创始人杨植麟担任主持人，与无问芯穹CEO夏立雪、智谱CEO张鹏、小米MiMo大模型负责人罗福莉、香港大学助理教授黄超一起，探讨了开源与Agent时代的最重要话题。这不是什么狗血商战情节，而是一场关于AI未来的深度对话。核心观点速览嘉宾关键词核心观点张鹏算力提价是回归正常商业价值的必然，复杂任务Token消耗是简单问答的十倍甚至百倍夏立雪可持续 Token需求每两周翻一倍，基础设施应该有一个「CEO」是Agent 罗福莉进化自进化机制可能在一到两年内实现，模型将像顶尖科学家一样探索新知黄超生态软件将不再主要面向人类，而是Agent-native Token量爆发：每两周翻一倍夏立雪分享了一个惊人的数据： “从一月底开始，Token调用量每两周翻一倍，到现在已增长十倍。” 他形容这种增长速度：“上一次看到这种增长，还是3G时代手机流量快速普及的时候。” 这意味着什么？今天的Token用量，就像当年大家每个月只有100MB手机流量时的阶段资源优化和整合成为当务之急价格上涨是需求压力下的自然结果 OpenClaw：拉高了中国开源模型的上限罗福莉认为OpenClaw的核心价值不仅是改变交互形态： “它把国内那些尚未完全逼近闭源模型、但已位于开源模型赛道前列的模型，上限显著拉高。” 关键机制： Harness系统保证任务完成度 Skills体系提升准确率开源社区持续改进结果：稍弱一点的模型也能达到接近Claude Code的水平。基础设施应该"智能体化" 夏立雪提出了一个激进的想法： “未来基础设施本身也应该是一个智能体：能自我进化、自我迭代，形成自主组织。” 具体构想：系统内部有一个「CEO」是一个Agent 根据AI客户需求，自主提出需求、迭代能力、优化系统实现算法与基础设施的深度融合当前问题：很多云计算基础设施是为人类工程师设计的，不是为AI设计的 Agent可以在毫秒级完成思考并发起任务，但底层API没有为此做好准备杨植麟Sharp提问：为什么涨价？作为主持人的杨植麟直接切入商业核心，问张鹏两个问题： GLM最新的迭代思路是什么？你们最近为什么涨价？张鹏的回答： “完成一个任务所需要的Token量，可能是回答一个简单问题时的十倍，甚至百倍。” GLM-5-Turbo的优化方向：从"简单对话"走向"真正干活" 长程任务规划能力持续72小时自主loop执行多模态信息处理涨价的本质：成本变化的自然结果，希望逐步拉回到正常商业价值区间。超长Context：模型自迭代的前提罗福莉透露了小米的技术路线： Hybrid Sparse、Linear Attention结构：DSSA 下一代架构：Highest Bus 关键认知：不是做不到百万级上下文，而是推理成本太高、速度太慢自进化的条件：达到10M/100M Context 模型在复杂环境中依靠超强Context完成自我进化既可能发生在框架层，也可能发生在模型参数层未来12个月的关键词嘉宾关键词解释黄超生态 Agent需要成为稳定的生产工具，软件将转向Agent-native 罗福莉进化自进化机制可能在一到两年内实现，带来指数级科研加速夏立雪可持续打造中国Token工厂，输出AI Made in China 张鹏算力需求爆发十倍、百倍，但算力供给仍是瓶颈结语：Agent时代的共识这场对话揭示了几个关键共识： ...