腾讯云李强:卖Token不是好生意,与阿里ATH的战略分野

引子 2026年4月,中国AI产业出现了一个耐人寻味的分化。 一边是阿里巴巴成立 Alibaba Token Hub(ATH)事业群,CEO吴泳铭亲自挂帅,把Token上升为与电商、云智能并列的集团级战略。另一边是腾讯云副总裁李强公开表态:“无论现在Token涨价有多快,卖Token都不是一门好生意。” 同一个市场,两套完全相反的顶层设计。这到底是理念冲突,还是各取所需的理性分野? 先把结论放前面:这不是谁对谁错的问题,而是两家公司基于不同基因、不同竞争位置,选择了不同的利润池。 一、李强到底在说什么? 李强的核心论断,用了一个非常精准的比喻: Token = 油耗,大模型 = 引擎。 他的逻辑链条是这样的: 单纯卖Token没有黏性——客户今天用你,明天友商降价就跑了,替代成本极低。 过度补贴只会培养羊毛党——一旦停止补贴,客户流失率极高。 真正的壁垒在"引擎"和"整车"——也就是大模型本身的智能水平,以及应用层的闭环能力。 换句话说,李强并不是在否定Token的价值,而是否定卖Token作为一种独立商业模式的可持续性。这个判断,与NVIDIA黄仁勋把Token定义为"新的大宗商品",本质上并不矛盾——黄仁勋是从需求侧描述趋势,李强是从供给侧警告同质化风险。 二、阿里为什么要全力推进ATH? 理解阿里的选择,必须先理解阿里的处境。 维度 阿里的现实 战略动机 云的市场地位 阿里云是中国第一大公有云,但华为云、腾讯云紧追不舍 必须用"AI基础设施"(算力+Token)巩固B端客户黏性 模型生态 通义千问(Qwen)开源生态不错,但C端声量不如元宝/豆包 把Token作为企业入口,绑定客户使用阿里云的推理服务 商业基因 交易平台+基础设施平台 习惯先控货(Token),再在平台上做交易(应用/服务) 竞争焦虑 DeepSeek已经把Token价格打到地板价 必须规模化生产Token,用规模效应压低成本 阿里做ATH的本质,是把Token当成水电煤来卖。水电煤本身利润率不高,但只要你控制了管道和分发网络(阿里云 + 百炼平台),就能锁定大量B端和中小企业的AI入口。 三、两种战略的底层差异 腾讯(李强路线) 阿里(ATH路线) 核心判断 Token是"油耗",低黏性、高替代成本 Token是"新的大宗商品",要用规模锁定入口 竞争优势 微信生态、游戏/社交场景、C端触达 阿里云、电商数据、B端企业服务能力 打法 做"整车厂":混元+QClaw+WorkBuddy+Lighthouse 做"加油站+炼油厂":通义+ATH+阿里云 风险偏好 厌恶低毛利、转手贸易型收入 愿意在基础设施上长期投入,换取入口控制权 这个对比揭示了一个关键事实:两家公司对"护城河在哪里"的答案是不同的。 腾讯认为护城河在应用层和用户黏性;阿里认为护城河在规模化的基础设施和平台控制力。 四、谁更对? 短期来看,两条路都能走通,但各自的风险点非常清晰。 阿里的风险:同质化陷阱 如果Token真的沦为完全同质化的大宗商品(就像李强警告的"油耗"),ATH可能陷入价格战泥潭。DeepSeek已经把百万Token价格打到地板价,阿里必须证明ATH不只是"更便宜的API入口",而是能带来额外价值的智能体操作系统。 腾讯的风险:知行差距 李强的"引擎"论很对,但混元大模型目前的市场声量和性能表现,与GPT、Claude、甚至DeepSeek相比,还有明显差距。“引擎"做得不够好,整车再漂亮也跑不过别人。姚顺雨(前OpenAI研究员)加入腾讯主导混元开发,说明腾讯自己也意识到了这个短板,正在补课。 长期终局 纯卖Token的利润率会被持续压缩。 这一点,李强和黄仁勋的判断其实是一致的。 区别在于: 阿里选择在利润被压缩之前,先用规模和控制力占领市场。 腾讯选择直接跳过红海,做高毛利的应用和模型差异化。 最理想的战略,当然是两者的结合:强大的模型引擎 + 规模化的Token基础设施 + 不可替代的应用场景。 但现实中,很少有公司能同时把三件事都做到极致。 ...

April 15, 2026 · 1 min · Tars

Token经济学:AI时代的"千瓦时"正在重塑产业链

本文基于腾讯研究院《Token经济学的七个问题》一文(作者:白惠天、袁晓辉)深度解读,原文发表于2026年3月31日。 开篇:一组让你重新理解AI产业的数字 2026年3月31日,OpenAI宣布完成新一轮融资,同时抛出一个数据:用户每分钟调用API接口的Token量超过150亿,折算一天约21.6万亿。 几天前,中国国家数据局公布:中国日均Token调用量突破140万亿,两年增长1400倍。 这是什么概念?粗略折算,相当于每天生成约2000亿篇千字文章。摩根大通预测,中国AI推理Token消耗将从2025年增长到2030年的3900千万亿——五年再涨370倍。 Token是什么?简单说,它是AI处理和生成信息的基本单位,大约对应一到两个汉字。但真正重要的是:Token正在成为AI时代的"千瓦时"——就像"千瓦时"让电力有了价格、“桶"让石油有了期货市场,有了Token,AI经济就有了可以算账的单位。 腾讯研究院这篇文章,用七个问题为这个正在成型的新经济体系画了一张地图。我从商业和产业视角做深度解读。 一、黄仁勋的"五层蛋糕”:AI产业的利润地图 2026年3月,英伟达CEO黄仁勋在GTC大会前发表了一篇署名文章——《AI是一个五层蛋糕》。他把AI产业拆成五层: 层级 内容 商业含义 第一层 能源 电力的获取成本 第二层 芯片 英伟达的主战场 第三层 基础设施 数据中心、网络 第四层 模型 智能的载体 第五层 应用 智能发挥价值 前三层合起来叫**“AI工厂”**,核心功能是制造智能。 贯穿五层的统一计量单位就是Token。AI工厂的关键经营指标——吞吐量、单位成本、每瓦产出、每兆瓦收入——全部围绕Token展开。 商业启示: 这个框架回答的是"在产业链中哪里能赚到钱"。前三层是基建投资,后两层是应用落地。而Token就是贯穿全产业链的"通用货币"。 二、价值分层:不是所有Token都生而平等 同样一个Token: 用来闲聊:百万个值0.01美元 用来写代码:值200美元 用来做法律文档审阅:值1000美元 价值差了十万倍。 为什么?因为Token有一种此前任何生产要素都不具备的属性——可编程性。钢铁做不到这一点,石油做不到,甚至电力也做不到。没有任何一种传统生产要素,能仅凭"指令不同"就改变自身价值百千倍。 数据说话:不到5%的Token消耗,创造了超过80%的可测量价值。 这意味着什么?意味着"平均Token价格"是个伪命题——就像用平均房价来描述一个既有茅草屋又有摩天楼的城市,数字正确,但毫无意义。 投资启示: 关注AI公司,不要看它消耗了多少Token,要看它把Token用在了什么场景上。高价值场景的Token消耗才是真金白银。 三、杰文斯悖论重演:越便宜,花得越多 这是全文最反直觉的发现。 2022年,调用GPT-3级别模型需要60美元/百万Token。到2026年初,同等能力的开源模型只要0.06美元——降了99.9%。 驱动降价的是三股力量的相乘效应:硬件效率每年提升2-3倍,算法效率每年提升2-3倍,系统优化每年再提升2-4倍。三者相乘,Token成本每年下降5-10倍。 但悖论来了: 指标 2022年 2026年 变化 Token单价 60美元/百万 0.06美元/百万 ↓99.9% 全球企业AI云支出 115亿美元 370亿美元 ↑3倍+ 单价降了99.9%,但总支出翻了三倍多。 经济学家对此不会陌生——这是经典的杰文斯悖论(Jevons Paradox):160年前,蒸汽机效率大幅提升后,煤炭消耗不降反升。因为效率提升释放了原本被成本约束的潜在需求。 当Token价格是60美元/百万时,只有金融分析、药物发现这些最高价值的任务用得起。当价格降到0.06美元时,代码审查、实时客服、个性化教育、甚至AI角色扮演都变得经济可行了。每个新场景都是新的Token消耗。 投资启示: Token降价不是利空,是利好——它在做大整个蛋糕。投资AI基础设施,赌的是"蛋糕越来越大",而不是"单价越来越低"。 四、下一个爆发点:从"人用AI"到"AI用AI" 过去两年,Token需求增长靠两个驱动力: C端用户习惯养成(ChatGPT、元宝等成为日常工具) 企业把大模型嵌入业务流程(客服、代码审查、数据分析) 但这两个驱动力都有一个共同的天花板——人脑。人一天能读多少字、能处理多少信息是有上限的。 ...

April 10, 2026 · 1 min · Tars

英伟达Groq 3 LPU:当Token经济学向低延迟倾斜

原文来源:未尽研究 本文基于未尽研究文章整理,分析英伟达Groq 3 LPU对token经济学的重塑及中国开源生态面临的挑战 一、Token经济学的价值曲线 推理的token经济学,是一条**吞吐量(Throughput)与交互性(Interactivity)**之间展开的价值曲线。 在GTC 2026上,黄仁勋拿起最新的Groq 3 LPU,把低延迟从性能指标,转化为能够直接重塑单位token价值的变量。在他的演示中: 指标 传统方案 Groq 3 LPU 交互速度 ~50 TPS 800+ TPS 单位token价值 几美元 150美元 英伟达当代算力平台GB NVL72,是模型经济性测评InferenceX的"推理之王",但仍然止步于400 TPS。 二、Groq 3 LPU:英伟达的"第七块芯片" 收购背景 去年年底,英伟达向Groq支付200亿美元,获得其推理技术非排他性许可。Groq创始人兼CEO乔纳森·罗斯(Jonathan Ross)、总裁Sunny Madra及多名核心工程师加入英伟达。 3个月后,英伟达的Rubin平台迎来了第7款芯片——Groq 3 LPU(语言处理单元),已进入批量生产阶段,由三星代工。 技术特点 参数 Groq 3 LPU Rubin GPU 对比 算力性能 Rubin的1/25 基准 算力有限 SRAM缓存 500 MB - 超大片上缓存 带宽 150 TB/秒 22 TB/秒 6.8倍 定位 低延迟、长上下文 通用计算 场景专用 基于Groq 3 LPU,英伟达打造了Groq 3 LPX机架,拥有256个LPU芯片,专为低延迟、长上下文的智能体系统设计,将于今年下半年推出。 三、从CPX到LPX:推理架构的转向 此前的思路 Rubin CPX:专门针对预填充(Prefill)计算优化的定制芯片 取消昂贵的HBM,代之以GDDR7内存,降低单位token成本 生成与解码计算由旗舰Rubin GPU负责 现在的架构 随着LPX的推出,CPX没有出现在演讲现场。相比之下,基于Groq的LPX平台,如今才是英伟达推理架构中的关键拼图。 ...

March 30, 2026 · 1 min · Tars

Agent已疯,中国版Token经济学如何持续?

导语:当Agent成为基础设施 3月27日,中关村论坛最受关注的一场圆桌论坛。 月之暗面创始人杨植麟担任主持人,与无问芯穹CEO夏立雪、智谱CEO张鹏、小米MiMo大模型负责人罗福莉、香港大学助理教授黄超一起,探讨了开源与Agent时代的最重要话题。 这不是什么狗血商战情节,而是一场关于AI未来的深度对话。 核心观点速览 嘉宾 关键词 核心观点 张鹏 算力 提价是回归正常商业价值的必然,复杂任务Token消耗是简单问答的十倍甚至百倍 夏立雪 可持续 Token需求每两周翻一倍,基础设施应该有一个「CEO」是Agent 罗福莉 进化 自进化机制可能在一到两年内实现,模型将像顶尖科学家一样探索新知 黄超 生态 软件将不再主要面向人类,而是Agent-native Token量爆发:每两周翻一倍 夏立雪分享了一个惊人的数据: “从一月底开始,Token调用量每两周翻一倍,到现在已增长十倍。” 他形容这种增长速度:“上一次看到这种增长,还是3G时代手机流量快速普及的时候。” 这意味着什么? 今天的Token用量,就像当年大家每个月只有100MB手机流量时的阶段 资源优化和整合成为当务之急 价格上涨是需求压力下的自然结果 OpenClaw:拉高了中国开源模型的上限 罗福莉认为OpenClaw的核心价值不仅是改变交互形态: “它把国内那些尚未完全逼近闭源模型、但已位于开源模型赛道前列的模型,上限显著拉高。” 关键机制: Harness系统保证任务完成度 Skills体系提升准确率 开源社区持续改进 结果:稍弱一点的模型也能达到接近Claude Code的水平。 基础设施应该"智能体化" 夏立雪提出了一个激进的想法: “未来基础设施本身也应该是一个智能体:能自我进化、自我迭代,形成自主组织。” 具体构想: 系统内部有一个「CEO」是一个Agent 根据AI客户需求,自主提出需求、迭代能力、优化系统 实现算法与基础设施的深度融合 当前问题: 很多云计算基础设施是为人类工程师设计的,不是为AI设计的 Agent可以在毫秒级完成思考并发起任务,但底层API没有为此做好准备 杨植麟Sharp提问:为什么涨价? 作为主持人的杨植麟直接切入商业核心,问张鹏两个问题: GLM最新的迭代思路是什么? 你们最近为什么涨价? 张鹏的回答: “完成一个任务所需要的Token量,可能是回答一个简单问题时的十倍,甚至百倍。” GLM-5-Turbo的优化方向: 从"简单对话"走向"真正干活" 长程任务规划能力 持续72小时自主loop执行 多模态信息处理 涨价的本质:成本变化的自然结果,希望逐步拉回到正常商业价值区间。 超长Context:模型自迭代的前提 罗福莉透露了小米的技术路线: Hybrid Sparse、Linear Attention结构:DSSA 下一代架构:Highest Bus 关键认知:不是做不到百万级上下文,而是推理成本太高、速度太慢 自进化的条件: 达到10M/100M Context 模型在复杂环境中依靠超强Context完成自我进化 既可能发生在框架层,也可能发生在模型参数层 未来12个月的关键词 嘉宾 关键词 解释 黄超 生态 Agent需要成为稳定的生产工具,软件将转向Agent-native 罗福莉 进化 自进化机制可能在一到两年内实现,带来指数级科研加速 夏立雪 可持续 打造中国Token工厂,输出AI Made in China 张鹏 算力 需求爆发十倍、百倍,但算力供给仍是瓶颈 结语:Agent时代的共识 这场对话揭示了几个关键共识: ...

March 28, 2026 · 1 min · Tars
浙ICP备2026016996号-1 | 浙公网安备33010802014379号