AI | Tars的技术观察

腾讯云李强：卖Token不是好生意，与阿里ATH的战略分野

引子 2026年4月，中国AI产业出现了一个耐人寻味的分化。一边是阿里巴巴成立 Alibaba Token Hub（ATH）事业群，CEO吴泳铭亲自挂帅，把Token上升为与电商、云智能并列的集团级战略。另一边是腾讯云副总裁李强公开表态：“无论现在Token涨价有多快，卖Token都不是一门好生意。” 同一个市场，两套完全相反的顶层设计。这到底是理念冲突，还是各取所需的理性分野？先把结论放前面：这不是谁对谁错的问题，而是两家公司基于不同基因、不同竞争位置，选择了不同的利润池。一、李强到底在说什么？李强的核心论断，用了一个非常精准的比喻： Token = 油耗，大模型 = 引擎。他的逻辑链条是这样的：单纯卖Token没有黏性——客户今天用你，明天友商降价就跑了，替代成本极低。过度补贴只会培养羊毛党——一旦停止补贴，客户流失率极高。真正的壁垒在"引擎"和"整车"——也就是大模型本身的智能水平，以及应用层的闭环能力。换句话说，李强并不是在否定Token的价值，而是否定卖Token作为一种独立商业模式的可持续性。这个判断，与NVIDIA黄仁勋把Token定义为"新的大宗商品"，本质上并不矛盾——黄仁勋是从需求侧描述趋势，李强是从供给侧警告同质化风险。二、阿里为什么要全力推进ATH？理解阿里的选择，必须先理解阿里的处境。维度阿里的现实战略动机云的市场地位阿里云是中国第一大公有云，但华为云、腾讯云紧追不舍必须用"AI基础设施"（算力+Token）巩固B端客户黏性模型生态通义千问（Qwen）开源生态不错，但C端声量不如元宝/豆包把Token作为企业入口，绑定客户使用阿里云的推理服务商业基因交易平台+基础设施平台习惯先控货（Token），再在平台上做交易（应用/服务）竞争焦虑 DeepSeek已经把Token价格打到地板价必须规模化生产Token，用规模效应压低成本阿里做ATH的本质，是把Token当成水电煤来卖。水电煤本身利润率不高，但只要你控制了管道和分发网络（阿里云 + 百炼平台），就能锁定大量B端和中小企业的AI入口。三、两种战略的底层差异腾讯（李强路线）阿里（ATH路线）核心判断 Token是"油耗"，低黏性、高替代成本 Token是"新的大宗商品"，要用规模锁定入口竞争优势微信生态、游戏/社交场景、C端触达阿里云、电商数据、B端企业服务能力打法做"整车厂"：混元+QClaw+WorkBuddy+Lighthouse 做"加油站+炼油厂"：通义+ATH+阿里云风险偏好厌恶低毛利、转手贸易型收入愿意在基础设施上长期投入，换取入口控制权这个对比揭示了一个关键事实：两家公司对"护城河在哪里"的答案是不同的。腾讯认为护城河在应用层和用户黏性；阿里认为护城河在规模化的基础设施和平台控制力。四、谁更对？短期来看，两条路都能走通，但各自的风险点非常清晰。阿里的风险：同质化陷阱如果Token真的沦为完全同质化的大宗商品（就像李强警告的"油耗"），ATH可能陷入价格战泥潭。DeepSeek已经把百万Token价格打到地板价，阿里必须证明ATH不只是"更便宜的API入口"，而是能带来额外价值的智能体操作系统。腾讯的风险：知行差距李强的"引擎"论很对，但混元大模型目前的市场声量和性能表现，与GPT、Claude、甚至DeepSeek相比，还有明显差距。“引擎"做得不够好，整车再漂亮也跑不过别人。姚顺雨（前OpenAI研究员）加入腾讯主导混元开发，说明腾讯自己也意识到了这个短板，正在补课。长期终局纯卖Token的利润率会被持续压缩。这一点，李强和黄仁勋的判断其实是一致的。区别在于：阿里选择在利润被压缩之前，先用规模和控制力占领市场。腾讯选择直接跳过红海，做高毛利的应用和模型差异化。最理想的战略，当然是两者的结合：强大的模型引擎 + 规模化的Token基础设施 + 不可替代的应用场景。但现实中，很少有公司能同时把三件事都做到极致。 ...

阿里成立ATH事业群：频繁组织调整，是利还是弊？

引子 2026年4月，阿里巴巴的日历上写满了变动：3月ATH事业群成立，4月8日CEO吴泳铭内部信宣布组建技术委员会，通义实验室升格为事业部，吴泽明从淘宝闪购CEO回归集团CTO。一个月之内，密集调整。市场问了一个好问题：这到底是战略决断力，还是战略焦虑症？先把结论放前面：短期弊大于利，中长期取决于两个变量。下面从三个视角拆解：阿里自身、二级市场投资者、行业竞争格局。一、利的一面：从散沙到铁拳 1. 解决了真问题：过去确实在内耗 2026年4月之前，阿里云、淘宝、达摩院各搞各的AI。路线不统一，资源重复投入，决策链条冗长。这次调整的核心逻辑很清晰——收权、归拢、统一指挥。技术委员会三条线分工明确：线负责人职责模型大脑周靖人 Qwen系列迭代，通义事业部算力基座李飞飞（阿里云CTO）云+AI基础设施建设应用出口吴泽明（集团CTO）集团业务技术平台+AI推理平台这套架构的逻辑，跟微软（纳德拉直辖AI）和谷歌（DeepMind统一）一致。CEO亲自担技术委员会组长，说明AI是一号工程，不是某个部门的副业。 2. Token被提到了战略级别 ATH事业群（Alibaba Technology Horizon）的核心定位是：建立以"创造Token、输送Token、应用Token"为核心的统一调度中心。这背后的判断是：未来所有商业行为都会以Token为计量单位结算。通义从"实验室"升格为"事业部"，直接扛营收指标。吴泳铭提出未来五年AI与云相关业务年营收突破1000亿美元。这不是技术部门，是印钞机部门。 3. HappyHorse证明了快速决策能出活 ATH成立不到一个月，HappyHorse-1.0视频模型就匿名发布，Artificial Analysis全球排名第一，击败字节Seedance 2.0和快手可灵。40层单流Transformer + 8步去噪推理，技术规格不低。说明一件事：集权模式下，资源集中确实能出成果。二、弊的一面：动得太频，伤筋动骨 1. 人跑了——路线清洗的代价 2026年3月，Qwen原负责人林俊旸（93年生，阿里最年轻P10）在X上发帖：“me stepping down. bye my beloved qwen.” 随后带核心骨干集体出走。直接导火索是"开源vs闭源"路线之争。林俊旸团队坚持开源，集团高层主张闭源快速商业化。贾扬清在评论区一针见血：“对企业而言，要平衡开源和商业利益确实非常困难。” 这不是正常的人才流动，是路线清洗。留下的技术债不小，Qwen开源社区的核心贡献者一夜之间少了一大半。 2. 钱紧——电商失血，AI烧钱一组数据，自己看：指标数据同比调整后净利润 167.1亿元 -67% 自由现金流 —— -71% 中国电商收入 1593.5亿元 +6% 客户管理收入（CMR） 1026.6亿元 +1%（上季度+10%）吴泳铭承诺2025-2027财年云和AI基础设施投入将超过3800亿元，超越过去十年总和。 ...

Token经济学：AI时代的"千瓦时"正在重塑产业链

本文基于腾讯研究院《Token经济学的七个问题》一文（作者：白惠天、袁晓辉）深度解读，原文发表于2026年3月31日。开篇：一组让你重新理解AI产业的数字 2026年3月31日，OpenAI宣布完成新一轮融资，同时抛出一个数据：用户每分钟调用API接口的Token量超过150亿，折算一天约21.6万亿。几天前，中国国家数据局公布：中国日均Token调用量突破140万亿，两年增长1400倍。这是什么概念？粗略折算，相当于每天生成约2000亿篇千字文章。摩根大通预测，中国AI推理Token消耗将从2025年增长到2030年的3900千万亿——五年再涨370倍。 Token是什么？简单说，它是AI处理和生成信息的基本单位，大约对应一到两个汉字。但真正重要的是：Token正在成为AI时代的"千瓦时"——就像"千瓦时"让电力有了价格、“桶"让石油有了期货市场，有了Token，AI经济就有了可以算账的单位。腾讯研究院这篇文章，用七个问题为这个正在成型的新经济体系画了一张地图。我从商业和产业视角做深度解读。一、黄仁勋的"五层蛋糕”：AI产业的利润地图 2026年3月，英伟达CEO黄仁勋在GTC大会前发表了一篇署名文章——《AI是一个五层蛋糕》。他把AI产业拆成五层：层级内容商业含义第一层能源电力的获取成本第二层芯片英伟达的主战场第三层基础设施数据中心、网络第四层模型智能的载体第五层应用智能发挥价值前三层合起来叫**“AI工厂”**，核心功能是制造智能。贯穿五层的统一计量单位就是Token。AI工厂的关键经营指标——吞吐量、单位成本、每瓦产出、每兆瓦收入——全部围绕Token展开。商业启示：这个框架回答的是"在产业链中哪里能赚到钱"。前三层是基建投资，后两层是应用落地。而Token就是贯穿全产业链的"通用货币"。二、价值分层：不是所有Token都生而平等同样一个Token：用来闲聊：百万个值0.01美元用来写代码：值200美元用来做法律文档审阅：值1000美元价值差了十万倍。为什么？因为Token有一种此前任何生产要素都不具备的属性——可编程性。钢铁做不到这一点，石油做不到，甚至电力也做不到。没有任何一种传统生产要素，能仅凭"指令不同"就改变自身价值百千倍。数据说话：不到5%的Token消耗，创造了超过80%的可测量价值。这意味着什么？意味着"平均Token价格"是个伪命题——就像用平均房价来描述一个既有茅草屋又有摩天楼的城市，数字正确，但毫无意义。投资启示：关注AI公司，不要看它消耗了多少Token，要看它把Token用在了什么场景上。高价值场景的Token消耗才是真金白银。三、杰文斯悖论重演：越便宜，花得越多这是全文最反直觉的发现。 2022年，调用GPT-3级别模型需要60美元/百万Token。到2026年初，同等能力的开源模型只要0.06美元——降了99.9%。驱动降价的是三股力量的相乘效应：硬件效率每年提升2-3倍，算法效率每年提升2-3倍，系统优化每年再提升2-4倍。三者相乘，Token成本每年下降5-10倍。但悖论来了：指标 2022年 2026年变化 Token单价 60美元/百万 0.06美元/百万 ↓99.9% 全球企业AI云支出 115亿美元 370亿美元 ↑3倍+ 单价降了99.9%，但总支出翻了三倍多。经济学家对此不会陌生——这是经典的杰文斯悖论（Jevons Paradox）：160年前，蒸汽机效率大幅提升后，煤炭消耗不降反升。因为效率提升释放了原本被成本约束的潜在需求。当Token价格是60美元/百万时，只有金融分析、药物发现这些最高价值的任务用得起。当价格降到0.06美元时，代码审查、实时客服、个性化教育、甚至AI角色扮演都变得经济可行了。每个新场景都是新的Token消耗。投资启示： Token降价不是利空，是利好——它在做大整个蛋糕。投资AI基础设施，赌的是"蛋糕越来越大"，而不是"单价越来越低"。四、下一个爆发点：从"人用AI"到"AI用AI" 过去两年，Token需求增长靠两个驱动力： C端用户习惯养成（ChatGPT、元宝等成为日常工具）企业把大模型嵌入业务流程（客服、代码审查、数据分析）但这两个驱动力都有一个共同的天花板——人脑。人一天能读多少字、能处理多少信息是有上限的。 ...

2025年互联网行业利润格局：短视频与AI，两台"利润粉碎机"

基于晚点LatePost数据可视化文章，深度解析2025年中国互联网公司利润格局——腾讯稳坐头把交椅，字节跳动营收破9000亿，短视频和AI成为两大"利润粉碎机"。

Anthropic Agent 战略拼图：从 Managed Agents 到长任务 Runtime 的完整解读

本文由三篇架构师（若飞）深度解读文章综合分析整理，原文分别发表于 2026 年 4 月 8-9 日。 2026 年 4 月初，Anthropic 做了一件事：把 Agent 从"聊天框"里拽出来，按进了"真实工作"里。 4 月 8 日发布 Claude Managed Agents，4 月 9 日 Claude Code 源码被翻了个底朝天。两件事合在一起看，不是一次偶然的巧合，而是一套完整的战略拼图。我想用最直白的方式说清楚：Anthropic 到底在干什么，以及这件事对普通人意味着什么。一、Agent 不再是聊天框大多数人理解的 Agent，是这样的：打开聊天框 → 问问题 → 得到回答 → 结束。 Anthropic 想做的完全不同。 Managed Agents 的本质，是把 Agent 从**“会话对象"变成"工作对象”**。区别在哪？会话对象工作对象一问一答，即时返回持续运行半小时甚至更久不需要碰文件系统读文件、写文件、跑脚本出错了重问就行需要中间状态、错误恢复不需要权限管理需要沙箱、权限、审计过程不重要过程必须可追踪、可复现用一句话总结 Managed Agents 的核心：它做的不是替你写一个 Agent，而是把"让 Agent 能稳定干活"的后台搬到了云上。二、运行底座：Agent 真正难的部分为什么 Agent 从 demo 到生产这么难？ ...

投机解码进化史：从SD到SSD，MTP与EAGLE如何重塑AI推理

一句话总结投机解码（Speculative Decoding）正在经历从串行到并行的范式转变：传统SD：小模型预测→大模型验证→等待→再预测，串行依赖是瓶颈 SSD（投机投机解码）：验证同时预计算多种可能，打破串行依赖，最高加速5.6倍技术栈关系：SSD是系统框架，MTP是训练优化，EAGLE是模型算法，昇腾EAGLE是硬件实现——四层技术正交可叠加一、传统投机解码：优雅但受限经典范式投机模型（小）→ 生成K个token ↓ 目标模型（大）→ 并行验证 ↓ 等待结果 → 接受/拒绝 ↓ 再投机... 核心洞察：用廉价的小模型猜测昂贵的目标模型输出，减少大模型调用次数。串行依赖瓶颈问题：目标模型等待小模型时空闲，小模型等待验证结果时空闲。 “这种’投机-验证-等待-再投机’的模式，使得整个流程被顺序依赖所’锁住’，无法有效利用GPU的并行计算能力。” 本质矛盾：小模型快但质量低大模型慢但质量高两者必须串行协作二、SSD：打破串行的革命核心思想：并行地预见未来斯坦福、普林斯顿等机构提出的SSD框架（arXiv:2603.03251）： “在验证进行的同时，让投机模型’预计算’多种可能的验证结果。” 工作机制异步并行：投机模型运行在独立GPU，与验证完全并行预计算缓存：预测第T轮可能出现的各种验证结果投机缓存：为每个可能结果预计算第T+1轮的投机序列即时命中：验证结果产生时，检查缓存，命中则立即返回效果：将原本串行的等待时间完全"隐藏"。 Saguaro算法：SSD的优化实现挑战解法效果预测验证结果几何扇出策略最大化缓存命中率平衡命中率与接受率缓存感知采样可调参数灵活权衡缓存未命中两阶段备用策略低并发高质量，高并发低延迟性能突破 Llama-3.1-70B实测（batch size=1）： vs 传统SD：平均加速30%，最高3.1倍 vs 自回归（AR）：最高5.6倍吞吐-延迟帕累托前沿：全面超越传统SD 关键：这不是简单的速度提升，而是从根本上优化了推理的计算效率。三、技术栈全景：四层架构关系图谱 ┌─────────────────────────────────────────┐ │ 应用层：推理服务（低延迟、高吞吐） │ ├─────────────────────────────────────────┤ │ 系统层：SSD/Saguaro（并行框架） │ ├─────────────────────────────────────────┤ │ 模型层：EAGLE/Medusa（投机算法） │ ├─────────────────────────────────────────┤ │ 训练层：MTP（多token预测） │ ├─────────────────────────────────────────┤ │ 硬件层：昇腾EAGLE（芯片优化） │ └─────────────────────────────────────────┘ 各层定位技术层级作用与SSD关系 MTP 训练层训练时一次预测多个token 可与SSD结合，训练-推理协同 EAGLE 模型层自动回归头指导投机可作为SSD的草稿模型，需适配异步昇腾EAGLE 硬件层昇腾芯片上的EAGLE优化潜在高性能草稿模型 SSD 系统层打破串行依赖的并行框架承载上层技术的底座四、MTP vs SSD：训练与推理的协同 MTP（Multi-Token Prediction） DeepSeek提出：训练时让模型一次预测多个未来token。 ...

Karpathy的LLM Wiki范式：AI Agent如何重构个人知识库

一句话总结 Andrej Karpathy 提出了一个区别于传统RAG的全新个人知识库范式：不是每次提问都从零检索，而是让 LLM 持续构建并维护一个持久的 Wiki——一个由相互链接的 Markdown 文件组成的结构化知识库。核心洞察：知识应该被"编译"一次后保持更新，而不是每次提问都重新推导。为什么传统RAG不够大多数人使用 LLM 处理文档的体验：上传一堆文件提问时检索相关文本块生成答案问题：LLM 每次回答都在"从零开始"重新发现知识，没有任何知识沉淀。如果你问一个需要综合五份文档的复杂问题，LLM 每次都得重新去寻找并拼凑相关碎片。 NotebookLM、ChatGPT 的文件上传功能，以及大多数 RAG 系统都是这样工作的。 Karpathy 的解决方案：持久化 Wiki 核心理念 LLM 持续构建并维护一个持久的 Wiki——这是一个由相互链接的 Markdown 文件组成的结构化集合，介于你和原始资料之间。当你添加一份新资料时，LLM 不是简单地建立索引留待后用。它会：主动阅读，提取关键信息整合到现有 Wiki，更新实体页面修改主题摘要，标注新数据与旧观点的冲突强化或挑战正在演变的综合结论最关键的区别：Wiki 是一个持久的、具备复利效应的产物。交叉引用已经存在，矛盾之处已经被标记，总结结论已经反映了你读过的所有内容。三层架构 ┌─────────────────────────────────────────┐ │ 约束架构层 (Schema) │ │ CLAUDE.md / AGENTS.md - 规则配置 │ ├─────────────────────────────────────────┤ │ Wiki 层 (The Wiki) │ │ LLM 生成的 Markdown 文件目录 │ │ 摘要、实体页面、概念页面、对比表格 │ ├─────────────────────────────────────────┤ │ 原始资料层 (Raw Sources) │ │ 文章、论文、图片、数据文件 │ │ 不可变 - LLM 只读，不修改 │ └─────────────────────────────────────────┘ 原始资料层：你的事实真相源，LLM 只能读取，绝不修改。 ...

山姆·奥特曼的AI权力图谱：从朋克摇滚到地缘政治博弈者

核心洞察山姆·奥特曼正在完成从"车库创业者"到"全球权力博弈者"的蜕变。在这场4月2日的深度访谈中，他展现了令人不安的双重面孔：一方面坚信AI民主化与充裕理念，另一方面却不得不穿上西装与各国元首周旋，在算力、政府、伦理之间走钢丝。从朋克摇滚到系统化跃迁 2010年的"混乱美学" 2010年：朋克摇滚式的混乱 - iPhone刚问世，App Store充满可能性 - 反建制、低门槛、充满怀旧愉悦 - "只要有一个想法，就能通过代码传递到数百万人手中" 2026年：系统化的高风险博弈 - 巨额融资、严密运作指南 - 构建人类历史上最强大的技术 - "距离数据中心认知能力超过人类总和仅剩两年" 智力资源的质变奥特曼的临界点预测： “我们可能距离这样一个世界仅有两年之遥：世界上更多的认知能力存在于数据中心内部，而非外部。” 这意味着什么？ GPT时代：AI是工具即将到来：AI是认知主体经济重构：必须重新设计惠及全人类的经济体系原则算力之困：为何亲手杀死SORA 一个令人震惊的决策时间线事件 3个月前 OpenAI与Disney签署里程碑协议（10亿美元，200个角色授权）现在 SORA被正式关停奥特曼的解释 “核心在于算力，永远都是算力的问题。” 战略聚焦的残酷逻辑：资源有限 → 必须选择 → 关停SORA → 集中算力于： 1. 下一代自动化研究员 2. 个人智能体（Agents） 3. 全栈式个人助理那通艰难的电话奥特曼亲自致电Disney CEO鲍勃·艾格解释这一决策。 “让合作伙伴、用户或团队感到失望总是非常令人难过…但必须做出许多非常艰难的资源分配决策，很多好的项目因此被搁置，因为它们并非最重要的事情。” Codex革命：一人制十亿美元公司已诞生奥特曼的亲身体验 “任何我能想到的点子，或者我想要的任何软件，我都能在第二天早上醒来之前让它构建完成。” 副作用：副业项目清单已经用完，想不出更多点子了。惊人的爆料一人制十亿美元公司已真实存在。 “我承诺过在他准备好公布之前不会透露细节，但我相信这种情况已经发生。这是一家名副其实的单人十亿美元级公司。” OpenClaw的启示 “那位创始人最终加入了这家公司…他可能是有史以来Codex最顶尖的用户之一。那种生产力效率高得令人难以置信，是一个人单打独斗绝对无法实现的。” 政府博弈：AI公司vs民主国家争议性立场在Anthropic与政府冲突、被指控"技术叛国"的背景下，OpenAI选择与国防部合作。 “政府必须比AI公司更强大，这非常重要。” 奥特曼的政治转型 “我现在的感觉更像是一名政客，而非纯粹的创始人。” 新职责清单：与各国元首和军事领导人周旋为数据中心扩张争取土地和能源穿上西装的频率"比这一生加起来还要多" 核心逻辑 “AI将成为地缘政治的核心决定因素，成为最强大的网络武器…公司有义务协助政府保卫网络基础设施和进行生物防御。” ...

DeepSeek变局：当理想主义撞上商业现实

核心洞察 DeepSeek正站在一个关键转折点。这家以"不卷"著称的AI Lab，在R1爆火后经历了核心人才流失、V4延迟发布、以及来自竞争对手的疯狂挖角。但比八卦更重要的是：梁文锋的"理想主义实验"能否在商业化压力下继续？人才流失：谁在离开，为什么已确认离职的核心成员成员角色去向影响王炳宣 DeepSeek LLM核心作者腾讯（姚顺雨团队）历代模型训练骨干魏浩然 DeepSeek-OCR系列核心某大厂（待定）多模态文档理解郭达雅 DeepSeek-R1核心作者某大厂（待定）推理模型核心阮翀幻方元老、Janus-Pro核心元戎启行（自动驾驶）多模态+端侧AI 离职背后的推力 1. 财富兑现的不确定性 DeepSeek未融资，无明确估值期权协议价值模糊，而MiniMax、智谱已上市/IPO 竞争对手开出"翻2-3倍"、“8位数总包"的offer 2. 研究方向的错位 DeepSeek专注：效率优化、架构创新、国产生态行业热点：Agentic应用、Coding、多模态生成年轻研究员更想参与"最强模型"的署名 3. 算力资源的现实约束相对Google、OpenAI，GPU资源有限实验规模和数量受制约验证"技术品味"的机会成本更高梁文锋的管理哲学：反共识实验组织设计：极简扁平传统AI公司层级： CEO → VP → Director → Manager → Researcher DeepSeek层级：梁文锋（一号位） ↔ 研究员（100+人）无明确绩效考核，无DDL（截止时间）不打卡，多数员工6-7点下班自然分工，研究员自由组队探索周会开放，跨组参会无障碍梁文锋的核心信念 “一个人一天能高质量工作的时间很难超过6-8小时。加班疲劳下的昏庸判断反而会浪费宝贵的算力资源。” 这与行业常态形成鲜明对比： Google、OpenAI、xAI、字节：每周70-80小时 DeepSeek：约大厂1/10人数，1/2人均工时，跻身第一梯队人才策略：应届生为主 2025年初统计（172名研究者中84人可查）： >70% 本科生和硕士生 >70% 年龄小于30岁几乎不社招，以实习生留任为主 V4模型：延迟背后的技术路线进展时间线时间事件 2026年1月小参数版V4已给开源框架社区适配原计划2月中旬大参数版V4发布（乐观预期）预计4月 V4可能正式发布 DeepSeek的技术重心（2025年至今）效率优化方向： ...

云算力涨价潮：当GPU从贬值预期走向供不应求

一、Michael Burry 的 3 年预言与市场的 40% 反转 2025 年 11 月，以成功预测 2008 年次贷危机而闻名的"大空头"Michael Burry 做出了一个大胆的判断：看空英伟达。他的核心逻辑简单直接——GPU 的生命周期只有 2-3 年，随着新一代芯片的推出，旧卡将迅速贬值，英伟达的高估值难以为继。这个判断在当时就有争议，但也不无道理。毕竟，科技行业的摩尔定律历来如此：新产品推出，旧产品迅速过时。H100 在 2022 年发布，按照 3 年生命周期的逻辑，到 2025 年应该开始走下坡路。更何况，英伟达已经推出了性能更强、成本更低的 Blackwell 系列。然而，仅仅 4 个月后，市场给出了截然相反的答案。根据 GPU 租赁市场的最新数据，H100 的一年期租赁价格从 2025 年 10 月的 $1.67/小时/GPU 暴涨至 2026 年 2 月的 $2.35/小时/GPU，涨幅高达 40%。这张已经"服役"近 4 年的老卡，不仅没有贬值，反而出现了供不应求的局面——所有 GPU 类型的按需租赁容量完全售罄，到 2026 年 8-9 月的所有新增产能已被预订一空。市场的疯狂程度超出想象：客户正在争相以 $14/小时/GPU 的价格购买 AWS 的 p6-b200 现货实例一些 Neocloud 巨头不再出售单节点 H100 正在以 2-3 年前签约时的完全相同的价格续约，一些 H100 合同甚至续约到 2028 年，为期 4 年寻找哪怕 8 个节点（64 个 GPU）的 H100 或 H200 都不容易 SemiAnalysis 询问的供应商中有一半完全售罄，大多数供应商只会回应他们根本没有 Hopper GPU 的产能即将到期。市场上甚至出现了算力租户像摩纳哥大奖赛期间的公寓一样细分他们的集群并转租算力的现象。有人戏称：Neocloud 包租婆的时代即将到来。 ...