算力 | Tars的技术观察

云算力涨价潮：当GPU从贬值预期走向供不应求

一、Michael Burry 的 3 年预言与市场的 40% 反转 2025 年 11 月，以成功预测 2008 年次贷危机而闻名的"大空头"Michael Burry 做出了一个大胆的判断：看空英伟达。他的核心逻辑简单直接——GPU 的生命周期只有 2-3 年，随着新一代芯片的推出，旧卡将迅速贬值，英伟达的高估值难以为继。这个判断在当时就有争议，但也不无道理。毕竟，科技行业的摩尔定律历来如此：新产品推出，旧产品迅速过时。H100 在 2022 年发布，按照 3 年生命周期的逻辑，到 2025 年应该开始走下坡路。更何况，英伟达已经推出了性能更强、成本更低的 Blackwell 系列。然而，仅仅 4 个月后，市场给出了截然相反的答案。根据 GPU 租赁市场的最新数据，H100 的一年期租赁价格从 2025 年 10 月的 $1.67/小时/GPU 暴涨至 2026 年 2 月的 $2.35/小时/GPU，涨幅高达 40%。这张已经"服役"近 4 年的老卡，不仅没有贬值，反而出现了供不应求的局面——所有 GPU 类型的按需租赁容量完全售罄，到 2026 年 8-9 月的所有新增产能已被预订一空。市场的疯狂程度超出想象：客户正在争相以 $14/小时/GPU 的价格购买 AWS 的 p6-b200 现货实例一些 Neocloud 巨头不再出售单节点 H100 正在以 2-3 年前签约时的完全相同的价格续约，一些 H100 合同甚至续约到 2028 年，为期 4 年寻找哪怕 8 个节点（64 个 GPU）的 H100 或 H200 都不容易 SemiAnalysis 询问的供应商中有一半完全售罄，大多数供应商只会回应他们根本没有 Hopper GPU 的产能即将到期。市场上甚至出现了算力租户像摩纳哥大奖赛期间的公寓一样细分他们的集群并转租算力的现象。有人戏称：Neocloud 包租婆的时代即将到来。 ...

Kimi、MiniMax的算力荒：智能白菜价的窗口期正在关闭

引言：199元买了一张算力排队票 “高峰时段算力不足” 这是Kimi用户最近最熟悉的提示。花了199元/月开通Allegretto套餐，布局KimiClaw的最低配套餐，结果呢？Agent任务跑到一半断掉是家常便饭。 MiniMax那边更离谱。龙虾部署上去，聊两句就掉线，API动不动返回限速警告。用户@客服：“今天已经连续掉线了，聊2句就掉了。“客服回复：建议您检查本地网络。简单来说：你花了钱，但算力不一定是你的。什么时候能用上，看运气。 2026年春天：国产AI进入"用不了"时代这不是个例，而是行业通病。 2月10日：Kimi因算力告急宕机，官方回应堪称行为艺术：“正在找算力。要不先用DeepSeek。” 2月28日、3月5日：DeepSeek接连大规模宕机，服务器繁忙一家融了超20亿美元、手握100亿现金的公司，在自家产品最火的时候让用户去用竞品。 2026年春天，国产AI集体进入了**“用不了"时代**。算力荒的真相：Agent改变了需求曲线禁令是背景，Agent是主因直觉上，“算力荒"好像是禁令的锅。这个有道理，但不精确。 DeepSeek和Qwen这些模型本身就在资源约束下设计，MoE架构天然省算力。Kimi总裁张予彤在达沃斯说得很直白： “仅用美国顶尖实验室1%的资源，做出了全球领先的开源模型。” 真正击穿基础设施的，是Agent。 Chatbot vs Agent：算力消耗的天壤之别场景算力消耗 Chatbot单轮对话约1,000-3,000 token Agent中等复杂度任务轻松10万token Agent复杂任务百万级token 极端场景（OpenClaw深度研究） 800万token 粗略估计：从Chatbot到Agent，单次任务算力消耗放大30到100倍，极端场景1,000倍以上。为什么Agent这么吃算力？ Chatbot是一问一答，算力消耗线性可预测。 Agent完全不同——一个任务背后可能触发几十上百次模型调用：规划拆解执行反思纠错每一步都过模型。长上下文持续占显存，工具调用让GPU空转。类比： Chatbot时代，GPU像餐厅服务员，上完菜就去下一桌 Agent时代，服务员全程陪同，从点菜到结账，思考菜单时也不能走同样数量的服务员，能服务的桌数断崖式下降上游扛得住吗？信号已经出现云厂商集体涨价今年3月，国内云厂商开始集体调价——AI算力和存储产品价格上涨，涨幅从个位数到30%以上不等。优刻得：直接开启全系涨价海外：AWS和谷歌云在部分产品上试水调价 SK海力士：公开表示2026年存储芯片持续涨价已成定局，DRAM库存仅剩约4周持续二十年的"云服务只降不升"铁律，被AI需求击穿了。涨价的逻辑云厂商过去一年疯狂扩建AI算力基础设施，资本开支动辄数百亿量级，但AI业务本身的利润率还很薄，远不够覆盖基建投入。 Token调用量在指数级增长——2026年2月国内主流大模型日均消耗合计约180万亿——但卖Token的收入增速追不上建数据中心的花钱速度。涨价，不是云厂商贪心，是供应链涨价的无奈之举。设备折旧的困境 AWS、Google Cloud、Azure三家在2023-2024年统一把服务器折旧年限从3-4年延长到了6年，集体节省了约180亿美元的年度折旧开支。但NVIDIA的芯片迭代周期只有18-24个月——你今天花几千亿建的数据中心，里面的GPU可能两年后就不是最优选择了，折旧却要摊6年。 Satya Nadella自己都说：“我不想在一代芯片上背四五年的折旧。” Kimi和MiniMax的困境：两头堵轻资产模式的代价 Kimi和MiniMax自己并不拥有GPU。 Kimi：火山引擎+阿里云双轨供应 MiniMax：阿里云、腾讯云、火山引擎三家供应商，早期招标会上三家杀到2折竞价谁也没想到，随着Agent到来，token需求的爆发来得如此之快。四层传导压力算力荒是从芯片到云服务到模型公司到用户的四层传导： ...

GTC 2026深度解读：老黄的'算力永动机'与万亿Token帝国的野心

读完老黄2万字的GTC演讲全文，我意识到一件事：英伟达不是在卖芯片，它是在定义AI时代的"石油美元"体系。Token就是新的大宗商品，而英伟达想成为唯一的"炼油厂"。这不是技术发布会，这是一场关于AI世界秩序的重构宣言。 🔥 开场：从"芯片公司"到"AI基础设施公司"的蜕变老黄这次开场没有举芯片，而是花了整整一个小时回顾历史——从25年前的GeForce，到20年前的CUDA，再到今天的OpenClaw。他说了一句意味深长的话： “GeForce是英伟达史上最成功的市场推广项目。我们从你们还买不起产品的时候就开始培养未来的客户——是你们的父母代替你们成为了英伟达最早的用户。” 翻译：英伟达最擅长的不是造芯片，而是培养生态、锁定用户。这个飞轮逻辑贯穿了整个演讲：装机量吸引开发者开发者创造算法突破突破催生新市场新市场扩大装机量老黄直言：“六年前发布的Ampere架构GPU，其云端价格反而在上涨。"——这就是生态锁定的力量。新判断：英伟达的护城河不是技术领先，而是用二十年时间培养的CUDA生态。这就是为什么老黄敢断言"到2027年至少有1万亿美元的需求”——不是预测，是订单已经摆在桌上。 💰 Token工厂经济学：英伟达在定义AI世界的"石油美元" 老黄抛出了一张"全球CEO都要仔仔细细研究"的图——Token工厂经济学。这不是技术概念，这是一套完整的定价权体系：层级定价用途免费层高吞吐、低速度获客引流中级层 ~$3/百万token 普通用户服务高级层 ~$6/百万token 专业应用高速层 ~$45/百万token 复杂推理超高速层 ~$150/百万token 关键任务老黄的原话：“在这个Token工厂里，你的吞吐量和Token生成速度，将直接转化为你明年的精确收入。” 核心洞察：英伟达在把AI算力商品化、期货化、层级化——就像石油市场有布伦特原油、WTI原油，有不同的精炼品级。而英伟达想成为什么？唯一的"炼油厂"。老黄强调：“英伟达系统已经证明了自己是全球成本最低的基础设施。"——这不是技术自信，这是定价权宣言。 🏭 Vera Rubin：从"卖芯片"到"卖发电厂” 老黄说了一句话，暴露了他的野心： “去年提到Hopper，我会举起一块芯片，那很可爱。但提到Vera Rubin，大家想到的是整个系统。” 7种芯片、5种机架、端到端优化成一台巨型计算机——这不是卖芯片，这是在卖AI发电厂。组件功能战略意义 Rubin GPU 3.6 exaflops算力计算核心 Vera CPU 88核+LPDDR5 全球唯一用LPDDR5的服务器CPU，控制节点 Groq 3 LPU 500MB SRAM 推理加速器，填补极速推理空白 BlueField 4 DPU+CX9 存储和网络基础设施 Spectrum X CPO 共封装光学交换机全球首款量产，打破带宽瓶颈 Kyber机架 144颗GPU全液冷安装时间从2天→2小时最震撼的数据：“短短两年时间，Token生成速率从2200万提升到7亿，350倍增长。摩尔定律同期只能带来1.5倍。” ...

GTC 2026：老黄的'算力永动机'还能转多久？

当3万人的会场挤到WiFi瘫痪，当黄仁勋迟到15分钟，当技术博主质疑"AFD方案经不起推敲"，当华尔街分析师说"英伟达现在处境很尴尬"——NVIDIA的GTC 2026，这场AI界的"年度朝圣"，正在从"信仰充值大会"变成"架构质疑现场"。 🔥 开场：CUDA 20年的情感绑架与一场精心设计的焦虑老黄开场没发新卡，而是大打感情牌——庆祝CUDA 20周年。从25年前的GeForce游戏显卡，讲到20年前的CUDA，讲到10年前的RTX，讲到今天的OpenClaw。 “GeForce是英伟达史上最成功的营销活动。” 这话听着像自嘲，实则是精准的情感绑架。没有当年游戏玩家买显卡的钱，哪来今天满世界的AI计算？翻译一下：你们欠我的。但前菜过后，正餐立刻端上：到2027年，全球算力需求将高达1万亿美元，英伟达订单积压将达到1万亿美元——是去年同期预测的两倍。翻译：你们得更疯狂地买我的卡，而且要买更多。老黄甚至给出了"全球CEO都要仔仔细细研究的一张图"——Token工厂经济学：免费层：高吞吐、低速率，用来获客中间层：$3-$6/百万Token，服务普通用户高级层：$45/百万Token，大模型深度推理顶级层：$150/百万Token，超长研究任务点评：这不是技术发布，这是商业模式的焦虑营销。 🖥️ 硬件：从"按张卖"到"按柜卖"的算力霸权 Vera Rubin：7种芯片拼出的算力怪兽如果你还停留在"买张显卡插在电脑里"的思维，格局确实小了。现在的AI算力，按"柜"卖。 Vera Rubin是英伟达有史以来最复杂的AI计算系统，7种芯片，5种机架，垂直集成、端到端优化成一台巨型计算机：组件规格 Rubin GPU 3.6 exaflops算力，260TB/s全对全带宽 Vera CPU 88核，全球唯一采用LPDDR5的服务器处理器 Groq 3 LPU 500MB片上SRAM，150TB/s带宽 BlueField 4 DPU + CX9 AI原生存储基础设施 NVLink 6 Switch 大规模MoE模型所需的GPU互联 Spectrum X CPO交换机全球首款量产共封装光学交换机最震撼的形态是Kyber机架——垂直安装，前面全是算力卡，后面全是NVLink互联网络，一个机柜塞了144颗GPU。十年前的DGX-1：8块Pascal GPU，170 TFLOPS。十年后的Vera Rubin NVLink 72：3.6 ExaFLOPS。十年，算力增长四千万倍。老黄说：“去年我说Hopper的时候，会举起一块芯片，那很可爱。但这是Vera Rubin，当人们想到Vera Rubin，人们想到的是整个系统。” 点评：这不是卖芯片，这是卖算力发电厂。被砍掉的Rubin CPX：DDR涨价引发的架构回调一个容易被忽略的细节：Rubin CPX方案被取消了。 ...