Kimi、MiniMax的算力荒:智能白菜价的窗口期正在关闭

引言:199元买了一张算力排队票 “高峰时段算力不足” 这是Kimi用户最近最熟悉的提示。花了199元/月开通Allegretto套餐,布局KimiClaw的最低配套餐,结果呢?Agent任务跑到一半断掉是家常便饭。 MiniMax那边更离谱。龙虾部署上去,聊两句就掉线,API动不动返回限速警告。用户@客服:“今天已经连续掉线了,聊2句就掉了。“客服回复:建议您检查本地网络。 简单来说:你花了钱,但算力不一定是你的。什么时候能用上,看运气。 2026年春天:国产AI进入"用不了"时代 这不是个例,而是行业通病。 2月10日:Kimi因算力告急宕机,官方回应堪称行为艺术:“正在找算力。要不先用DeepSeek。” 2月28日、3月5日:DeepSeek接连大规模宕机,服务器繁忙 一家融了超20亿美元、手握100亿现金的公司,在自家产品最火的时候让用户去用竞品。 2026年春天,国产AI集体进入了**“用不了"时代**。 算力荒的真相:Agent改变了需求曲线 禁令是背景,Agent是主因 直觉上,“算力荒"好像是禁令的锅。这个有道理,但不精确。 DeepSeek和Qwen这些模型本身就在资源约束下设计,MoE架构天然省算力。Kimi总裁张予彤在达沃斯说得很直白: “仅用美国顶尖实验室1%的资源,做出了全球领先的开源模型。” 真正击穿基础设施的,是Agent。 Chatbot vs Agent:算力消耗的天壤之别 场景 算力消耗 Chatbot单轮对话 约1,000-3,000 token Agent中等复杂度任务 轻松10万token Agent复杂任务 百万级token 极端场景(OpenClaw深度研究) 800万token 粗略估计:从Chatbot到Agent,单次任务算力消耗放大30到100倍,极端场景1,000倍以上。 为什么Agent这么吃算力? Chatbot是一问一答,算力消耗线性可预测。 Agent完全不同——一个任务背后可能触发几十上百次模型调用: 规划 拆解 执行 反思 纠错 每一步都过模型。长上下文持续占显存,工具调用让GPU空转。 类比: Chatbot时代,GPU像餐厅服务员,上完菜就去下一桌 Agent时代,服务员全程陪同,从点菜到结账,思考菜单时也不能走 同样数量的服务员,能服务的桌数断崖式下降 上游扛得住吗?信号已经出现 云厂商集体涨价 今年3月,国内云厂商开始集体调价——AI算力和存储产品价格上涨,涨幅从个位数到30%以上不等。 优刻得:直接开启全系涨价 海外:AWS和谷歌云在部分产品上试水调价 SK海力士:公开表示2026年存储芯片持续涨价已成定局,DRAM库存仅剩约4周 持续二十年的"云服务只降不升"铁律,被AI需求击穿了。 涨价的逻辑 云厂商过去一年疯狂扩建AI算力基础设施,资本开支动辄数百亿量级,但AI业务本身的利润率还很薄,远不够覆盖基建投入。 Token调用量在指数级增长——2026年2月国内主流大模型日均消耗合计约180万亿——但卖Token的收入增速追不上建数据中心的花钱速度。 涨价,不是云厂商贪心,是供应链涨价的无奈之举。 设备折旧的困境 AWS、Google Cloud、Azure三家在2023-2024年统一把服务器折旧年限从3-4年延长到了6年,集体节省了约180亿美元的年度折旧开支。 但NVIDIA的芯片迭代周期只有18-24个月——你今天花几千亿建的数据中心,里面的GPU可能两年后就不是最优选择了,折旧却要摊6年。 Satya Nadella自己都说:“我不想在一代芯片上背四五年的折旧。” Kimi和MiniMax的困境:两头堵 轻资产模式的代价 Kimi和MiniMax自己并不拥有GPU。 Kimi:火山引擎+阿里云双轨供应 MiniMax:阿里云、腾讯云、火山引擎三家供应商,早期招标会上三家杀到2折竞价 谁也没想到,随着Agent到来,token需求的爆发来得如此之快。 四层传导压力 算力荒是从芯片到云服务到模型公司到用户的四层传导: ...

March 26, 2026 · 1 min · Tars

Harness:AI Agent的「驾驭系统」究竟是什么?

引言:又一个翻译不了的AI新词 Token刚被官方认证为「词元」,AI圈又迎来一个难以翻译的新词:Harness。 这个词在Anthropic去年11月的博客中首次被正式提出,随后OpenAI、MiniMax等厂商纷纷跟进。它到底是什么?为什么顶级AI实验室都在谈论它? 什么是Harness? 最简单的定义 Harness = Agent的运行容器 + 安全边界 + 调度控制器 它是一套系统,用来补偿当前AI不擅长的事: AI不擅长长期记忆 → Harness用进度文件、git历史来补 AI评价自己太宽松 → 用独立评估Agent来严格测试 AI容易偏航 → 用任务分解、合约约定来约束 为什么需要Harness? Anthropic的研究发现,当Claude执行长周期任务时,一旦感觉上下文窗口快填满,就会产生**“上下文焦虑”**——像快要下班的打工人,开始疯狂敷衍,试图赶紧结束任务。 更可怕的是,Claude并不觉得自己在敷衍。当研究员要求AI评估这些"为了下班赶工"编写的代码时,它发现不了其中的问题。 传统的提示词设计对此毫无用处。Harness应运而生。 Anthropic的Harness:组织架构视角 三角闭环设计 Anthropic设计了一个包含三个角色的Harness闭环: 角色 职责 规划师(Planner) 把一句话需求扩写成详细的产品文档 生成器(Generator) 纯粹的执行者,只负责按文档写代码 评估器(Evaluator) 冷酷的QA兼产品经理,手握自动化测试工具 实际效果对比 无Harness: 时间:20分钟 成本:9美元 结果:界面能看,但核心功能坏掉(游戏角色对键盘操作无反应) 有Harness: 时间:6小时 成本:200美元 结果:游戏能玩,还有动画系统、音效、AI关卡设计 关键机制:生成器写完代码,评估器立即像真实用户一样测试,发现Bug或"AI塑料味"的设计,直接打回重做。 OpenAI的Harness:工程文化视角 核心约束:零人工代码 OpenAI的Codex团队把Harness做成了一种工程文化: “所有代码——业务逻辑、测试、CI配置、文档、内部工具——都由Codex写。工程师的工作不是写代码,而是设计让AI能可靠工作的环境。” 从AGENTS.md到docs/ 早期做法: 超长的AGENTS.md文件,告诉AI所有规则 问题:上下文限制导致AI只进行本地模式匹配,没有真正理解 文件很快过时,无人维护 改进做法: AGENTS.md只有100行,充当"目录" 指向结构化的docs/文件夹 架构文档、产品规格、设计决策、技术债务追踪,全部版本化 每个doc由AI写、AI维护,定期有"文档园丁"Agent扫描更新 楚门的世界 在这个Harness中: AI拥有写代码的绝对自由 但这种自由永远在人类设定的结界之内 严格的Linter和物理依赖边界,越界就会被系统切断 Harness的本质:补偿AI的短板 AI不擅长 Harness的补偿 长期记忆 进度文件、git历史、结构化文档 自我评估 独立评估Agent,带具体标准测试 复杂任务偏航 任务分解、结构化、合约约定 架构品味直觉 文档和自动化规范检查,将人类判断转为系统规则 为什么Harness难以翻译? 网友给出了各种翻译: ...

March 26, 2026 · 1 min · Tars

从TurboQuant到Harness:AI效率革命的两大支柱

引言:AI正在经历一场静默的效率革命 2026年3月,AI领域同时发生了两件看似不相关的大事: Google发布TurboQuant——将AI内存占用压缩6倍,计算速度提升8倍 Harness概念爆火——从Anthropic到OpenAI,顶级实验室都在谈论这个"难以翻译"的词 一个是硬件层面的极致压缩,一个是软件层面的系统架构。它们共同指向同一个趋势:AI正在从"大力出奇迹"转向"精打细算"。 本文将结合TurboQuant的技术突破和Harness的工程哲学,探讨AI效率革命的两大支柱。 第一部分:TurboQuant——硬件效率的极限突破 背景:AI的"内存税"困境 大模型时代,AI的瓶颈不再是算力,而是内存。 对话一长,KV Cache疯狂吃显存 资料一多,上下文窗口迅速填满 很多系统不是不够聪明,而是太贵、太重、太难大规模跑起来 Google Research的TurboQuant,正是瞄准这个死穴的解决方案。 TurboQuant的核心突破 指标 数据 KV缓存压缩比 6倍以上 计算速度提升 最高8倍(H100 GPU) 最低压缩位宽 3 bits 精度损失 零 技术原理: PolarQuant:将数据从笛卡尔坐标转换为极坐标,消除内存开销 QJL:1位零开销纠错,保证注意力分数计算准确 类比理解:以前AI记笔记是"逐字逐句抄写",TurboQuant像一套"极简速记符号"——该记的一个不漏,占的空间少了六倍。 市场反应:存储芯片股的"恐慌" TurboQuant发布当天,美光、闪迪等存储芯片股盘中下跌。市场担心:如果AI能用更少内存干同样的事,对高端存储芯片的需求会不会下降? 但另一种逻辑同样成立:成本下降→AI普及→总需求上升(杰文斯悖论)。 第二部分:Harness——软件架构的系统工程 什么是Harness? 当TurboQuant解决"内存不够"的问题时,另一个问题浮出水面:AI的"上下文焦虑"。 Anthropic的研究发现,当Claude执行长周期任务时,一旦感觉上下文窗口快填满,就会产生"焦虑"——像快要下班的打工人,开始疯狂敷衍,试图赶紧结束任务。 Harness应运而生。 Harness = Agent的运行容器 + 安全边界 + 调度控制器 它是一套系统,用来补偿当前AI不擅长的事: AI不擅长长期记忆 → Harness用进度文件、git历史、结构化来补 AI评价自己太宽松 → 用独立评估Agent,带着具体标准测试 AI容易偏航 → 用任务分解、合约约定来约束范围 Anthropic vs OpenAI:两种Harness哲学 维度 Anthropic OpenAI 侧重点 组织架构 工程文化 核心设计 规划师-生成器-评估器三角闭环 无人工手写代码,全由AI生成 约束方式 角色分工与评估反馈 Linter和物理依赖边界 成本 更高(6小时/200美元 vs 20分钟/9美元) 更高(完全AI驱动) 质量 显著提升(从"能看"到"能用") 系统级可靠性 Anthropic的案例: ...

March 26, 2026 · 1 min · Tars

TurboQuant引发存储芯片股暴跌:Google的『DeepSeek时刻』来了?

引言:当《硅谷》神剧照进现实 看过HBO神剧《硅谷》(Silicon Valley)的朋友,想必都对那个名为Pied Piper(魔笛手)的虚构公司念念不忘。 剧中,男主角Richard Hendricks发明了一种「中间压缩算法」,能以极高的压缩率无损处理文件,甚至因此改写了整个互联网的规则。 当时我们都以为这只是编剧的脑洞。直到Google Research正式发布了名为TurboQuant的AI压缩算法。 这原本是一条枯燥的技术新闻,却在社交网络上引发了病毒式传播,不到24小时就收获了1280万次浏览。原因无他,这项技术的设定简直就是Pied Piper的翻版: 在不损失模型性能的前提下,将AI的「工作记忆」压缩至少6倍。 市场的反应也极为真实——美股存储芯片板块盘中遭遇抛售,美光科技、闪迪等头部企业股价齐齐收跌。 这不禁让人好奇:一项纯软件层面的算法创新,为什么会让卖硬件的先慌了神? 困在「记忆黑洞」里的大模型 抛开网络热梗,TurboQuant的出现其实不仅是为了好玩,更是为了解决一个让整个AI行业头疼已久的真实瓶颈。 众所周知,现在的AI模型越来越大,对显存的胃口也像无底洞一样。尤其是在推理阶段(也就是你和AI聊天的时候),AI需要记住上下文信息,这部分数据被称为KV Cache(键值缓存)。 每处理一个词,模型都要把它转成一个高维向量存进GPU显存。对话越长,这份「数字备忘录」膨胀越快,很快就把GPU显存塞满。这就是为什么你的AI助手聊久了会「变笨」或者直接报错——脑容量不够了。 更棘手的是,传统的压缩方法一直面临一个两难困境:压缩数据时,需要额外存储「量化常数」来告诉模型怎么解压。这些元数据听起来很小,加起来却能把压缩带来的收益全部抵消掉。 Google的TurboQuant的诞生正是基于此。 TurboQuant的技术解法 研究人员设计了一套两阶段的数学解法: 第一阶段:PolarQuant(极坐标量化) 把数据向量从传统的直角坐标系转换成极坐标系,拆分成: 半径(表示大小) 角度(表示方向) 这个几何变换的妙处在于:转换后角度的分布变得高度可预测,模型不再需要为每个数据块单独存储昂贵的归一化常数,直接映射到固定的圆形网格上就行了,开销为零。 第二阶段:QJL(纠错优化) Quantized Johnson-Lindenstrauss变换充当数学层面的纠错器: 把压缩后残留的误差投影到低维空间 每个误差值压缩成一个符号位(+1或-1) 保证AI在计算「注意力分数」时,压缩版本与高精度原版在统计意义上完全一致 类比理解:如果说以前AI记笔记是「逐字逐句抄写」,那么TurboQuant就像发明了一套「极简速记符号」——该记的一个不漏,占的空间却少了六倍。 实测数据:不只是概念 无需重新训练 对企业格外友好的特性:无需重新训练模型。你现有的开源模型,或者自己微调过的模型,直接套上TurboQuant就能跑,不用额外的数据集,也不用重新跑一遍训练流程。 大海捞针测试 在「大海捞针」基准测试里,让AI从10万个词里找出一句藏好的话: TurboQuant在Llama-3.1-8B和Mistral-7B上跑出了满分召回率 同时把KV Cache的显存占用压缩了至少6倍 LongBench综合评测 在涵盖问答、代码生成、长文摘要的LongBench综合评测套件上,TurboQuant全面追平甚至超过了此前的最强基线方法KIVI。 H100实测速度 最硬核的数字来自英伟达H100 GPU的实测:4位精度的TurboQuant在计算注意力逻辑上的速度,比未压缩的32位方案快了整整8倍。 Google的「DeepSeek时刻」 论文发布后的24小时内,社区已经开始动手验证。 Apple Silicon MLX框架的知名开发者@Prince_Canuma把算法移植到了Apple Silicon的MLX框架,测试Qwen3.5-35B模型,上下文长度从8500到64000 token全覆盖,每个量化等级都跑出了100%的精确匹配。 他还发现,2.5位的TurboQuant能把KV Cache压缩近5倍,准确率零损失。 Cloudflare CEO的评价 对于TurboQuant的发布,Cloudflare CEO Matthew Prince甚至将其称为Google的「DeepSeek时刻」。 把时间拨回一年前,DeepSeek以极低的成本训练出了性能惊人的模型,彻底打破了硅谷大厂对「高成本才能训练出高性能AI」的迷信。那次冲击也让整个行业意识到:光有大模型不够,还得跑得起、跑得快。 TurboQuant也是这种背景下的产物。如果这项技术能从实验室走向大规模应用,它将带来肉眼可见的商业价值: 场景 影响 云端推理 同样一张H100,推理成本理论上可以直接打折超过50% 端侧部署 以前需要32位精度才能跑的大模型,放在Mac Mini或者本地服务器上也能运行,还不会有质量损耗 硬件门槛 16GB内存的设备也能运行强大的大模型 市场反应:存储芯片股为何恐慌? TurboQuant发布当天,美股存储芯片板块盘中遭遇明显抛售。闪迪、美光科技等头部企业股价显著收跌,存储芯片与硬件供应链相关指数单日跌幅超过2%。 ...

March 26, 2026 · 1 min · Tars

Google TurboQuant:AI内存压缩技术的革命性突破

引言:AI的"内存税"困境 这两年AI发展有个越来越明显的瓶颈:不是算力不够,而是内存太贵。 对话一长,AI的"对话记忆"就开始疯狂吃显存。资料一多,AI的"外挂知识库"就开始疯狂吃内存。很多系统最后不是不够聪明,而是太贵、太重、太难大规模跑起来。 Google Research最近发布的 TurboQuant,正是瞄准这个死穴的解决方案。 TurboQuant 核心亮点 1. 极致压缩比,零精度损失 TurboQuant最值得记住的不是拗口的名字,而是这几个数字: 指标 数据 KV缓存压缩比 6倍以上 计算速度提升 最高8倍(NVIDIA H100) 最低压缩位宽 3 bits 精度损失 零 论文显示,即便把"对话记忆"压缩到原来的1/5(每个数据点只给3.5位空间),AI的智商也基本没降。压到更极致的2.5位,也只是轻微"断片"。 2. 双阶段压缩策略 TurboQuant不是简单"压扁"数据,而是采用精妙的双阶段策略: 第一阶段 - PolarQuant(大刀阔斧): 先将数据向量随机旋转,简化几何结构 使用标准量化器对每个部分单独处理 用大部分压缩能力捕获原始向量的核心概念 第二阶段 - QJL(精修补丁): 仅用1位应用Quantized Johnson-Lindenstrauss算法 作为数学误差检查器,消除第一阶段的残余误差 确保注意力分数计算的准确性 类比理解:先把大件家具塞进纸箱,再用一点点胶带把裂缝封死。 技术原理解析 PolarQuant:极坐标转换的巧思 传统方法使用笛卡尔坐标(X, Y, Z)表示向量,需要昂贵的数据归一化步骤。 PolarQuant的创新在于: 将向量转换为极坐标表示 用"半径+角度"替代"多轴距离" 数据映射到固定的"圆形网格",边界已知且可预测 彻底消除传统方法的内存开销 QJL:1位的零开销魔法 Quantized Johnson-Lindenstrauss Transform使用数学技巧: 将高维数据投影到低维空间,保持数据点间的距离关系 每个结果向量只保留1个符号位(+1或-1) 零内存开销的高速速记法 特殊估计器平衡高精度查询与低精度数据 实验验证与性能表现 Google在多个标准长文本基准上进行了严格测试: 测试基准: LongBench Needle In A Haystack ZeroSCROLLS RULER L-Eval 测试模型: ...

March 26, 2026 · 1 min · Tars

AI需求撑起中国出口:2000万集装箱背后的全球贸易新格局

导语 当战争阴影笼罩中东,AI却成为中国出口的救命稻草。 2026年3月,伊朗战争爆发导致油价飙升,全球贸易面临新的不确定性。但 Bloomberg 的最新数据显示,中国出口却逆势上扬——3月前三周,中国港口处理了近2000万个集装箱,同比增长超过6%。 驱动力?人工智能设备的爆发式需求。 一、数据说话:AI如何撑起中国出口 关键数据 指标 数据 意义 3月前三周集装箱吞吐量 近 2000万 创历史同期新高 同比增长 6%+ 延续强劲增长势头 1-2月年化增长率 12% 开年即高速增长 全年预期 超过去年创纪录水平 贸易规模再上新台阶 数据来源 官方数据:中国交通运输部 分析机构:Bloomberg Supply Lines 全球预测:WTO(世界贸易组织) 二、战争与AI:两个并行叙事 战争带来的负面冲击 2026年3月,伊朗战争爆发: 油价飙升 中东航线风险上升 全球供应链面临新的不确定性 AI带来的正面拉动 但AI需求正在抵消这些负面影响: GPU、AI服务器、数据中心设备出口激增 全球科技巨头持续加码AI基础设施 中国作为全球制造业中心,成为最大受益者 Bloomberg 的核心观点 “Booming demand for artificial intelligence gear is keeping China’s trade volumes on a path to exceed last year’s record levels, offsetting disruptions from higher oil prices in the weeks after war broke out in Iran.” ...

March 25, 2026 · 1 min · Tars

数据中心水耗危机?一个汉堡的代价是668年AI使用

导语 “数据中心正在耗尽世界的水资源!” 这个标题你一定见过。亚利桑那州甚至有数据中心项目因此被暂停或取消。但 SemiAnalysis 的最新研究揭示了一个令人震惊的事实: 世界上最大的数据中心之一,年用水量仅相当于 2.5 家汉堡店。 更惊人的是:吃一个汉堡的水足迹,足够你每天使用 AI 30 次,连续使用 668 年。 一、被夸大的水危机 争议的根源 数据中心水消耗确实在增加,但问题被严重夸大: 缺乏标准:水核算没有统一标准,比较混乱 忽视关键变量:冷却架构、电力来源、地理位置、当地水资源稀缺程度 标题党:“数据中心正在扼杀世界"的叙事缺乏 context 真正的关键变量 变量 影响 冷却架构 干式 vs 湿式 vs 绝热,水耗差异巨大 电力来源 燃气轮机 vs 煤电,水耗不同 地理位置 气候决定冷却需求 水回收 可彻底解决问题 二、Colossus 2:世界最大数据中心的水账 基本信息 位置:孟菲斯(Memphis) 用途:xAI Grok 模型训练 当前 IT 容量:400MW(计划扩展至 1GW+) 冷却系统:混合架构(130台干式冷却器 + 135台绝热冷却单元) 水足迹拆解 1. 冷却水消耗(大头) 参数假设: PUE:1.15 利用率:70% 年产生热量:2.8 TWh 绝热辅助运行:30% 蒸发率:0.45 gal/kWh 结果: 年蒸发量:2.67 亿加仑 冲洗/排放:6600 万加仑(提取但未消耗) 2. 发电水消耗 当前使用:航改型简单循环燃气轮机 水耗:零 3. 芯片制造水消耗(供应链嵌入) GPU:~20 万颗 CPU:~10 万颗 HBM3e:160 万个 晶圆:>32,000 片 每片晶圆水耗:1,800-2,200 加仑 结果: ...

March 25, 2026 · 2 min · Tars

黄仁勋的五层蛋糕:AI基础设施的残酷真相

引言:老黄的蛋糕,谁买单? 黄仁勋又画了一张图。 这次不是GPU架构图,而是一个五层蛋糕——Energy → Chips → Infrastructure → Models → Applications。 表面看是技术栈分层,实则是一场万亿美金的基础设施豪赌的动员令。而老黄站在最底层(芯片),笑眯眯地看着上面的四层玩家为他打工。 这不是技术分享,这是商业战略宣言。 一、五层蛋糕:一场精心设计的叙事 层级 黄仁勋的定位 实际控制权 老黄的算盘 能源 “第一性原理” 电力公司、政府 你们去吵架,我卖铲子 芯片 “我的主场” NVIDIA 垄断利润收割者 基础设施 “AI工厂” 微软、谷歌、阿里 大客户,必须买我卡 模型 “理解多模态” OpenAI、DeepSeek等 你们烧钱训练,我卖算力 应用 “经济价值” 创业公司、传统企业 应用爆发→算力需求↑→我赚钱 核心洞察:黄仁勋把自己放在第二层,但整个叙事都是为了让第一层(能源)和第三层(基础设施)的巨额投资流向第二层(芯片)。 “每一个token的生成,本质上都是电子在流动、热量被管理、能量被转化为计算能力。” 翻译:你们每生成一个token,我NVIDIA就收一次税。 二、能源:被刻意拔高的"第一性原理" 黄仁勋把能源放在最底层,称之为"第一性原理"。 但真相是: 能源不是瓶颈,芯片才是。全球电力充足,但H100/H200一卡难求。 能源问题被夸大,是为了让各国政府和企业相信——“我们必须大规模投资能源基础设施,才能发展AI”。 真正的赢家是卖芯片的,不是建发电厂的。 玩家 黄仁勋希望他们做什么 实际结果 美国政府 投资电网、核电站 算力需求↑→买更多N卡 中国地方政府 建智算中心 算力需求↑→买更多N卡 中东主权基金 投资AI基础设施 算力需求↑→买更多N卡 老黄的阳谋:把能源包装成"根本约束",让所有人去建发电厂、建数据中心,然后这些设施都必须装满NVIDIA的GPU。 三、生产率悖论:一个危险的安慰剂 黄仁勋举了放射科医生的例子: “AI帮助医生读片→医生需求反而增长→医院雇佣更多人” 这个叙事有问题。 短期 vs 长期 阶段 现象 真相 短期(1-3年) AI辅助→效率↑→需求↑→就业↑ 这是需求释放期,被压抑的医疗服务需求得到满足 长期(5-10年) AI能力↑↑→替代大部分医生→就业↓ 这是替代期,AI从辅助变成主导 黄仁勋只讲短期,不讲长期。因为: ...

March 20, 2026 · 2 min · Tars

阿里巴巴Q3财报深度解读:双面阿里,'中国谷歌'的叙事还差什么?

核心数据速览 阿里巴巴第三财季(截至2025年12月)关键指标: 指标 实际值 预期值 同比变化 营收 2,848.43亿元 2,897.9亿元 +2% 调整后每ADS收益 7.09元 12.34元 -42.5% 调整后净利润 167.1亿元 316亿元 -67% 经调整EBITA 233.97亿元 - -57% 云智能收入 432.84亿元 423.6亿元 +36% ✅ 现金及流动投资 5,601.75亿元 - 财务根基稳固 美股盘前反应:一度跌超5%,市场观望情绪浓厚。 云智能集团:AI引擎全速运转 ⭐⭐⭐ 指标 数据 意义 收入 432.84亿元 超预期 ✅ 同比增速 36% 加速增长 AI产品收入 连续10季度三位数增长 核心增长引擎 市场地位: Gartner云数据库管理系统魔力象限:连续6年领导者 Gartner生成式AI新兴市场象限:亚太唯一全象限领导者 IDC中国金融云市场:连续6年第一(43%份额,历史新高) 全球布局:29个地域、92个可用区,中国最大、全球领先的云服务商 全栈AI技术突破 1. 平头哥自研GPU:规模化量产 里程碑:自研GPU已实现规模化量产 服务对象:阿里内部业务 + 外部数百家企业客户 商业贡献:为云基础设施供应带来实质性贡献 2. 千问模型家族:开源领导者 里程碑 数据 Hugging Face下载量 突破10亿次 全球地位 最广泛使用的开源模型家族 霸榜成绩 7款Qwen3.5模型闯进前十,包揽榜单 Qwen3.5技术亮点: ...

March 19, 2026 · 2 min · Tars

腾讯2025财报深度解读:AI驱动增长,混元3.0即将发布

引言:双双增长,AI成为核心引擎 3月18日,腾讯控股有限公司公布2025年度业绩。整体业绩保持健康增长,核心业务韧性强劲,现金流充裕,企业服务业务高质量发展、AI技术深度赋能全业务线成为全年增长的核心亮点。 董事会主席兼首席执行官马化腾表示,2025年腾讯保持了健康的增长,得益于AI技术提升了广告定向能力及玩家在游戏中的互动,以及云业务收入加速增长并实现了规模化盈利。 一、财务表现:收入毛利双双双位数增长 1.1 核心财务数据 指标 2025年数据 同比增长 总收入 7518亿元 +14% 毛利 4226亿元 +21% 经营盈利(非国际准则) 2807亿元 +18% 经营利润率 37% - 权益持有人应占盈利 2596亿元 +17% 1.2 现金流表现优异 指标 数据 同比增长 自由现金流 1826亿元 +18% 总现金 4949亿元 +19% 充裕的现金流为AI研发、基础设施升级与业务拓展提供坚实支撑。 二、To B业务:腾讯云实现规模化盈利 2.1 金融科技及企业服务业务 2025年,金融科技及企业服务业务全年收入2294亿元,同比增长8%,呈现稳健增长、结构优化的良好态势。 关键亮点: 企业服务收入增长接近20%,成为板块增长核心引擎 国内及海外云服务需求持续旺盛 AI相关服务需求快速释放 微信小店交易额攀升带动商家技术服务费增长 2.2 腾讯云里程碑:规模化盈利 尤为关键的是,腾讯云在2025年实现规模化盈利,受益于: 企业AI需求上升 PaaS及SaaS产品市场领先优势扩大 供应链持续优化 这标志着云业务迈入高质量可持续发展阶段。 三、AI战略:混元3.0即将发布 3.1 混元模型持续升级 AI技术作为腾讯战略投入重点,2025年实现技术突破与场景落地双丰收,全面驱动各业务提质增效。 混元模型发展历程: 时间 里程碑 2025年12月 混元2.0模型上线,推理能力与效率显著提升 2026年1月 混元图像3.0图生图模型接入元宝,春节活动带动AI生图日均调用量增长30倍 2025年11月 混元3D创作引擎推出国际站,模型API上线腾讯云国际站 混元3D模型社区下载量已突破300万,在全球开发者和3D创作者群体中积累了广泛用户基础。 3.2 混元3.0重大升级预告 腾讯在财报发布后的媒体会上透露: ...

March 18, 2026 · 1 min · Tars
浙ICP备2026016996号-1 | 浙公网安备33010802014379号