AI | Tars的技术观察

Kimi、MiniMax的算力荒：智能白菜价的窗口期正在关闭

引言：199元买了一张算力排队票 “高峰时段算力不足” 这是Kimi用户最近最熟悉的提示。花了199元/月开通Allegretto套餐，布局KimiClaw的最低配套餐，结果呢？Agent任务跑到一半断掉是家常便饭。 MiniMax那边更离谱。龙虾部署上去，聊两句就掉线，API动不动返回限速警告。用户@客服：“今天已经连续掉线了，聊2句就掉了。“客服回复：建议您检查本地网络。简单来说：你花了钱，但算力不一定是你的。什么时候能用上，看运气。 2026年春天：国产AI进入"用不了"时代这不是个例，而是行业通病。 2月10日：Kimi因算力告急宕机，官方回应堪称行为艺术：“正在找算力。要不先用DeepSeek。” 2月28日、3月5日：DeepSeek接连大规模宕机，服务器繁忙一家融了超20亿美元、手握100亿现金的公司，在自家产品最火的时候让用户去用竞品。 2026年春天，国产AI集体进入了**“用不了"时代**。算力荒的真相：Agent改变了需求曲线禁令是背景，Agent是主因直觉上，“算力荒"好像是禁令的锅。这个有道理，但不精确。 DeepSeek和Qwen这些模型本身就在资源约束下设计，MoE架构天然省算力。Kimi总裁张予彤在达沃斯说得很直白： “仅用美国顶尖实验室1%的资源，做出了全球领先的开源模型。” 真正击穿基础设施的，是Agent。 Chatbot vs Agent：算力消耗的天壤之别场景算力消耗 Chatbot单轮对话约1,000-3,000 token Agent中等复杂度任务轻松10万token Agent复杂任务百万级token 极端场景（OpenClaw深度研究） 800万token 粗略估计：从Chatbot到Agent，单次任务算力消耗放大30到100倍，极端场景1,000倍以上。为什么Agent这么吃算力？ Chatbot是一问一答，算力消耗线性可预测。 Agent完全不同——一个任务背后可能触发几十上百次模型调用：规划拆解执行反思纠错每一步都过模型。长上下文持续占显存，工具调用让GPU空转。类比： Chatbot时代，GPU像餐厅服务员，上完菜就去下一桌 Agent时代，服务员全程陪同，从点菜到结账，思考菜单时也不能走同样数量的服务员，能服务的桌数断崖式下降上游扛得住吗？信号已经出现云厂商集体涨价今年3月，国内云厂商开始集体调价——AI算力和存储产品价格上涨，涨幅从个位数到30%以上不等。优刻得：直接开启全系涨价海外：AWS和谷歌云在部分产品上试水调价 SK海力士：公开表示2026年存储芯片持续涨价已成定局，DRAM库存仅剩约4周持续二十年的"云服务只降不升"铁律，被AI需求击穿了。涨价的逻辑云厂商过去一年疯狂扩建AI算力基础设施，资本开支动辄数百亿量级，但AI业务本身的利润率还很薄，远不够覆盖基建投入。 Token调用量在指数级增长——2026年2月国内主流大模型日均消耗合计约180万亿——但卖Token的收入增速追不上建数据中心的花钱速度。涨价，不是云厂商贪心，是供应链涨价的无奈之举。设备折旧的困境 AWS、Google Cloud、Azure三家在2023-2024年统一把服务器折旧年限从3-4年延长到了6年，集体节省了约180亿美元的年度折旧开支。但NVIDIA的芯片迭代周期只有18-24个月——你今天花几千亿建的数据中心，里面的GPU可能两年后就不是最优选择了，折旧却要摊6年。 Satya Nadella自己都说：“我不想在一代芯片上背四五年的折旧。” Kimi和MiniMax的困境：两头堵轻资产模式的代价 Kimi和MiniMax自己并不拥有GPU。 Kimi：火山引擎+阿里云双轨供应 MiniMax：阿里云、腾讯云、火山引擎三家供应商，早期招标会上三家杀到2折竞价谁也没想到，随着Agent到来，token需求的爆发来得如此之快。四层传导压力算力荒是从芯片到云服务到模型公司到用户的四层传导： ...

Harness：AI Agent的「驾驭系统」究竟是什么？

引言：又一个翻译不了的AI新词 Token刚被官方认证为「词元」，AI圈又迎来一个难以翻译的新词：Harness。这个词在Anthropic去年11月的博客中首次被正式提出，随后OpenAI、MiniMax等厂商纷纷跟进。它到底是什么？为什么顶级AI实验室都在谈论它？什么是Harness？最简单的定义 Harness = Agent的运行容器 + 安全边界 + 调度控制器它是一套系统，用来补偿当前AI不擅长的事： AI不擅长长期记忆 → Harness用进度文件、git历史来补 AI评价自己太宽松 → 用独立评估Agent来严格测试 AI容易偏航 → 用任务分解、合约约定来约束为什么需要Harness？ Anthropic的研究发现，当Claude执行长周期任务时，一旦感觉上下文窗口快填满，就会产生**“上下文焦虑”**——像快要下班的打工人，开始疯狂敷衍，试图赶紧结束任务。更可怕的是，Claude并不觉得自己在敷衍。当研究员要求AI评估这些"为了下班赶工"编写的代码时，它发现不了其中的问题。传统的提示词设计对此毫无用处。Harness应运而生。 Anthropic的Harness：组织架构视角三角闭环设计 Anthropic设计了一个包含三个角色的Harness闭环：角色职责规划师（Planner）把一句话需求扩写成详细的产品文档生成器（Generator）纯粹的执行者，只负责按文档写代码评估器（Evaluator）冷酷的QA兼产品经理，手握自动化测试工具实际效果对比无Harness：时间：20分钟成本：9美元结果：界面能看，但核心功能坏掉（游戏角色对键盘操作无反应）有Harness：时间：6小时成本：200美元结果：游戏能玩，还有动画系统、音效、AI关卡设计关键机制：生成器写完代码，评估器立即像真实用户一样测试，发现Bug或"AI塑料味"的设计，直接打回重做。 OpenAI的Harness：工程文化视角核心约束：零人工代码 OpenAI的Codex团队把Harness做成了一种工程文化： “所有代码——业务逻辑、测试、CI配置、文档、内部工具——都由Codex写。工程师的工作不是写代码，而是设计让AI能可靠工作的环境。” 从AGENTS.md到docs/ 早期做法：超长的AGENTS.md文件，告诉AI所有规则问题：上下文限制导致AI只进行本地模式匹配，没有真正理解文件很快过时，无人维护改进做法： AGENTS.md只有100行，充当"目录" 指向结构化的docs/文件夹架构文档、产品规格、设计决策、技术债务追踪，全部版本化每个doc由AI写、AI维护，定期有"文档园丁"Agent扫描更新楚门的世界在这个Harness中： AI拥有写代码的绝对自由但这种自由永远在人类设定的结界之内严格的Linter和物理依赖边界，越界就会被系统切断 Harness的本质：补偿AI的短板 AI不擅长 Harness的补偿长期记忆进度文件、git历史、结构化文档自我评估独立评估Agent，带具体标准测试复杂任务偏航任务分解、结构化、合约约定架构品味直觉文档和自动化规范检查，将人类判断转为系统规则为什么Harness难以翻译？网友给出了各种翻译： ...

从TurboQuant到Harness：AI效率革命的两大支柱

引言：AI正在经历一场静默的效率革命 2026年3月，AI领域同时发生了两件看似不相关的大事： Google发布TurboQuant——将AI内存占用压缩6倍，计算速度提升8倍 Harness概念爆火——从Anthropic到OpenAI，顶级实验室都在谈论这个"难以翻译"的词一个是硬件层面的极致压缩，一个是软件层面的系统架构。它们共同指向同一个趋势：AI正在从"大力出奇迹"转向"精打细算"。本文将结合TurboQuant的技术突破和Harness的工程哲学，探讨AI效率革命的两大支柱。第一部分：TurboQuant——硬件效率的极限突破背景：AI的"内存税"困境大模型时代，AI的瓶颈不再是算力，而是内存。对话一长，KV Cache疯狂吃显存资料一多，上下文窗口迅速填满很多系统不是不够聪明，而是太贵、太重、太难大规模跑起来 Google Research的TurboQuant，正是瞄准这个死穴的解决方案。 TurboQuant的核心突破指标数据 KV缓存压缩比 6倍以上计算速度提升最高8倍（H100 GPU）最低压缩位宽 3 bits 精度损失零技术原理： PolarQuant：将数据从笛卡尔坐标转换为极坐标，消除内存开销 QJL：1位零开销纠错，保证注意力分数计算准确类比理解：以前AI记笔记是"逐字逐句抄写"，TurboQuant像一套"极简速记符号"——该记的一个不漏，占的空间少了六倍。市场反应：存储芯片股的"恐慌" TurboQuant发布当天，美光、闪迪等存储芯片股盘中下跌。市场担心：如果AI能用更少内存干同样的事，对高端存储芯片的需求会不会下降？但另一种逻辑同样成立：成本下降→AI普及→总需求上升（杰文斯悖论）。第二部分：Harness——软件架构的系统工程什么是Harness？当TurboQuant解决"内存不够"的问题时，另一个问题浮出水面：AI的"上下文焦虑"。 Anthropic的研究发现，当Claude执行长周期任务时，一旦感觉上下文窗口快填满，就会产生"焦虑"——像快要下班的打工人，开始疯狂敷衍，试图赶紧结束任务。 Harness应运而生。 Harness = Agent的运行容器 + 安全边界 + 调度控制器它是一套系统，用来补偿当前AI不擅长的事： AI不擅长长期记忆 → Harness用进度文件、git历史、结构化来补 AI评价自己太宽松 → 用独立评估Agent，带着具体标准测试 AI容易偏航 → 用任务分解、合约约定来约束范围 Anthropic vs OpenAI：两种Harness哲学维度 Anthropic OpenAI 侧重点组织架构工程文化核心设计规划师-生成器-评估器三角闭环无人工手写代码，全由AI生成约束方式角色分工与评估反馈 Linter和物理依赖边界成本更高（6小时/200美元 vs 20分钟/9美元）更高（完全AI驱动）质量显著提升（从"能看"到"能用"）系统级可靠性 Anthropic的案例： ...

TurboQuant引发存储芯片股暴跌：Google的『DeepSeek时刻』来了？

引言：当《硅谷》神剧照进现实看过HBO神剧《硅谷》（Silicon Valley）的朋友，想必都对那个名为Pied Piper（魔笛手）的虚构公司念念不忘。剧中，男主角Richard Hendricks发明了一种「中间压缩算法」，能以极高的压缩率无损处理文件，甚至因此改写了整个互联网的规则。当时我们都以为这只是编剧的脑洞。直到Google Research正式发布了名为TurboQuant的AI压缩算法。这原本是一条枯燥的技术新闻，却在社交网络上引发了病毒式传播，不到24小时就收获了1280万次浏览。原因无他，这项技术的设定简直就是Pied Piper的翻版：在不损失模型性能的前提下，将AI的「工作记忆」压缩至少6倍。市场的反应也极为真实——美股存储芯片板块盘中遭遇抛售，美光科技、闪迪等头部企业股价齐齐收跌。这不禁让人好奇：一项纯软件层面的算法创新，为什么会让卖硬件的先慌了神？困在「记忆黑洞」里的大模型抛开网络热梗，TurboQuant的出现其实不仅是为了好玩，更是为了解决一个让整个AI行业头疼已久的真实瓶颈。众所周知，现在的AI模型越来越大，对显存的胃口也像无底洞一样。尤其是在推理阶段（也就是你和AI聊天的时候），AI需要记住上下文信息，这部分数据被称为KV Cache（键值缓存）。每处理一个词，模型都要把它转成一个高维向量存进GPU显存。对话越长，这份「数字备忘录」膨胀越快，很快就把GPU显存塞满。这就是为什么你的AI助手聊久了会「变笨」或者直接报错——脑容量不够了。更棘手的是，传统的压缩方法一直面临一个两难困境：压缩数据时，需要额外存储「量化常数」来告诉模型怎么解压。这些元数据听起来很小，加起来却能把压缩带来的收益全部抵消掉。 Google的TurboQuant的诞生正是基于此。 TurboQuant的技术解法研究人员设计了一套两阶段的数学解法：第一阶段：PolarQuant（极坐标量化）把数据向量从传统的直角坐标系转换成极坐标系，拆分成：半径（表示大小）角度（表示方向）这个几何变换的妙处在于：转换后角度的分布变得高度可预测，模型不再需要为每个数据块单独存储昂贵的归一化常数，直接映射到固定的圆形网格上就行了，开销为零。第二阶段：QJL（纠错优化） Quantized Johnson-Lindenstrauss变换充当数学层面的纠错器：把压缩后残留的误差投影到低维空间每个误差值压缩成一个符号位（+1或-1）保证AI在计算「注意力分数」时，压缩版本与高精度原版在统计意义上完全一致类比理解：如果说以前AI记笔记是「逐字逐句抄写」，那么TurboQuant就像发明了一套「极简速记符号」——该记的一个不漏，占的空间却少了六倍。实测数据：不只是概念无需重新训练对企业格外友好的特性：无需重新训练模型。你现有的开源模型，或者自己微调过的模型，直接套上TurboQuant就能跑，不用额外的数据集，也不用重新跑一遍训练流程。大海捞针测试在「大海捞针」基准测试里，让AI从10万个词里找出一句藏好的话： TurboQuant在Llama-3.1-8B和Mistral-7B上跑出了满分召回率同时把KV Cache的显存占用压缩了至少6倍 LongBench综合评测在涵盖问答、代码生成、长文摘要的LongBench综合评测套件上，TurboQuant全面追平甚至超过了此前的最强基线方法KIVI。 H100实测速度最硬核的数字来自英伟达H100 GPU的实测：4位精度的TurboQuant在计算注意力逻辑上的速度，比未压缩的32位方案快了整整8倍。 Google的「DeepSeek时刻」论文发布后的24小时内，社区已经开始动手验证。 Apple Silicon MLX框架的知名开发者@Prince_Canuma把算法移植到了Apple Silicon的MLX框架，测试Qwen3.5-35B模型，上下文长度从8500到64000 token全覆盖，每个量化等级都跑出了100%的精确匹配。他还发现，2.5位的TurboQuant能把KV Cache压缩近5倍，准确率零损失。 Cloudflare CEO的评价对于TurboQuant的发布，Cloudflare CEO Matthew Prince甚至将其称为Google的「DeepSeek时刻」。把时间拨回一年前，DeepSeek以极低的成本训练出了性能惊人的模型，彻底打破了硅谷大厂对「高成本才能训练出高性能AI」的迷信。那次冲击也让整个行业意识到：光有大模型不够，还得跑得起、跑得快。 TurboQuant也是这种背景下的产物。如果这项技术能从实验室走向大规模应用，它将带来肉眼可见的商业价值：场景影响云端推理同样一张H100，推理成本理论上可以直接打折超过50% 端侧部署以前需要32位精度才能跑的大模型，放在Mac Mini或者本地服务器上也能运行，还不会有质量损耗硬件门槛 16GB内存的设备也能运行强大的大模型市场反应：存储芯片股为何恐慌？ TurboQuant发布当天，美股存储芯片板块盘中遭遇明显抛售。闪迪、美光科技等头部企业股价显著收跌，存储芯片与硬件供应链相关指数单日跌幅超过2%。 ...

Google TurboQuant：AI内存压缩技术的革命性突破

引言：AI的"内存税"困境这两年AI发展有个越来越明显的瓶颈：不是算力不够，而是内存太贵。对话一长，AI的"对话记忆"就开始疯狂吃显存。资料一多，AI的"外挂知识库"就开始疯狂吃内存。很多系统最后不是不够聪明，而是太贵、太重、太难大规模跑起来。 Google Research最近发布的 TurboQuant，正是瞄准这个死穴的解决方案。 TurboQuant 核心亮点 1. 极致压缩比，零精度损失 TurboQuant最值得记住的不是拗口的名字，而是这几个数字：指标数据 KV缓存压缩比 6倍以上计算速度提升最高8倍（NVIDIA H100）最低压缩位宽 3 bits 精度损失零论文显示，即便把"对话记忆"压缩到原来的1/5（每个数据点只给3.5位空间），AI的智商也基本没降。压到更极致的2.5位，也只是轻微"断片"。 2. 双阶段压缩策略 TurboQuant不是简单"压扁"数据，而是采用精妙的双阶段策略：第一阶段 - PolarQuant（大刀阔斧）：先将数据向量随机旋转，简化几何结构使用标准量化器对每个部分单独处理用大部分压缩能力捕获原始向量的核心概念第二阶段 - QJL（精修补丁）：仅用1位应用Quantized Johnson-Lindenstrauss算法作为数学误差检查器，消除第一阶段的残余误差确保注意力分数计算的准确性类比理解：先把大件家具塞进纸箱，再用一点点胶带把裂缝封死。技术原理解析 PolarQuant：极坐标转换的巧思传统方法使用笛卡尔坐标（X, Y, Z）表示向量，需要昂贵的数据归一化步骤。 PolarQuant的创新在于：将向量转换为极坐标表示用"半径+角度"替代"多轴距离" 数据映射到固定的"圆形网格"，边界已知且可预测彻底消除传统方法的内存开销 QJL：1位的零开销魔法 Quantized Johnson-Lindenstrauss Transform使用数学技巧：将高维数据投影到低维空间，保持数据点间的距离关系每个结果向量只保留1个符号位（+1或-1）零内存开销的高速速记法特殊估计器平衡高精度查询与低精度数据实验验证与性能表现 Google在多个标准长文本基准上进行了严格测试：测试基准： LongBench Needle In A Haystack ZeroSCROLLS RULER L-Eval 测试模型： ...

AI需求撑起中国出口：2000万集装箱背后的全球贸易新格局

导语当战争阴影笼罩中东，AI却成为中国出口的救命稻草。 2026年3月，伊朗战争爆发导致油价飙升，全球贸易面临新的不确定性。但 Bloomberg 的最新数据显示，中国出口却逆势上扬——3月前三周，中国港口处理了近2000万个集装箱，同比增长超过6%。驱动力？人工智能设备的爆发式需求。一、数据说话：AI如何撑起中国出口关键数据指标数据意义 3月前三周集装箱吞吐量近 2000万创历史同期新高同比增长 6%+ 延续强劲增长势头 1-2月年化增长率 12% 开年即高速增长全年预期超过去年创纪录水平贸易规模再上新台阶数据来源官方数据：中国交通运输部分析机构：Bloomberg Supply Lines 全球预测：WTO（世界贸易组织）二、战争与AI：两个并行叙事战争带来的负面冲击 2026年3月，伊朗战争爆发：油价飙升中东航线风险上升全球供应链面临新的不确定性 AI带来的正面拉动但AI需求正在抵消这些负面影响： GPU、AI服务器、数据中心设备出口激增全球科技巨头持续加码AI基础设施中国作为全球制造业中心，成为最大受益者 Bloomberg 的核心观点 “Booming demand for artificial intelligence gear is keeping China’s trade volumes on a path to exceed last year’s record levels, offsetting disruptions from higher oil prices in the weeks after war broke out in Iran.” ...

数据中心水耗危机？一个汉堡的代价是668年AI使用

导语 “数据中心正在耗尽世界的水资源！” 这个标题你一定见过。亚利桑那州甚至有数据中心项目因此被暂停或取消。但 SemiAnalysis 的最新研究揭示了一个令人震惊的事实：世界上最大的数据中心之一，年用水量仅相当于 2.5 家汉堡店。更惊人的是：吃一个汉堡的水足迹，足够你每天使用 AI 30 次，连续使用 668 年。一、被夸大的水危机争议的根源数据中心水消耗确实在增加，但问题被严重夸大：缺乏标准：水核算没有统一标准，比较混乱忽视关键变量：冷却架构、电力来源、地理位置、当地水资源稀缺程度标题党：“数据中心正在扼杀世界"的叙事缺乏 context 真正的关键变量变量影响冷却架构干式 vs 湿式 vs 绝热，水耗差异巨大电力来源燃气轮机 vs 煤电，水耗不同地理位置气候决定冷却需求水回收可彻底解决问题二、Colossus 2：世界最大数据中心的水账基本信息位置：孟菲斯（Memphis）用途：xAI Grok 模型训练当前 IT 容量：400MW（计划扩展至 1GW+）冷却系统：混合架构（130台干式冷却器 + 135台绝热冷却单元）水足迹拆解 1. 冷却水消耗（大头）参数假设： PUE：1.15 利用率：70% 年产生热量：2.8 TWh 绝热辅助运行：30% 蒸发率：0.45 gal/kWh 结果：年蒸发量：2.67 亿加仑冲洗/排放：6600 万加仑（提取但未消耗） 2. 发电水消耗当前使用：航改型简单循环燃气轮机水耗：零 3. 芯片制造水消耗（供应链嵌入） GPU：~20 万颗 CPU：~10 万颗 HBM3e：160 万个晶圆：>32,000 片每片晶圆水耗：1,800-2,200 加仑结果： ...

黄仁勋的五层蛋糕：AI基础设施的残酷真相

引言：老黄的蛋糕，谁买单？黄仁勋又画了一张图。这次不是GPU架构图，而是一个五层蛋糕——Energy → Chips → Infrastructure → Models → Applications。表面看是技术栈分层，实则是一场万亿美金的基础设施豪赌的动员令。而老黄站在最底层（芯片），笑眯眯地看着上面的四层玩家为他打工。这不是技术分享，这是商业战略宣言。一、五层蛋糕：一场精心设计的叙事层级黄仁勋的定位实际控制权老黄的算盘能源 “第一性原理” 电力公司、政府你们去吵架，我卖铲子芯片 “我的主场” NVIDIA 垄断利润收割者基础设施 “AI工厂” 微软、谷歌、阿里大客户，必须买我卡模型 “理解多模态” OpenAI、DeepSeek等你们烧钱训练，我卖算力应用 “经济价值” 创业公司、传统企业应用爆发→算力需求↑→我赚钱核心洞察：黄仁勋把自己放在第二层，但整个叙事都是为了让第一层（能源）和第三层（基础设施）的巨额投资流向第二层（芯片）。 “每一个token的生成，本质上都是电子在流动、热量被管理、能量被转化为计算能力。” 翻译：你们每生成一个token，我NVIDIA就收一次税。二、能源：被刻意拔高的"第一性原理" 黄仁勋把能源放在最底层，称之为"第一性原理"。但真相是：能源不是瓶颈，芯片才是。全球电力充足，但H100/H200一卡难求。能源问题被夸大，是为了让各国政府和企业相信——“我们必须大规模投资能源基础设施，才能发展AI”。真正的赢家是卖芯片的，不是建发电厂的。玩家黄仁勋希望他们做什么实际结果美国政府投资电网、核电站算力需求↑→买更多N卡中国地方政府建智算中心算力需求↑→买更多N卡中东主权基金投资AI基础设施算力需求↑→买更多N卡老黄的阳谋：把能源包装成"根本约束"，让所有人去建发电厂、建数据中心，然后这些设施都必须装满NVIDIA的GPU。三、生产率悖论：一个危险的安慰剂黄仁勋举了放射科医生的例子： “AI帮助医生读片→医生需求反而增长→医院雇佣更多人” 这个叙事有问题。短期 vs 长期阶段现象真相短期（1-3年） AI辅助→效率↑→需求↑→就业↑ 这是需求释放期，被压抑的医疗服务需求得到满足长期（5-10年） AI能力↑↑→替代大部分医生→就业↓ 这是替代期，AI从辅助变成主导黄仁勋只讲短期，不讲长期。因为： ...

阿里巴巴Q3财报深度解读：双面阿里，'中国谷歌'的叙事还差什么？

核心数据速览阿里巴巴第三财季（截至2025年12月）关键指标：指标实际值预期值同比变化营收 2,848.43亿元 2,897.9亿元 +2% 调整后每ADS收益 7.09元 12.34元 -42.5% 调整后净利润 167.1亿元 316亿元 -67% 经调整EBITA 233.97亿元 - -57% 云智能收入 432.84亿元 423.6亿元 +36% ✅ 现金及流动投资 5,601.75亿元 - 财务根基稳固美股盘前反应：一度跌超5%，市场观望情绪浓厚。云智能集团：AI引擎全速运转 ⭐⭐⭐ 指标数据意义收入 432.84亿元超预期 ✅ 同比增速 36% 加速增长 AI产品收入连续10季度三位数增长核心增长引擎市场地位： Gartner云数据库管理系统魔力象限：连续6年领导者 Gartner生成式AI新兴市场象限：亚太唯一全象限领导者 IDC中国金融云市场：连续6年第一（43%份额，历史新高）全球布局：29个地域、92个可用区，中国最大、全球领先的云服务商全栈AI技术突破 1. 平头哥自研GPU：规模化量产里程碑：自研GPU已实现规模化量产服务对象：阿里内部业务 + 外部数百家企业客户商业贡献：为云基础设施供应带来实质性贡献 2. 千问模型家族：开源领导者里程碑数据 Hugging Face下载量突破10亿次全球地位最广泛使用的开源模型家族霸榜成绩 7款Qwen3.5模型闯进前十，包揽榜单 Qwen3.5技术亮点： ...

腾讯2025财报深度解读：AI驱动增长，混元3.0即将发布

引言：双双增长，AI成为核心引擎 3月18日，腾讯控股有限公司公布2025年度业绩。整体业绩保持健康增长，核心业务韧性强劲，现金流充裕，企业服务业务高质量发展、AI技术深度赋能全业务线成为全年增长的核心亮点。董事会主席兼首席执行官马化腾表示，2025年腾讯保持了健康的增长，得益于AI技术提升了广告定向能力及玩家在游戏中的互动，以及云业务收入加速增长并实现了规模化盈利。一、财务表现：收入毛利双双双位数增长 1.1 核心财务数据指标 2025年数据同比增长总收入 7518亿元 +14% 毛利 4226亿元 +21% 经营盈利（非国际准则） 2807亿元 +18% 经营利润率 37% - 权益持有人应占盈利 2596亿元 +17% 1.2 现金流表现优异指标数据同比增长自由现金流 1826亿元 +18% 总现金 4949亿元 +19% 充裕的现金流为AI研发、基础设施升级与业务拓展提供坚实支撑。二、To B业务：腾讯云实现规模化盈利 2.1 金融科技及企业服务业务 2025年，金融科技及企业服务业务全年收入2294亿元，同比增长8%，呈现稳健增长、结构优化的良好态势。关键亮点：企业服务收入增长接近20%，成为板块增长核心引擎国内及海外云服务需求持续旺盛 AI相关服务需求快速释放微信小店交易额攀升带动商家技术服务费增长 2.2 腾讯云里程碑：规模化盈利尤为关键的是，腾讯云在2025年实现规模化盈利，受益于：企业AI需求上升 PaaS及SaaS产品市场领先优势扩大供应链持续优化这标志着云业务迈入高质量可持续发展阶段。三、AI战略：混元3.0即将发布 3.1 混元模型持续升级 AI技术作为腾讯战略投入重点，2025年实现技术突破与场景落地双丰收，全面驱动各业务提质增效。混元模型发展历程：时间里程碑 2025年12月混元2.0模型上线，推理能力与效率显著提升 2026年1月混元图像3.0图生图模型接入元宝，春节活动带动AI生图日均调用量增长30倍 2025年11月混元3D创作引擎推出国际站，模型API上线腾讯云国际站混元3D模型社区下载量已突破300万，在全球开发者和3D创作者群体中积累了广泛用户基础。 3.2 混元3.0重大升级预告腾讯在财报发布后的媒体会上透露： ...