Moonshot AI

背景：算力霸权时代的架构反思 NVIDIA CEO 黄仁勋在 GTC 2026 主题演讲中指出： “人工智能正从以模型训练为主的探索期，全面跨入以智能体自主运行和大规模推理为主的工业化落地期。至2027年，全球AI基础设施订单需求将高达1万亿美元。” 然而，单纯依靠数据堆砌与GPU算力累加（Scaling Laws）正逼近物理定律、能源消耗与经济学的三重极限。在这一背景下，月之暗面（Moonshot AI）创始人杨植麟在 GTC 2026 发表演讲《How We Scaled Kimi K2.5》，提出打破 Scaling 收益递减的三条路径： Token 效率的极限压榨百万级长上下文的架构突围智能体集群的自我组织一、Kimi K2.5 核心规格指标数据意义总参数量 1万亿（1 Trillion）超大规模 MoE 激活参数 320亿（32B）每次前向传递专家数量 384个极度稀疏设计激活专家 8个专家 + 1个共享专家激活率仅 3.2% 预训练数据 15.5万亿 Tokens 高强度连续训练二、第一重革命：Token 效率 - MuonClip 优化器问题：Adam/AdamW 的 11 年瓶颈传统优化器在处理万亿参数时力不从心注意力分数爆炸（Logits Explosion）：点积结果从 10-20 飙升至 1000+，导致梯度发散、训练崩溃解决方案：MuonClip 核心机制：基于牛顿-舒尔茨迭代的二阶优化器 Muon 集成QK-Clip 负反馈控制器实时监控注意力 Logits，自动缩放 Query/Key 权重实证数据： ...