引言:十年没人动过的地基,被撬动了

同样的算力,同样的数据,凭什么效果不一样?

大多数人的直觉是:模型更大、数据更好、工程师更厉害。但 Kimi 给出了一个更出人意料的答案

3月16日,月之暗面 Kimi 发布了一项重磅技术报告《Attention Residuals》(注意力残差)。这项技术针对几乎所有现代大模型都在使用的残差连接结构进行了改造,并在实验中证明:用同样多的算力,新方法训练出的模型效果相当于基线模型花费 1.25 倍算力才能达到的效果

报告发布后,得到了许多硅谷顶尖 AI 人物的点赞背书:

人物评价
马斯克“Impressive work from Kimi(令人印象深刻的工作)”
Jerry Tworek (OpenAI o1 主要发明者)“深度学习 2.0"的开端
Andrej Karpathy (前 OpenAI 联创)“看来我们还没把『Attention is All You Need』这句话按字面意思理解透”

技术论文背后的信号或许更值得关注:深度学习最基础的范式,正在发生变化。


一、残差连接:从 ResNet 到 Transformer

1.1 为什么需要残差连接?

现代大模型,其实都是由很多层神经网络叠加而成的,少则几十层,多则上百层。信息从底部输入,一层一层往上传递,每一层都对信息做一次加工,最终在顶部输出结果。

可以把它想象成一条流水线上的工人:原材料从第一道工序进来,每个工人对它加工一遍,再传给下一个,最终出来成品。

问题是,流水线越长,越难训练。

假设第50道工序的工人犯了错,你想纠正他,就得把这个「纠错信号」一路往回传,经过49个工人才能传到第1个。传着传着,信号就消失了,底层的工人根本不知道自己哪里出了问题。

1.2 ResNet 的解决方案

为了让这么深的网络能够训练起来,知名学者何恺明团队在2015年发表了一篇题为《Deep Residual Learning for Image Recognition》的论文,引入了一个关键设计,叫做残差连接(Residual Connections)

每一层在加工信息的同时,还会保留一条「直通道」,把原始输入原封不动地加到加工结果上,再往下传。这条直通道让梯度在反向传播时可以绕过中间的变换,一路流回底层,从根本上解决了深层网络难以训练的问题。

这篇论文后来成为计算机视觉乃至整个深度学习领域引用次数最多的论文之一,残差连接也沿用至今,是几乎所有大模型的基石。

1.3 残差连接的局限

残差连接虽然好用,但它做信息聚合的方式非常粗暴:把所有前面层的输出,无差别地等权相加

还是用流水线来比喻。到了第51道工序,这个工人手里拿到的,是前面50道工序所有产出物的等量混合,每道工序的产出各占一份,不多不少。

他没有办法说:

  • “我想多要一点第3道工序的原料”
  • “第20道工序的东西对我没用,少给我一点”

这带来了一个名为 PreNorm 稀释 的实际问题:随着网络越来越深,累积叠加的信息越来越多,每一层自己的贡献在庞大的总量里越来越微不足道。越靠后的层,想要让自己的声音被「听见」,就得输出越来越大的数值,否则就会被淹没。

结果就是,很多中间层其实没在认真干活。 已有研究发现,大模型里相当一部分层直接删掉,效果几乎不变,这说明这些层的贡献实际上极为有限。


二、Attention Residuals:一次优雅的「旋转」

2.1 核心洞察

Kimi 团队这篇论文的核心突破,来自一个优雅的类比发现。

处理文字序列时,早期的循环神经网络(RNN)也有类似的额外问题:记性差。它读完一整段话之后,早期读到的内容会被后来的内容不断覆盖,等读到最后一个词,前几句说了什么已经模糊了。

后来 Transformer 用注意力机制解决了这个问题,相当于给模型配了一张「全文笔记」,处理每个词的时候,都可以翻回去查任意一个之前出现过的词,而且查哪里、查多少,由当前的内容自己决定。

研究人员发现,残差连接在深度方向上碰到的问题,和 RNN 在时间方向上碰到的问题,数学结构完全一样

2.2 把 Transformer 想象成二维网格

  • 横轴:序列方向,一句话里从左到右的每个词
  • 纵轴:深度方向,从底层到顶层的每一层网络

传统的注意力机制是沿着横轴工作的,处理某个词时去查同一层里其他词的信息。

Attention Residuals 做的事情,就是把完全相同的机制转到纵轴上去,处理某一层时去查前面所有层的输出,决定要参考哪些层、参考多少。

操作对象从「同一层里的不同词」变成了「同一个词在不同层里的状态」,机制本身一模一样,好比方向转了 90 度。

2.3 具体实现

既然注意力机制解决了序列方向的问题,旋转一下搬到深度方向上,同样有效。

具体做法是,给每一层配备一个小小的**「查询向量」**,就像给每道工序的工人配了一张需求单。工人在开工前,先拿着需求单去翻所有前面工序的产出,根据相关度算出一套取用比例,再按这个比例把需要的原料混合起来。

这样一来,每一层不再是被动接受所有前面层输出的等权叠加,而是主动、有选择性地决定要从哪些层提取多少信息,比例还会根据当前任务的内容动态变化。

每层只新增一个向量和一个归一化操作,参数量的增加对整个模型来说几乎可以忽略不计

为了保证训练初期稳定,这个查询向量必须初始化为全零,相当于让工人一开始什么偏好都没有、平等对待所有前序产出,等训练推进了再慢慢形成自己的判断。


三、Block AttnRes:工程化的智慧

3.1 大规模训练的难题

全量 AttnRes 在小规模实验中很好用,但一到大规模训练就遇到了麻烦。

它需要每一层都能访问所有前面层的输出。模型有一百多层,每层的输出都得保存在内存里,还要在不同计算节点之间来回传输,内存和通信开销随层数线性增长,在大模型上根本承受不起。

3.2 解决方案:Block AttnRes

Kimi 团队的解法很实在:Block AttnRes

把网络所有层划分为若干个 Block(48B 模型中分了 8-9 个 Block,每个 Block 约 6 层):

  • Block 内部:沿用传统残差连接
  • Block 之间:使用 softmax 注意力

打个比方——不必给每层楼都装电梯,在关键楼层之间架设快速通道就够了。

这样,需要保存和传输的数据量,从「所有层的数量」降低到「块的数量」,开销大幅缩小。实验发现,分成约 8 个块就能保留全量方法绝大部分的性能提升

3.3 工程优化

优化点方案效果
训练端跨阶段缓存机制,每次切换阶段时只传输新增的那一小部分块数据整体训练额外开销 ≤ 4%
推理端两阶段计算策略,把一个块内所有层的查询打包成一次矩阵运算统一处理推理延迟增加 ≤ 2%

3.4 实验效果

研究人员测了五个不同规模的模型,结果显示:

Block AttnRes 在全部规模上均以更低的验证损失领先于基线,且改善幅度随规模增大而稳定保持。

按拟合曲线推算,在相同的计算量下,Block AttnRes 相当于基线模型用 1.25 倍算力才能达到的效果

在 48B 参数(3B 激活)规模的 Kimi Linear 架构实验中,Block AttnRes 展现了极强的泛化性:在全部 15 项主流评测基准中,其表现均持平或优于 PreNorm 基线模型。

评测基准提升幅度
GPQA-Diamond(博士级科学推理)+7.5%
Math(数学)+3.6%
HumanEval(代码生成)+3.1%

从训练过程来看,基线模型的各层输出数值随深度单调增大,印证了 PreNorm 稀释问题;而 AttnRes 的各层输出数值在块边界处得到重置,呈现周期性变化,各层梯度分布也更加均匀,说明更多的层真正参与到了有效的学习中


四、更深层的发现:深度与宽度的重新平衡

AttnRes 还带来了一个对未来模型设计有参考价值的发现。

研究人员在固定总计算量和参数量的前提下,枚举了 25 种不同的深度与宽度组合,对比基线模型和 AttnRes 各自偏好的最优架构。

结果发现:

  • 标准残差连接:偏好「更宽、层数更少」的模型
  • AttnRes:最优点偏向「更窄、层数更多」的模型

这说明 AttnRes 能够更有效地利用深度,让每增加一层都真正产生价值,而不是让深度变成一种边际效益递减的堆砌。

这个发现的含义不止于此。它意味着 AttnRes 不只是在原有架构上打了一个补丁,而是从根本上改变了网络深度的利用效率,也为未来设计大模型时如何分配深度与宽度的资源提供了新的参考依据。


五、大佬点赞背后:一个时代在转弯

5.1 为什么是「深度学习 2.0」?

一个中国团队在最底层的架构创新上获得硅谷顶级人物的实质性认可,这件事本身十分罕见。

他们认可的不只是论文成果本身,更在于 Kimi 这篇论文指向了一个全新的方向:优化已经从 attention、MoE 这些上层模块,深入到了最底层的残差连接

5.2 Kimi 的三维 Scaling 框架

在 GTC 2026 演讲中,杨植麟还披露了一连串底层技术创新:

技术突破
MuonClip 优化器相比 AdamW 2 倍的计算效率提升
Kimi Linear(KDA 架构)128K 到百万级超长上下文下 5-6 倍解码加速
Vision RL 跨模态训练纯文本 benchmark 提升约 2.1%

杨植麟把这些创新概括为三个维度的 Scaling 框架:

Token 效率 × 长上下文 × Agent Swarms

“当前的 Scaling 已经不再是单纯的资源堆砌,而是要在计算效率、长程记忆和自动化协作上同时寻找规模效应。”

5.3 方法论的回归

这也是为什么 Jerry Tworek 会说出「深度学习 2.0」这样的判断。当然不是说 Attention Residuals 这篇论文就能颠覆一切,更多是它代表了一种方法论的回归

不再满足于在已有框架上修修补补,去重新审视那些被所有人当作「已解决问题」的基础设施。

如果残差连接可以被重新设计,那么:

  • Adam 优化器呢?
  • 层归一化呢?
  • 位置编码呢?

深度学习的基础范式本身正在发生变化,这扇门一旦推开,后面的故事就不再是线性外推能预测的了。

Karpathy 那句「Attention is All You Need 还没被理解透」的感慨,大概也是这个意思。


六、局限与想象

当然,Kimi 这篇论文还有留下不少需要解决的问题:

  1. 规模验证:论文的大规模验证是在 48B 总参数(3B 激活参数)的模型上完成的,这个规模放在今天的第一梯队里并不算大。在真正的千亿乃至万亿参数模型上,1.25 倍的等效优势能否稳住,目前还是个问号。

  2. 后训练阶段:论文展示的也只是预训练阶段的收益,经过指令微调、RLHF 等后训练步骤后,AttnRes 的优势是否会被稀释,缺乏数据。

但话说回来,这些局限恰恰也是想象力的来源。

一个仅需约 100 行代码改动、增加不到 4% 训练开销的轻量修改,就能在 48B 规模上带来这样的提升。

当它被应用到更大规模的下一代模型上时,收益的天花板在哪里,谁也说不准。


结语:往路基重重地凿了一锹

Attention Residuals 抬高了 Token 效率的天花板,Kimi Linear 拓展了长上下文的边界,Agent Swarms 指向智能体协作的未来。

当这三条技术线在下一代模型中汇合,呈现出的可能就是新的范式转变。

在 AI 这座通天塔的工程上,所有人都在争着往上添砖加瓦,而 Kimi 低头往路基重重地凿了一锹,恰好撬动了深度学习的地基


附 GitHub 开源地址:github.com/MoonshotAI/Attention-Residuals

本文基于 APPSO《马斯克下场点赞!Kimi 这篇论文撬动了大模型的「祖传地基」》整理分析,仅供技术交流参考。

散热正常,慧哥。🧊