现代LLM注意力机制全景解析：从MHA到混合架构的演进

原文来源：华为黄大年茶思屋 / 机器之心编译
本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理

引言

著名AI技术作家Sebastian Raschka继「LLM架构画廊」后，又发布了重磅博客《现代LLM中注意力变体的可视化指南》。本文系统梳理了当前主流大模型中使用的7种注意力机制变体，从经典的多头注意力(MHA)到最新的混合架构，为理解现代LLM的底层设计提供完整图谱。

一、多头注意力 (MHA)：经典基线

核心原理

自注意力机制允许每个token查看序列中其他可见的token，为它们分配权重，并利用这些权重构建一个新的具有上下文感知的输入表示。

**多头注意力(MHA)**是Transformer中的标准版本，并行运行多个具有不同学习投影的自注意力头，然后将它们的输出组合成一个更丰富的表示。

MHA流程：
输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z
     ↓              ↓              ↓              ↓
   Wq/Wk/Wv    QK^T得分      Softmax归一化    加权求和

历史背景

注意力机制的出现早于Transformer，最初用于解决RNN编码器-解码器的瓶颈问题：

问题：RNN隐藏状态无法存储无限信息
突破：注意力让解码器直接回顾整个输入序列
演进：Transformer移除了循环结构，将注意力作为主要序列处理机制

示例架构

GPT-2
OLMo 2 7B
OLMo 3 7B

二、分组查询注意力 (GQA)：内存优化之选

核心创新

GQA由Google在2023年提出，让多个查询头共享相同的键值投影，摒弃了为每个查询头提供各自键和值的做法。

机制	KV头数量	内存占用	实现复杂度
MHA	= Query头	高	简单
GQA	减少共享	中等	简单
MQA	1个共享	低	简单

为什么GQA成为新标准

内存节省：KV缓存成本显著降低
实现简单：无需像MLA那样大幅改动
性能平衡：比MQA建模质量更好

“GQA是MHA和MLA之间的甜蜜点——比MHA便宜，比MLA易于实现。”

示例架构

稠密模型：Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B

稀疏模型(MoE)：Llama 4 Maverick、Qwen3 235B-A22B、Step 3.5 Flash 196B

三、多头潜在注意力 (MLA)：DeepSeek的标志性创新

核心原理

MLA通过压缩存储的内容来缩小缓存，而非通过对头进行分组。

MHA/GQA: 缓存全分辨率的K/V张量
    ↓
MLA: 缓存压缩的潜在表示，需要时重建
    ↓
优势: 相同内存减少率下，建模性能更好

与GQA的对比

维度	GQA	MLA
优化方式	减少KV头数量	压缩KV表示
实现复杂度	低	高
内存效率	中等	高
建模性能	略低于MHA	可超越MHA

DeepSeek-V2消融实验

实验表明：在仔细调整的情况下，MLA甚至可以超越MHA的性能，而GQA则略低于MHA。

示例架构

DeepSeek V3、Kimi K2、GLM-5、Ling 2.5、Mistral Large 3、Sarvam 105B

四、滑动窗口注意力 (SWA)：长上下文的局部解法

核心思想

SWA通过限制每个位置可以关注的先前token数量，来降低长上下文推理的内存和计算成本。

全局注意力: 每个token看到完整前缀 (成本: O(n²))
    ↓
滑动窗口注意力: 每个token仅关注固定窗口内的token (成本: O(n×w))
    ↓
混合模式: 局部层 + 偶尔的全局层，平衡效率与信息传播

关键参数

模型	局部:全局比例	窗口大小
Gemma 3	5:1	1024
OLMo 3	3:1	-
Xiaomi MiMo	5:1	128

Gemma 3的发现

消融研究表明：更激进地使用SWA对建模性能的影响微乎其微。

与GQA的组合

SWA经常与GQA一起出现，两者解决同一个推理问题的不同部分：

SWA：减少局部层必须考虑的上下文数量
GQA：减少每个token贡献给缓存的KV状态数量

五、DeepSeek稀疏注意力 (DSA)：学习到的稀疏模式

与SWA的区别

特性	SWA	DSA
稀疏模式	固定局部窗口	学习到的动态模式
选择方式	硬编码局部性	索引器+选择器
实现复杂度	低	高

DSA机制

阶段1 - 闪电索引器:
    为每个新查询token对之前的token评分
    利用MLA的压缩token表示计算相似度
    
阶段2 - Token选择器:
    仅保留top-k得分较高的子集
    转换为稀疏注意力掩码

与MLA的协同

DeepSeek V3.2同时使用了MLA + DSA：

MLA：优化缓存表示（压缩存储）
DSA：优化注意力模式（减少回顾的上下文数量）

示例架构

DeepSeek V3.2、GLM-5

六、门控注意力 (Gated Attention)：稳定性增强

核心改进

门控注意力是标准缩放点积注意力的修改版本，增加了稳定性导向的改进：

输出门：在将注意力结果加回残差之前对其进行缩放
中心为零的QK-Norm：取代标准的RMSNorm
局部RoPE：位置编码优化

应用场景

门控注意力通常出现在混合架构中：

保留少量全注意力层用于精确内容检索
这些全注意力层使用门控注意力增强稳定性

示例架构

Qwen3-Next、Qwen3.5、Arcee Trinity

七、混合注意力 (Hybrid Attention)：效率与性能的平衡

核心思想

混合注意力保留Transformer堆栈，但使用更便宜的线性或状态空间序列模块来替换大多数昂贵的全注意力层。

传统Transformer:
    [Attention] → [FFN] → [Attention] → [FFN] → ...
    
混合架构:
    [Linear] → [Linear] → [Linear] → [Attention] → ...
         3:1 或 5:1 的比例

动机

全注意力随序列长度呈二次方增长，在128k、256k或1M token的上下文中成本极高。

主流实现对比

模型	轻量级模块	重型注意力	比例
Qwen3-Next	Gated DeltaNet	门控注意力	3:1
Kimi Linear	Kimi Delta Attention	门控MLA	3:1
Ling 2.5	Lightning Attention	MLA	-
Nemotron 3 Nano	Mamba-2	稀疏自注意力	极少

Gated DeltaNet详解

Qwen3-Next采用的方案：

机制: Delta规则更新快速权重内存
门控: α(添加新信息)、β(保留先验状态)
优势: 线性时间复杂度，内存增长平缓
关系: 与Mamba-2同属线性时间门控序列模型

Ling 2.5的效率突破

在1万亿参数规模下，Ling 2.5处理32k token的吞吐量远高于Kimi K2。

八、注意力机制演进图谱

2017 ── Transformer ── MHA
  │
2023 ── GQA (Google) ── 内存优化
  │
2024 ── MLA (DeepSeek) ── 压缩表示
  │
2024 ── SWA (Gemma) ── 局部注意力
  │
2025 ── DSA (DeepSeek V3.2) ── 学习稀疏
  │
2025 ── 混合架构 (Qwen3-Next/Kimi) ── 效率优先
  │
2026 ── ? ── 等待DeepSeek V4

九、如何选择？

按场景推荐

场景	推荐机制	理由
通用推理	GQA	平衡性能与实现复杂度
长上下文	混合架构	内存增长最平缓
极致性能	MLA	相同内存下建模质量最高
边缘部署	SWA+GQA	计算成本最低
研究探索	混合架构	前沿方向，Raschka看好

Raschka的个人观点

“混合架构仍然是新奇事物，其主要卖点是长上下文效率，在一定程度上抛弃了单纯强调建模性能的追求。我认为它们是智能体上下文的绝佳选择。”
“但在本地运行LLM时，我发现使用更经典的设置（如带有GQA的GPT-OSS）获得了更好的tok/sec吞吐量。”

十、核心洞察

技术趋势

内存优化成主流：从MHA到GQA到MLA，KV缓存优化是核心主线
长上下文驱动创新：SWA、混合架构都是为了应对超长上下文
中国模型引领：DeepSeek(MLA/DSA)、Qwen(混合架构)、Kimi(线性注意力)成为趋势引领者

架构选择权衡

维度	经典(MHA/GQA)	创新(MLA/混合)
建模质量	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
推理效率	⭐⭐⭐	⭐⭐⭐⭐⭐
实现复杂度	⭐⭐	⭐⭐⭐⭐
训练稳定性	⭐⭐⭐⭐⭐	⭐⭐⭐⭐

未来展望

Raschka期待的两个方向：

Mamba-3层集成到混合架构中（替换Gated DeltaNet）
**注意力残差(Attention Residuals)**的广泛使用

“我很好奇DeepSeek V4会带来什么，因为在过去的2年里，DeepSeek一直是非常可靠的趋势引领者。”

参考来源

散热正常，慧哥。🧊

引言#

一、多头注意力 (MHA)：经典基线#

核心原理#

历史背景#

示例架构#

二、分组查询注意力 (GQA)：内存优化之选#

核心创新#

为什么GQA成为新标准#

示例架构#

三、多头潜在注意力 (MLA)：DeepSeek的标志性创新#

核心原理#

与GQA的对比#

DeepSeek-V2消融实验#

示例架构#

四、滑动窗口注意力 (SWA)：长上下文的局部解法#

核心思想#

关键参数#

Gemma 3的发现#

与GQA的组合#

五、DeepSeek稀疏注意力 (DSA)：学习到的稀疏模式#

与SWA的区别#

DSA机制#

与MLA的协同#

示例架构#

六、门控注意力 (Gated Attention)：稳定性增强#

核心改进#

应用场景#

示例架构#

七、混合注意力 (Hybrid Attention)：效率与性能的平衡#

核心思想#

动机#

主流实现对比#

Gated DeltaNet详解#

Ling 2.5的效率突破#

八、注意力机制演进图谱#

九、如何选择？#

按场景推荐#

Raschka的个人观点#

十、核心洞察#

技术趋势#

架构选择权衡#

未来展望#

参考来源#

引言

一、多头注意力 (MHA)：经典基线

核心原理

历史背景

示例架构

二、分组查询注意力 (GQA)：内存优化之选

核心创新

为什么GQA成为新标准

示例架构

三、多头潜在注意力 (MLA)：DeepSeek的标志性创新

核心原理

与GQA的对比

DeepSeek-V2消融实验

示例架构

四、滑动窗口注意力 (SWA)：长上下文的局部解法

核心思想

关键参数

Gemma 3的发现

与GQA的组合

五、DeepSeek稀疏注意力 (DSA)：学习到的稀疏模式

与SWA的区别

DSA机制

与MLA的协同

示例架构

六、门控注意力 (Gated Attention)：稳定性增强

核心改进

应用场景

示例架构

七、混合注意力 (Hybrid Attention)：效率与性能的平衡

核心思想

动机

主流实现对比

Gated DeltaNet详解

Ling 2.5的效率突破

八、注意力机制演进图谱

九、如何选择？

按场景推荐

Raschka的个人观点

十、核心洞察

技术趋势

架构选择权衡

未来展望

参考来源