Transformer

现代LLM注意力机制全景解析：从MHA到混合架构的演进

原文来源：华为黄大年茶思屋 / 机器之心编译本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理引言著名AI技术作家Sebastian Raschka继「LLM架构画廊」后，又发布了重磅博客《现代LLM中注意力变体的可视化指南》。本文系统梳理了当前主流大模型中使用的7种注意力机制变体，从经典的多头注意力(MHA)到最新的混合架构，为理解现代LLM的底层设计提供完整图谱。一、多头注意力 (MHA)：经典基线核心原理自注意力机制允许每个token查看序列中其他可见的token，为它们分配权重，并利用这些权重构建一个新的具有上下文感知的输入表示。 **多头注意力(MHA)**是Transformer中的标准版本，并行运行多个具有不同学习投影的自注意力头，然后将它们的输出组合成一个更丰富的表示。 MHA流程：输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z ↓ ↓ ↓ ↓ Wq/Wk/Wv QK^T得分 Softmax归一化加权求和历史背景注意力机制的出现早于Transformer，最初用于解决RNN编码器-解码器的瓶颈问题：问题：RNN隐藏状态无法存储无限信息突破：注意力让解码器直接回顾整个输入序列演进：Transformer移除了循环结构，将注意力作为主要序列处理机制示例架构 GPT-2 OLMo 2 7B OLMo 3 7B 二、分组查询注意力 (GQA)：内存优化之选核心创新 GQA由Google在2023年提出，让多个查询头共享相同的键值投影，摒弃了为每个查询头提供各自键和值的做法。机制 KV头数量内存占用实现复杂度 MHA = Query头高简单 GQA 减少共享中等简单 MQA 1个共享低简单为什么GQA成为新标准内存节省：KV缓存成本显著降低实现简单：无需像MLA那样大幅改动性能平衡：比MQA建模质量更好 “GQA是MHA和MLA之间的甜蜜点——比MHA便宜，比MLA易于实现。” 示例架构稠密模型：Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B ...

现代LLM注意力机制全景解析：从MHA到混合架构的演进

原文来源：华为黄大年茶思屋 / 机器之心编译本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理引言著名AI技术作家Sebastian Raschka继「LLM架构画廊」后，又发布了重磅博客《现代LLM中注意力变体的可视化指南》。本文系统梳理了当前主流大模型中使用的7种注意力机制变体，从经典的多头注意力(MHA)到最新的混合架构，为理解现代LLM的底层设计提供完整图谱。一、多头注意力 (MHA)：经典基线核心原理自注意力机制允许每个token查看序列中其他可见的token，为它们分配权重，并利用这些权重构建一个新的具有上下文感知的输入表示。 **多头注意力(MHA)**是Transformer中的标准版本，并行运行多个具有不同学习投影的自注意力头，然后将它们的输出组合成一个更丰富的表示。 MHA流程：输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z ↓ ↓ ↓ ↓ Wq/Wk/Wv QK^T得分 Softmax归一化加权求和历史背景注意力机制的出现早于Transformer，最初用于解决RNN编码器-解码器的瓶颈问题：问题：RNN隐藏状态无法存储无限信息突破：注意力让解码器直接回顾整个输入序列演进：Transformer移除了循环结构，将注意力作为主要序列处理机制示例架构 GPT-2 OLMo 2 7B OLMo 3 7B 二、分组查询注意力 (GQA)：内存优化之选核心创新 GQA由Google在2023年提出，让多个查询头共享相同的键值投影，摒弃了为每个查询头提供各自键和值的做法。机制 KV头数量内存占用实现复杂度 MHA = Query头高简单 GQA 减少共享中等简单 MQA 1个共享低简单为什么GQA成为新标准内存节省：KV缓存成本显著降低实现简单：无需像MLA那样大幅改动性能平衡：比MQA建模质量更好 “GQA是MHA和MLA之间的甜蜜点——比MHA便宜，比MLA易于实现。” 示例架构稠密模型：Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B ...

马斯克点赞！Kimi Attention Residuals 撬动深度学习的「祖传地基」

引言：十年没人动过的地基，被撬动了同样的算力，同样的数据，凭什么效果不一样？大多数人的直觉是：模型更大、数据更好、工程师更厉害。但 Kimi 给出了一个更出人意料的答案。 3月16日，月之暗面 Kimi 发布了一项重磅技术报告《Attention Residuals》（注意力残差）。这项技术针对几乎所有现代大模型都在使用的残差连接结构进行了改造，并在实验中证明：用同样多的算力，新方法训练出的模型效果相当于基线模型花费 1.25 倍算力才能达到的效果。报告发布后，得到了许多硅谷顶尖 AI 人物的点赞背书：人物评价马斯克 “Impressive work from Kimi（令人印象深刻的工作）” Jerry Tworek (OpenAI o1 主要发明者) “深度学习 2.0"的开端 Andrej Karpathy (前 OpenAI 联创) “看来我们还没把『Attention is All You Need』这句话按字面意思理解透” 技术论文背后的信号或许更值得关注：深度学习最基础的范式，正在发生变化。一、残差连接：从 ResNet 到 Transformer 1.1 为什么需要残差连接？现代大模型，其实都是由很多层神经网络叠加而成的，少则几十层，多则上百层。信息从底部输入，一层一层往上传递，每一层都对信息做一次加工，最终在顶部输出结果。可以把它想象成一条流水线上的工人：原材料从第一道工序进来，每个工人对它加工一遍，再传给下一个，最终出来成品。问题是，流水线越长，越难训练。假设第50道工序的工人犯了错，你想纠正他，就得把这个「纠错信号」一路往回传，经过49个工人才能传到第1个。传着传着，信号就消失了，底层的工人根本不知道自己哪里出了问题。 1.2 ResNet 的解决方案为了让这么深的网络能够训练起来，知名学者何恺明团队在2015年发表了一篇题为《Deep Residual Learning for Image Recognition》的论文，引入了一个关键设计，叫做残差连接（Residual Connections）：每一层在加工信息的同时，还会保留一条「直通道」，把原始输入原封不动地加到加工结果上，再往下传。这条直通道让梯度在反向传播时可以绕过中间的变换，一路流回底层，从根本上解决了深层网络难以训练的问题。这篇论文后来成为计算机视觉乃至整个深度学习领域引用次数最多的论文之一，残差连接也沿用至今，是几乎所有大模型的基石。 1.3 残差连接的局限残差连接虽然好用，但它做信息聚合的方式非常粗暴：把所有前面层的输出，无差别地等权相加。还是用流水线来比喻。到了第51道工序，这个工人手里拿到的，是前面50道工序所有产出物的等量混合，每道工序的产出各占一份，不多不少。他没有办法说： “我想多要一点第3道工序的原料” “第20道工序的东西对我没用，少给我一点” 这带来了一个名为 PreNorm 稀释的实际问题：随着网络越来越深，累积叠加的信息越来越多，每一层自己的贡献在庞大的总量里越来越微不足道。越靠后的层，想要让自己的声音被「听见」，就得输出越来越大的数值，否则就会被淹没。 ...