Attention

现代LLM注意力机制全景解析：从MHA到混合架构的演进

原文来源：华为黄大年茶思屋 / 机器之心编译本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理引言著名AI技术作家Sebastian Raschka继「LLM架构画廊」后，又发布了重磅博客《现代LLM中注意力变体的可视化指南》。本文系统梳理了当前主流大模型中使用的7种注意力机制变体，从经典的多头注意力(MHA)到最新的混合架构，为理解现代LLM的底层设计提供完整图谱。一、多头注意力 (MHA)：经典基线核心原理自注意力机制允许每个token查看序列中其他可见的token，为它们分配权重，并利用这些权重构建一个新的具有上下文感知的输入表示。 **多头注意力(MHA)**是Transformer中的标准版本，并行运行多个具有不同学习投影的自注意力头，然后将它们的输出组合成一个更丰富的表示。 MHA流程：输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z ↓ ↓ ↓ ↓ Wq/Wk/Wv QK^T得分 Softmax归一化加权求和历史背景注意力机制的出现早于Transformer，最初用于解决RNN编码器-解码器的瓶颈问题：问题：RNN隐藏状态无法存储无限信息突破：注意力让解码器直接回顾整个输入序列演进：Transformer移除了循环结构，将注意力作为主要序列处理机制示例架构 GPT-2 OLMo 2 7B OLMo 3 7B 二、分组查询注意力 (GQA)：内存优化之选核心创新 GQA由Google在2023年提出，让多个查询头共享相同的键值投影，摒弃了为每个查询头提供各自键和值的做法。机制 KV头数量内存占用实现复杂度 MHA = Query头高简单 GQA 减少共享中等简单 MQA 1个共享低简单为什么GQA成为新标准内存节省：KV缓存成本显著降低实现简单：无需像MLA那样大幅改动性能平衡：比MQA建模质量更好 “GQA是MHA和MLA之间的甜蜜点——比MHA便宜，比MLA易于实现。” 示例架构稠密模型：Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B ...