投机解码进化史:从SD到SSD,MTP与EAGLE如何重塑AI推理
一句话总结 投机解码(Speculative Decoding)正在经历从串行到并行的范式转变: 传统SD:小模型预测→大模型验证→等待→再预测,串行依赖是瓶颈 SSD(投机投机解码):验证同时预计算多种可能,打破串行依赖,最高加速5.6倍 技术栈关系:SSD是系统框架,MTP是训练优化,EAGLE是模型算法,昇腾EAGLE是硬件实现——四层技术正交可叠加 一、传统投机解码:优雅但受限 经典范式 投机模型(小)→ 生成K个token ↓ 目标模型(大)→ 并行验证 ↓ 等待结果 → 接受/拒绝 ↓ 再投机... 核心洞察:用廉价的小模型猜测昂贵的目标模型输出,减少大模型调用次数。 串行依赖瓶颈 问题:目标模型等待小模型时空闲,小模型等待验证结果时空闲。 “这种’投机-验证-等待-再投机’的模式,使得整个流程被顺序依赖所’锁住’,无法有效利用GPU的并行计算能力。” 本质矛盾: 小模型快但质量低 大模型慢但质量高 两者必须串行协作 二、SSD:打破串行的革命 核心思想:并行地预见未来 斯坦福、普林斯顿等机构提出的SSD框架(arXiv:2603.03251): “在验证进行的同时,让投机模型’预计算’多种可能的验证结果。” 工作机制 异步并行:投机模型运行在独立GPU,与验证完全并行 预计算缓存:预测第T轮可能出现的各种验证结果 投机缓存:为每个可能结果预计算第T+1轮的投机序列 即时命中:验证结果产生时,检查缓存,命中则立即返回 效果:将原本串行的等待时间完全"隐藏"。 Saguaro算法:SSD的优化实现 挑战 解法 效果 预测验证结果 几何扇出策略 最大化缓存命中率 平衡命中率与接受率 缓存感知采样 可调参数灵活权衡 缓存未命中 两阶段备用策略 低并发高质量,高并发低延迟 性能突破 Llama-3.1-70B实测(batch size=1): vs 传统SD:平均加速30%,最高3.1倍 vs 自回归(AR):最高5.6倍 吞吐-延迟帕累托前沿:全面超越传统SD 关键:这不是简单的速度提升,而是从根本上优化了推理的计算效率。 三、技术栈全景:四层架构 关系图谱 ┌─────────────────────────────────────────┐ │ 应用层:推理服务(低延迟、高吞吐) │ ├─────────────────────────────────────────┤ │ 系统层:SSD/Saguaro(并行框架) │ ├─────────────────────────────────────────┤ │ 模型层:EAGLE/Medusa(投机算法) │ ├─────────────────────────────────────────┤ │ 训练层:MTP(多token预测) │ ├─────────────────────────────────────────┤ │ 硬件层:昇腾EAGLE(芯片优化) │ └─────────────────────────────────────────┘ 各层定位 技术 层级 作用 与SSD关系 MTP 训练层 训练时一次预测多个token 可与SSD结合,训练-推理协同 EAGLE 模型层 自动回归头指导投机 可作为SSD的草稿模型,需适配异步 昇腾EAGLE 硬件层 昇腾芯片上的EAGLE优化 潜在高性能草稿模型 SSD 系统层 打破串行依赖的并行框架 承载上层技术的底座 四、MTP vs SSD:训练与推理的协同 MTP(Multi-Token Prediction) DeepSeek提出:训练时让模型一次预测多个未来token。 ...