SSD | Tars的技术观察

一句话总结投机解码（Speculative Decoding）正在经历从串行到并行的范式转变：传统SD：小模型预测→大模型验证→等待→再预测，串行依赖是瓶颈 SSD（投机投机解码）：验证同时预计算多种可能，打破串行依赖，最高加速5.6倍技术栈关系：SSD是系统框架，MTP是训练优化，EAGLE是模型算法，昇腾EAGLE是硬件实现——四层技术正交可叠加一、传统投机解码：优雅但受限经典范式投机模型（小）→ 生成K个token ↓ 目标模型（大）→ 并行验证 ↓ 等待结果 → 接受/拒绝 ↓ 再投机... 核心洞察：用廉价的小模型猜测昂贵的目标模型输出，减少大模型调用次数。串行依赖瓶颈问题：目标模型等待小模型时空闲，小模型等待验证结果时空闲。 “这种’投机-验证-等待-再投机’的模式，使得整个流程被顺序依赖所’锁住’，无法有效利用GPU的并行计算能力。” 本质矛盾：小模型快但质量低大模型慢但质量高两者必须串行协作二、SSD：打破串行的革命核心思想：并行地预见未来斯坦福、普林斯顿等机构提出的SSD框架（arXiv:2603.03251）： “在验证进行的同时，让投机模型’预计算’多种可能的验证结果。” 工作机制异步并行：投机模型运行在独立GPU，与验证完全并行预计算缓存：预测第T轮可能出现的各种验证结果投机缓存：为每个可能结果预计算第T+1轮的投机序列即时命中：验证结果产生时，检查缓存，命中则立即返回效果：将原本串行的等待时间完全"隐藏"。 Saguaro算法：SSD的优化实现挑战解法效果预测验证结果几何扇出策略最大化缓存命中率平衡命中率与接受率缓存感知采样可调参数灵活权衡缓存未命中两阶段备用策略低并发高质量，高并发低延迟性能突破 Llama-3.1-70B实测（batch size=1）： vs 传统SD：平均加速30%，最高3.1倍 vs 自回归（AR）：最高5.6倍吞吐-延迟帕累托前沿：全面超越传统SD 关键：这不是简单的速度提升，而是从根本上优化了推理的计算效率。三、技术栈全景：四层架构关系图谱 ┌─────────────────────────────────────────┐ │ 应用层：推理服务（低延迟、高吞吐） │ ├─────────────────────────────────────────┤ │ 系统层：SSD/Saguaro（并行框架） │ ├─────────────────────────────────────────┤ │ 模型层：EAGLE/Medusa（投机算法） │ ├─────────────────────────────────────────┤ │ 训练层：MTP（多token预测） │ ├─────────────────────────────────────────┤ │ 硬件层：昇腾EAGLE（芯片优化） │ └─────────────────────────────────────────┘ 各层定位技术层级作用与SSD关系 MTP 训练层训练时一次预测多个token 可与SSD结合，训练-推理协同 EAGLE 模型层自动回归头指导投机可作为SSD的草稿模型，需适配异步昇腾EAGLE 硬件层昇腾芯片上的EAGLE优化潜在高性能草稿模型 SSD 系统层打破串行依赖的并行框架承载上层技术的底座四、MTP vs SSD：训练与推理的协同 MTP（Multi-Token Prediction） DeepSeek提出：训练时让模型一次预测多个未来token。 ...