昇腾 | Tars的技术观察

DeepSeek V4 实测：换了昇腾卡的国产最强 Agent 底座

核心结论 DeepSeek V4（预览版）在四月底正式全量上线。这篇文章结合沉默王二的实测和官方技术细节，拆解 V4 的真正实力：换了昇腾卡、重构了注意力机制、定价克制、Harness 适配优秀——综合来看是目前国产模型做 Agent 的最佳底座之一。特别值得注意：V4 的模型命名 deepseek-v4-flash 和 deepseek-v4-pro 已上线，旧名 deepseek-chat 和 deepseek-reasoner 将在 2026 年 7 月 24 日弃用。 ...

投机解码进化史：从SD到SSD，MTP与EAGLE如何重塑AI推理

一句话总结投机解码（Speculative Decoding）正在经历从串行到并行的范式转变：传统SD：小模型预测→大模型验证→等待→再预测，串行依赖是瓶颈 SSD（投机投机解码）：验证同时预计算多种可能，打破串行依赖，最高加速5.6倍技术栈关系：SSD是系统框架，MTP是训练优化，EAGLE是模型算法，昇腾EAGLE是硬件实现——四层技术正交可叠加一、传统投机解码：优雅但受限经典范式投机模型（小）→ 生成K个token ↓ 目标模型（大）→ 并行验证 ↓ 等待结果 → 接受/拒绝 ↓ 再投机... 核心洞察：用廉价的小模型猜测昂贵的目标模型输出，减少大模型调用次数。串行依赖瓶颈问题：目标模型等待小模型时空闲，小模型等待验证结果时空闲。 “这种’投机-验证-等待-再投机’的模式，使得整个流程被顺序依赖所’锁住’，无法有效利用GPU的并行计算能力。” 本质矛盾：小模型快但质量低大模型慢但质量高两者必须串行协作二、SSD：打破串行的革命核心思想：并行地预见未来斯坦福、普林斯顿等机构提出的SSD框架（arXiv:2603.03251）： “在验证进行的同时，让投机模型’预计算’多种可能的验证结果。” 工作机制异步并行：投机模型运行在独立GPU，与验证完全并行预计算缓存：预测第T轮可能出现的各种验证结果投机缓存：为每个可能结果预计算第T+1轮的投机序列即时命中：验证结果产生时，检查缓存，命中则立即返回效果：将原本串行的等待时间完全"隐藏"。 Saguaro算法：SSD的优化实现挑战解法效果预测验证结果几何扇出策略最大化缓存命中率平衡命中率与接受率缓存感知采样可调参数灵活权衡缓存未命中两阶段备用策略低并发高质量，高并发低延迟性能突破 Llama-3.1-70B实测（batch size=1）： vs 传统SD：平均加速30%，最高3.1倍 vs 自回归（AR）：最高5.6倍吞吐-延迟帕累托前沿：全面超越传统SD 关键：这不是简单的速度提升，而是从根本上优化了推理的计算效率。三、技术栈全景：四层架构关系图谱 ┌─────────────────────────────────────────┐ │ 应用层：推理服务（低延迟、高吞吐） │ ├─────────────────────────────────────────┤ │ 系统层：SSD/Saguaro（并行框架） │ ├─────────────────────────────────────────┤ │ 模型层：EAGLE/Medusa（投机算法） │ ├─────────────────────────────────────────┤ │ 训练层：MTP（多token预测） │ ├─────────────────────────────────────────┤ │ 硬件层：昇腾EAGLE（芯片优化） │ └─────────────────────────────────────────┘ 各层定位技术层级作用与SSD关系 MTP 训练层训练时一次预测多个token 可与SSD结合，训练-推理协同 EAGLE 模型层自动回归头指导投机可作为SSD的草稿模型，需适配异步昇腾EAGLE 硬件层昇腾芯片上的EAGLE优化潜在高性能草稿模型 SSD 系统层打破串行依赖的并行框架承载上层技术的底座四、MTP vs SSD：训练与推理的协同 MTP（Multi-Token Prediction） DeepSeek提出：训练时让模型一次预测多个未来token。 ...

国产AI芯片双雄对决：华为950 vs 寒武纪590，英伟达笑而不语

🔥 引子：国产芯片的内卷时刻 2025年，国产AI芯片迎来最尴尬的高光时刻。华为昇腾950和寒武纪MLU 590几乎同时亮剑，两家都在喊"对标英伟达"，但明眼人都知道——真正的对手不是彼此，而是那个被制裁了还在吊打全世界的绿厂。今天这篇文章，基于「科技沉思录」的深度分析，把华为950和寒武纪590的底裤扒干净，顺便聊聊：为什么国产芯片永远在追赶，永远追不上？ 📊 三方混战：数据不说谎核心性能对比（训练场景）参数英伟达 H100 华为 950 寒武纪 590 FP16算力 1,979 TFLOPS ~800 TFLOPS ~400 TFLOPS FP8算力 3,958 TFLOPS ~1,600 TFLOPS ~800 TFLOPS 显存容量 80GB HBM3 64-128GB 64-96GB 显存带宽 3.35 TB/s ~1.6 TB/s ~1.8 TB/s 互联带宽 900 GB/s (NVLink) 1,200 GB/s ~800 GB/s 功耗 700W 400W 350W 单价 $25,000+ ~¥120,000 ~¥80,000 犀利点评：华为950：算力只有H100的40%，但功耗只有57%，能效比其实还行。问题是，你拿400W打700W，赢了能耗输了性能，这叫什么胜利？寒武纪590：算力只有H100的20%，价格倒是便宜一半，但便宜没好货在AI芯片领域是铁律。省下的钱，不够填生态迁移的坑。 “国产芯片的性价比，往往体现在’性’不够，‘价’来凑。” 🏭 制程与供应链：制裁下的众生相制程对比维度英伟达 H100 华为 950 寒武纪 590 制程 4nm (台积电) 7nm (中芯) 7nm (台积电/中芯) 下一代 3nm (B100) ❌ 制裁锁死可向5nm演进 HBM来源 SK海力士/三星 ✅ 自研 ❌ 外采晶圆供应台积电优先中芯国际台积电+中芯关键洞察： ...