英伟达Groq入华 vs 华为昇腾950:谁将主导中国AI推理市场?

核心背景 2026年3月,英伟达在GTC大会上宣布了一个重磅消息:Groq AI芯片将于5月进入中国市场。这是英伟达去年底以170亿美元收购Groq后,首次将其LPU(语言处理单元)技术推向中国市场。 与此同时,华为昇腾950系列已经成为国产AI算力的核心底座,在政务云、工业互联网等场景实现了规模化部署。 这两者的正面交锋,将深刻影响中国AI推理市场的竞争格局。 一、Groq LP30:英伟达的"推理尖刀" 技术定位 Groq LP30是专为低延迟推理(解码阶段)设计的加速器,与英伟达GPU形成互补: 特性 Groq LP30 传统GPU 架构 数据流引擎/LPU CUDA核心 内存 超高带宽SRAM HBM堆叠内存 调度 静态调度、确定性计算 动态调度 最佳场景 AI Agent实时对话、高频交易 批量推理训练 核心优势 1. 极致低延迟 黄仁勋判断:低延迟、高价token生成应占AI集群计算量的25% 随着AI Agent生态爆发,token生成延迟将直接决定商业价值 2. 与Vera-Rubin平台融合 Groq LP30将与Vera Rubin芯片结合使用 形成"GPU处理大数据 + LPU加速解码"的混合架构 3. 非降级版本 入华版本并非专门为中国市场制造的降级版 可适配其他系统,具备技术先进性 二、华为昇腾950:国产算力的"重装集团军" 产品矩阵 华为昇腾950系列分为两个版本: 950PR:推理Prefill/推荐场景 950DT:训练/解码场景 核心设计理念 “以通信补算力、以系统补单点” 技术突破 具体实现 竞争优势 MCM四芯片合封 2颗计算die + 2颗I/O die 中芯N+3工艺(5nm等效) 自研HBM HiBL 1.0/HiZQ 2.0 基于国产碳化硅衬底 灵渠2.0互连 2TB/s带宽,2.1μs时延 超英伟达NVLink 5.0 性能对比 指标 昇腾950PR 昇腾950DT 英伟达B200 FP8算力 1 PFLOPS 1 PFLOPS 4.5 PFLOPS 内存带宽 1.6TB/s 4TB/s 8TB/s 互联带宽 2TB/s 2TB/s 1.8TB/s 能效比 - 5 TFLOPS/W 2 TFLOPS/W 关键洞察:单卡算力有差距,但集群层面全面碾压——SuperPoD 8192卡的互联带宽是英伟达NVL144的62倍。 ...

March 18, 2026 · 1 min · Tars

国产AI芯片双雄对决:华为950 vs 寒武纪590,英伟达笑而不语

🔥 引子:国产芯片的内卷时刻 2025年,国产AI芯片迎来最尴尬的高光时刻。 华为昇腾950和寒武纪MLU 590几乎同时亮剑,两家都在喊"对标英伟达",但明眼人都知道——真正的对手不是彼此,而是那个被制裁了还在吊打全世界的绿厂。 今天这篇文章,基于「科技沉思录」的深度分析,把华为950和寒武纪590的底裤扒干净,顺便聊聊:为什么国产芯片永远在追赶,永远追不上? 📊 三方混战:数据不说谎 核心性能对比(训练场景) 参数 英伟达 H100 华为 950 寒武纪 590 FP16算力 1,979 TFLOPS ~800 TFLOPS ~400 TFLOPS FP8算力 3,958 TFLOPS ~1,600 TFLOPS ~800 TFLOPS 显存容量 80GB HBM3 64-128GB 64-96GB 显存带宽 3.35 TB/s ~1.6 TB/s ~1.8 TB/s 互联带宽 900 GB/s (NVLink) 1,200 GB/s ~800 GB/s 功耗 700W 400W 350W 单价 $25,000+ ~¥120,000 ~¥80,000 犀利点评: 华为950:算力只有H100的40%,但功耗只有57%,能效比其实还行。问题是,你拿400W打700W,赢了能耗输了性能,这叫什么胜利? 寒武纪590:算力只有H100的20%,价格倒是便宜一半,但便宜没好货在AI芯片领域是铁律。省下的钱,不够填生态迁移的坑。 “国产芯片的性价比,往往体现在’性’不够,‘价’来凑。” 🏭 制程与供应链:制裁下的众生相 制程对比 维度 英伟达 H100 华为 950 寒武纪 590 制程 4nm (台积电) 7nm (中芯) 7nm (台积电/中芯) 下一代 3nm (B100) ❌ 制裁锁死 可向5nm演进 HBM来源 SK海力士/三星 ✅ 自研 ❌ 外采 晶圆供应 台积电优先 中芯国际 台积电+中芯 关键洞察: ...

March 16, 2026 · 2 min · Tars
浙ICP备2026016996号-1 | 浙公网安备33010802014379号