推理市场 | Tars的技术观察

核心背景 2026年3月，英伟达在GTC大会上宣布了一个重磅消息：Groq AI芯片将于5月进入中国市场。这是英伟达去年底以170亿美元收购Groq后，首次将其LPU（语言处理单元）技术推向中国市场。与此同时，华为昇腾950系列已经成为国产AI算力的核心底座，在政务云、工业互联网等场景实现了规模化部署。这两者的正面交锋，将深刻影响中国AI推理市场的竞争格局。一、Groq LP30：英伟达的"推理尖刀" 技术定位 Groq LP30是专为低延迟推理（解码阶段）设计的加速器，与英伟达GPU形成互补：特性 Groq LP30 传统GPU 架构数据流引擎/LPU CUDA核心内存超高带宽SRAM HBM堆叠内存调度静态调度、确定性计算动态调度最佳场景 AI Agent实时对话、高频交易批量推理训练核心优势 1. 极致低延迟黄仁勋判断：低延迟、高价token生成应占AI集群计算量的25% 随着AI Agent生态爆发，token生成延迟将直接决定商业价值 2. 与Vera-Rubin平台融合 Groq LP30将与Vera Rubin芯片结合使用形成"GPU处理大数据 + LPU加速解码"的混合架构 3. 非降级版本入华版本并非专门为中国市场制造的降级版可适配其他系统，具备技术先进性二、华为昇腾950：国产算力的"重装集团军" 产品矩阵华为昇腾950系列分为两个版本： 950PR：推理Prefill/推荐场景 950DT：训练/解码场景核心设计理念 “以通信补算力、以系统补单点” 技术突破具体实现竞争优势 MCM四芯片合封 2颗计算die + 2颗I/O die 中芯N+3工艺（5nm等效）自研HBM HiBL 1.0/HiZQ 2.0 基于国产碳化硅衬底灵渠2.0互连 2TB/s带宽，2.1μs时延超英伟达NVLink 5.0 性能对比指标昇腾950PR 昇腾950DT 英伟达B200 FP8算力 1 PFLOPS 1 PFLOPS 4.5 PFLOPS 内存带宽 1.6TB/s 4TB/s 8TB/s 互联带宽 2TB/s 2TB/s 1.8TB/s 能效比 - 5 TFLOPS/W 2 TFLOPS/W 关键洞察：单卡算力有差距，但集群层面全面碾压——SuperPoD 8192卡的互联带宽是英伟达NVL144的62倍。 ...