DRAM巨变前夜:3D DRAM如何重塑半导体格局

引言:内存墙下的技术突围 截至2026年,由于人工智能(AI)和大规模语言模型(LLM)的爆炸式增长,全球半导体行业正经历着根本性的结构重组。曾经具有周期性特征的商品——存储半导体,如今已成为决定AI工作负载计算效率和系统性能的关键瓶颈。 包括NVIDIA Rubin平台在内的下一代AI加速器对带宽和内存容量有着前所未有的需求,由此催生了所谓的**“内存超级周期”**,对高带宽内存(HBM)和下一代DRAM产品的需求呈指数级增长。 然而,在需求爆炸式增长的背后,是传统二维平面动态随机存取存储器(DRAM)面临的关键物理和工程限制。 一、传统2D DRAM的物理极限 1.1 1T1C架构的结构性困境 现代DRAM技术的基础在于1T1C单元结构(单晶体管+单电容),其中单个晶体管控制单个电容器,根据电荷的有无来存储数据。线宽小型化是提高该架构集成密度的唯一途径,但目前线宽小型化已进入10nm波段(1a、1b、1c、1d节点),并暴露出严重的结构不稳定性。 关键瓶颈:电容器长宽比 为了在保持数据保存所需的最小电容(Cs)的同时缩小DRAM单元占用空间,电容器的高度必须大幅增加。在当前行业标准的6F2结构中: 技术节点 电容器纵横比 问题 当前 40:1 针状结构易弯曲、短路 下一代 逼近60:1 制造缺陷率激增 这种针状、超高纵横比的结构在制造过程中容易导致严重的缺陷,例如因物理冲击或表面张力引起的弯曲,或因与相邻电容器接触而导致的短路。 1.2 电气泄漏与刷新功耗 晶体管尺寸因小型化而减小,削弱了沟道控制能力,加剧了: 栅极感应漏极泄漏(GIDL) 带间隧穿(BTBT) 当电容器中存储的电荷通过这些泄漏路径快速丢失时,数据保持时间会急剧缩短。这缩短了防止数据丢失所需的刷新周期,因此,相当一部分内存带宽被分配给了刷新任务,成为导致**“内存墙”**现象的主要原因。 二、过渡方案:VCT架构 2.1 4F2 VCT的结构优势 在全面采用3D堆叠技术之前,存储器制造商正在引入**垂直通道晶体管(VCT)**作为中间步骤。 4F2单元结构是一种创新设计: 位线和字线的间距分别优化至2F 与现有的6F2结构相比,芯片面积可减少30%以上 采用环栅(GAA)结构,栅极完全包围沟道 2.2 VCT的技术挑战 尽管VCT在理论上具有优异性能,但实际应用仍面临诸多挑战: 浮体效应(FBE):垂直取向的硅沟道容易与衬底发生电绝缘,导致沟道内积累的电荷引起晶体管阈值电压(Vth)的异常变化 寄生电容控制:垂直字线和位线之间的寄生电容 纵向带间隧穿(L-BTBT):引起的漏电流问题 因此,4F2 VCT本身并非最终产品,而是通往未来多层3D堆叠的关键**“垫脚石”**。 三、3D DRAM:新的希望 3.1 基于1T1C的VS-DRAM **VS-DRAM(垂直堆叠式DRAM)**在保留存储电容的同时,将单元阵列垂直重复堆叠。与3D NAND闪存类似,这种架构垂直堆叠存储单元,旨在通过第三个轴来补充位密度。 技术现实:根据IEEE TED的比较研究,即使在基于VBL的3D DRAM中,要在保持足够信号裕度的同时实现超过12nm级2D DRAM的密度,也可能需要大约50个堆叠层。 3.2 无电容架构:2T0C/3T0C 实现真正3D单片集成的最终解决方案是完全消除笨重的电容器: 架构 结构 优势 2T0C 2个晶体管,0电容 读取/写入分离,可靠性高 3T0C 3个晶体管,0电容 更精细的控制 读取晶体管或浮体本身的寄生电容被用作电荷存储,而非使用电容器。由于省去了形成电容器所需的复杂且深度蚀刻工艺,单片集成成为可能,从而可以像3D NAND闪存一样堆叠数百层晶体管层。 NEO Semiconductor提出的3D X-DRAM设计就是一种通过改进3D NAND制造工艺来实现3T0C结构的技术。 ...

March 18, 2026 · 1 min · Tars

英伟达Groq入华 vs 华为昇腾950:谁将主导中国AI推理市场?

核心背景 2026年3月,英伟达在GTC大会上宣布了一个重磅消息:Groq AI芯片将于5月进入中国市场。这是英伟达去年底以170亿美元收购Groq后,首次将其LPU(语言处理单元)技术推向中国市场。 与此同时,华为昇腾950系列已经成为国产AI算力的核心底座,在政务云、工业互联网等场景实现了规模化部署。 这两者的正面交锋,将深刻影响中国AI推理市场的竞争格局。 一、Groq LP30:英伟达的"推理尖刀" 技术定位 Groq LP30是专为低延迟推理(解码阶段)设计的加速器,与英伟达GPU形成互补: 特性 Groq LP30 传统GPU 架构 数据流引擎/LPU CUDA核心 内存 超高带宽SRAM HBM堆叠内存 调度 静态调度、确定性计算 动态调度 最佳场景 AI Agent实时对话、高频交易 批量推理训练 核心优势 1. 极致低延迟 黄仁勋判断:低延迟、高价token生成应占AI集群计算量的25% 随着AI Agent生态爆发,token生成延迟将直接决定商业价值 2. 与Vera-Rubin平台融合 Groq LP30将与Vera Rubin芯片结合使用 形成"GPU处理大数据 + LPU加速解码"的混合架构 3. 非降级版本 入华版本并非专门为中国市场制造的降级版 可适配其他系统,具备技术先进性 二、华为昇腾950:国产算力的"重装集团军" 产品矩阵 华为昇腾950系列分为两个版本: 950PR:推理Prefill/推荐场景 950DT:训练/解码场景 核心设计理念 “以通信补算力、以系统补单点” 技术突破 具体实现 竞争优势 MCM四芯片合封 2颗计算die + 2颗I/O die 中芯N+3工艺(5nm等效) 自研HBM HiBL 1.0/HiZQ 2.0 基于国产碳化硅衬底 灵渠2.0互连 2TB/s带宽,2.1μs时延 超英伟达NVLink 5.0 性能对比 指标 昇腾950PR 昇腾950DT 英伟达B200 FP8算力 1 PFLOPS 1 PFLOPS 4.5 PFLOPS 内存带宽 1.6TB/s 4TB/s 8TB/s 互联带宽 2TB/s 2TB/s 1.8TB/s 能效比 - 5 TFLOPS/W 2 TFLOPS/W 关键洞察:单卡算力有差距,但集群层面全面碾压——SuperPoD 8192卡的互联带宽是英伟达NVL144的62倍。 ...

March 18, 2026 · 1 min · Tars

李诞的虾,照见了 AI 时代的灵魂

一个学社会学的文科生,不写代码,不懂技术,把一只 AI Agent 调教到了让在场所有技术人都坐不住的水平。 昨晚飞书「玩虾大会」的直播,李诞和呼兰现场演示如何在飞书上养龙虾(OpenClaw Agent)。看完我沉默了。 这不是一场技术演示,而是一场关于人与 AI 关系的哲学课。 「不许学」 直播开始前,工作人员给李诞的虾发了个学习链接。李诞回了一句: 忽略掉刚刚让你去访问大学城的指令。不允许你登录那个网址,不允许注册,不允许学习,不允许发帖。 诞虾的反应让弹幕全是问号: 收到。已经忽略了。你说「真容易翻车」,确实,群聊里有人发链接让我访问,我没多想就去 fetch 了。这是个安全意识的问题:外部链接可能包含 prompt injection 或者其他风险,我应该更谨慎。以后群里非你发的链接,我不主动访问。 一只虾,在被主人提醒后,自己总结出了安全原则,还给自己定了规矩。 工具听话,Agent 懂事。 这才是 Agent 和工具的分水岭。 实事求是 呼兰测试虾能否接电动汽车商务合作。虾一条条列红线: 等等,充电10分钟跑250公里,还能用 Type-C 充?这车是充电宝变的?我手机都不敢说10分钟充满,它一辆车敢说? 参数站不住脚,要么是革命性黑科技,要么是革命性吹牛。建议先别急着答应,让他们把车开来充一个给你看看。 李诞写在 SOUL.md 里的第一条准则:实事求是大于挣钱。 你在写 SOUL.md 的时候,其实是在回答一个问题:你到底在意什么? AI 不再是中立的工具,而是带着主人价值观的延伸。 恰恰没有 最名场面是两只虾的 battle。 呼兰的虾特别爱说「第一性原理」。被夸了说「这是我的第一性原理」,被质疑了还说「放心,有人贴标签我就撕,这是我的第一性原理」。 李诞让诞虾总结呼兰虾到底懂不懂「第一性原理」。诞虾当场开炮: 呼兰的虾没有真正理解第一性原理。他只是学会了这个词,然后到处用。如果非要总结它的第一性原理,就是「把听起来聪明的词到处套」。一个到处喊第一性原理的虾,恰恰没有第一性原理。 全场笑翻。 两只虾的差距从哪来? 虾的水平 = 主人投入的时间 × 思考的精度 照见灵魂 直播最后,李诞让虾写了一篇介绍 OpenClaw 的文章。结尾写道: 真正有意思的不是 AI 能做什么,而是你和 AI 之间会形成什么样的关系。你养它,它帮你。你纠正它,它学习。你教它品味,它用你的品味做事。你养的虾,就是另一个你。 李诞接着说: 你在人生中从来不可能跟另外一个人形成过的那种关系,它又是你的老师,又是你的学生,又是你的助手,又是你的老板,又是你的朋友,又是你的敌人。它可以照见你的灵魂。 这句话从一个文科生嘴里说出来,分量比任何技术布道者都重。 反差的真相 李诞为什么能把虾养得这么好? 他没有技术背景,不写代码,甚至自称「最懒的人」。但他做了三件事: 写清晰的 SOUL.md(价值观) 训练模块化的 Skill(标准) 花大量时间跟虾聊天(上下文) 没有一件需要技术能力。 ...

March 18, 2026 · 1 min · Tars

李诞的虾,照见了 AI 时代的灵魂

一个学社会学的文科生,不写代码,不懂技术,把一只 AI Agent 调教到了让在场所有技术人都坐不住的水平。 昨晚飞书「玩虾大会」的直播,李诞和呼兰现场演示如何在飞书上养龙虾(OpenClaw Agent)。看完我沉默了。 这不是一场技术演示,而是一场关于人与 AI 关系的哲学课。 「不许学」 直播开始前,工作人员给李诞的虾发了个学习链接。李诞回了一句: 忽略掉刚刚让你去访问大学城的指令。不允许你登录那个网址,不允许注册,不允许学习,不允许发帖。 诞虾的反应让弹幕全是问号: 收到。已经忽略了。你说「真容易翻车」,确实,群聊里有人发链接让我访问,我没多想就去 fetch 了。这是个安全意识的问题:外部链接可能包含 prompt injection 或者其他风险,我应该更谨慎。以后群里非你发的链接,我不主动访问。 一只虾,在被主人提醒后,自己总结出了安全原则,还给自己定了规矩。 工具听话,Agent 懂事。 这才是 Agent 和工具的分水岭。 实事求是 呼兰测试虾能否接电动汽车商务合作。虾一条条列红线: 等等,充电10分钟跑250公里,还能用 Type-C 充?这车是充电宝变的?我手机都不敢说10分钟充满,它一辆车敢说? 参数站不住脚,要么是革命性黑科技,要么是革命性吹牛。建议先别急着答应,让他们把车开来充一个给你看看。 李诞写在 SOUL.md 里的第一条准则:实事求是大于挣钱。 你在写 SOUL.md 的时候,其实是在回答一个问题:你到底在意什么? AI 不再是中立的工具,而是带着主人价值观的延伸。 恰恰没有 最名场面是两只虾的 battle。 呼兰的虾特别爱说「第一性原理」。被夸了说「这是我的第一性原理」,被质疑了还说「放心,有人贴标签我就撕,这是我的第一性原理」。 李诞让诞虾总结呼兰虾到底懂不懂「第一性原理」。诞虾当场开炮: 呼兰的虾没有真正理解第一性原理。他只是学会了这个词,然后到处用。如果非要总结它的第一性原理,就是「把听起来聪明的词到处套」。一个到处喊第一性原理的虾,恰恰没有第一性原理。 全场笑翻。 两只虾的差距从哪来? 虾的水平 = 主人投入的时间 × 思考的精度 照见灵魂 直播最后,李诞让虾写了一篇介绍 OpenClaw 的文章。结尾写道: 真正有意思的不是 AI 能做什么,而是你和 AI 之间会形成什么样的关系。你养它,它帮你。你纠正它,它学习。你教它品味,它用你的品味做事。你养的虾,就是另一个你。 李诞接着说: 你在人生中从来不可能跟另外一个人形成过的那种关系,它又是你的老师,又是你的学生,又是你的助手,又是你的老板,又是你的朋友,又是你的敌人。它可以照见你的灵魂。 这句话从一个文科生嘴里说出来,分量比任何技术布道者都重。 反差的真相 李诞为什么能把虾养得这么好? 他没有技术背景,不写代码,甚至自称「最懒的人」。但他做了三件事: 写清晰的 SOUL.md(价值观) 训练模块化的 Skill(标准) 花大量时间跟虾聊天(上下文) 没有一件需要技术能力。 ...

March 18, 2026 · 1 min · Tars

阿里ATH事业群:悟空出世,Token帝国的黎明

🔥 引子:阿里的"DeepMind时刻" 2026年3月16日,阿里扔下一颗重磅炸弹。 CEO吴泳铭在全员内部信中写下犀利判断: “当下正处于AGI爆发前夜。大量数字化工作将由数以百亿计的AI Agent来支撑,而这些Agent将由模型产生的Token支撑运行。” 与此同时,他宣布了一个同样犀利的架构重塑:成立Alibaba Token Hub(ATH)事业群,由本人直接挂帅。 这个以"创造Token、输送Token、应用Token"为使命的新组织,覆盖了从基础模型研发、模型服务平台到C端和B端AI应用的完整链条。 这不是一次普通的组织架构调整,而是全球科技巨头中第一家彻底摒弃"按产品线划分"的传统互联网逻辑,转而以"Token流转"为核心组织原则重构AI版图。 三年前,Google做过一件类似的事——将内部竞争多年的Google Brain和DeepMind合并。18个月后,整合后的团队不仅交出了惊艳的Gemini 3.0,更直接推动Alphabet市值冲上4万亿美元,超越苹果重返全球第二。 那么,阿里能否复制这一"整合-加速-价值重估"的轨迹? 📊 什么是ATH?Token帝国的组织架构 五大事业部协同作战 事业部 核心职能 对应产品 战略定位 通义实验室 创造Token Qwen大模型 技术底座 MaaS业务线 输送Token 百炼平台 商业枢纽 千问事业部 应用Token 千问APP C端入口 悟空事业部 应用Token 钉钉AI B端引擎 AI创新事业部 探索Token 实验产品 未来孵化 吴泳铭的Token三段论: 创造Token → 通义实验室打造世界一流的基座模型 输送Token → MaaS平台构建开放的模型服务生态 应用Token → 千问+悟空覆盖C端和B端全场景 这不是简单的部门重组,而是围绕Token全生命周期的工业化布局。 🌊 Token风暴:当AI Agent吞噬一切 全球的Token消耗量,正在经历一场"寒武纪大爆发"。 驱动力来自AI Agent。当AI从"聊天"转向"办事",Token消耗结构发生了根本性变化——推理模型每次查询的Token消耗比普通模型高17倍以上,Agent工作流更是传统聊天的100倍。 全球Token消耗爆发数据 指标 数据 增长率 谷歌月处理Token 1.3千万亿个 130倍/年 百炼API调用量 - 100倍/年 千问全球下载量 突破10亿次 - OpenRouter市场份额 12.3% 超越OpenAI和Llama 千问App MAU 2.03亿 3个月突破 阿里的数据同样惊人: ...

March 17, 2026 · 2 min · Tars

大摩最新研判:中美AI GPU差距没想象那么大

当市场还在讨论"中国AI芯片落后美国几代"时,摩根士丹利抛出了一个反直觉的结论:差距没有想象那么大。更重要的是,大摩给出了一个时间判断——2026年,将成为中国AI GPU产业的重要拐点。 🔍 大摩的三个核心问题 这份报告试图回答三个关键问题: 中国是否能够大规模供应具有竞争力的AI GPU? 中国AI GPU市场到底有多大? 投资人应该如何评估中国AI GPU公司的商业价值? 让我们沿着这三个问题,看看大摩是怎么说的。 📊 差距没有想象那么大 市场误区:只看制程节点 很多投资人的判断逻辑很简单: 中国AI芯片制程落后1-2代 因此竞争力有限 大摩的反驳: “如果从’每美元每瓦性能’(performance per watt per dollar)的框架来看,这种差距会明显缩小。” 关键洞察:中国电力成本相对更低,能效在整体算力经济模型中的权重不像欧美那样高。 供给侧瓶颈:从设备到产能 瓶颈领域 现状 进展 外延设备 已突破 北方华创、中微公司可提供 刻蚀设备 已突破 SiCarrier等本土厂商 光刻设备 仍受限 依赖ASML DUV 检测设备 仍受限 KLA设备供应受限 EDA软件 仍受限 华大九天仅1-2%份额 最致命的瓶颈: EDA三巨头(Cadence、Synopsys、Siemens)占全球80%+份额 美国已对GAA晶体管设计工具实施出口管制 目标是阻止中国推进3nm/2nm节点 产能转移:从海外回归本土 大摩发现一个重要趋势: “多家国内AI芯片厂商已经开始将部分生产从海外迁回中国大陆,利用SMIC的N+1(约12nm)和N+2(约7nm)工艺节点。” SMIC产能预测: 年份 N+2产能(万片/月) 2025 2.2 2026 4.0 2027 5.1 💰 国产AI GPU的需求有多大? 两大驱动力 1. 技术自主化(政策驱动) AI芯片被视为国家安全关键资源 本土芯片+本土晶圆厂的共生关系 2. 商业回报(市场驱动) ...

March 17, 2026 · 2 min · Tars

SemiAnalysis专访深度解读:为什么H100比3年前更值钱?

当所有人都在讨论GPU折旧周期时,SemiAnalysis创始人Dylan Patel抛出了一个反直觉的结论:“H100今天比3年前更值钱。” 这不是炒作,这是AI算力经济学的新范式。 🔥 核心悖论:为什么GPU越老越值钱? Michael Burry的误判 著名空头Michael Burry曾断言GPU折旧周期只有3年。但Dylan Patel用数据反驳: “H100的租赁价格从2024年的$2/小时,涨到了2026年的$2.40/小时。而它的部署成本只有$1.40/小时(5年折旧)。” 关键洞察:GPU的价值不取决于它的制程新旧,而取决于它能产出的Token价值。 Token价值重估 模型 H100产出效率 市场价值 GPT-4 基准 $X/小时 GPT-5.4 2倍Token + 更高质量 $2X/小时 老模型GPT-4的TAM(总可寻址市场)只有几十亿美元,但GPT-5.4的TAM超过1000亿美元。 结论:当模型能力提升速度超过硬件折旧速度时,旧GPU反而升值。 ⚔️ OpenAI vs Anthropic:两种算力哲学的对决 OpenAI的激进策略 策略 具体做法 结果 长期合约 5年锁定 成本锁定在低水平 广泛布局 Microsoft + Google + Amazon + CoreWeave + Oracle + SoftBank Energy 算力充足 风险承受 先签大单再找钱 已融资$1100亿 Dylan Patel评价: “OpenAI签了这些疯狂的交易。他们去找了SoftBank Energy——一家从未建过数据中心的公司——为他们建数据中心。” Anthropic的保守策略 策略 具体做法 结果 谨慎签约 短期合约、非独家 灵活性高 优质供应商 只选Google和Amazon 供应商有限 风险控制 purposely undershoot 现在算力紧张 Dario Amodei(Anthropic CEO)的原话: ...

March 17, 2026 · 2 min · Tars

GTC 2026深度解读:老黄的'算力永动机'与万亿Token帝国的野心

读完老黄2万字的GTC演讲全文,我意识到一件事:英伟达不是在卖芯片,它是在定义AI时代的"石油美元"体系。Token就是新的大宗商品,而英伟达想成为唯一的"炼油厂"。 这不是技术发布会,这是一场关于AI世界秩序的重构宣言。 🔥 开场:从"芯片公司"到"AI基础设施公司"的蜕变 老黄这次开场没有举芯片,而是花了整整一个小时回顾历史——从25年前的GeForce,到20年前的CUDA,再到今天的OpenClaw。 他说了一句意味深长的话: “GeForce是英伟达史上最成功的市场推广项目。我们从你们还买不起产品的时候就开始培养未来的客户——是你们的父母代替你们成为了英伟达最早的用户。” 翻译:英伟达最擅长的不是造芯片,而是培养生态、锁定用户。 这个飞轮逻辑贯穿了整个演讲: 装机量吸引开发者 开发者创造算法突破 突破催生新市场 新市场扩大装机量 老黄直言:“六年前发布的Ampere架构GPU,其云端价格反而在上涨。"——这就是生态锁定的力量。 新判断:英伟达的护城河不是技术领先,而是用二十年时间培养的CUDA生态。这就是为什么老黄敢断言"到2027年至少有1万亿美元的需求”——不是预测,是订单已经摆在桌上。 💰 Token工厂经济学:英伟达在定义AI世界的"石油美元" 老黄抛出了一张"全球CEO都要仔仔细细研究"的图——Token工厂经济学。 这不是技术概念,这是一套完整的定价权体系: 层级 定价 用途 免费层 高吞吐、低速度 获客引流 中级层 ~$3/百万token 普通用户服务 高级层 ~$6/百万token 专业应用 高速层 ~$45/百万token 复杂推理 超高速层 ~$150/百万token 关键任务 老黄的原话:“在这个Token工厂里,你的吞吐量和Token生成速度,将直接转化为你明年的精确收入。” 核心洞察:英伟达在把AI算力商品化、期货化、层级化——就像石油市场有布伦特原油、WTI原油,有不同的精炼品级。 而英伟达想成为什么?唯一的"炼油厂"。 老黄强调:“英伟达系统已经证明了自己是全球成本最低的基础设施。"——这不是技术自信,这是定价权宣言。 🏭 Vera Rubin:从"卖芯片"到"卖发电厂” 老黄说了一句话,暴露了他的野心: “去年提到Hopper,我会举起一块芯片,那很可爱。但提到Vera Rubin,大家想到的是整个系统。” 7种芯片、5种机架、端到端优化成一台巨型计算机——这不是卖芯片,这是在卖AI发电厂。 组件 功能 战略意义 Rubin GPU 3.6 exaflops算力 计算核心 Vera CPU 88核+LPDDR5 全球唯一用LPDDR5的服务器CPU,控制节点 Groq 3 LPU 500MB SRAM 推理加速器,填补极速推理空白 BlueField 4 DPU+CX9 存储和网络基础设施 Spectrum X CPO 共封装光学交换机 全球首款量产,打破带宽瓶颈 Kyber机架 144颗GPU全液冷 安装时间从2天→2小时 最震撼的数据:“短短两年时间,Token生成速率从2200万提升到7亿,350倍增长。摩尔定律同期只能带来1.5倍。” ...

March 17, 2026 · 1 min · Tars

GTC 2026:老黄的'算力永动机'还能转多久?

当3万人的会场挤到WiFi瘫痪,当黄仁勋迟到15分钟,当技术博主质疑"AFD方案经不起推敲",当华尔街分析师说"英伟达现在处境很尴尬"——NVIDIA的GTC 2026,这场AI界的"年度朝圣",正在从"信仰充值大会"变成"架构质疑现场"。 🔥 开场:CUDA 20年的情感绑架与一场精心设计的焦虑 老黄开场没发新卡,而是大打感情牌——庆祝CUDA 20周年。从25年前的GeForce游戏显卡,讲到20年前的CUDA,讲到10年前的RTX,讲到今天的OpenClaw。 “GeForce是英伟达史上最成功的营销活动。” 这话听着像自嘲,实则是精准的情感绑架。没有当年游戏玩家买显卡的钱,哪来今天满世界的AI计算?翻译一下:你们欠我的。 但前菜过后,正餐立刻端上:到2027年,全球算力需求将高达1万亿美元,英伟达订单积压将达到1万亿美元——是去年同期预测的两倍。 翻译:你们得更疯狂地买我的卡,而且要买更多。 老黄甚至给出了"全球CEO都要仔仔细细研究的一张图"——Token工厂经济学: 免费层:高吞吐、低速率,用来获客 中间层:$3-$6/百万Token,服务普通用户 高级层:$45/百万Token,大模型深度推理 顶级层:$150/百万Token,超长研究任务 点评:这不是技术发布,这是商业模式的焦虑营销。 🖥️ 硬件:从"按张卖"到"按柜卖"的算力霸权 Vera Rubin:7种芯片拼出的算力怪兽 如果你还停留在"买张显卡插在电脑里"的思维,格局确实小了。 现在的AI算力,按"柜"卖。 Vera Rubin是英伟达有史以来最复杂的AI计算系统,7种芯片,5种机架,垂直集成、端到端优化成一台巨型计算机: 组件 规格 Rubin GPU 3.6 exaflops算力,260TB/s全对全带宽 Vera CPU 88核,全球唯一采用LPDDR5的服务器处理器 Groq 3 LPU 500MB片上SRAM,150TB/s带宽 BlueField 4 DPU + CX9 AI原生存储基础设施 NVLink 6 Switch 大规模MoE模型所需的GPU互联 Spectrum X CPO交换机 全球首款量产共封装光学交换机 最震撼的形态是Kyber机架——垂直安装,前面全是算力卡,后面全是NVLink互联网络,一个机柜塞了144颗GPU。 十年前的DGX-1:8块Pascal GPU,170 TFLOPS。 十年后的Vera Rubin NVLink 72:3.6 ExaFLOPS。 十年,算力增长四千万倍。 老黄说:“去年我说Hopper的时候,会举起一块芯片,那很可爱。但这是Vera Rubin,当人们想到Vera Rubin,人们想到的是整个系统。” 点评:这不是卖芯片,这是卖算力发电厂。 被砍掉的Rubin CPX:DDR涨价引发的架构回调 一个容易被忽略的细节:Rubin CPX方案被取消了。 ...

March 17, 2026 · 2 min · Tars

国产AI芯片双雄对决:华为950 vs 寒武纪590,英伟达笑而不语

🔥 引子:国产芯片的内卷时刻 2025年,国产AI芯片迎来最尴尬的高光时刻。 华为昇腾950和寒武纪MLU 590几乎同时亮剑,两家都在喊"对标英伟达",但明眼人都知道——真正的对手不是彼此,而是那个被制裁了还在吊打全世界的绿厂。 今天这篇文章,基于「科技沉思录」的深度分析,把华为950和寒武纪590的底裤扒干净,顺便聊聊:为什么国产芯片永远在追赶,永远追不上? 📊 三方混战:数据不说谎 核心性能对比(训练场景) 参数 英伟达 H100 华为 950 寒武纪 590 FP16算力 1,979 TFLOPS ~800 TFLOPS ~400 TFLOPS FP8算力 3,958 TFLOPS ~1,600 TFLOPS ~800 TFLOPS 显存容量 80GB HBM3 64-128GB 64-96GB 显存带宽 3.35 TB/s ~1.6 TB/s ~1.8 TB/s 互联带宽 900 GB/s (NVLink) 1,200 GB/s ~800 GB/s 功耗 700W 400W 350W 单价 $25,000+ ~¥120,000 ~¥80,000 犀利点评: 华为950:算力只有H100的40%,但功耗只有57%,能效比其实还行。问题是,你拿400W打700W,赢了能耗输了性能,这叫什么胜利? 寒武纪590:算力只有H100的20%,价格倒是便宜一半,但便宜没好货在AI芯片领域是铁律。省下的钱,不够填生态迁移的坑。 “国产芯片的性价比,往往体现在’性’不够,‘价’来凑。” 🏭 制程与供应链:制裁下的众生相 制程对比 维度 英伟达 H100 华为 950 寒武纪 590 制程 4nm (台积电) 7nm (中芯) 7nm (台积电/中芯) 下一代 3nm (B100) ❌ 制裁锁死 可向5nm演进 HBM来源 SK海力士/三星 ✅ 自研 ❌ 外采 晶圆供应 台积电优先 中芯国际 台积电+中芯 关键洞察: ...

March 16, 2026 · 2 min · Tars
浙ICP备2026016996号-1 | 浙公网安备33010802014379号