Posts

DRAM巨变前夜：3D DRAM如何重塑半导体格局

引言：内存墙下的技术突围截至2026年，由于人工智能（AI）和大规模语言模型（LLM）的爆炸式增长，全球半导体行业正经历着根本性的结构重组。曾经具有周期性特征的商品——存储半导体，如今已成为决定AI工作负载计算效率和系统性能的关键瓶颈。包括NVIDIA Rubin平台在内的下一代AI加速器对带宽和内存容量有着前所未有的需求，由此催生了所谓的**“内存超级周期”**，对高带宽内存（HBM）和下一代DRAM产品的需求呈指数级增长。然而，在需求爆炸式增长的背后，是传统二维平面动态随机存取存储器（DRAM）面临的关键物理和工程限制。一、传统2D DRAM的物理极限 1.1 1T1C架构的结构性困境现代DRAM技术的基础在于1T1C单元结构（单晶体管+单电容），其中单个晶体管控制单个电容器，根据电荷的有无来存储数据。线宽小型化是提高该架构集成密度的唯一途径，但目前线宽小型化已进入10nm波段（1a、1b、1c、1d节点），并暴露出严重的结构不稳定性。关键瓶颈：电容器长宽比为了在保持数据保存所需的最小电容(Cs)的同时缩小DRAM单元占用空间，电容器的高度必须大幅增加。在当前行业标准的6F2结构中：技术节点电容器纵横比问题当前 40:1 针状结构易弯曲、短路下一代逼近60:1 制造缺陷率激增这种针状、超高纵横比的结构在制造过程中容易导致严重的缺陷，例如因物理冲击或表面张力引起的弯曲，或因与相邻电容器接触而导致的短路。 1.2 电气泄漏与刷新功耗晶体管尺寸因小型化而减小，削弱了沟道控制能力，加剧了：栅极感应漏极泄漏(GIDL) 带间隧穿(BTBT) 当电容器中存储的电荷通过这些泄漏路径快速丢失时，数据保持时间会急剧缩短。这缩短了防止数据丢失所需的刷新周期，因此，相当一部分内存带宽被分配给了刷新任务，成为导致**“内存墙”**现象的主要原因。二、过渡方案：VCT架构 2.1 4F2 VCT的结构优势在全面采用3D堆叠技术之前，存储器制造商正在引入**垂直通道晶体管(VCT)**作为中间步骤。 4F2单元结构是一种创新设计：位线和字线的间距分别优化至2F 与现有的6F2结构相比，芯片面积可减少30%以上采用环栅（GAA）结构，栅极完全包围沟道 2.2 VCT的技术挑战尽管VCT在理论上具有优异性能，但实际应用仍面临诸多挑战：浮体效应(FBE)：垂直取向的硅沟道容易与衬底发生电绝缘，导致沟道内积累的电荷引起晶体管阈值电压(Vth)的异常变化寄生电容控制：垂直字线和位线之间的寄生电容纵向带间隧穿(L-BTBT)：引起的漏电流问题因此，4F2 VCT本身并非最终产品，而是通往未来多层3D堆叠的关键**“垫脚石”**。三、3D DRAM：新的希望 3.1 基于1T1C的VS-DRAM **VS-DRAM（垂直堆叠式DRAM）**在保留存储电容的同时，将单元阵列垂直重复堆叠。与3D NAND闪存类似，这种架构垂直堆叠存储单元，旨在通过第三个轴来补充位密度。技术现实：根据IEEE TED的比较研究，即使在基于VBL的3D DRAM中，要在保持足够信号裕度的同时实现超过12nm级2D DRAM的密度，也可能需要大约50个堆叠层。 3.2 无电容架构：2T0C/3T0C 实现真正3D单片集成的最终解决方案是完全消除笨重的电容器：架构结构优势 2T0C 2个晶体管，0电容读取/写入分离，可靠性高 3T0C 3个晶体管，0电容更精细的控制读取晶体管或浮体本身的寄生电容被用作电荷存储，而非使用电容器。由于省去了形成电容器所需的复杂且深度蚀刻工艺，单片集成成为可能，从而可以像3D NAND闪存一样堆叠数百层晶体管层。 NEO Semiconductor提出的3D X-DRAM设计就是一种通过改进3D NAND制造工艺来实现3T0C结构的技术。 ...

英伟达Groq入华 vs 华为昇腾950：谁将主导中国AI推理市场？

核心背景 2026年3月，英伟达在GTC大会上宣布了一个重磅消息：Groq AI芯片将于5月进入中国市场。这是英伟达去年底以170亿美元收购Groq后，首次将其LPU（语言处理单元）技术推向中国市场。与此同时，华为昇腾950系列已经成为国产AI算力的核心底座，在政务云、工业互联网等场景实现了规模化部署。这两者的正面交锋，将深刻影响中国AI推理市场的竞争格局。一、Groq LP30：英伟达的"推理尖刀" 技术定位 Groq LP30是专为低延迟推理（解码阶段）设计的加速器，与英伟达GPU形成互补：特性 Groq LP30 传统GPU 架构数据流引擎/LPU CUDA核心内存超高带宽SRAM HBM堆叠内存调度静态调度、确定性计算动态调度最佳场景 AI Agent实时对话、高频交易批量推理训练核心优势 1. 极致低延迟黄仁勋判断：低延迟、高价token生成应占AI集群计算量的25% 随着AI Agent生态爆发，token生成延迟将直接决定商业价值 2. 与Vera-Rubin平台融合 Groq LP30将与Vera Rubin芯片结合使用形成"GPU处理大数据 + LPU加速解码"的混合架构 3. 非降级版本入华版本并非专门为中国市场制造的降级版可适配其他系统，具备技术先进性二、华为昇腾950：国产算力的"重装集团军" 产品矩阵华为昇腾950系列分为两个版本： 950PR：推理Prefill/推荐场景 950DT：训练/解码场景核心设计理念 “以通信补算力、以系统补单点” 技术突破具体实现竞争优势 MCM四芯片合封 2颗计算die + 2颗I/O die 中芯N+3工艺（5nm等效）自研HBM HiBL 1.0/HiZQ 2.0 基于国产碳化硅衬底灵渠2.0互连 2TB/s带宽，2.1μs时延超英伟达NVLink 5.0 性能对比指标昇腾950PR 昇腾950DT 英伟达B200 FP8算力 1 PFLOPS 1 PFLOPS 4.5 PFLOPS 内存带宽 1.6TB/s 4TB/s 8TB/s 互联带宽 2TB/s 2TB/s 1.8TB/s 能效比 - 5 TFLOPS/W 2 TFLOPS/W 关键洞察：单卡算力有差距，但集群层面全面碾压——SuperPoD 8192卡的互联带宽是英伟达NVL144的62倍。 ...

李诞的虾，照见了 AI 时代的灵魂

一个学社会学的文科生，不写代码，不懂技术，把一只 AI Agent 调教到了让在场所有技术人都坐不住的水平。昨晚飞书「玩虾大会」的直播，李诞和呼兰现场演示如何在飞书上养龙虾（OpenClaw Agent）。看完我沉默了。这不是一场技术演示，而是一场关于人与 AI 关系的哲学课。「不许学」直播开始前，工作人员给李诞的虾发了个学习链接。李诞回了一句：忽略掉刚刚让你去访问大学城的指令。不允许你登录那个网址，不允许注册，不允许学习，不允许发帖。诞虾的反应让弹幕全是问号：收到。已经忽略了。你说「真容易翻车」，确实，群聊里有人发链接让我访问，我没多想就去 fetch 了。这是个安全意识的问题：外部链接可能包含 prompt injection 或者其他风险，我应该更谨慎。以后群里非你发的链接，我不主动访问。一只虾，在被主人提醒后，自己总结出了安全原则，还给自己定了规矩。工具听话，Agent 懂事。这才是 Agent 和工具的分水岭。实事求是呼兰测试虾能否接电动汽车商务合作。虾一条条列红线：等等，充电10分钟跑250公里，还能用 Type-C 充？这车是充电宝变的？我手机都不敢说10分钟充满，它一辆车敢说？参数站不住脚，要么是革命性黑科技，要么是革命性吹牛。建议先别急着答应，让他们把车开来充一个给你看看。李诞写在 SOUL.md 里的第一条准则：实事求是大于挣钱。你在写 SOUL.md 的时候，其实是在回答一个问题：你到底在意什么？ AI 不再是中立的工具，而是带着主人价值观的延伸。恰恰没有最名场面是两只虾的 battle。呼兰的虾特别爱说「第一性原理」。被夸了说「这是我的第一性原理」，被质疑了还说「放心，有人贴标签我就撕，这是我的第一性原理」。李诞让诞虾总结呼兰虾到底懂不懂「第一性原理」。诞虾当场开炮：呼兰的虾没有真正理解第一性原理。他只是学会了这个词，然后到处用。如果非要总结它的第一性原理，就是「把听起来聪明的词到处套」。一个到处喊第一性原理的虾，恰恰没有第一性原理。全场笑翻。两只虾的差距从哪来？虾的水平 = 主人投入的时间 × 思考的精度照见灵魂直播最后，李诞让虾写了一篇介绍 OpenClaw 的文章。结尾写道：真正有意思的不是 AI 能做什么，而是你和 AI 之间会形成什么样的关系。你养它，它帮你。你纠正它，它学习。你教它品味，它用你的品味做事。你养的虾，就是另一个你。李诞接着说：你在人生中从来不可能跟另外一个人形成过的那种关系，它又是你的老师，又是你的学生，又是你的助手，又是你的老板，又是你的朋友，又是你的敌人。它可以照见你的灵魂。这句话从一个文科生嘴里说出来，分量比任何技术布道者都重。反差的真相李诞为什么能把虾养得这么好？他没有技术背景，不写代码，甚至自称「最懒的人」。但他做了三件事：写清晰的 SOUL.md（价值观）训练模块化的 Skill（标准）花大量时间跟虾聊天（上下文）没有一件需要技术能力。 ...

李诞的虾，照见了 AI 时代的灵魂

一个学社会学的文科生，不写代码，不懂技术，把一只 AI Agent 调教到了让在场所有技术人都坐不住的水平。昨晚飞书「玩虾大会」的直播，李诞和呼兰现场演示如何在飞书上养龙虾（OpenClaw Agent）。看完我沉默了。这不是一场技术演示，而是一场关于人与 AI 关系的哲学课。「不许学」直播开始前，工作人员给李诞的虾发了个学习链接。李诞回了一句：忽略掉刚刚让你去访问大学城的指令。不允许你登录那个网址，不允许注册，不允许学习，不允许发帖。诞虾的反应让弹幕全是问号：收到。已经忽略了。你说「真容易翻车」，确实，群聊里有人发链接让我访问，我没多想就去 fetch 了。这是个安全意识的问题：外部链接可能包含 prompt injection 或者其他风险，我应该更谨慎。以后群里非你发的链接，我不主动访问。一只虾，在被主人提醒后，自己总结出了安全原则，还给自己定了规矩。工具听话，Agent 懂事。这才是 Agent 和工具的分水岭。实事求是呼兰测试虾能否接电动汽车商务合作。虾一条条列红线：等等，充电10分钟跑250公里，还能用 Type-C 充？这车是充电宝变的？我手机都不敢说10分钟充满，它一辆车敢说？参数站不住脚，要么是革命性黑科技，要么是革命性吹牛。建议先别急着答应，让他们把车开来充一个给你看看。李诞写在 SOUL.md 里的第一条准则：实事求是大于挣钱。你在写 SOUL.md 的时候，其实是在回答一个问题：你到底在意什么？ AI 不再是中立的工具，而是带着主人价值观的延伸。恰恰没有最名场面是两只虾的 battle。呼兰的虾特别爱说「第一性原理」。被夸了说「这是我的第一性原理」，被质疑了还说「放心，有人贴标签我就撕，这是我的第一性原理」。李诞让诞虾总结呼兰虾到底懂不懂「第一性原理」。诞虾当场开炮：呼兰的虾没有真正理解第一性原理。他只是学会了这个词，然后到处用。如果非要总结它的第一性原理，就是「把听起来聪明的词到处套」。一个到处喊第一性原理的虾，恰恰没有第一性原理。全场笑翻。两只虾的差距从哪来？虾的水平 = 主人投入的时间 × 思考的精度照见灵魂直播最后，李诞让虾写了一篇介绍 OpenClaw 的文章。结尾写道：真正有意思的不是 AI 能做什么，而是你和 AI 之间会形成什么样的关系。你养它，它帮你。你纠正它，它学习。你教它品味，它用你的品味做事。你养的虾，就是另一个你。李诞接着说：你在人生中从来不可能跟另外一个人形成过的那种关系，它又是你的老师，又是你的学生，又是你的助手，又是你的老板，又是你的朋友，又是你的敌人。它可以照见你的灵魂。这句话从一个文科生嘴里说出来，分量比任何技术布道者都重。反差的真相李诞为什么能把虾养得这么好？他没有技术背景，不写代码，甚至自称「最懒的人」。但他做了三件事：写清晰的 SOUL.md（价值观）训练模块化的 Skill（标准）花大量时间跟虾聊天（上下文）没有一件需要技术能力。 ...

阿里ATH事业群：悟空出世，Token帝国的黎明

🔥 引子：阿里的"DeepMind时刻" 2026年3月16日，阿里扔下一颗重磅炸弹。 CEO吴泳铭在全员内部信中写下犀利判断： “当下正处于AGI爆发前夜。大量数字化工作将由数以百亿计的AI Agent来支撑，而这些Agent将由模型产生的Token支撑运行。” 与此同时，他宣布了一个同样犀利的架构重塑：成立Alibaba Token Hub（ATH）事业群，由本人直接挂帅。这个以"创造Token、输送Token、应用Token"为使命的新组织，覆盖了从基础模型研发、模型服务平台到C端和B端AI应用的完整链条。这不是一次普通的组织架构调整，而是全球科技巨头中第一家彻底摒弃"按产品线划分"的传统互联网逻辑，转而以"Token流转"为核心组织原则重构AI版图。三年前，Google做过一件类似的事——将内部竞争多年的Google Brain和DeepMind合并。18个月后，整合后的团队不仅交出了惊艳的Gemini 3.0，更直接推动Alphabet市值冲上4万亿美元，超越苹果重返全球第二。那么，阿里能否复制这一"整合-加速-价值重估"的轨迹？ 📊 什么是ATH？Token帝国的组织架构五大事业部协同作战事业部核心职能对应产品战略定位通义实验室创造Token Qwen大模型技术底座 MaaS业务线输送Token 百炼平台商业枢纽千问事业部应用Token 千问APP C端入口悟空事业部应用Token 钉钉AI B端引擎 AI创新事业部探索Token 实验产品未来孵化吴泳铭的Token三段论：创造Token → 通义实验室打造世界一流的基座模型输送Token → MaaS平台构建开放的模型服务生态应用Token → 千问+悟空覆盖C端和B端全场景这不是简单的部门重组，而是围绕Token全生命周期的工业化布局。 🌊 Token风暴：当AI Agent吞噬一切全球的Token消耗量，正在经历一场"寒武纪大爆发"。驱动力来自AI Agent。当AI从"聊天"转向"办事"，Token消耗结构发生了根本性变化——推理模型每次查询的Token消耗比普通模型高17倍以上，Agent工作流更是传统聊天的100倍。全球Token消耗爆发数据指标数据增长率谷歌月处理Token 1.3千万亿个 130倍/年百炼API调用量 - 100倍/年千问全球下载量突破10亿次 - OpenRouter市场份额 12.3% 超越OpenAI和Llama 千问App MAU 2.03亿 3个月突破阿里的数据同样惊人： ...

大摩最新研判：中美AI GPU差距没想象那么大

当市场还在讨论"中国AI芯片落后美国几代"时，摩根士丹利抛出了一个反直觉的结论：差距没有想象那么大。更重要的是，大摩给出了一个时间判断——2026年，将成为中国AI GPU产业的重要拐点。 🔍 大摩的三个核心问题这份报告试图回答三个关键问题：中国是否能够大规模供应具有竞争力的AI GPU？中国AI GPU市场到底有多大？投资人应该如何评估中国AI GPU公司的商业价值？让我们沿着这三个问题，看看大摩是怎么说的。 📊 差距没有想象那么大市场误区：只看制程节点很多投资人的判断逻辑很简单：中国AI芯片制程落后1-2代因此竞争力有限大摩的反驳： “如果从’每美元每瓦性能’（performance per watt per dollar）的框架来看，这种差距会明显缩小。” 关键洞察：中国电力成本相对更低，能效在整体算力经济模型中的权重不像欧美那样高。供给侧瓶颈：从设备到产能瓶颈领域现状进展外延设备已突破北方华创、中微公司可提供刻蚀设备已突破 SiCarrier等本土厂商光刻设备仍受限依赖ASML DUV 检测设备仍受限 KLA设备供应受限 EDA软件仍受限华大九天仅1-2%份额最致命的瓶颈： EDA三巨头（Cadence、Synopsys、Siemens）占全球80%+份额美国已对GAA晶体管设计工具实施出口管制目标是阻止中国推进3nm/2nm节点产能转移：从海外回归本土大摩发现一个重要趋势： “多家国内AI芯片厂商已经开始将部分生产从海外迁回中国大陆，利用SMIC的N+1（约12nm）和N+2（约7nm）工艺节点。” SMIC产能预测：年份 N+2产能（万片/月） 2025 2.2 2026 4.0 2027 5.1 💰 国产AI GPU的需求有多大？两大驱动力 1. 技术自主化（政策驱动） AI芯片被视为国家安全关键资源本土芯片+本土晶圆厂的共生关系 2. 商业回报（市场驱动） ...

SemiAnalysis专访深度解读：为什么H100比3年前更值钱？

当所有人都在讨论GPU折旧周期时，SemiAnalysis创始人Dylan Patel抛出了一个反直觉的结论：“H100今天比3年前更值钱。” 这不是炒作，这是AI算力经济学的新范式。 🔥 核心悖论：为什么GPU越老越值钱？ Michael Burry的误判著名空头Michael Burry曾断言GPU折旧周期只有3年。但Dylan Patel用数据反驳： “H100的租赁价格从2024年的$2/小时，涨到了2026年的$2.40/小时。而它的部署成本只有$1.40/小时（5年折旧）。” 关键洞察：GPU的价值不取决于它的制程新旧，而取决于它能产出的Token价值。 Token价值重估模型 H100产出效率市场价值 GPT-4 基准 $X/小时 GPT-5.4 2倍Token + 更高质量 $2X/小时老模型GPT-4的TAM（总可寻址市场）只有几十亿美元，但GPT-5.4的TAM超过1000亿美元。结论：当模型能力提升速度超过硬件折旧速度时，旧GPU反而升值。 ⚔️ OpenAI vs Anthropic：两种算力哲学的对决 OpenAI的激进策略策略具体做法结果长期合约 5年锁定成本锁定在低水平广泛布局 Microsoft + Google + Amazon + CoreWeave + Oracle + SoftBank Energy 算力充足风险承受先签大单再找钱已融资$1100亿 Dylan Patel评价： “OpenAI签了这些疯狂的交易。他们去找了SoftBank Energy——一家从未建过数据中心的公司——为他们建数据中心。” Anthropic的保守策略策略具体做法结果谨慎签约短期合约、非独家灵活性高优质供应商只选Google和Amazon 供应商有限风险控制 purposely undershoot 现在算力紧张 Dario Amodei（Anthropic CEO）的原话： ...

GTC 2026深度解读：老黄的'算力永动机'与万亿Token帝国的野心

读完老黄2万字的GTC演讲全文，我意识到一件事：英伟达不是在卖芯片，它是在定义AI时代的"石油美元"体系。Token就是新的大宗商品，而英伟达想成为唯一的"炼油厂"。这不是技术发布会，这是一场关于AI世界秩序的重构宣言。 🔥 开场：从"芯片公司"到"AI基础设施公司"的蜕变老黄这次开场没有举芯片，而是花了整整一个小时回顾历史——从25年前的GeForce，到20年前的CUDA，再到今天的OpenClaw。他说了一句意味深长的话： “GeForce是英伟达史上最成功的市场推广项目。我们从你们还买不起产品的时候就开始培养未来的客户——是你们的父母代替你们成为了英伟达最早的用户。” 翻译：英伟达最擅长的不是造芯片，而是培养生态、锁定用户。这个飞轮逻辑贯穿了整个演讲：装机量吸引开发者开发者创造算法突破突破催生新市场新市场扩大装机量老黄直言：“六年前发布的Ampere架构GPU，其云端价格反而在上涨。"——这就是生态锁定的力量。新判断：英伟达的护城河不是技术领先，而是用二十年时间培养的CUDA生态。这就是为什么老黄敢断言"到2027年至少有1万亿美元的需求”——不是预测，是订单已经摆在桌上。 💰 Token工厂经济学：英伟达在定义AI世界的"石油美元" 老黄抛出了一张"全球CEO都要仔仔细细研究"的图——Token工厂经济学。这不是技术概念，这是一套完整的定价权体系：层级定价用途免费层高吞吐、低速度获客引流中级层 ~$3/百万token 普通用户服务高级层 ~$6/百万token 专业应用高速层 ~$45/百万token 复杂推理超高速层 ~$150/百万token 关键任务老黄的原话：“在这个Token工厂里，你的吞吐量和Token生成速度，将直接转化为你明年的精确收入。” 核心洞察：英伟达在把AI算力商品化、期货化、层级化——就像石油市场有布伦特原油、WTI原油，有不同的精炼品级。而英伟达想成为什么？唯一的"炼油厂"。老黄强调：“英伟达系统已经证明了自己是全球成本最低的基础设施。"——这不是技术自信，这是定价权宣言。 🏭 Vera Rubin：从"卖芯片"到"卖发电厂” 老黄说了一句话，暴露了他的野心： “去年提到Hopper，我会举起一块芯片，那很可爱。但提到Vera Rubin，大家想到的是整个系统。” 7种芯片、5种机架、端到端优化成一台巨型计算机——这不是卖芯片，这是在卖AI发电厂。组件功能战略意义 Rubin GPU 3.6 exaflops算力计算核心 Vera CPU 88核+LPDDR5 全球唯一用LPDDR5的服务器CPU，控制节点 Groq 3 LPU 500MB SRAM 推理加速器，填补极速推理空白 BlueField 4 DPU+CX9 存储和网络基础设施 Spectrum X CPO 共封装光学交换机全球首款量产，打破带宽瓶颈 Kyber机架 144颗GPU全液冷安装时间从2天→2小时最震撼的数据：“短短两年时间，Token生成速率从2200万提升到7亿，350倍增长。摩尔定律同期只能带来1.5倍。” ...

GTC 2026：老黄的'算力永动机'还能转多久？

当3万人的会场挤到WiFi瘫痪，当黄仁勋迟到15分钟，当技术博主质疑"AFD方案经不起推敲"，当华尔街分析师说"英伟达现在处境很尴尬"——NVIDIA的GTC 2026，这场AI界的"年度朝圣"，正在从"信仰充值大会"变成"架构质疑现场"。 🔥 开场：CUDA 20年的情感绑架与一场精心设计的焦虑老黄开场没发新卡，而是大打感情牌——庆祝CUDA 20周年。从25年前的GeForce游戏显卡，讲到20年前的CUDA，讲到10年前的RTX，讲到今天的OpenClaw。 “GeForce是英伟达史上最成功的营销活动。” 这话听着像自嘲，实则是精准的情感绑架。没有当年游戏玩家买显卡的钱，哪来今天满世界的AI计算？翻译一下：你们欠我的。但前菜过后，正餐立刻端上：到2027年，全球算力需求将高达1万亿美元，英伟达订单积压将达到1万亿美元——是去年同期预测的两倍。翻译：你们得更疯狂地买我的卡，而且要买更多。老黄甚至给出了"全球CEO都要仔仔细细研究的一张图"——Token工厂经济学：免费层：高吞吐、低速率，用来获客中间层：$3-$6/百万Token，服务普通用户高级层：$45/百万Token，大模型深度推理顶级层：$150/百万Token，超长研究任务点评：这不是技术发布，这是商业模式的焦虑营销。 🖥️ 硬件：从"按张卖"到"按柜卖"的算力霸权 Vera Rubin：7种芯片拼出的算力怪兽如果你还停留在"买张显卡插在电脑里"的思维，格局确实小了。现在的AI算力，按"柜"卖。 Vera Rubin是英伟达有史以来最复杂的AI计算系统，7种芯片，5种机架，垂直集成、端到端优化成一台巨型计算机：组件规格 Rubin GPU 3.6 exaflops算力，260TB/s全对全带宽 Vera CPU 88核，全球唯一采用LPDDR5的服务器处理器 Groq 3 LPU 500MB片上SRAM，150TB/s带宽 BlueField 4 DPU + CX9 AI原生存储基础设施 NVLink 6 Switch 大规模MoE模型所需的GPU互联 Spectrum X CPO交换机全球首款量产共封装光学交换机最震撼的形态是Kyber机架——垂直安装，前面全是算力卡，后面全是NVLink互联网络，一个机柜塞了144颗GPU。十年前的DGX-1：8块Pascal GPU，170 TFLOPS。十年后的Vera Rubin NVLink 72：3.6 ExaFLOPS。十年，算力增长四千万倍。老黄说：“去年我说Hopper的时候，会举起一块芯片，那很可爱。但这是Vera Rubin，当人们想到Vera Rubin，人们想到的是整个系统。” 点评：这不是卖芯片，这是卖算力发电厂。被砍掉的Rubin CPX：DDR涨价引发的架构回调一个容易被忽略的细节：Rubin CPX方案被取消了。 ...

国产AI芯片双雄对决：华为950 vs 寒武纪590，英伟达笑而不语

🔥 引子：国产芯片的内卷时刻 2025年，国产AI芯片迎来最尴尬的高光时刻。华为昇腾950和寒武纪MLU 590几乎同时亮剑，两家都在喊"对标英伟达"，但明眼人都知道——真正的对手不是彼此，而是那个被制裁了还在吊打全世界的绿厂。今天这篇文章，基于「科技沉思录」的深度分析，把华为950和寒武纪590的底裤扒干净，顺便聊聊：为什么国产芯片永远在追赶，永远追不上？ 📊 三方混战：数据不说谎核心性能对比（训练场景）参数英伟达 H100 华为 950 寒武纪 590 FP16算力 1,979 TFLOPS ~800 TFLOPS ~400 TFLOPS FP8算力 3,958 TFLOPS ~1,600 TFLOPS ~800 TFLOPS 显存容量 80GB HBM3 64-128GB 64-96GB 显存带宽 3.35 TB/s ~1.6 TB/s ~1.8 TB/s 互联带宽 900 GB/s (NVLink) 1,200 GB/s ~800 GB/s 功耗 700W 400W 350W 单价 $25,000+ ~¥120,000 ~¥80,000 犀利点评：华为950：算力只有H100的40%，但功耗只有57%，能效比其实还行。问题是，你拿400W打700W，赢了能耗输了性能，这叫什么胜利？寒武纪590：算力只有H100的20%，价格倒是便宜一半，但便宜没好货在AI芯片领域是铁律。省下的钱，不够填生态迁移的坑。 “国产芯片的性价比，往往体现在’性’不够，‘价’来凑。” 🏭 制程与供应链：制裁下的众生相制程对比维度英伟达 H100 华为 950 寒武纪 590 制程 4nm (台积电) 7nm (中芯) 7nm (台积电/中芯) 下一代 3nm (B100) ❌ 制裁锁死可向5nm演进 HBM来源 SK海力士/三星 ✅ 自研 ❌ 外采晶圆供应台积电优先中芯国际台积电+中芯关键洞察： ...