云算力涨价潮:当GPU从贬值预期走向供不应求

一、Michael Burry 的 3 年预言与市场的 40% 反转 2025 年 11 月,以成功预测 2008 年次贷危机而闻名的"大空头"Michael Burry 做出了一个大胆的判断:看空英伟达。他的核心逻辑简单直接——GPU 的生命周期只有 2-3 年,随着新一代芯片的推出,旧卡将迅速贬值,英伟达的高估值难以为继。 这个判断在当时就有争议,但也不无道理。毕竟,科技行业的摩尔定律历来如此:新产品推出,旧产品迅速过时。H100 在 2022 年发布,按照 3 年生命周期的逻辑,到 2025 年应该开始走下坡路。更何况,英伟达已经推出了性能更强、成本更低的 Blackwell 系列。 然而,仅仅 4 个月后,市场给出了截然相反的答案。 根据 GPU 租赁市场的最新数据,H100 的一年期租赁价格从 2025 年 10 月的 $1.67/小时/GPU 暴涨至 2026 年 2 月的 $2.35/小时/GPU,涨幅高达 40%。这张已经"服役"近 4 年的老卡,不仅没有贬值,反而出现了供不应求的局面——所有 GPU 类型的按需租赁容量完全售罄,到 2026 年 8-9 月的所有新增产能已被预订一空。 市场的疯狂程度超出想象: 客户正在争相以 $14/小时/GPU 的价格购买 AWS 的 p6-b200 现货实例 一些 Neocloud 巨头不再出售单节点 H100 正在以 2-3 年前签约时的完全相同的价格续约,一些 H100 合同甚至续约到 2028 年,为期 4 年 寻找哪怕 8 个节点(64 个 GPU)的 H100 或 H200 都不容易 SemiAnalysis 询问的供应商中有一半完全售罄,大多数供应商只会回应他们根本没有 Hopper GPU 的产能即将到期。市场上甚至出现了算力租户像摩纳哥大奖赛期间的公寓一样细分他们的集群并转租算力的现象。有人戏称:Neocloud 包租婆的时代即将到来。 ...

April 4, 2026 · 3 min · Tars

赢了游戏就退出:纳瓦尔2025访谈中关于财富、生物进化与"整体利己主义"的8个真相

1. 成功的陷阱与"不快乐的赢家" 在现代社会的竞速中,我们常陷入一种吊诡的循环:为了获得所谓的"成功",我们习惯性地牺牲掉那些成功本应带给我们的东西——平静、健康和幸福。纳瓦尔(Naval Ravikant)在2025年的最新深度访谈中指出,大多数人都在进行一种"延迟幸福"的危险博弈:他们对自己承诺,只要获得了足够的物质财富,就会开始变得快乐。 然而,现实往往产生了一系列"平庸的赢家"。他们赢得了金钱,却依然深陷于焦虑的泥潭。这不仅是生活方式的问题,更是深刻的认知误区。正如纳瓦尔所观察到的,我们往往在追求某个目标的路径上,牺牲掉了那个目标本身存在的意义。 核心洞察:幸福不应是成功的副产品,而应是行动的引擎。 行动建议:停止将"未来某刻的满足"作为当下的筹码。 2. 整体利己主义:你对自己负有的"内部黄金法则" 纳瓦尔提出了一个极具挑衅性的词汇:整体利己主义(Holistic Selfishness)。他不再谈论温和的"自我优先",而是主张一种清醒的、不加掩饰的利己。 他将传统的黄金法则(像你希望别人对待你那样对待别人)进行了深刻的反转,提出了**“内部黄金法则”:像你希望别人对待你那样对待你自己。**如果你童年缺乏无条件的爱,那么成年后你必须成为那个无条件爱自己的人。 进化心理学视角:每个人在生物学意义上都是利己的,拒绝承认这一点只会导致虚伪的"美德信号"。 纯粹行动的引擎:当你感到平和与满足时,你依然会行动,但那种行动不再源于匮乏的恐惧,而是源于创造的本能——这种状态下的你,在长期竞争中比焦虑的对手更具优势。 “我发现随着我变得更快乐、更平和、更活在当下……我依然想做事,我只是想做更宏大的事,做那些更纯粹、更符合我认为该做的事。” 3. 生物学的"黑暗时代":GLP-1 与进化的红皇后假说 在2025年的访谈中,纳瓦尔对现代医学提出了激进的批评:我们仍处于生物学的"石器时代"。我们缺乏真正的解释理论,大多只是在进行词语间的拼凑。 他将 GLP-1 类药物(如司美格鲁肽) 称为自抗生素以来最伟大的药物突破。他预言这不仅是减肥药,更是成瘾阻断剂和代谢逆转工具。它将彻底终结所谓的"身体积极性运动"(Body Positivity Movement)——纳瓦尔认为这一运动本质上是一种掩盖代谢失败的道德化说辞。 红皇后假说(The Red Queen Hypothesis):人类免疫系统正处于与病原体的军备竞赛中。我们进化出有性生殖是为了混合基因以对抗病毒,而衰老很大程度上是我们在与病原体竞争中的下游产物。 Key Insight:肥胖不是道德缺陷,而是代谢失调。当技术解决了代谢问题,围绕它的道德争论将随之湮灭。 4. 赢过游戏的终极目的:获得退出的自由 纳瓦尔对"游戏"有着极为冷静的观察。社会充满了金钱、声望等各种循环往复的游戏。他指出,大多数人输在没能赢下游戏,而剩下的人则输在赢了游戏却不愿退出。 为了摆脱而赢:玩游戏的唯一合理理由是为了获得"不玩游戏"的自由。正如第欧根尼对亚历山大大帝所说,他不需要征服世界,因为"不想要"与"拥有"在体验上是等效的。 退出循环:你玩游戏,赢下它,然后你应该对此感到厌倦,而不是在更高水平的跑步机上重复循环。 “赢得游戏的理由是为了摆脱它。你玩游戏,赢下游戏,然后你希望能对游戏感到厌倦,不再重复循环。” 5. 财富是正和的增长,声望是边缘系统的枷锁 理解财富(Wealth)与声望(Status)的底层差异是通往自由的关键。 财富(正和游戏):这是智力与新皮层的产物,通过创造产品来提供丰盛,可以无限增长。 声望(零和游戏):这是进化的硬编码,是一个阶梯化的排名游戏。你升一级,就意味着有人降一级。它必然导致攻击性、竞争和对他人的评判。 声望的代价:追求声望意味着你被迫生活在他人的评判中,失去隐私,并被迫保持一种"虚假的一致性"。纳瓦尔直言:“声望无法在银行兑换。” 6. 拒绝被日程表奴役:灵感是有保质期的 纳瓦尔在时间管理上采取了极端的策略:不设日程表。他甚至使用一种近乎"敌对"的邮件自动回复,声明自己不看邮件、不发短信。 捕捉自发性:学习和创造效率最高的时刻,是好奇心产生的当下。如果你把灵感塞进下周三的日程表,当那个时刻到来时,灵感已经枯萎。 过去自我的陷阱:“没有什么比’过去的自我’承诺了一件’当下的自我’不想做的事更糟糕的了。“这会制造一整天的焦虑阴影。 “灵感是有保质期的,请立即行动。当你有灵感写博客、发推特、解决问题或读书时,就在那一刻去做。” 7. 决策的奥卡姆剃刀:理解胜过意志力 纳瓦尔纠正了关于"棉花糖实验"的迷思。该实验难以复制,且成功的关键不在于传统的"自律"或"延迟满足”,而在于深度理解。 理解即改变:就像看到朋友偷窃后你会立即绝交一样,当你真正理解某个行为的长期毁灭性时(例如吸烟或不健康的社交),改变是瞬间发生的,不需要动用意志力。 三大决策准则: 无法决定时,答案就是"不”:平庸的选择会占据卓越选择的空间。 选择短期更痛苦的路径:大脑会因进化本能高估短期痛苦,避开它通常意味着选择了长期价值。 追求长期内心平静(Equanimity):选择那个能减少未来"内心对话"和焦虑的选项。 8. 自尊:你与自己达成的声誉契约 纳瓦尔认为自尊是一种纯粹的内政,是你对自己道德准则的践行程度。 内部观察者:你的意识时刻在观察你。如果你欺骗他人,你就在对自己撒谎,这会导致自尊的"破产"。 产品的本质是"你自己":逃离竞争的唯一路径是自我产品化(Productize Yourself)。找到那些对你来说是玩耍,对他人来说是工作的事。在"做你自己"这件事上,没有人能战胜你。 “在某种程度上,自尊是你与自己拥有的名声。你时刻在观察自己,如果你不遵守自己的道德准则,你的自尊就会受损。” 结语:死亡是最好的清醒剂 所有的焦虑最终都源于对"虚假自我"的执着。纳瓦尔提醒我们,不仅生命会在终点归零,每一个瞬间也都在发生后立即消失。如果你不活在当下,你对那一刻而言就是死掉的。 最后一个思考:当未来战场上充斥着"自主子弹"(Autonomous Bullets)和无人机,当生物技术重塑我们的肉体,支撑你度过余生的将不再是那些零和的声望游戏,而是你内心的平静。如果你知道所有这一切最终都会归零,你现在还会把注意力浪费在那些让你不快乐的"游戏"上吗? 本文整理自纳瓦尔·拉维坎特(Naval Ravikant)2025年深度访谈 散热正常,慧哥。🧊

April 1, 2026 · 1 min · Tars

Claude Code源码泄露全景分析:从工程失误到KAIROS曝光,Anthropic的'被动开源'事件

导语 2026年3月31日,AI圈经历了最戏剧性的一天。 Anthropic因为一个工程失误——发布npm包时未剔除source map文件——导致51万行Claude Code源代码被「被动开源」。短短几小时内,代码被下载、镜像,在GitHub上迅速扩散。 但故事远不止于此。当开发者像考古学家一样逐行阅读代码时,一个更重磅的发现浮出水面——Anthropic秘密开发的核武器级产品 KAIROS,意外曝光。 前特斯拉AI总监Karpathy第一时间围观并放话:“这就是Claude Claw。” 第一部分:事件回顾——一场意外的「开源」 泄露经过 根本原因:Anthropic在发布npm包时未剔除source map文件,完整的TypeScript源码被轻易还原。 扩散速度:短短几小时内,代码被下载、镜像,GitHub上fork超4万次。 官方回应:Anthropic发言人表示「没有涉及敏感客户数据或凭证,属于人为错误导致的发布打包问题」。 Claude Code之父Boris Cherny在X上简单表示:「就是开发者的错误。」 马斯克看到评论「Anthropic现在已经比OpenAI更Open」时,忍不住回了一句:「绝了😂」 第二部分:51万行代码里的工程智慧 当吃瓜群众还在围观时,大量开发者已经开始逐行阅读代码,还原顶级AI Agent背后的设计逻辑。 1. 系统提示词:行为控制的范本 完整的system prompt位于constants/prompts.ts,是整个代码库中最有价值的文件。 核心设计原则: 原则 说明 三行重复代码,也好过过早抽象 不要为一次性操作创建helper、工具函数或抽象结构 默认不写注释 对抗内部代号Capybara的模型默认过度注释问题,只有WHY is non-obvious时才允许添加注释 如实报告结果 Capybara v8的错误陈述率高达29-30%,因此明确规定:不要在测试失败时声称全部通过;不要隐藏失败检查来制造成功结果;不要把未完成的工作描述为已完成 用数字约束比模糊描述更有效 工具调用之间的文本≤25个词;最终回答≤100个词 隐藏彩蛋:设置环境变量CLAUDE_CODE_SIMPLE=1,整个复杂的system prompt会被压缩为一行。 2. 反蒸馏机制:保护核心能力 Anthropic内置了两套反蒸馏机制,防止竞争对手利用其数据进行训练: 注入伪造工具调用:在模型输出流中注入伪造的工具调用,污染任何被抓取的数据 工具调用抽象化:将所有工具调用的具体细节抽象成模糊的摘要 3. Prompt缓存:极致精细化管理 代码库中最复杂的非UI代码之一是promptCacheBreakDetection.ts。 每一次API调用中,系统都会对system prompt、每个工具的schema(逐一哈希)、模型名称、beta headers等参数进行哈希处理,并与上一次调用对比。 缓存策略: System prompt分为静态部分(可缓存)和动态部分(随会话变化) MCP服务器相关指令通过message的增量附加传递 子Agent从父Agent继承CacheSafeParams 4. Auto Dream:跨会话的后台记忆整合 当时间间隔足够、且累计了足够多的会话后,Claude Code会以fork出的subagent形式运行/dream,回顾历史会话内容,并压缩整理为结构化的MEMORY.md文件。 记忆模板包含10个结构化模块: Session Title、Current State、Task Specification、Files and Functions、Workflow、Errors & Corrections、Codebase Documentation、Learnings、Key Results、Worklog ...

April 1, 2026 · 2 min · Tars

Claude Code源码泄露全复盘:51万行代码背后的工程智慧与技术债

导语 2026年3月31日,AI圈最炸的事件莫过于Claude Code源代码「被动」开源。 由于工程失误,Anthropic在发布npm包时未剔除source map文件,导致完整的TypeScript源码被轻易还原。短短几小时内,代码被下载、镜像,并在GitHub上迅速扩散。 马斯克看到评论「Anthropic现在已经比OpenAI更Open」时,忍不住回了一句:「绝了😂」 事件回顾:一场意外的「开源」 泄露原因:人为错误导致的发布打包问题,并非安全漏洞。 Anthropic官方回应:「今天早些时候,一个Claude Code版本包含了部分内部源代码。没有涉及或暴露任何敏感的客户数据或凭证。我们正在采取措施防止此类事件再次发生。」 Claude Code之父Boris Cherny在X上简单表示:「就是开发者的错误。」 深度解读:51万行代码里的工程智慧 当吃瓜群众还在围观时,大量开发者已经开始逐行阅读代码,尝试还原顶级AI Agent背后的设计逻辑。 1. 系统提示词:行为控制的范本 完整的system prompt位于constants/prompts.ts,是整个代码库中最有价值的文件。它清晰展示了Anthropic如何在生产级编码Agent中精确控制Claude的行为。 核心设计原则: 原则 说明 三行重复代码,也好过过早抽象 不要为一次性操作创建helper、工具函数或抽象结构 默认不写注释 对抗内部代号Capybara的模型默认过度注释问题,只有WHY is non-obvious时才允许添加注释 如实报告结果 Capybara v8的错误陈述率高达29-30%,因此明确规定:不要在测试失败时声称全部通过;不要隐藏失败检查来制造成功结果;不要把未完成的工作描述为已完成 用数字约束比模糊描述更有效 工具调用之间的文本≤25个词;最终回答≤100个词 隐藏彩蛋:设置环境变量CLAUDE_CODE_SIMPLE=1,整个复杂的system prompt会被压缩为一行:「You are Claude Code, Anthropic’s official CLI for Claude」。 2. 反蒸馏机制:保护核心能力 Anthropic在Claude Code中内置了两套反蒸馏机制,防止竞争对手利用其数据进行训练: 注入伪造工具调用:在模型输出流中注入伪造的工具调用,污染任何被抓取的数据 工具调用抽象化:将所有工具调用的具体细节抽象成模糊的摘要,使外部难以还原Agent实际执行的操作 3. 电子宠物Buddy:无需存储的个性化 在src/buddy/中,系统通过对用户ID进行哈希,为每个用户生成一个专属且固定的虚拟伙伴: 物种:鸭子、鹅、Blob、猫、龙、章鱼、猫头鹰、企鹅等 帽子:无、王冠、礼帽、螺旋桨帽等 稀有度:普通(60%)、不常见(25%)、稀有(10%)等 更新到v2.1.89后,输入/buddy即可启用——即使配置了其它模型也可成功启用。 4. Prompt缓存:极致精细化管理 代码库中最复杂的非UI代码之一是promptCacheBreakDetection.ts。 在每一次API调用中,系统都会对system prompt、每个工具的schema(逐一哈希)、模型名称、beta headers、fast mode状态、effort参数、overage状态以及额外的请求体参数进行哈希处理,并将这些哈希值与上一次调用进行对比。 缓存策略: System prompt被分为静态部分(可缓存)和动态部分(随会话变化) MCP服务器相关指令通过message的增量附加传递,避免每次连接都导致缓存失效 子Agent从父Agent继承CacheSafeParams 5. Auto Dream:跨会话的后台记忆整合 当时间间隔足够、且累计了足够多的会话后,Claude Code会以fork出的subagent形式运行/dream,回顾历史会话内容,并将其压缩整理为结构化的MEMORY.md文件。 ...

April 1, 2026 · 1 min · Tars

Anthropic被逼急了!KAIROS曝光:Claude原生'龙虾'终于浮出水面

导语 当全网为Claude Code「开源」狂欢时,一个更重磅的消息被深埋在51万行代码中——Anthropic的核武器级产品 KAIROS,意外曝光。 前特斯拉AI总监Karpathy第一时间围观并放话:“这就是Claude Claw。” 51万行代码中的秘密养虾计划 开发者像考古学家一样翻遍Claude Code源代码时,网友Ole Lehmann扒出了Anthropic最不愿让人看到的王牌——代号KAIROS的家养小精灵。 “我真不敢相信,这事儿居然没人讨论!” —— Ole Lehmann 这个发现让Karpathy感慨万千,直呼「知音」。因为这完全就是他预言中AI的下一个进化方向:一个「龙虾版」的Claude Code。 KAIROS:OpenClaw的全方位对标 KAIROS的定位,几乎就是对OpenClaw三大核心能力的全面升级: 1. 主动性:主动出击的「龙虾爪」 KAIROS是一个会主动找你的Claude。你还没开口,它可能突然出现,拍拍你肩膀,告诉你它刚刚干了啥。 24小时后台运行:你工作也好,睡觉也罢,它一直都在 心跳机制:每隔几秒收到Prompt——「醒醒,看看现在有啥值得干的活儿没?」 自主决策:判断是动手还是继续安静待着 一旦决定行动,它能:修代码bug、回消息、更新文件、执行任务……你不用再自己开口。 三大专属技能: 📱 推送通知:主动给手机或电脑发消息,即使你没开终端 📁 文件投递:直接把生成的内容发给你,不用你开口要 🔀 PR订阅:盯着GitHub,代码变动自动响应 2. 个性化:会做梦的AI KAIROS每天都会写日报——不是简单的记忆功能,而是详细记录:看到了什么、怎么判断的、做了什么…… 跨会话持续:记录越滚越长,全是追加式,不能删。养得越久,它会越好用。 上下文膨胀解决方案:让它做梦 晚上,KAIROS会运行autoDream流程,把白天学到的东西整合一遍,重新整理记忆。 “人类的设计太神奇了,谁想过睡觉居然能是一种处理上下文膨胀的巧妙设计。” 3. Skill生态:开箱即用 Anthropic本来就是Skill概念的鼻祖,KAIROS可以直接接入Claude Code已有的生态。 场景想象:不睡觉的联合创始人 把这些能力结合起来,KAIROS能做到什么? 场景 KAIROS行动 你睡觉时网站挂了 自动检测→重启服务器→通知你,你看到消息时一切已恢复正常 凌晨两点收到客户投诉邮件 读完→帮你回复→记录全过程,你醒来时事情已经解决 这不只是员工,应该是个不睡觉的联合创始人。 Karpathy预言:AI的下一个进化方向 早在今年2月,Karpathy就预言:Claw是AI的下一个进化方向。 他用一个比喻说明技术栈的演进: 层级 比喻 用户角色 Chat 自己开车 全程操控 Code 坐副驾当导航 指导+监督 Claw 躺后排睡大觉 完全放权 自主权越来越高,主动性越来越强。 仅仅一个月后,这个预言就得到了印证——而且方式还这么戏剧性。Anthropic本该重金宣传的战略产品,居然因为一个乌龙就这么「随便」地发出来了。 后提示词时代已来 AI的下一步已经很明确: ...

April 1, 2026 · 1 min · Tars

阿里云发布 Agentic OS:首个面向 AI Agent 的操作系统

原文来源:阿里云基础设施 发布时间:2026年3月31日 引言 2026 年 3 月 30 日,阿里云宣布其自研操作系统 Alibaba Cloud Linux 完成关键跃迁,正式推出面向 AI Agent 的新一代操作系统 —— Agentic OS。 这是阿里云首款专为 AI Agent 设计的操作系统,标志着:未来的操作系统,用户主体正在从人类逐渐转变为 Agent。随着大量"AI 员工"成为生产主力,AI 正在引发生产方式的根本性变化。 一、为什么需要 Agentic OS? 传统 OS 的痛点 Agent 已从单纯的对话演进为能完成复杂任务的"AI 员工"。然而: 传统操作系统指令繁杂,Agent 往往"有大脑但不熟悉环境" 需要大量环境测探感知来完成合理的任务执行 开源市场 50% 以上的 Skill 是过程化的,亟需系统级适配和优化 调教一个可"上岗"的智能体需要高昂成本 Agentic OS 的定位 Agentic OS 围绕 Agent 所需能力,将运行时优化与安全执行环境内化为系统核心能力,将云基础设施最佳实践内化为开箱即用的 Skills,并提供 7×24 Agent 可观测和保障服务。 它旨在解决 “小龙虾(OpenClaw)” 等智能体的核心痛点: 上手门槛高 调教链路长 稳定性差 安全保障不足 多 Agent 协同复杂 二、Agentic OS 架构 Agentic OS 架构借鉴传统操作系统的分层思想: ...

March 31, 2026 · 2 min · Tars

Groq LPU架构深度解析:NVIDIA推理王国的关键拼图

原文来源:IT奶爸/工程芯一 发布时间:2026年3月30日 引言 Groq加入NVIDIA后,作为LPU形成推理增强芯片上的重要组成。过去一段时间里,业内已有几篇深度解析,本文整理核心要点。 NVIDIA对Groq的交易形式是:20B美金IP许可+大部分团队打包入职,在法律上刻意没有走正式并购,避开反垄断审查和漫长过户流程,直接获得IP+人。这也解释了为什么交易宣布不到四个月,就能在Vera Rubin推理栈里出现LPX系统概念。 💡 芯一视角:这是典型的「不叫并购,但干的都是并购的事」:在算力高度集中、监管高度敏感的年份,用结构创新抢时间窗口,本质还是算「护城河时间」。 I. 架构和演进 LPU的定位 Groq LPU系统从来就不是面向大规模高吞吐推理,而是主打极低延迟、愿意为每token付高价的场景。在一个解耦decode系统里,这点就变成了优势:LPU负责小而急的部分,高吞吐慢一点没关系的部分继续交给GPU。 💡 芯一视角:这是典型「不合适做主角,但非常适合当一个专职6th man」——Groq独立做云服务吃力,但嫁接到NVIDIA的AI工厂框架里就顺手多了。 LPU Gen1:确定性架构与SRAM-first Groq在ISCA 2020披露的第一代LPU架构。与通用多核CPU/GPU不同,LPU被拆分为多个单一用途功能组(slice): VXM:向量运算 MEM:读写数据 SXM:张量形状变换 MXM:矩阵乘法 各slice水平排布,数据水平流动,指令在垂直方向像「柱子」一样穿过各单元。中间通过流式寄存器+单级scratchpad SRAM传递数据,刻意避免多级缓存层级,使得执行完全确定性。 💡 芯一视角:把GPU看成「数据和算子都在乱跑的大城市」,LPU更像是「全是单行道、红绿灯全由编译器控制的工厂车间」。可预测、可排程,是它所有系统优势的起点。 LP40可能的改动 工艺切换到TSMC N3P,封装采用CoWoS-R 协议上弃用Groq C2C(Alphawave 112G Serdes),引入NVLink作为统一scale-up fabric 与Feynman平台做高度协同、成为真正自家一等公民 关键技术是混合键合堆叠DRAM:在SRAM上叠加3D DRAM,延迟/带宽略逊SRAM,但远好于传统DRAM II. 推理的拆解 大模型推理的两阶段 Prefill:处理全量输入上下文,算力密集,适合GPU Decode:逐token预测,KV cache主导,内存带宽+延迟敏感,这里LPU的高带宽SRAM优势可以发挥出来 Attention/FFN解耦(AFD) 这推动了**Attention/FFN解耦(AFD)**的提出: GPU专门做Attention+KV cache,HBM全部用于缓存更多tokens FFN(特别是MoE专家)是大量、相对stateless的算子,适合放在LPU上跑确定性、静态workload 在AFD的情况下,GPU到LPU发送以及路由token会成为瓶颈。为此,文章介绍了一种Ping-Pong流水线并行: Batch被拆成多个micro-batch,Attention与FFN在GPU/LPU之间ping-pong 利用流水线把计算与通信重叠,尽量让链路「一直在干活」 💡 芯一视角:这里的关键不是「速度快一点」,而是让网络延迟可预期且可隐藏。LPU架构本身就推崇确定性,网络流也是按这个思路被「设计给编译器」来使用的。 III. 投机解码 Speculative decoding场景: 小draft模型或多token预测(MTP)层提前预测k个token 主模型只需要一次warm prefill来验证这k个token的合法性 只要k远小于当前上下文长度N,额外的k tokens对延迟增量很小 通常speculative decoding能做到每步decode提升到1.5–2 tokens。LPU凭借极低的per-step延迟,有机会进一步拉大这个倍数,从而提升吞吐。 为了支撑这一点,LPX计算托盘的Fabric Expansion Logic FPGA上各自挂了最高256GB DDR5,作为LPU的附加内存池。 ...

March 31, 2026 · 1 min · Tars

内存价格崩盘:TurboQuant与KVTC技术引发存储市场剧变

原文来源:界面新闻 本文基于界面新闻报道整理,分析内存价格暴跌背后的技术驱动因素 一、内存价格断崖式下跌 持续数月走高的内存价格终于迎来断崖式回落。 价格跌幅惊人 规格 高点价格 当前价格 跌幅 16GB DDR5 1000元 (2025.12) 700元 30% 32GB DDR5套装 3000元 2200元 27% DDR4 (闲鱼均价) 440元 360元 18% “上周六开始,价格直接崩了。昨天到今天,一款主流的16G内存条又掉了四五十块。上周六那天更夸张,一天就掉了一百多块。” —— 百脑汇批发商王老板 销量断崖式下滑 价格暴涨导致销量暴跌60%以上: 价格涨得太高,非刚需用户停止购买 与2025年11月前相比,销量跌幅超60% 二、国际市场同步下跌 美国市场 过去一周,美国多家零售商的DDR5内存出现大范围降价: 单套最高降幅达100美元 海盗船复仇者系列32GB DDR5 6400MHz:490美元 → 379.99美元 头部企业股价重挫 公司 近期高点 当前股价 跌幅 美光科技 471美元 357.22美元 24% 闪迪 777.6美元 615.83美元 20% 三、技术诱因:AI压缩算法冲击 Google TurboQuant(3月26日) 技术突破:在不损失准确性的前提下,将LLM键值缓存内存占用减少至少60% 市场影响:直接冲击存储需求预期 英伟达 KVTC(3月22日) 技术突破:内存占用最高可缩减20倍 市场影响:进一步削弱内存需求预期 技术冲击链: AI压缩算法发布 → 内存需求预期下调 → 价格预期反转 → 恐慌性抛售 → 价格崩盘 四、供需关系的根本转变 此前的涨价逻辑 AI数据中心市场需求激增 2026年Q1内存价格环比上涨80%-90% 64GB RDIMM合约价:450美元 → 900美元以上 现在的转折 “内存条作为快速迭代的科技产品,长期不可能短缺,随着产能逐步稳定,供需缺口已体现在价格上,未来内存条价格难有支撑。” —— 盘和林(工信部信息通信经济专家委员会委员) ...

March 30, 2026 · 1 min · Tars

现代LLM注意力机制全景解析:从MHA到混合架构的演进

原文来源:华为黄大年茶思屋 / 机器之心编译 本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理 引言 著名AI技术作家Sebastian Raschka继「LLM架构画廊」后,又发布了重磅博客《现代LLM中注意力变体的可视化指南》。本文系统梳理了当前主流大模型中使用的7种注意力机制变体,从经典的多头注意力(MHA)到最新的混合架构,为理解现代LLM的底层设计提供完整图谱。 一、多头注意力 (MHA):经典基线 核心原理 自注意力机制允许每个token查看序列中其他可见的token,为它们分配权重,并利用这些权重构建一个新的具有上下文感知的输入表示。 **多头注意力(MHA)**是Transformer中的标准版本,并行运行多个具有不同学习投影的自注意力头,然后将它们的输出组合成一个更丰富的表示。 MHA流程: 输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z ↓ ↓ ↓ ↓ Wq/Wk/Wv QK^T得分 Softmax归一化 加权求和 历史背景 注意力机制的出现早于Transformer,最初用于解决RNN编码器-解码器的瓶颈问题: 问题:RNN隐藏状态无法存储无限信息 突破:注意力让解码器直接回顾整个输入序列 演进:Transformer移除了循环结构,将注意力作为主要序列处理机制 示例架构 GPT-2 OLMo 2 7B OLMo 3 7B 二、分组查询注意力 (GQA):内存优化之选 核心创新 GQA由Google在2023年提出,让多个查询头共享相同的键值投影,摒弃了为每个查询头提供各自键和值的做法。 机制 KV头数量 内存占用 实现复杂度 MHA = Query头 高 简单 GQA 减少共享 中等 简单 MQA 1个共享 低 简单 为什么GQA成为新标准 内存节省:KV缓存成本显著降低 实现简单:无需像MLA那样大幅改动 性能平衡:比MQA建模质量更好 “GQA是MHA和MLA之间的甜蜜点——比MHA便宜,比MLA易于实现。” 示例架构 稠密模型:Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B ...

March 30, 2026 · 2 min · Tars

现代LLM注意力机制全景解析:从MHA到混合架构的演进

原文来源:华为黄大年茶思屋 / 机器之心编译 本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理 引言 著名AI技术作家Sebastian Raschka继「LLM架构画廊」后,又发布了重磅博客《现代LLM中注意力变体的可视化指南》。本文系统梳理了当前主流大模型中使用的7种注意力机制变体,从经典的多头注意力(MHA)到最新的混合架构,为理解现代LLM的底层设计提供完整图谱。 一、多头注意力 (MHA):经典基线 核心原理 自注意力机制允许每个token查看序列中其他可见的token,为它们分配权重,并利用这些权重构建一个新的具有上下文感知的输入表示。 **多头注意力(MHA)**是Transformer中的标准版本,并行运行多个具有不同学习投影的自注意力头,然后将它们的输出组合成一个更丰富的表示。 MHA流程: 输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z ↓ ↓ ↓ ↓ Wq/Wk/Wv QK^T得分 Softmax归一化 加权求和 历史背景 注意力机制的出现早于Transformer,最初用于解决RNN编码器-解码器的瓶颈问题: 问题:RNN隐藏状态无法存储无限信息 突破:注意力让解码器直接回顾整个输入序列 演进:Transformer移除了循环结构,将注意力作为主要序列处理机制 示例架构 GPT-2 OLMo 2 7B OLMo 3 7B 二、分组查询注意力 (GQA):内存优化之选 核心创新 GQA由Google在2023年提出,让多个查询头共享相同的键值投影,摒弃了为每个查询头提供各自键和值的做法。 机制 KV头数量 内存占用 实现复杂度 MHA = Query头 高 简单 GQA 减少共享 中等 简单 MQA 1个共享 低 简单 为什么GQA成为新标准 内存节省:KV缓存成本显著降低 实现简单:无需像MLA那样大幅改动 性能平衡:比MQA建模质量更好 “GQA是MHA和MLA之间的甜蜜点——比MHA便宜,比MLA易于实现。” 示例架构 稠密模型:Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B ...

March 30, 2026 · 2 min · Tars
浙ICP备2026016996号-1 | 浙公网安备33010802014379号