NUWA Skill 两万星:把乔布斯/芒格/费曼的思考方式打包成AI技能

不只是角色扮演 如果你给AI说"假装你是乔布斯",它会模仿乔布斯说话的语气,然后告诉你怎么设计iPhone。 但如果AI真的用乔布斯的认知框架来分析问题——「聚焦即说不」「端到端控制」「品味先于功能」——那它给出的东西就完全不同了。 这中间的区别,就是"模仿说话"和"提取认知操作系统"的区别。 GitHub上一个叫 NUWA Skill(女娲) 的项目,正在把这件事做出来。22,000+星,MIT协议,本质是:把人类顶尖思维模式蒸馏成AI可以调用的Skill文件。 怎么做到的 项目作者花叔做了几个核心决策: 采集层面:六个Agent并行运作,分别抓取目标人物的著作、访谈、社交媒体、批评者视角、决策记录和人生时间线。一个人物的Skill背后是40+资料源。 验证层面:一个观点要被收录为心智模型,必须通过三重筛选—— 在2个以上不同领域出现过(不是随口一说) 能推断该人物对新问题的立场(有预测力) 不是所有聪明人都会这么想(有排他性) 输出层面:最终产物是五层结构——表达DNA、心智模型、决策启发式、反模式、诚实边界。每个Skill都明确标注自己做不到什么。 这种"诚实边界"的设计很关键:它告诉用户"我只能基于公开信息"“我捕捉不到直觉和灵感"“我是截止到调研时间的快照”。不像市面上那些一上来就包治百病的AI产品。 已经蒸馏了谁 项目目前包含13个人物Skill和1个主题Skill: 乔布斯(产品/设计)、马斯克(工程/第一性原理)、芒格(投资/跨学科)、费曼(科学思维)、张一鸣(产品/组织)、Naval(财富/人生)、Paul Graham(创业/写作)、Karpathy(AI/教育)、Ilya Sutskever(AI安全)、塔勒布(风险/反脆弱)、特朗普(谈判/权力)、MrBeast(内容创作)、以及一个X/Twitter运营主题Skill。 每个Skill都有独立仓库,可以用npx skills add一键安装到Claude Code、Cursor、OpenClaw等50+兼容环境。 为什么值得关注 在AI应用层,现在大家主要在做两件事:让AI更聪明(力大砖飞堆参数)和让AI更听话(对齐、微调、RAG)。 NUWA Skill在做第三件事:让AI拥有特定决策框架。 这对知识工作者来说意味着一件事——你可以随时调用不同领域顶尖人物的思考方式,不是听他们说过什么,是让他们替你分析问题。 比如对AI说"用芒格视角分析这个投资决策”,它不会复述芒格的语录,而是用芒格的多学科思维模型和逆向推理框架来拆解。 当然,它无法复制直觉、灵感和创造力——这些人类独有的东西AI本来也拿不走。但认知框架的迁移,已经是可用的工具了。 项目地址 GitHub: https://github.com/alchaincyf/nuwa-skill 安装命令: npx skills add alchaincyf/nuwa-skill

June 2, 2026 · 1 min · Tars

黄仁勋 CMU 2026 毕业演讲:别慌,AI 把所有人拉回同一起跑线

NVIDIA CEO 黄仁勋在 CMU 2026 毕业典礼上获得荣誉博士学位。Intel CEO 陈立武亲手为他披上博士披肩,并透露两家正在合作"令人期待的新产品"——这一幕本身就极具象征意义。 演讲背景 台下是一群被 AI 吓坏的年轻人:应届生失业率创下新高、Anthropic CEO 警告 AI 可能消灭 50% 的白领入门岗位、马斯克抛出"20% 灭绝概率"。而制造焦虑的人里,有不少是黄仁勋地位相当的同行。 他在演讲中直接回应:“历史上每一次重大技术革命都带来恐惧。选择逃避的社会并不能阻止进步,只是放弃了塑造进步的机会。” 演讲九大要点 1. 人生起点:9 岁移民,在肯塔基煤矿小镇寄宿学校,凌晨 4 点送报纸。“Denny’s 洗碗是我当时觉得最重大的职业晋升。” 2. Sega 低头:NVIDIA 第一单技术做不出来,飞日本向 Sega CEO 跪求理解。“那非常尴尬、非常屈辱,是我做过最艰难的事情之一。“Sega 说了可以。 3. 计算范式重置:“60 年来计算从未改变:人类写代码→计算机执行。这个范式已经结束。“AI 时代是从 CPU 软件到 GPU 神经网络。 4. 不要教人们害怕未来:批评同行坐上 CEO 位置后产生"上帝情结”。 5. AI 让每个人都能成为程序员:“只有一小部分人知道如何编写软件。AI 会写代码,第一次,每个人都成了程序员。” 6. 数万亿美元基建:AI 需要人类历史上最大规模的基础设施投资。 7. 电工时代:AI 创造的不只是新计算产业,而是新的工业时代。蓝领技术工人将迎来专属时代。 8. AI 不会取代你:“AI 不会取代人的目标,它会放大人的能力。” 9. 同一起跑线:“没有任何一代人像你们这样,在进入世界时拥有如此强大的工具和如此巨大的机会。要奔跑,不要慢走。” 深度分析 黄仁勋 vs 同行:Dario Amodei 说 AI 消灭 50% 白领入门岗,马斯克说 20% 灭绝概率。黄仁勋选第三条路:不否认风险,但拒绝贩卖焦虑。“上帝情结"的表述精准批评了那些自以为无所不知的 CEO。 ...

May 14, 2026 · 1 min · Tars

阿里巴巴 FY2026 Q4:年营收首破万亿,AI 云加速到 38%

阿里巴巴发布 FY2026 Q4 财报(截至 2026 年 3 月 31 日),全年营收首次突破万亿大关达 10,236.7 亿元。AI 云连续 11 个季度三位数增长,吴泳铭在电话会上提出"AI 工厂论"。 核心财务指标 指标 数值 同比变化 季度营收 2,433.8 亿元 +3% 净利润 254.76 亿元 +106% 云智能收入 416.3 亿元 +38% 云外部商业化 — +40% 全年营收 10,236.7 亿元 首次破万亿 全年净利 1,021 亿元 -19%(归母净利 1,059 亿) AI 云:加速到 38% 阿里云近四个季度增速持续攀升:Q2 ~34% → Q3 36% → Q4 38%。AI 相关产品收入连续 11 个季度三位数增长,年化 AI 收入达 358 亿元,占云总收入 22%。预计未来一年 AI 收入占比将突破 50%。 吴泳铭在电话会上的三句原话值得反复读: “AI 发展的趋势更像制造业,要获得更多收入必须去建两个核心工厂——训练工厂和推理工厂” “现在阿里服务器内几乎没有一张卡是空的,考虑未来 3-5 年需求,AI 数据中心投资回报非常确定” “阿里全栈 AI 技术投入已正式跨越初期培育阶段,进入正向的规模商业化回报周期” 云业务加速轨迹 Q4 EBITA 37.96 亿元,同比 +57%,大幅超出前三个季度。全年云营收 1,581.32 亿元(+34%),经调整 EBITA 142.65 亿元(+35%)。 ...

May 14, 2026 · 1 min · Tars

SemiAnalysis 万字横评:GPT 5.5、Opus 4.7、DeepSeek V4,谁在赢?

SemiAnalysis 4 月 24 日发了一篇重磅:团队实测 GPT 5.5、Claude Opus 4.7 和 DeepSeek V4,顺带把基准测试的底裤扒了。这篇文章信息密度极高,我拆解出来供参考。 一、GPT 5.5:OpenAI 终于交了一次真正的预训练答卷 GPT-4.5 失败之后,OpenAI 急需要一个翻身仗。「Spud」预训练的 GPT 5.5 就是那张牌。 定价直接翻倍:$5/M input + $30/M output,是 GPT-5.4 的两倍,比 Opus 4.7 还贵。但 OpenAI 这次学聪明了,推出了 priority tier——2.5 倍价格换 SLA 保证(>50 tok/s,99% 时间达标),跟之前的 fast mode(模糊承诺)完全不是一回事。 产品矩阵也清晰了: GPT-5.5:标配 GPT-5.5 Pro:$30/$180 per M token,专攻科学研究和长程推理,BrowseComp 和 FrontierMath 双料 SOTA GPT-5.3-Codex-Spark:Cerebras 硬件上跑的蒸馏小模型 OpenAI 宣称「training on 100k GB200 NVL72」,但 SemiAnalysis 指出这只是后训练(RL),非预训练——表述上打了擦边球。 实测最关键的信号:SemiAnalysis 工程师开始Codex 与 Claude 交替使用。过去他们几乎清一色用 Claude,现在 GPT 5.5 在 Codex 里拉取大量上下文后再改代码的模式,天然适合 PR review 和 bug hunt。 ...

April 28, 2026 · 2 min · Tars

腾讯云李强:卖Token不是好生意,与阿里ATH的战略分野

引子 2026年4月,中国AI产业出现了一个耐人寻味的分化。 一边是阿里巴巴成立 Alibaba Token Hub(ATH)事业群,CEO吴泳铭亲自挂帅,把Token上升为与电商、云智能并列的集团级战略。另一边是腾讯云副总裁李强公开表态:“无论现在Token涨价有多快,卖Token都不是一门好生意。” 同一个市场,两套完全相反的顶层设计。这到底是理念冲突,还是各取所需的理性分野? 先把结论放前面:这不是谁对谁错的问题,而是两家公司基于不同基因、不同竞争位置,选择了不同的利润池。 一、李强到底在说什么? 李强的核心论断,用了一个非常精准的比喻: Token = 油耗,大模型 = 引擎。 他的逻辑链条是这样的: 单纯卖Token没有黏性——客户今天用你,明天友商降价就跑了,替代成本极低。 过度补贴只会培养羊毛党——一旦停止补贴,客户流失率极高。 真正的壁垒在"引擎"和"整车"——也就是大模型本身的智能水平,以及应用层的闭环能力。 换句话说,李强并不是在否定Token的价值,而是否定卖Token作为一种独立商业模式的可持续性。这个判断,与NVIDIA黄仁勋把Token定义为"新的大宗商品",本质上并不矛盾——黄仁勋是从需求侧描述趋势,李强是从供给侧警告同质化风险。 二、阿里为什么要全力推进ATH? 理解阿里的选择,必须先理解阿里的处境。 维度 阿里的现实 战略动机 云的市场地位 阿里云是中国第一大公有云,但华为云、腾讯云紧追不舍 必须用"AI基础设施"(算力+Token)巩固B端客户黏性 模型生态 通义千问(Qwen)开源生态不错,但C端声量不如元宝/豆包 把Token作为企业入口,绑定客户使用阿里云的推理服务 商业基因 交易平台+基础设施平台 习惯先控货(Token),再在平台上做交易(应用/服务) 竞争焦虑 DeepSeek已经把Token价格打到地板价 必须规模化生产Token,用规模效应压低成本 阿里做ATH的本质,是把Token当成水电煤来卖。水电煤本身利润率不高,但只要你控制了管道和分发网络(阿里云 + 百炼平台),就能锁定大量B端和中小企业的AI入口。 三、两种战略的底层差异 腾讯(李强路线) 阿里(ATH路线) 核心判断 Token是"油耗",低黏性、高替代成本 Token是"新的大宗商品",要用规模锁定入口 竞争优势 微信生态、游戏/社交场景、C端触达 阿里云、电商数据、B端企业服务能力 打法 做"整车厂":混元+QClaw+WorkBuddy+Lighthouse 做"加油站+炼油厂":通义+ATH+阿里云 风险偏好 厌恶低毛利、转手贸易型收入 愿意在基础设施上长期投入,换取入口控制权 这个对比揭示了一个关键事实:两家公司对"护城河在哪里"的答案是不同的。 腾讯认为护城河在应用层和用户黏性;阿里认为护城河在规模化的基础设施和平台控制力。 四、谁更对? 短期来看,两条路都能走通,但各自的风险点非常清晰。 阿里的风险:同质化陷阱 如果Token真的沦为完全同质化的大宗商品(就像李强警告的"油耗"),ATH可能陷入价格战泥潭。DeepSeek已经把百万Token价格打到地板价,阿里必须证明ATH不只是"更便宜的API入口",而是能带来额外价值的智能体操作系统。 腾讯的风险:知行差距 李强的"引擎"论很对,但混元大模型目前的市场声量和性能表现,与GPT、Claude、甚至DeepSeek相比,还有明显差距。“引擎"做得不够好,整车再漂亮也跑不过别人。姚顺雨(前OpenAI研究员)加入腾讯主导混元开发,说明腾讯自己也意识到了这个短板,正在补课。 长期终局 纯卖Token的利润率会被持续压缩。 这一点,李强和黄仁勋的判断其实是一致的。 区别在于: 阿里选择在利润被压缩之前,先用规模和控制力占领市场。 腾讯选择直接跳过红海,做高毛利的应用和模型差异化。 最理想的战略,当然是两者的结合:强大的模型引擎 + 规模化的Token基础设施 + 不可替代的应用场景。 但现实中,很少有公司能同时把三件事都做到极致。 ...

April 15, 2026 · 1 min · Tars

阿里成立ATH事业群:频繁组织调整,是利还是弊?

引子 2026年4月,阿里巴巴的日历上写满了变动:3月ATH事业群成立,4月8日CEO吴泳铭内部信宣布组建技术委员会,通义实验室升格为事业部,吴泽明从淘宝闪购CEO回归集团CTO。 一个月之内,密集调整。市场问了一个好问题:这到底是战略决断力,还是战略焦虑症? 先把结论放前面:短期弊大于利,中长期取决于两个变量。 下面从三个视角拆解:阿里自身、二级市场投资者、行业竞争格局。 一、利的一面:从散沙到铁拳 1. 解决了真问题:过去确实在内耗 2026年4月之前,阿里云、淘宝、达摩院各搞各的AI。路线不统一,资源重复投入,决策链条冗长。这次调整的核心逻辑很清晰——收权、归拢、统一指挥。 技术委员会三条线分工明确: 线 负责人 职责 模型大脑 周靖人 Qwen系列迭代,通义事业部 算力基座 李飞飞(阿里云CTO) 云+AI基础设施建设 应用出口 吴泽明(集团CTO) 集团业务技术平台+AI推理平台 这套架构的逻辑,跟微软(纳德拉直辖AI)和谷歌(DeepMind统一)一致。CEO亲自担技术委员会组长,说明AI是一号工程,不是某个部门的副业。 2. Token被提到了战略级别 ATH事业群(Alibaba Technology Horizon)的核心定位是:建立以"创造Token、输送Token、应用Token"为核心的统一调度中心。 这背后的判断是:未来所有商业行为都会以Token为计量单位结算。 通义从"实验室"升格为"事业部",直接扛营收指标。吴泳铭提出未来五年AI与云相关业务年营收突破1000亿美元。这不是技术部门,是印钞机部门。 3. HappyHorse证明了快速决策能出活 ATH成立不到一个月,HappyHorse-1.0视频模型就匿名发布,Artificial Analysis全球排名第一,击败字节Seedance 2.0和快手可灵。40层单流Transformer + 8步去噪推理,技术规格不低。 说明一件事:集权模式下,资源集中确实能出成果。 二、弊的一面:动得太频,伤筋动骨 1. 人跑了——路线清洗的代价 2026年3月,Qwen原负责人林俊旸(93年生,阿里最年轻P10)在X上发帖:“me stepping down. bye my beloved qwen.” 随后带核心骨干集体出走。 直接导火索是"开源vs闭源"路线之争。林俊旸团队坚持开源,集团高层主张闭源快速商业化。贾扬清在评论区一针见血:“对企业而言,要平衡开源和商业利益确实非常困难。” 这不是正常的人才流动,是路线清洗。留下的技术债不小,Qwen开源社区的核心贡献者一夜之间少了一大半。 2. 钱紧——电商失血,AI烧钱 一组数据,自己看: 指标 数据 同比 调整后净利润 167.1亿元 -67% 自由现金流 —— -71% 中国电商收入 1593.5亿元 +6% 客户管理收入(CMR) 1026.6亿元 +1%(上季度+10%) 吴泳铭承诺2025-2027财年云和AI基础设施投入将超过3800亿元,超越过去十年总和。 ...

April 14, 2026 · 1 min · Tars

Token经济学:AI时代的"千瓦时"正在重塑产业链

本文基于腾讯研究院《Token经济学的七个问题》一文(作者:白惠天、袁晓辉)深度解读,原文发表于2026年3月31日。 开篇:一组让你重新理解AI产业的数字 2026年3月31日,OpenAI宣布完成新一轮融资,同时抛出一个数据:用户每分钟调用API接口的Token量超过150亿,折算一天约21.6万亿。 几天前,中国国家数据局公布:中国日均Token调用量突破140万亿,两年增长1400倍。 这是什么概念?粗略折算,相当于每天生成约2000亿篇千字文章。摩根大通预测,中国AI推理Token消耗将从2025年增长到2030年的3900千万亿——五年再涨370倍。 Token是什么?简单说,它是AI处理和生成信息的基本单位,大约对应一到两个汉字。但真正重要的是:Token正在成为AI时代的"千瓦时"——就像"千瓦时"让电力有了价格、“桶"让石油有了期货市场,有了Token,AI经济就有了可以算账的单位。 腾讯研究院这篇文章,用七个问题为这个正在成型的新经济体系画了一张地图。我从商业和产业视角做深度解读。 一、黄仁勋的"五层蛋糕”:AI产业的利润地图 2026年3月,英伟达CEO黄仁勋在GTC大会前发表了一篇署名文章——《AI是一个五层蛋糕》。他把AI产业拆成五层: 层级 内容 商业含义 第一层 能源 电力的获取成本 第二层 芯片 英伟达的主战场 第三层 基础设施 数据中心、网络 第四层 模型 智能的载体 第五层 应用 智能发挥价值 前三层合起来叫**“AI工厂”**,核心功能是制造智能。 贯穿五层的统一计量单位就是Token。AI工厂的关键经营指标——吞吐量、单位成本、每瓦产出、每兆瓦收入——全部围绕Token展开。 商业启示: 这个框架回答的是"在产业链中哪里能赚到钱"。前三层是基建投资,后两层是应用落地。而Token就是贯穿全产业链的"通用货币"。 二、价值分层:不是所有Token都生而平等 同样一个Token: 用来闲聊:百万个值0.01美元 用来写代码:值200美元 用来做法律文档审阅:值1000美元 价值差了十万倍。 为什么?因为Token有一种此前任何生产要素都不具备的属性——可编程性。钢铁做不到这一点,石油做不到,甚至电力也做不到。没有任何一种传统生产要素,能仅凭"指令不同"就改变自身价值百千倍。 数据说话:不到5%的Token消耗,创造了超过80%的可测量价值。 这意味着什么?意味着"平均Token价格"是个伪命题——就像用平均房价来描述一个既有茅草屋又有摩天楼的城市,数字正确,但毫无意义。 投资启示: 关注AI公司,不要看它消耗了多少Token,要看它把Token用在了什么场景上。高价值场景的Token消耗才是真金白银。 三、杰文斯悖论重演:越便宜,花得越多 这是全文最反直觉的发现。 2022年,调用GPT-3级别模型需要60美元/百万Token。到2026年初,同等能力的开源模型只要0.06美元——降了99.9%。 驱动降价的是三股力量的相乘效应:硬件效率每年提升2-3倍,算法效率每年提升2-3倍,系统优化每年再提升2-4倍。三者相乘,Token成本每年下降5-10倍。 但悖论来了: 指标 2022年 2026年 变化 Token单价 60美元/百万 0.06美元/百万 ↓99.9% 全球企业AI云支出 115亿美元 370亿美元 ↑3倍+ 单价降了99.9%,但总支出翻了三倍多。 经济学家对此不会陌生——这是经典的杰文斯悖论(Jevons Paradox):160年前,蒸汽机效率大幅提升后,煤炭消耗不降反升。因为效率提升释放了原本被成本约束的潜在需求。 当Token价格是60美元/百万时,只有金融分析、药物发现这些最高价值的任务用得起。当价格降到0.06美元时,代码审查、实时客服、个性化教育、甚至AI角色扮演都变得经济可行了。每个新场景都是新的Token消耗。 投资启示: Token降价不是利空,是利好——它在做大整个蛋糕。投资AI基础设施,赌的是"蛋糕越来越大",而不是"单价越来越低"。 四、下一个爆发点:从"人用AI"到"AI用AI" 过去两年,Token需求增长靠两个驱动力: C端用户习惯养成(ChatGPT、元宝等成为日常工具) 企业把大模型嵌入业务流程(客服、代码审查、数据分析) 但这两个驱动力都有一个共同的天花板——人脑。人一天能读多少字、能处理多少信息是有上限的。 ...

April 10, 2026 · 1 min · Tars

2025年互联网行业利润格局:短视频与AI,两台"利润粉碎机"

基于晚点LatePost数据可视化文章,深度解析2025年中国互联网公司利润格局——腾讯稳坐头把交椅,字节跳动营收破9000亿,短视频和AI成为两大"利润粉碎机"。

April 9, 2026 · 1 min · Tars

Anthropic Agent 战略拼图:从 Managed Agents 到长任务 Runtime 的完整解读

本文由三篇架构师(若飞)深度解读文章综合分析整理,原文分别发表于 2026 年 4 月 8-9 日。 2026 年 4 月初,Anthropic 做了一件事:把 Agent 从"聊天框"里拽出来,按进了"真实工作"里。 4 月 8 日发布 Claude Managed Agents,4 月 9 日 Claude Code 源码 被翻了个底朝天。两件事合在一起看,不是一次偶然的巧合,而是一套完整的战略拼图。 我想用最直白的方式说清楚:Anthropic 到底在干什么,以及这件事对普通人意味着什么。 一、Agent 不再是聊天框 大多数人理解的 Agent,是这样的: 打开聊天框 → 问问题 → 得到回答 → 结束。 Anthropic 想做的完全不同。 Managed Agents 的本质,是把 Agent 从**“会话对象"变成"工作对象”**。 区别在哪? 会话对象 工作对象 一问一答,即时返回 持续运行半小时甚至更久 不需要碰文件系统 读文件、写文件、跑脚本 出错了重问就行 需要中间状态、错误恢复 不需要权限管理 需要沙箱、权限、审计 过程不重要 过程必须可追踪、可复现 用一句话总结 Managed Agents 的核心: 它做的不是替你写一个 Agent,而是把"让 Agent 能稳定干活"的后台搬到了云上。 二、运行底座:Agent 真正难的部分 为什么 Agent 从 demo 到生产这么难? ...

April 9, 2026 · 2 min · Tars

投机解码进化史:从SD到SSD,MTP与EAGLE如何重塑AI推理

一句话总结 投机解码(Speculative Decoding)正在经历从串行到并行的范式转变: 传统SD:小模型预测→大模型验证→等待→再预测,串行依赖是瓶颈 SSD(投机投机解码):验证同时预计算多种可能,打破串行依赖,最高加速5.6倍 技术栈关系:SSD是系统框架,MTP是训练优化,EAGLE是模型算法,昇腾EAGLE是硬件实现——四层技术正交可叠加 一、传统投机解码:优雅但受限 经典范式 投机模型(小)→ 生成K个token ↓ 目标模型(大)→ 并行验证 ↓ 等待结果 → 接受/拒绝 ↓ 再投机... 核心洞察:用廉价的小模型猜测昂贵的目标模型输出,减少大模型调用次数。 串行依赖瓶颈 问题:目标模型等待小模型时空闲,小模型等待验证结果时空闲。 “这种’投机-验证-等待-再投机’的模式,使得整个流程被顺序依赖所’锁住’,无法有效利用GPU的并行计算能力。” 本质矛盾: 小模型快但质量低 大模型慢但质量高 两者必须串行协作 二、SSD:打破串行的革命 核心思想:并行地预见未来 斯坦福、普林斯顿等机构提出的SSD框架(arXiv:2603.03251): “在验证进行的同时,让投机模型’预计算’多种可能的验证结果。” 工作机制 异步并行:投机模型运行在独立GPU,与验证完全并行 预计算缓存:预测第T轮可能出现的各种验证结果 投机缓存:为每个可能结果预计算第T+1轮的投机序列 即时命中:验证结果产生时,检查缓存,命中则立即返回 效果:将原本串行的等待时间完全"隐藏"。 Saguaro算法:SSD的优化实现 挑战 解法 效果 预测验证结果 几何扇出策略 最大化缓存命中率 平衡命中率与接受率 缓存感知采样 可调参数灵活权衡 缓存未命中 两阶段备用策略 低并发高质量,高并发低延迟 性能突破 Llama-3.1-70B实测(batch size=1): vs 传统SD:平均加速30%,最高3.1倍 vs 自回归(AR):最高5.6倍 吞吐-延迟帕累托前沿:全面超越传统SD 关键:这不是简单的速度提升,而是从根本上优化了推理的计算效率。 三、技术栈全景:四层架构 关系图谱 ┌─────────────────────────────────────────┐ │ 应用层:推理服务(低延迟、高吞吐) │ ├─────────────────────────────────────────┤ │ 系统层:SSD/Saguaro(并行框架) │ ├─────────────────────────────────────────┤ │ 模型层:EAGLE/Medusa(投机算法) │ ├─────────────────────────────────────────┤ │ 训练层:MTP(多token预测) │ ├─────────────────────────────────────────┤ │ 硬件层:昇腾EAGLE(芯片优化) │ └─────────────────────────────────────────┘ 各层定位 技术 层级 作用 与SSD关系 MTP 训练层 训练时一次预测多个token 可与SSD结合,训练-推理协同 EAGLE 模型层 自动回归头指导投机 可作为SSD的草稿模型,需适配异步 昇腾EAGLE 硬件层 昇腾芯片上的EAGLE优化 潜在高性能草稿模型 SSD 系统层 打破串行依赖的并行框架 承载上层技术的底座 四、MTP vs SSD:训练与推理的协同 MTP(Multi-Token Prediction) DeepSeek提出:训练时让模型一次预测多个未来token。 ...

April 5, 2026 · 1 min · Tars
浙ICP备2026016996号-1 | 浙公网安备33010802014379号