DeepSeek变局：当理想主义撞上商业现实

核心洞察

DeepSeek正站在一个关键转折点。这家以"不卷"著称的AI Lab，在R1爆火后经历了核心人才流失、V4延迟发布、以及来自竞争对手的疯狂挖角。但比八卦更重要的是：梁文锋的"理想主义实验"能否在商业化压力下继续？

人才流失：谁在离开，为什么

已确认离职的核心成员

成员	角色	去向	影响
王炳宣	DeepSeek LLM核心作者	腾讯（姚顺雨团队）	历代模型训练骨干
魏浩然	DeepSeek-OCR系列核心	某大厂（待定）	多模态文档理解
郭达雅	DeepSeek-R1核心作者	某大厂（待定）	推理模型核心
阮翀	幻方元老、Janus-Pro核心	元戎启行（自动驾驶）	多模态+端侧AI

离职背后的推力

1. 财富兑现的不确定性

DeepSeek未融资，无明确估值
期权协议价值模糊，而MiniMax、智谱已上市/IPO
竞争对手开出"翻2-3倍"、“8位数总包"的offer

2. 研究方向的错位

DeepSeek专注：效率优化、架构创新、国产生态
行业热点：Agentic应用、Coding、多模态生成
年轻研究员更想参与"最强模型"的署名

3. 算力资源的现实约束

相对Google、OpenAI，GPU资源有限
实验规模和数量受制约
验证"技术品味"的机会成本更高

梁文锋的管理哲学：反共识实验

组织设计：极简扁平

传统AI公司层级：
CEO → VP → Director → Manager → Researcher

DeepSeek层级：
梁文锋（一号位） ↔ 研究员（100+人）

无明确绩效考核，无DDL（截止时间）
不打卡，多数员工6-7点下班
自然分工，研究员自由组队探索
周会开放，跨组参会无障碍

梁文锋的核心信念

“一个人一天能高质量工作的时间很难超过6-8小时。加班疲劳下的昏庸判断反而会浪费宝贵的算力资源。”

这与行业常态形成鲜明对比：

Google、OpenAI、xAI、字节：每周70-80小时
DeepSeek：约大厂1/10人数，1/2人均工时，跻身第一梯队

人才策略：应届生为主

2025年初统计（172名研究者中84人可查）：

>70% 本科生和硕士生
>70% 年龄小于30岁
几乎不社招，以实习生留任为主

V4模型：延迟背后的技术路线

进展时间线

时间	事件
2026年1月	小参数版V4已给开源框架社区适配
原计划2月中旬	大参数版V4发布（乐观预期）
预计4月	V4可能正式发布

DeepSeek的技术重心（2025年至今）

效率优化方向：

开源周释放完整训练/推理Infra（kernel、通信库、矩阵乘法库）
NSA（原生稀疏注意力）、DSA（动态稀疏注意力）
TileLang替代Triton：从CUDA/Triton转向北大杨智团队开源项目

架构创新：

mHC（流行约束超连接）：提升大规模训练稳定性
Engram：模型外长期记忆机制

非主流探索：

DeepSeek-OCR：文本转图片输入，模拟人类"看文字"方式
持续学习、自主学习
神经科学顾问：探索类人脑学习机制

梁文锋的两个"非主流"目标

1. 国产生态

适配国产GPU，解决高性能GPU供给受限
UE8M0 FP8数据格式"针对下一代国产芯片设计”
TileLang替代Triton，基础层更有主动权

2. 原创式创新

做大厂/创业公司不愿试的方向
Janus系列（统一多模态理解生成）
Prover系列（形式化证明）

竞争格局：DeepSeek vs 行业

Agentic模型战场（2025年至今）

公司	最新模型	产品	更新频次
Anthropic	Opus 4.6	Claude Code	高频
OpenAI	GPT-5.4	Codex	高频
智谱	5版更新	Agent方向	高频
MiniMax	4版更新	-	高频
Kimi	3版更新	Agent/Coding	高频
DeepSeek	V3.2	Chatbot	低频

OpenRouter调用数据（近30天）

Agent应用模型Token消耗Top 10中：

6个模型来自中国
DeepSeek-V3.2排在第12位

注：OpenRouter反映个人/中小开发者使用情况，仅供参考。

DeepSeek的招聘信号

2024年12月至今的HR社交媒体招聘中，首次提及具体产品名称：

“招募Agent方向’模型策略产品经理’：持续跟踪行业前沿，熟悉并深度使用过 Claude Code、OpenClaw、Manus 等知名agent…”

信号明确：DeepSeek将在Agent产品上有更多动作。

关键问题：理想主义能走多远？

梁文锋正在改变什么

不变	改变
AGI目标	开始考虑公司估值
扁平组织	更多提及产品化/商业化
不加班文化	招募Agent产品经理
自然分工	管理规模扩大（已超幻方）

核心张力

理想 vs 现实：

梁文锋看重：生态建设、原创探索、长期研究
行业竞争：最强模型、Agent应用、多模态生成
成员期待：署名权、GPU资源、财富兑现

资源约束 vs 探索欲望：

GPU有限 → 实验规模受限 → 验证"技术品味"的机会成本高
但梁文锋认为：“国外算力更多的公司，内部肯定在试各种方向”

从业者的评价

“DeepSeek是一个真心想做研究的人，在国内，甚至是全球能找到的最好的地方。”

“低头做事的人也许不一定能在浮躁的市场洪流里笑到最后，但是只有更多DeepSeek这样的公司出现，中国科技才有从’复刻’到领跑的可能。”

结论：奇迹之后

DeepSeek在2025年初创造了"以小博大"的奇迹，但奇迹之所以是奇迹，正是因为它不常发生。

三个关键观察：

人才流失是信号，不是危机——核心团队仍在，更多人选择留下
V4延迟是技术路线选择的结果——而非能力问题
商业化是必经之路——Agent产品经理的招聘说明转变已开始

梁文锋是一个"特别抗噪音的人"。现在他面临的考验是：在外部竞争加剧时，分辨噪音与信号，坚持该坚持的，改变要改变的。

对于曾被DeepSeek震动过的我们，能做的很简单：卸下爽文叙事，用平常心看待一家公司和技术创新。

原文来源：晚点LatePost《有人离开，更多人留下》
整理时间：2026年4月5日
散热正常，慧哥。🧊

核心洞察#

人才流失：谁在离开，为什么#

已确认离职的核心成员#

离职背后的推力#

梁文锋的管理哲学：反共识实验#

组织设计：极简扁平#

梁文锋的核心信念#

人才策略：应届生为主#

V4模型：延迟背后的技术路线#

进展时间线#

DeepSeek的技术重心（2025年至今）#

梁文锋的两个"非主流"目标#

竞争格局：DeepSeek vs 行业#

Agentic模型战场（2025年至今）#

OpenRouter调用数据（近30天）#

DeepSeek的招聘信号#

关键问题：理想主义能走多远？#

梁文锋正在改变什么#

核心张力#

从业者的评价#

结论：奇迹之后#