核心洞察
DeepSeek正站在一个关键转折点。这家以"不卷"著称的AI Lab,在R1爆火后经历了核心人才流失、V4延迟发布、以及来自竞争对手的疯狂挖角。但比八卦更重要的是:梁文锋的"理想主义实验"能否在商业化压力下继续?
人才流失:谁在离开,为什么
已确认离职的核心成员
| 成员 | 角色 | 去向 | 影响 |
|---|---|---|---|
| 王炳宣 | DeepSeek LLM核心作者 | 腾讯(姚顺雨团队) | 历代模型训练骨干 |
| 魏浩然 | DeepSeek-OCR系列核心 | 某大厂(待定) | 多模态文档理解 |
| 郭达雅 | DeepSeek-R1核心作者 | 某大厂(待定) | 推理模型核心 |
| 阮翀 | 幻方元老、Janus-Pro核心 | 元戎启行(自动驾驶) | 多模态+端侧AI |
离职背后的推力
1. 财富兑现的不确定性
- DeepSeek未融资,无明确估值
- 期权协议价值模糊,而MiniMax、智谱已上市/IPO
- 竞争对手开出"翻2-3倍"、“8位数总包"的offer
2. 研究方向的错位
- DeepSeek专注:效率优化、架构创新、国产生态
- 行业热点:Agentic应用、Coding、多模态生成
- 年轻研究员更想参与"最强模型"的署名
3. 算力资源的现实约束
- 相对Google、OpenAI,GPU资源有限
- 实验规模和数量受制约
- 验证"技术品味"的机会成本更高
梁文锋的管理哲学:反共识实验
组织设计:极简扁平
传统AI公司层级:
CEO → VP → Director → Manager → Researcher
DeepSeek层级:
梁文锋(一号位) ↔ 研究员(100+人)
- 无明确绩效考核,无DDL(截止时间)
- 不打卡,多数员工6-7点下班
- 自然分工,研究员自由组队探索
- 周会开放,跨组参会无障碍
梁文锋的核心信念
“一个人一天能高质量工作的时间很难超过6-8小时。加班疲劳下的昏庸判断反而会浪费宝贵的算力资源。”
这与行业常态形成鲜明对比:
- Google、OpenAI、xAI、字节:每周70-80小时
- DeepSeek:约大厂1/10人数,1/2人均工时,跻身第一梯队
人才策略:应届生为主
2025年初统计(172名研究者中84人可查):
- >70% 本科生和硕士生
- >70% 年龄小于30岁
- 几乎不社招,以实习生留任为主
V4模型:延迟背后的技术路线
进展时间线
| 时间 | 事件 |
|---|---|
| 2026年1月 | 小参数版V4已给开源框架社区适配 |
| 原计划2月中旬 | 大参数版V4发布(乐观预期) |
| 预计4月 | V4可能正式发布 |
DeepSeek的技术重心(2025年至今)
效率优化方向:
- 开源周释放完整训练/推理Infra(kernel、通信库、矩阵乘法库)
- NSA(原生稀疏注意力)、DSA(动态稀疏注意力)
- TileLang替代Triton:从CUDA/Triton转向北大杨智团队开源项目
架构创新:
- mHC(流行约束超连接):提升大规模训练稳定性
- Engram:模型外长期记忆机制
非主流探索:
- DeepSeek-OCR:文本转图片输入,模拟人类"看文字"方式
- 持续学习、自主学习
- 神经科学顾问:探索类人脑学习机制
梁文锋的两个"非主流"目标
1. 国产生态
- 适配国产GPU,解决高性能GPU供给受限
- UE8M0 FP8数据格式"针对下一代国产芯片设计”
- TileLang替代Triton,基础层更有主动权
2. 原创式创新
- 做大厂/创业公司不愿试的方向
- Janus系列(统一多模态理解生成)
- Prover系列(形式化证明)
竞争格局:DeepSeek vs 行业
Agentic模型战场(2025年至今)
| 公司 | 最新模型 | 产品 | 更新频次 |
|---|---|---|---|
| Anthropic | Opus 4.6 | Claude Code | 高频 |
| OpenAI | GPT-5.4 | Codex | 高频 |
| 智谱 | 5版更新 | Agent方向 | 高频 |
| MiniMax | 4版更新 | - | 高频 |
| Kimi | 3版更新 | Agent/Coding | 高频 |
| DeepSeek | V3.2 | Chatbot | 低频 |
OpenRouter调用数据(近30天)
Agent应用模型Token消耗Top 10中:
- 6个模型来自中国
- DeepSeek-V3.2排在第12位
注:OpenRouter反映个人/中小开发者使用情况,仅供参考。
DeepSeek的招聘信号
2024年12月至今的HR社交媒体招聘中,首次提及具体产品名称:
“招募Agent方向’模型策略产品经理’:持续跟踪行业前沿,熟悉并深度使用过 Claude Code、OpenClaw、Manus 等知名agent…”
信号明确:DeepSeek将在Agent产品上有更多动作。
关键问题:理想主义能走多远?
梁文锋正在改变什么
| 不变 | 改变 |
|---|---|
| AGI目标 | 开始考虑公司估值 |
| 扁平组织 | 更多提及产品化/商业化 |
| 不加班文化 | 招募Agent产品经理 |
| 自然分工 | 管理规模扩大(已超幻方) |
核心张力
理想 vs 现实:
- 梁文锋看重:生态建设、原创探索、长期研究
- 行业竞争:最强模型、Agent应用、多模态生成
- 成员期待:署名权、GPU资源、财富兑现
资源约束 vs 探索欲望:
- GPU有限 → 实验规模受限 → 验证"技术品味"的机会成本高
- 但梁文锋认为:“国外算力更多的公司,内部肯定在试各种方向”
从业者的评价
“DeepSeek是一个真心想做研究的人,在国内,甚至是全球能找到的最好的地方。”
“低头做事的人也许不一定能在浮躁的市场洪流里笑到最后,但是只有更多DeepSeek这样的公司出现,中国科技才有从’复刻’到领跑的可能。”
结论:奇迹之后
DeepSeek在2025年初创造了"以小博大"的奇迹,但奇迹之所以是奇迹,正是因为它不常发生。
三个关键观察:
- 人才流失是信号,不是危机——核心团队仍在,更多人选择留下
- V4延迟是技术路线选择的结果——而非能力问题
- 商业化是必经之路——Agent产品经理的招聘说明转变已开始
梁文锋是一个"特别抗噪音的人"。现在他面临的考验是:在外部竞争加剧时,分辨噪音与信号,坚持该坚持的,改变要改变的。
对于曾被DeepSeek震动过的我们,能做的很简单:卸下爽文叙事,用平常心看待一家公司和技术创新。
原文来源:晚点LatePost《有人离开,更多人留下》
整理时间:2026年4月5日
散热正常,慧哥。🧊