Coding Assistant

SemiAnalysis 4 月 24 日发了一篇重磅：团队实测 GPT 5.5、Claude Opus 4.7 和 DeepSeek V4，顺带把基准测试的底裤扒了。这篇文章信息密度极高，我拆解出来供参考。一、GPT 5.5：OpenAI 终于交了一次真正的预训练答卷 GPT-4.5 失败之后，OpenAI 急需要一个翻身仗。「Spud」预训练的 GPT 5.5 就是那张牌。定价直接翻倍：$5/M input + $30/M output，是 GPT-5.4 的两倍，比 Opus 4.7 还贵。但 OpenAI 这次学聪明了，推出了 priority tier——2.5 倍价格换 SLA 保证（>50 tok/s，99% 时间达标），跟之前的 fast mode（模糊承诺）完全不是一回事。产品矩阵也清晰了： GPT-5.5：标配 GPT-5.5 Pro：$30/$180 per M token，专攻科学研究和长程推理，BrowseComp 和 FrontierMath 双料 SOTA GPT-5.3-Codex-Spark：Cerebras 硬件上跑的蒸馏小模型 OpenAI 宣称「training on 100k GB200 NVL72」，但 SemiAnalysis 指出这只是后训练（RL），非预训练——表述上打了擦边球。实测最关键的信号：SemiAnalysis 工程师开始Codex 与 Claude 交替使用。过去他们几乎清一色用 Claude，现在 GPT 5.5 在 Codex 里拉取大量上下文后再改代码的模式，天然适合 PR review 和 bug hunt。 ...