效率至上的DeepSeek

DeepSeek 上一次真正引发全球震动，是 2025 年 1 月的 R1。那次发布让整个行业愣了一下：芯片受限、算力受限、预算受限，结果练出来一个能正面挑战 OpenAI o1 的推理模型。之后 DeepSeek 就几乎沉默了，没有大模型、没有大声明，偶尔悄悄在 chat 界面上线"专家模式"、"闪速模式"，外界一直在猜背后是不是有大的要发布。

这次 V4 出来，我的第一反应不是"又来了一个大模型"，而是："这是 DeepSeek 认真想说的东西。"

距离 R1，整整十五个月。 (拓展阅读：R1发布后我写随想)

来得晚但来得准

V4 原本被预期在春节前后亮相，最终拖到了 4 月底。一家中国 AI 公司推迟旗舰发布，背后原因从来不简单：有人才流失的传闻，有内部训练不稳定的猜测，还有关于是否配合国内芯片商先行适配的外部压力。具体原因我不知道，也没办法确认。

但我觉得这件事本身就值得注意。DeepSeek 选择了等到真正准备好再发，而不是先发一个"看起来行"的版本占位。这和很多公司的思路不一样。在这个行业，"先发后更新"已经成为标准操作，快发比对发重要。DeepSeek 没有走这条路。

这次发布了两个模型：

DeepSeek-V4-Pro，1.6T 总参数，推理时激活 49B，支持 1M context
DeepSeek-V4-Flash，284B 总参数，推理时激活 13B，支持 1M context

Pro 定位复杂 Agent 任务与高难度编程，Flash 定位快速、低成本的日常推理。两个模型都是 open-weight，MoE 架构，MIT 协议，可以直接下载跑。

1M 上下文成为标配

"支持百万 token 上下文"，这句话听起来已经不新鲜了。Gemini 很早就宣传过 1M context，Claude 也有，最近几乎每个新发布的旗舰都在喊这个数字。

但我用过这些模型，做过一些实际任务，包括让它读完一个中型代码库再做 review，把几十份文档丢进去让它综合分析。结论是：很多模型"支持"百万 context，和"能真正用好"百万 context 是两回事。

原因很简单：KV cache 太贵了。随着 context 变长，每一个新 token 都要跟前面所有 token 做 attention 计算，内存和算力的开销是指数级的。你在测试 demo 里可以塞进去一百万 token，但一旦到了真实推理成本，大多数团队都会主动截断，因为跑不起。更重要的是，当上下文一长，模型就非常容易产生幻觉，甚至会忘记掉最重要的系统提示词。（目前我的做法还是保持上下文在50%~80%就差不多了，更复杂的长任务拆解更细一些）

V4 的回答是：我来解决这个成本问题，而不只是宣布这个数字。

官方论文里有一组关键数据：在 1M token 的 context 下，V4-Pro 的单 token 推理 FLOPs 只有 DeepSeek-V3.2 的 27%，KV cache 占用只有 V3.2 的 10%。V4-Flash 更极端，FLOPs 降到 10%，KV cache 只用 7%。

用百万 token，比别人用十万 token 还便宜。这才是这次 V4 真正的技术命题。

这不是"我们做了一个更长的 context window"，而是"我们重新设计了长 context 的成本结构"。两件事的难度和意义完全不在一个层面。

架构拆解：效率是怎么来的

技术报告读完，我觉得 DeepSeek 这次的架构创新主要集中在三件事上：注意力的重新设计、残差连接的稳定化、优化器的换代。

注意力：两种压缩，交错使用

V4 的核心创新，是把注意力拆成两个机制来交错处理，而不是用同一套方式硬扛长序列。

CSA（Compressed Sparse Attention） 是"聪明的选择性阅读"。它先把历史 KV 做 4 倍压缩，然后用一个 FP4 精度的轻量检索器，从压缩后的序列里挑出当前 query 最相关的 top-k 块，再加上一个滑窗覆盖最近的未压缩 token。

HCA（Heavily Compressed Attention） 更激进：直接把 KV 压缩 128 倍，然后在这个极度压缩的表示上做稠密注意力。它不选择，它扫全局，但扫的是一个高度浓缩之后的全局。

两者交错使用的逻辑很清晰：CSA 负责"精准检索历史"，HCA 负责"低成本全局感知"。加在一起，既有细节，又有大图，而且比传统注意力便宜太多。

这两种机制还配合 FP8 存储大多数 KV，FP4 用于检索器，BF16 仅保留 RoPE 维度。精度分级也是成本控制的一部分。

残差连接：mHC 是被低估的亮点

V4 把标准的 residual connection 换成了 mHC（Manifold-Constrained Hyper-Connections）。这部分不如注意力机制那么抓眼球，但我觉得很值得看。

核心思路是：把残差映射矩阵约束到 doubly stochastic matrix 的 manifold（Birkhoff 多面体）上，通过 Sinkhorn-Knopp 算法做投影，保证这个矩阵的谱范数不超过 1。

结果：残差映射永远是"非膨胀"的，信号不会在 61 层堆叠里爆炸。

这不是花哨的数学技巧，而是非常务实的工程决策。1.6T 参数、61 层、超长序列，任何训练不稳定都会是巨大的成本。mHC 是在用数学结构来保证"不炸"。

Muon 优化器：不只是学术探索

训练主干部分，V4 采用了 Muon optimizer，通过 Newton-Schulz 迭代对权重矩阵做正交化处理，而不是沿用 AdamW。

Muon 早就在一些研究里被验证能带来更快的收敛和更稳的梯度流，但把它用在 trillion-scale MoE 训练里，这是 DeepSeek 这次做的事。他们还叠加了 FP4 量化感知训练（QAT），让模型在训练阶段就学会适应低精度推理环境，而不是等训练完再压缩。

这两件事合起来说明了一个我很认同的产品逻辑：把推理成本的优化前置到训练阶段，不是部署时候再想办法。

后训练的重新设计

V4 的后训练路径也和上一代不一样。它放弃了 R1 那套 mixed RL 的路线，改用 On-Policy Distillation（OPD）。

思路很清晰：先独立训练好数学、代码、Agent、指令跟随等领域的专家模型，再用 OPD 把多个教师的能力蒸馏进一个统一的学生模型。这和最近一些模型想靠大 RL 一把糊出全能力的思路完全不同。

我个人很认同这个选择。不同能力之间确实存在相互干扰，特别是"推理深度"和"指令执行精确性"之间的张力，硬 RL 很难同时优化好。先独立培养、再统一整合，逻辑更干净，结果也更可预期。

这有点像管理一个团队：你不会要求所有人同时用同一套考核标准变成全能，而是先让每个人把自己的专长做深，再想怎么协作。

对开源行业的冲击

V4 发布的时间节点很有意思：OpenAI 刚发完 GPT-5.5 的次日。这不是巧合，也不完全是策略，更像是一个行业加速周期的缩影，大家都在推，都在比。

但 V4 对开源行业的影响，我觉得比"又多了一个好用的开源模型"要深得多。

1. 重新划定了基线

在 V4 之前，如果你要问"开源模型的上限在哪"，大多数认真的答案都是：在闭源旗舰的一个身位之后。代码、推理、长文档，开源可以很好，但顶层能力还是有差距。

V4 之后，这个答案变了。在代码（LiveCodeBench 93.5、Codeforces 3206）、Agent 任务（SWE Verified 80.6）这些维度上，V4-Pro-Max 已经跟 Claude Opus 4.6 和 Gemini 3.1 Pro 站在同一个区间里。这不是"追平了"，而是"进了同一个竞争圈"。

这个变化的意义在于：以后任何一家公司发布闭源旗舰，都必须把 V4 作为对比对象之一。开源不再只是"预算有限时的替代选项"。

2. 压缩整个行业的定价上限

V4-Flash 的 API 价格估算，处理 100 万个 token 的 input，成本不到 14 美分。对于一个 coding agent 或者企业知识系统来说，这几乎把"因为 API 太贵所以不能做某件事"这个理由消除了。

DeepSeek 每次发布，闭源厂商都要跟着降价。这已经是第三次了（V3、R1、V4）。这种压力不是直接竞争带来的，而是信息带来的：一旦开发者知道某个能力可以以这个价格获得，他们就不会再为同等能力接受十倍的价格。

3. Agent 工具调用成为默认能力

V4 的设计本质上是为 Agent 场景优化的：长上下文降成本、thinking 跨 tool call 保留、XML 格式的工具调用 schema 减少 parsing 错误、DSec 沙箱支撑 RL 训练。这些设计加起来，让"在开源模型上跑真实 Agent 工作流"这件事，在成本和可靠性上都往前推了。

以前这件事只有大机构能玩，因为只有他们能负担闭源 API 的成本，或者自己跑完整集群的算力。现在门槛在降。

4. 华为 Ascend 的适配打破硬件垄断的限制

V4 是 DeepSeek 第一个支持华为 Ascend 芯片推理的模型。这件事的技术意义有限，目前训练核心仍然在 Nvidia 上。但它的信号意义很重要：一旦 inference 被证明可以在国产芯片上稳定跑，接下来就是慢慢把更多环节迁过去的问题。对整个开源社区来说，这意味着未来可能会有一条不依赖 Nvidia 的部署路径，哪怕现在还不成熟。

它强在哪，弱在哪

我尽量只基于官方报告里的数字说话，不拔高，也不刻意打压。

强的地方：

代码能力是 V4 最亮眼的部分。Codeforces rating 3206，在所有对比模型里排第一。LiveCodeBench 93.5，同样第一。这不是写个 Hello World，而是竞赛级代码、复杂算法题。对开发者来说，这是最能感受到的能力。

长上下文也是真实优势。1M token MRCR 任务上，V4-Pro 得分 83.5，超过 Gemini 3.1 Pro 的 76.3。这个差距在实际任务里是明显的。

Agent 任务上，SWE Verified 80.6，和 Claude Opus 4.6（80.8）基本持平，MCPAtlas 公开榜单上仅次于 Claude。

弱的地方：

没有原生多模态，这是 V4 最明显的缺口。2026 年的旗舰模型，用户已经默认它能处理图片、视频、文档截图。V4 做不到，这会让它在很多真实工作流里需要搭配其他模型。

部分推理任务上仍落后闭源模型。GPQA Diamond V4-Pro-Max 90.1，Gemini 3.1 Pro 是 94.3，GPT-5.4 是 93.0，差距存在。这说明在"通用世界知识 + 深度推理"这条线上，它还没有完全追上最强的闭源对手。

论文里也坦承了一些实际使用问题：严格的格式约束偶尔不稳定，超长文本的浓缩质量不如 Claude，PPT 等结构化输出的"审美"落后。这些都是真实的。

我一贯觉得，能坦承自己弱点的技术报告，比"全面超越"的技术报告更可信。

实际场景应用场景

我对 V4 最直接的判断是：它非常适合放在几个具体的位置上。

大代码库分析是最自然的场景。以前让模型做代码 review，我通常要把文件切碎，分批喂，或者限定与分析某个模块的功能，再自己整合结论。很低效，而且模型失去了全局上下文，很多问题看不到。V4 的长上下文加低成本，意味着可以把整个模块一次性塞进去，让它做真正基于全局的分析，而不是碎片化的拼接。如果看得不够多，分析就不够深。

企业内部知识系统是另一个方向。公司里堆着大量 PDF、会议记录、需求文档，搜索能找到，但理解不了。V4 这类模型更适合做"跨文档综合"，把几十份材料的矛盾信息对齐，把散落的决策脉络整理出来。

Agentic 编程助手。我自己在用 Claude Code，V4 的代码能力已经达到了可以认真考虑替换的程度，而且成本低得多。这件事未来几个月我会实际测试。

我的思考

看完 V4 的技术报告，我有一个比较强烈的感受：

DeepSeek 不是在追赶，而是在选择一个不同的赛道，构建完全自给自足的技术栈。

它没有做原生多模态，没有做语音，没有做各种花哨的产品集成。它把所有力气集中在一件事上：让"真正有用的智能"在成本和架构上都变得更实际。

这和硅谷旗舰模型的路线有本质区别。OpenAI 和 Anthropic 在做的，是打造一个尽量完整的通用平台，多模态、语音、搜索、工具、安全、合规，面面俱到。DeepSeek 在做的，更像是把一把刀磨得极其锋利，然后用最高的效率把这把刀开放给全世界。

我不认为这两条路有高下之分。但对于绝大多数开发者和产品团队来说，V4 的路线更直接：你需要一个能在真实任务里稳定工作的推理系统，而且要能负担得起。

另一件我一直在想的事情是：DeepSeek 这家公司的存在，本身就在改变行业的竞争规则。不是通过融资规模，不是通过产品宣传，而是通过持续地把技术报告开放出来，让整个社区都能研究、复现、改进。这个开放和透明带给了全球开发者安全感，也是为什么社区持续关注DeepSeek V4 何时发布的原因。

这种做法在商业上看起来不划算，因为你相当于在免费教竞争对手。但它换来的是信任、是社区、是话语权。R1 之后，DeepSeek 在开发者群体里的信誉已经是实打实的。V4 只是在续这个账。

我一直相信，真正持久的技术影响力，不来自谁发布了最贵的模型，而来自谁改变了这个行业认为"应该怎么做"。