返回列表

效率至上的DeepSeek

·21 min read
AGITech

DeepSeek 上一次真正引发全球震动,是 2025 年 1 月的 R1。那次发布让整个行业愣了一下:芯片受限、算力受限、预算受限,结果练出来一个能正面挑战 OpenAI o1 的推理模型。 之后 DeepSeek 就几乎沉默了,没有大模型、没有大声明,偶尔悄悄在 chat 界面上线"专家模式"、"闪速模式",外界一直在猜背后是不是有大的要发布。

这次 V4 出来,我的第一反应不是"又来了一个大模型",而是:"这是 DeepSeek 认真想说的东西。"

距离 R1,整整十五个月。 (拓展阅读:R1发布后我写随想)

来得晚但来得准

V4 原本被预期在春节前后亮相,最终拖到了 4 月底。一家中国 AI 公司推迟旗舰发布,背后原因从来不简单:有人才流失的传闻,有内部训练不稳定的猜测,还有关于是否配合国内芯片商先行适配的外部压力。具体原因我不知道,也没办法确认。

但我觉得这件事本身就值得注意。DeepSeek 选择了等到真正准备好再发,而不是先发一个"看起来行"的版本占位。这和很多公司的思路不一样。在这个行业,"先发后更新"已经成为标准操作,快发比对发重要。DeepSeek 没有走这条路。

这次发布了两个模型:

  • DeepSeek-V4-Pro,1.6T 总参数,推理时激活 49B,支持 1M context
  • DeepSeek-V4-Flash,284B 总参数,推理时激活 13B,支持 1M context

Pro 定位复杂 Agent 任务与高难度编程,Flash 定位快速、低成本的日常推理。两个模型都是 open-weight,MoE 架构,MIT 协议,可以直接下载跑。

1M 上下文成为标配

"支持百万 token 上下文",这句话听起来已经不新鲜了。Gemini 很早就宣传过 1M context,Claude 也有,最近几乎每个新发布的旗舰都在喊这个数字。

但我用过这些模型,做过一些实际任务,包括让它读完一个中型代码库再做 review,把几十份文档丢进去让它综合分析。结论是:很多模型"支持"百万 context,和"能真正用好"百万 context 是两回事。

原因很简单:KV cache 太贵了。随着 context 变长,每一个新 token 都要跟前面所有 token 做 attention 计算,内存和算力的开销是指数级的。你在测试 demo 里可以塞进去一百万 token,但一旦到了真实推理成本,大多数团队都会主动截断,因为跑不起。 更重要的是,当上下文一长,模型就非常容易产生幻觉,甚至会忘记掉最重要的系统提示词。(目前我的做法还是保持上下文在50%~80%就差不多了,更复杂的长任务拆解更细一些)

V4 的回答是:我来解决这个成本问题,而不只是宣布这个数字。

官方论文里有一组关键数据:在 1M token 的 context 下,V4-Pro 的单 token 推理 FLOPs 只有 DeepSeek-V3.2 的 27%,KV cache 占用只有 V3.2 的 10%。V4-Flash 更极端,FLOPs 降到 10%,KV cache 只用 7%。

用百万 token,比别人用十万 token 还便宜。这才是这次 V4 真正的技术命题。

这不是"我们做了一个更长的 context window",而是"我们重新设计了长 context 的成本结构"。两件事的难度和意义完全不在一个层面。

架构拆解:效率是怎么来的

技术报告读完,我觉得 DeepSeek 这次的架构创新主要集中在三件事上:注意力的重新设计、残差连接的稳定化、优化器的换代。

注意力:两种压缩,交错使用

V4 的核心创新,是把注意力拆成两个机制来交错处理,而不是用同一套方式硬扛长序列。

CSA(Compressed Sparse Attention) 是"聪明的选择性阅读"。它先把历史 KV 做 4 倍压缩,然后用一个 FP4 精度的轻量检索器,从压缩后的序列里挑出当前 query 最相关的 top-k 块,再加上一个滑窗覆盖最近的未压缩 token。

HCA(Heavily Compressed Attention) 更激进:直接把 KV 压缩 128 倍,然后在这个极度压缩的表示上做稠密注意力。它不选择,它扫全局,但扫的是一个高度浓缩之后的全局。

两者交错使用的逻辑很清晰:CSA 负责"精准检索历史",HCA 负责"低成本全局感知"。加在一起,既有细节,又有大图,而且比传统注意力便宜太多。

这两种机制还配合 FP8 存储大多数 KV,FP4 用于检索器,BF16 仅保留 RoPE 维度。精度分级也是成本控制的一部分。

残差连接:mHC 是被低估的亮点

V4 把标准的 residual connection 换成了 mHC(Manifold-Constrained Hyper-Connections)。这部分不如注意力机制那么抓眼球,但我觉得很值得看。

核心思路是:把残差映射矩阵约束到 doubly stochastic matrix 的 manifold(Birkhoff 多面体)上,通过 Sinkhorn-Knopp 算法做投影,保证这个矩阵的谱范数不超过 1。

结果:残差映射永远是"非膨胀"的,信号不会在 61 层堆叠里爆炸。

这不是花哨的数学技巧,而是非常务实的工程决策。1.6T 参数、61 层、超长序列,任何训练不稳定都会是巨大的成本。mHC 是在用数学结构来保证"不炸"。

Muon 优化器:不只是学术探索

训练主干部分,V4 采用了 Muon optimizer,通过 Newton-Schulz 迭代对权重矩阵做正交化处理,而不是沿用 AdamW。

Muon 早就在一些研究里被验证能带来更快的收敛和更稳的梯度流,但把它用在 trillion-scale MoE 训练里,这是 DeepSeek 这次做的事。他们还叠加了 FP4 量化感知训练(QAT),让模型在训练阶段就学会适应低精度推理环境,而不是等训练完再压缩。

这两件事合起来说明了一个我很认同的产品逻辑:把推理成本的优化前置到训练阶段,不是部署时候再想办法。

后训练的重新设计

V4 的后训练路径也和上一代不一样。它放弃了 R1 那套 mixed RL 的路线,改用 On-Policy Distillation(OPD)

思路很清晰:先独立训练好数学、代码、Agent、指令跟随等领域的专家模型,再用 OPD 把多个教师的能力蒸馏进一个统一的学生模型。这和最近一些模型想靠大 RL 一把糊出全能力的思路完全不同。

我个人很认同这个选择。不同能力之间确实存在相互干扰,特别是"推理深度"和"指令执行精确性"之间的张力,硬 RL 很难同时优化好。先独立培养、再统一整合,逻辑更干净,结果也更可预期。

这有点像管理一个团队:你不会要求所有人同时用同一套考核标准变成全能,而是先让每个人把自己的专长做深,再想怎么协作。

对开源行业的冲击

V4 发布的时间节点很有意思:OpenAI 刚发完 GPT-5.5 的次日。这不是巧合,也不完全是策略,更像是一个行业加速周期的缩影,大家都在推,都在比。

但 V4 对开源行业的影响,我觉得比"又多了一个好用的开源模型"要深得多。

1. 重新划定了基线

在 V4 之前,如果你要问"开源模型的上限在哪",大多数认真的答案都是:在闭源旗舰的一个身位之后。代码、推理、长文档,开源可以很好,但顶层能力还是有差距。

V4 之后,这个答案变了。在代码(LiveCodeBench 93.5、Codeforces 3206)、Agent 任务(SWE Verified 80.6)这些维度上,V4-Pro-Max 已经跟 Claude Opus 4.6 和 Gemini 3.1 Pro 站在同一个区间里。这不是"追平了",而是"进了同一个竞争圈"。

这个变化的意义在于:以后任何一家公司发布闭源旗舰,都必须把 V4 作为对比对象之一。开源不再只是"预算有限时的替代选项"。

2. 压缩整个行业的定价上限

V4-Flash 的 API 价格估算,处理 100 万个 token 的 input,成本不到 14 美分。对于一个 coding agent 或者企业知识系统来说,这几乎把"因为 API 太贵所以不能做某件事"这个理由消除了。

DeepSeek 每次发布,闭源厂商都要跟着降价。这已经是第三次了(V3、R1、V4)。这种压力不是直接竞争带来的,而是信息带来的:一旦开发者知道某个能力可以以这个价格获得,他们就不会再为同等能力接受十倍的价格。

3. Agent 工具调用成为默认能力

V4 的设计本质上是为 Agent 场景优化的:长上下文降成本、thinking 跨 tool call 保留、XML 格式的工具调用 schema 减少 parsing 错误、DSec 沙箱支撑 RL 训练。这些设计加起来,让"在开源模型上跑真实 Agent 工作流"这件事,在成本和可靠性上都往前推了。

以前这件事只有大机构能玩,因为只有他们能负担闭源 API 的成本,或者自己跑完整集群的算力。现在门槛在降。

4. 华为 Ascend 的适配打破硬件垄断的限制

V4 是 DeepSeek 第一个支持华为 Ascend 芯片推理的模型。这件事的技术意义有限,目前训练核心仍然在 Nvidia 上。但它的信号意义很重要:一旦 inference 被证明可以在国产芯片上稳定跑,接下来就是慢慢把更多环节迁过去的问题。对整个开源社区来说,这意味着未来可能会有一条不依赖 Nvidia 的部署路径,哪怕现在还不成熟。

它强在哪,弱在哪

我尽量只基于官方报告里的数字说话,不拔高,也不刻意打压。

强的地方:

代码能力是 V4 最亮眼的部分。Codeforces rating 3206,在所有对比模型里排第一。LiveCodeBench 93.5,同样第一。这不是写个 Hello World,而是竞赛级代码、复杂算法题。对开发者来说,这是最能感受到的能力。

长上下文也是真实优势。1M token MRCR 任务上,V4-Pro 得分 83.5,超过 Gemini 3.1 Pro 的 76.3。这个差距在实际任务里是明显的。

Agent 任务上,SWE Verified 80.6,和 Claude Opus 4.6(80.8)基本持平,MCPAtlas 公开榜单上仅次于 Claude。

弱的地方:

没有原生多模态,这是 V4 最明显的缺口。2026 年的旗舰模型,用户已经默认它能处理图片、视频、文档截图。V4 做不到,这会让它在很多真实工作流里需要搭配其他模型。

部分推理任务上仍落后闭源模型。GPQA Diamond V4-Pro-Max 90.1,Gemini 3.1 Pro 是 94.3,GPT-5.4 是 93.0,差距存在。这说明在"通用世界知识 + 深度推理"这条线上,它还没有完全追上最强的闭源对手。

论文里也坦承了一些实际使用问题:严格的格式约束偶尔不稳定,超长文本的浓缩质量不如 Claude,PPT 等结构化输出的"审美"落后。这些都是真实的。

我一贯觉得,能坦承自己弱点的技术报告,比"全面超越"的技术报告更可信。

实际场景应用场景

我对 V4 最直接的判断是:它非常适合放在几个具体的位置上。

大代码库分析是最自然的场景。以前让模型做代码 review,我通常要把文件切碎,分批喂,或者限定与分析某个模块的功能,再自己整合结论。很低效,而且模型失去了全局上下文,很多问题看不到。V4 的长上下文加低成本,意味着可以把整个模块一次性塞进去,让它做真正基于全局的分析,而不是碎片化的拼接。如果看得不够多,分析就不够深。

企业内部知识系统是另一个方向。公司里堆着大量 PDF、会议记录、需求文档,搜索能找到,但理解不了。V4 这类模型更适合做"跨文档综合",把几十份材料的矛盾信息对齐,把散落的决策脉络整理出来。

Agentic 编程助手。我自己在用 Claude Code,V4 的代码能力已经达到了可以认真考虑替换的程度,而且成本低得多。这件事未来几个月我会实际测试。

我的思考

看完 V4 的技术报告,我有一个比较强烈的感受:

DeepSeek 不是在追赶,而是在选择一个不同的赛道,构建完全自给自足的技术栈。

它没有做原生多模态,没有做语音,没有做各种花哨的产品集成。它把所有力气集中在一件事上:让"真正有用的智能"在成本和架构上都变得更实际。

这和硅谷旗舰模型的路线有本质区别。OpenAI 和 Anthropic 在做的,是打造一个尽量完整的通用平台,多模态、语音、搜索、工具、安全、合规,面面俱到。DeepSeek 在做的,更像是把一把刀磨得极其锋利,然后用最高的效率把这把刀开放给全世界。

我不认为这两条路有高下之分。但对于绝大多数开发者和产品团队来说,V4 的路线更直接:你需要一个能在真实任务里稳定工作的推理系统,而且要能负担得起。

另一件我一直在想的事情是:DeepSeek 这家公司的存在,本身就在改变行业的竞争规则。不是通过融资规模,不是通过产品宣传,而是通过持续地把技术报告开放出来,让整个社区都能研究、复现、改进。这个开放和透明带给了全球开发者安全感,也是为什么社区持续关注DeepSeek V4 何时发布的原因。

这种做法在商业上看起来不划算,因为你相当于在免费教竞争对手。但它换来的是信任、是社区、是话语权。R1 之后,DeepSeek 在开发者群体里的信誉已经是实打实的。V4 只是在续这个账。

我一直相信,真正持久的技术影响力,不来自谁发布了最贵的模型,而来自谁改变了这个行业认为"应该怎么做"。

参考