从DeepSeek中获得的育儿启发

春节陪老婆坐月子，闲下来翻看了 DeepSeek 的技术论文。重新读起论文来确实有点吃力，不过用 AI 工具辅助学习 AI，这确实是一件有趣的事情。

结合最近看到的报道和舆论，情绪出现了明显的两极分化：一边是开源社区的狂喜和开源精神的胜利，另一边是闭源 AI 公司的警惕和西方政治家的抨击。

下面是我自己的一些发现、评论、猜想，以及育儿相关的思考。

DeepSeek 的技术面

主要是两个相继发布的 DeepSeek 开源模型。

DeepSeek-V3 的基础架构和我三年前研究生时学的并没有本质上的不同，也就是说并没有颠覆式的创新。主要工作是基于 Transformer 架构对注意力机制重新设计，使用 MoE 架构，并在训练和推理的效率上进行了极致的工程优化。

DeepSeek-R1 就有意思了。它以 V3 作为基础模型，通过加入 CoT 思维链（Chain of Thoughts）的范式和 RL 强化学习（Reinforcement Learning）的训练方式，强制模型在给出正式回答之前多思考。事实也表明，更长的时间用于不断反思和修正，能有效提高模型的最终表现，在 STEM 相关问题上的进步尤其明显。

R1 如何学会"慢思考"，实际上是 V3"教"的。研究人员只用了很少的冷启动数据来规范输出格式，剩下的全靠模型自己在强化学习中摸索。

作为世界的礼物

许多学者和技术领导者都给出了很高的评价。毋庸置疑的是，DeepSeek-R1 在多个重要评估指标上遥遥领先众多开源模型，且接近最先进的商业闭源模型。

更重要的是，DeepSeek 不是唯一的胜利者。用 R1 思维链合成的训练数据再训练其他开源小模型时，全部小模型的性能都获得了极大的提高。这说明 CoT 的推理范式是目前公认先进的。虽然不是 DeepSeek 首创的架构（OpenAI-o1 在先），但它是第一个开放其全部技术细节和模型权重的公司。

观众和参与者都看在眼里，当然也幸灾乐祸地看到 OpenAI 跌下神坛，其领先的优势不再遥不可及。不过 Altman 最近也在社区里反思，自己或许站在了错误的一边。

我相信未来 OpenAI 和其他组织会开源更多的先进模型，以避免 DeepSeek 形成开源模型垄断。这一切都利好开源社区。

舆论的另一边：质疑和担忧

以美国为首的西方国家在担心什么？

对于开发者来说，哪个更便宜、好用、自主可控，就选择哪个，这是自然而然的事情。但对西方政治家来说，多一个领先的开源模型来推动市场竞争本身不是问题，问题是这个先进的开源模型来自中国。主要矛盾是地缘政治影响下的主流价值观对立和意识形态分歧。

我的总结有两点：

1. 开源权重里隐含的"中国价值观"。 在中文评测基准上 DeepSeek 的遥遥领先就可以看出，其训练数据集包含了大量中文资料，而中文资料里涵盖的许多观点（尤其是政治上的观点），或许是西方社会不能认同的。他们担心这个先进的开源模型成为全球开发者的 AI 基础设施后，"中国模型"代表的"中国价值观"会对全球疯狂输出，进而"侵犯"到西方国家的利益。有没有不知道，至少他们在担心。

2. 芯片封锁的漏洞。 美国企业看到，即便美国政府严格管控英伟达芯片的出口，DeepSeek 仍然能获得如此多的芯片。如果这一漏洞不被堵上，会快速缩短中美之间的 AI 能力差距。他们担心如果中国占据了 AI 领导优势，就可能在军事上占据霸权地位，进而对西方社会造成不可逆的威胁。这背后是西方国家对中国政府的不信任。

把经验迁移到育儿上

回到现实问题，我有什么收获？我问自己：如果我是研究员，孩子是模型，我可以如何"训练"他？

CoT 思维链：引导思考过程。 多思考和多反思就更可能接近真相。教育孩子不只是给答案，更重要的是引导他如何思考。

RL 强化学习：制订奖惩机制。 让孩子知道什么能做和什么不能做。当然同时要给予他们尝试和试错的空间，不然孩子不可能学会。

Data 见多识广：大量优质输入。 书读百遍其义自现。大量"阅读"优质的知识和经验，才能构建更好的"模型"。

Time 时间的力量：相信潜能。 相信孩子的潜能无穷大，也要相信他们会比自己更好。

我的思考

没有绝对的完美，因为完美是一个过程而非结果，领先也只会是暂时的。

DeepSeek 证明了开源可以和闭源掰手腕，也证明了极致的工程优化能弥补硬件的差距。而舆论的两极分化背后，技术从来不是纯粹的技术，它始终带着它诞生的文化和政治的烙印。

不过对我来说，最大的收获是把这些 AI 训练的经验映射到了育儿上。耐心地陪伴和教育孩子成长，这本身就是馈赠。