返回列表

从DeepSeek中获得的育儿启发

·8 min read
AGIMeditation

春节陪老婆坐月子,闲下来翻看了 DeepSeek 的技术论文。重新读起论文来确实有点吃力,不过用 AI 工具辅助学习 AI,这确实是一件有趣的事情。

结合最近看到的报道和舆论,情绪出现了明显的两极分化:一边是开源社区的狂喜和开源精神的胜利,另一边是闭源 AI 公司的警惕和西方政治家的抨击。

下面是我自己的一些发现、评论、猜想,以及育儿相关的思考。

DeepSeek 的技术面

主要是两个相继发布的 DeepSeek 开源模型。

DeepSeek-V3 的基础架构和我三年前研究生时学的并没有本质上的不同,也就是说并没有颠覆式的创新。主要工作是基于 Transformer 架构对注意力机制重新设计,使用 MoE 架构,并在训练和推理的效率上进行了极致的工程优化。

DeepSeek-R1 就有意思了。它以 V3 作为基础模型,通过加入 CoT 思维链(Chain of Thoughts)的范式和 RL 强化学习(Reinforcement Learning)的训练方式,强制模型在给出正式回答之前多思考。事实也表明,更长的时间用于不断反思和修正,能有效提高模型的最终表现,在 STEM 相关问题上的进步尤其明显。

R1 如何学会"慢思考",实际上是 V3"教"的。研究人员只用了很少的冷启动数据来规范输出格式,剩下的全靠模型自己在强化学习中摸索。

作为世界的礼物

许多学者和技术领导者都给出了很高的评价。毋庸置疑的是,DeepSeek-R1 在多个重要评估指标上遥遥领先众多开源模型,且接近最先进的商业闭源模型。

更重要的是,DeepSeek 不是唯一的胜利者。用 R1 思维链合成的训练数据再训练其他开源小模型时,全部小模型的性能都获得了极大的提高。这说明 CoT 的推理范式是目前公认先进的。虽然不是 DeepSeek 首创的架构(OpenAI-o1 在先),但它是第一个开放其全部技术细节和模型权重的公司。

观众和参与者都看在眼里,当然也幸灾乐祸地看到 OpenAI 跌下神坛,其领先的优势不再遥不可及。不过 Altman 最近也在社区里反思,自己或许站在了错误的一边。

我相信未来 OpenAI 和其他组织会开源更多的先进模型,以避免 DeepSeek 形成开源模型垄断。这一切都利好开源社区。

舆论的另一边:质疑和担忧

以美国为首的西方国家在担心什么?

对于开发者来说,哪个更便宜、好用、自主可控,就选择哪个,这是自然而然的事情。但对西方政治家来说,多一个领先的开源模型来推动市场竞争本身不是问题,问题是这个先进的开源模型来自中国。主要矛盾是地缘政治影响下的主流价值观对立和意识形态分歧。

我的总结有两点:

1. 开源权重里隐含的"中国价值观"。 在中文评测基准上 DeepSeek 的遥遥领先就可以看出,其训练数据集包含了大量中文资料,而中文资料里涵盖的许多观点(尤其是政治上的观点),或许是西方社会不能认同的。他们担心这个先进的开源模型成为全球开发者的 AI 基础设施后,"中国模型"代表的"中国价值观"会对全球疯狂输出,进而"侵犯"到西方国家的利益。有没有不知道,至少他们在担心。

2. 芯片封锁的漏洞。 美国企业看到,即便美国政府严格管控英伟达芯片的出口,DeepSeek 仍然能获得如此多的芯片。如果这一漏洞不被堵上,会快速缩短中美之间的 AI 能力差距。他们担心如果中国占据了 AI 领导优势,就可能在军事上占据霸权地位,进而对西方社会造成不可逆的威胁。这背后是西方国家对中国政府的不信任。

把经验迁移到育儿上

回到现实问题,我有什么收获?我问自己:如果我是研究员,孩子是模型,我可以如何"训练"他?

CoT 思维链:引导思考过程。 多思考和多反思就更可能接近真相。教育孩子不只是给答案,更重要的是引导他如何思考。

RL 强化学习:制订奖惩机制。 让孩子知道什么能做和什么不能做。当然同时要给予他们尝试和试错的空间,不然孩子不可能学会。

Data 见多识广:大量优质输入。 书读百遍其义自现。大量"阅读"优质的知识和经验,才能构建更好的"模型"。

Time 时间的力量:相信潜能。 相信孩子的潜能无穷大,也要相信他们会比自己更好。

我的思考

没有绝对的完美,因为完美是一个过程而非结果,领先也只会是暂时的。

DeepSeek 证明了开源可以和闭源掰手腕,也证明了极致的工程优化能弥补硬件的差距。而舆论的两极分化背后,技术从来不是纯粹的技术,它始终带着它诞生的文化和政治的烙印。

不过对我来说,最大的收获是把这些 AI 训练的经验映射到了育儿上。耐心地陪伴和教育孩子成长,这本身就是馈赠。