一周过去了，DeepSeek...

大江户战士OedoSoldier
2025-01-27 19:30:13

一周过去了，DeepSeek R1终于从小众AI圈子扩散到大众认知圈子了。虽然之前OpenAI o1已经是所谓的LRM（大推理模型），但是始终没人确定其实现的方法，有不少人认为其应该是靠着OpenAI的强大财力，雇佣人类专家对思考过程进行标注才能实现，这样的话其成本会难以想象。这也是OpenAI通过隐藏o1的思维链，造成信息不平等得以维持高价格的策略。

DeepSeek R1证实了从传统的LLM转向LRM实际上是个很简单很低成本的过程：你需要的是强化学习（RL）。如果要类比的话，监督学习（SFT）是在给模型灌输知识，而RL是模型在自己探索。如果一个模型的基础能力足够强，他就可以通过自行摸索涌现出新的能力。这也是为什么很多业内人士看到DeepSeek R1的技术报告后都惊呼AGI离我们如此之近：这是一次“范式转移”，是又一个“ChatGPT时刻”。