一周过去了,DeepSeek...
- 大江户战士OedoSoldier
- 2025-01-27 19:30:13
一周过去了,DeepSeek R1终于从小众AI圈子扩散到大众认知圈子了。虽然之前OpenAI o1已经是所谓的LRM(大推理模型),但是始终没人确定其实现的方法,有不少人认为其应该是靠着OpenAI的强大财力,雇佣人类专家对思考过程进行标注才能实现,这样的话其成本会难以想象。这也是OpenAI通过隐藏o1的思维链,造成信息不平等得以维持高价格的策略。
DeepSeek R1证实了从传统的LLM转向LRM实际上是个很简单很低成本的过程:你需要的是强化学习(RL)。如果要类比的话,监督学习(SFT)是在给模型灌输知识,而RL是模型在自己探索。如果一个模型的基础能力足够强,他就可以通过自行摸索涌现出新的能力。这也是为什么很多业内人士看到DeepSeek R1的技术报告后都惊呼AGI离我们如此之近:这是一次“范式转移”,是又一个“ChatGPT时刻”。
DeepSeek R1证实了从传统的LLM转向LRM实际上是个很简单很低成本的过程:你需要的是强化学习(RL)。如果要类比的话,监督学习(SFT)是在给模型灌输知识,而RL是模型在自己探索。如果一个模型的基础能力足够强,他就可以通过自行摸索涌现出新的能力。这也是为什么很多业内人士看到DeepSeek R1的技术报告后都惊呼AGI离我们如此之近:这是一次“范式转移”,是又一个“ChatGPT时刻”。