一篇介绍 Deepseek R1...
- 蚁工厂
- 2025-01-29 15:42:24
一篇介绍 Deepseek R1 模型的工作原理的博文
trite-song-d6a.notion.site/Deepseek-R1-for-Everyone-1860af77bef3806c9db5e5c2a256577d
作者尝试让所有人都能看懂(但还是有不少数学公式的)。主要围绕链式思考推理、强化学习、GRPO(Group Relative Policy Optimization)和模型蒸馏四个核心部分展开。
AI创造营
trite-song-d6a.notion.site/Deepseek-R1-for-Everyone-1860af77bef3806c9db5e5c2a256577d
作者尝试让所有人都能看懂(但还是有不少数学公式的)。主要围绕链式思考推理、强化学习、GRPO(Group Relative Policy Optimization)和模型蒸馏四个核心部分展开。
AI创造营