来自 OpenAI 研究员 Jason...

  • 宝玉xp
  • 2024-12-11 08:29:14
来自 OpenAI 研究员 Jason Wei 的感慨:他在强化学习(RL)领域的认知发生了180度大转变,2022年之前完全没接触过强化学习研究,也不认为强化学习对AGI(通用人工智能)很重要,现在强化学习已经深入影响了他的日常工作和思维方式,每天想着如何为RL优化代码,如何为RL设计数据,甚至用 RL 的视角看待生活。

结合周五 OpenAI 周五推出的针对推理模型的强化微调,可以看出 o1 推理模型的背后离不开强化学习,未来大模型的发展方向也会深度结合强化学习。

简单科普一下:强化学习(Reinforcement Learning, RL)是一种机器学习方法,通过让智能体(agent)在一个环境(environment)中与环境交互,学习如何采取行动(action)以最大化其累计的奖励(reward)。比如AlphaGo通过RL学会了下围棋,打败了顶级人类选手;自动驾驶是借助 RL 帮助车辆在模拟环境中学习如何避开障碍、保持车道;机器人通过 RL 学习如何移动、站立或完成复杂任务,例如组装零件。
来自 OpenAI 研究员 Jason...来自 OpenAI 研究员 Jason...来自 OpenAI 研究员 Jason...来自 OpenAI 研究员 Jason...