PRIME:结合隐式过程奖励的强化学习

2月22日上午11点,青稞Talk 第39期,上海人工智能实验室青年科学家崔淦渠,将直播分享《PRIME: 结合隐式过程奖励的强化学习》。

主讲嘉宾

崔淦渠,上海人工智能实验室青年科学家,博士毕业于清华大学计算机系,导师为刘知远副教授。研究方向为大语言模型的对齐与强化学习技术。在ICML, NeurIPS, ACL, KDD等国际人工智能顶级会议与期刊上发表论文十余篇,谷歌学术引用超9000次。

主题提纲

PRIME: 结合隐式过程奖励的强化学习

  • 1、为什么强化学习是下一个 Scaling law
  • 2、DeepSeek-R1:过程奖励模型在强化学习中的挑战
  • 3、Implicit PRM与 PRIME 如何破局

成果链接

  • Paper:Process Reinforcement through Implicit Rewards
  • Abs:https://arxiv.org/pdf/2502.01456
  • Code:https://github.com/PRIME-RL/PRIME

直播时间

2月22日(周六) 11:00 -12:00