PRIME:结合隐式过程奖励的强化学习
发表于🎥 观看直播

PRIME:结合隐式过程奖励的强化学习
青稞2月22日上午11点,青稞Talk 第39期,上海人工智能实验室青年科学家崔淦渠,将直播分享《PRIME: 结合隐式过程奖励的强化学习》。
主讲嘉宾
崔淦渠,上海人工智能实验室青年科学家,博士毕业于清华大学计算机系,导师为刘知远副教授。研究方向为大语言模型的对齐与强化学习技术。在ICML, NeurIPS, ACL, KDD等国际人工智能顶级会议与期刊上发表论文十余篇,谷歌学术引用超9000次。
主题提纲
PRIME: 结合隐式过程奖励的强化学习
- 1、为什么强化学习是下一个 Scaling law
- 2、DeepSeek-R1:过程奖励模型在强化学习中的挑战
- 3、Implicit PRM与 PRIME 如何破局
成果链接
- Paper:Process Reinforcement through Implicit Rewards
- Abs:https://arxiv.org/pdf/2502.01456
- Code:https://github.com/PRIME-RL/PRIME
直播时间
2月22日(周六) 11:00 -12:00