PRIME：结合隐式过程奖励的强化学习

发表于2025-02-22🎥 观看直播

青稞2025-02-22

2月22日上午11点，青稞Talk 第39期，上海人工智能实验室青年科学家崔淦渠，将直播分享《PRIME: 结合隐式过程奖励的强化学习》。

主讲嘉宾

崔淦渠，上海人工智能实验室青年科学家，博士毕业于清华大学计算机系，导师为刘知远副教授。研究方向为大语言模型的对齐与强化学习技术。在ICML, NeurIPS, ACL, KDD等国际人工智能顶级会议与期刊上发表论文十余篇，谷歌学术引用超9000次。

PRIME: 结合隐式过程奖励的强化学习

2月22日（周六） 11:00 -12:00

喜欢这篇文章的人也看了