从 TTS 到 TTRL:无标签数据强化学习探索与展望

5月14日20:00点,青稞Talk第48期,TTRL 作者、清华大学博士生张开颜,将直播分享《从 TTS 到 TTRL:无标签数据强化学习探索与展望》。

本期Talk 张开颜博士将聚焦无标签数据上进行强化学习——即测试时强化学习(TTRL)的探索,探讨TTS与RL推理的关系,详述TTRL的方法与意义,并从协同与交互的视角展望RL经验时代。

分享嘉宾

张开颜,清华大学三年级博士生,导师为周伯文教授。研究方向为大语言模型测试时扩展(Test-time Scaling)、强化学习和多智能体协同技术。在NeurIPS,ICLR,ICML,ACL,EMNLP,COLM等国际人工智能顶级会议与期刊上发表论文十余篇。个人主页:https://iseesaw.github.io/

主题提纲

从 TTS 到 TTRL:无标签数据强化学习探索与展望

1、强化学习推理与 TTS 的关系 2、TTRL:无标签数据的测试时强化学习方法 3、TTRL 的有效性及局限性讨论 4、协同与交互视角下的 RL 经验时代

直播时间

5月14日20:00 - 21:00

成果链接

论文标题:TTRL: Test-Time Reinforcement Learning 论文地址:https://arxiv.org/abs/2504.16084 GitHub:https://github.com/PRIME-RL/TTRL HuggingFace:https://huggingface.co/papers/2504.16084