从 TTS 到 TTRL:无标签数据强化学习探索与展望
发表于🎥 观看直播

从 TTS 到 TTRL:无标签数据强化学习探索与展望
青稞5月14日20:00点,青稞Talk第48期,TTRL 作者、清华大学博士生张开颜,将直播分享《从 TTS 到 TTRL:无标签数据强化学习探索与展望》。
本期Talk 张开颜博士将聚焦无标签数据上进行强化学习——即测试时强化学习(TTRL)的探索,探讨TTS与RL推理的关系,详述TTRL的方法与意义,并从协同与交互的视角展望RL经验时代。
分享嘉宾
张开颜,清华大学三年级博士生,导师为周伯文教授。研究方向为大语言模型测试时扩展(Test-time Scaling)、强化学习和多智能体协同技术。在NeurIPS,ICLR,ICML,ACL,EMNLP,COLM等国际人工智能顶级会议与期刊上发表论文十余篇。个人主页:https://iseesaw.github.io/
主题提纲
从 TTS 到 TTRL:无标签数据强化学习探索与展望
1、强化学习推理与 TTS 的关系 2、TTRL:无标签数据的测试时强化学习方法 3、TTRL 的有效性及局限性讨论 4、协同与交互视角下的 RL 经验时代
直播时间
5月14日20:00 - 21:00
成果链接
论文标题:TTRL: Test-Time Reinforcement Learning 论文地址:https://arxiv.org/abs/2504.16084 GitHub:https://github.com/PRIME-RL/TTRL HuggingFace:https://huggingface.co/papers/2504.16084