从 TTS 到 TTRL：无标签数据强化学习探索与展望

青稞2025-05-14

5月14日20:00点，青稞Talk第48期，TTRL 作者、清华大学博士生张开颜，将直播分享《从 TTS 到 TTRL：无标签数据强化学习探索与展望》。

本期Talk 张开颜博士将聚焦无标签数据上进行强化学习——即测试时强化学习（TTRL）的探索，探讨TTS与RL推理的关系，详述TTRL的方法与意义，并从协同与交互的视角展望RL经验时代。

分享嘉宾

张开颜，清华大学三年级博士生，导师为周伯文教授。研究方向为大语言模型测试时扩展（Test-time Scaling）、强化学习和多智能体协同技术。在NeurIPS,ICLR,ICML,ACL,EMNLP,COLM等国际人工智能顶级会议与期刊上发表论文十余篇。个人主页：https://iseesaw.github.io/

主题提纲

从 TTS 到 TTRL：无标签数据强化学习探索与展望

1、强化学习推理与 TTS 的关系 2、TTRL：无标签数据的测试时强化学习方法 3、TTRL 的有效性及局限性讨论 4、协同与交互视角下的 RL 经验时代

直播时间

5月14日20:00 - 21:00

成果链接

论文标题：TTRL: Test-Time Reinforcement Learning 论文地址：https://arxiv.org/abs/2504.16084 GitHub：https://github.com/PRIME-RL/TTRL HuggingFace：https://huggingface.co/papers/2504.16084