SimpleRL-Zoo & B-STaR：通过强化学习自我提升推理性能和效率

青稞2025-04-19

主讲嘉宾

曾伟豪，香港科技大学（HKUST）计算机系博士生，主要研究方向为大语言模型（LLM）的post-training，特别关注模型推理能力增强、对齐数据工程、自我进化训练方法等。他提出了SimpleRL方法，利用极少数据结合强化学习显著提升模型在数学推理任务上的能力（Github 3K Star）；在B-STAR中引入探索与利用的动态平衡机制，进一步提升LLM的自我学习效果（ICLR 2025）；在Deita项目中，通过自动数据筛选实现高效指令微调，使对齐训练更加数据节省（ICLR 2024）；他还与微软合作提出Auto Evol-Instruct框架，实现无人工干预的指令进化（EMNLP 2024）。相关成果发表于ICLR、ACL、EMNLP等顶级会议，致力于推进开源LLM社区的发展。

主题提纲

B-STaR & SimpleRL-Zoo：通过强化学习自我提升推理性能和效率

1、大模型训练中的强化学习方法
2、平衡探索与利用的自我提升框架 B-STaR
3、SimpleRL-Zoo：针对开源基座模型的零样本强化学习训练
- 实现Zero RL训练成功的核心设计原则
- 研究发现与实践经验

成果链接

论文名称：B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners
Abs：https://arxiv.org/pdf/2412.17256
论文名称：SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild
Abs：https://arxiv.org/abs/2503.18892
Code：https://github.com/hkust-nlp/simpleRL-reason

直播时间

4月19日（周六）上午11点