SimpleRL-Zoo & B-STaR:通过强化学习自我提升推理性能和效率

主讲嘉宾

曾伟豪,香港科技大学(HKUST)计算机系博士生,主要研究方向为大语言模型(LLM)的post-training,特别关注模型推理能力增强、对齐数据工程、自我进化训练方法等。他提出了SimpleRL方法,利用极少数据结合强化学习显著提升模型在数学推理任务上的能力(Github 3K Star);在B-STAR中引入探索与利用的动态平衡机制,进一步提升LLM的自我学习效果(ICLR 2025);在Deita项目中,通过自动数据筛选实现高效指令微调,使对齐训练更加数据节省(ICLR 2024);他还与微软合作提出Auto Evol-Instruct框架,实现无人工干预的指令进化(EMNLP 2024)。相关成果发表于ICLR、ACL、EMNLP等顶级会议,致力于推进开源LLM社区的发展。

主题提纲

B-STaR & SimpleRL-Zoo:通过强化学习自我提升推理性能和效率

  • 1、大模型训练中的强化学习方法
  • 2、平衡探索与利用的自我提升框架 B-STaR
  • 3、SimpleRL-Zoo:针对开源基座模型的零样本强化学习训练
    • 实现Zero RL训练成功的核心设计原则
    • 研究发现与实践经验

成果链接

  • 论文名称:B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners

  • Abs:https://arxiv.org/pdf/2412.17256

  • 论文名称:SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild

  • Abs:https://arxiv.org/abs/2503.18892

  • Code:https://github.com/hkust-nlp/simpleRL-reason

直播时间

4月19日(周六)上午11点