SimpleRL-Zoo & B-STaR:通过强化学习自我提升推理性能和效率
发表于🎥 观看直播

SimpleRL-Zoo & B-STaR:通过强化学习自我提升推理性能和效率
青稞主讲嘉宾
曾伟豪,香港科技大学(HKUST)计算机系博士生,主要研究方向为大语言模型(LLM)的post-training,特别关注模型推理能力增强、对齐数据工程、自我进化训练方法等。他提出了SimpleRL方法,利用极少数据结合强化学习显著提升模型在数学推理任务上的能力(Github 3K Star);在B-STAR中引入探索与利用的动态平衡机制,进一步提升LLM的自我学习效果(ICLR 2025);在Deita项目中,通过自动数据筛选实现高效指令微调,使对齐训练更加数据节省(ICLR 2024);他还与微软合作提出Auto Evol-Instruct框架,实现无人工干预的指令进化(EMNLP 2024)。相关成果发表于ICLR、ACL、EMNLP等顶级会议,致力于推进开源LLM社区的发展。
主题提纲
B-STaR & SimpleRL-Zoo:通过强化学习自我提升推理性能和效率
- 1、大模型训练中的强化学习方法
- 2、平衡探索与利用的自我提升框架 B-STaR
- 3、SimpleRL-Zoo:针对开源基座模型的零样本强化学习训练
- 实现Zero RL训练成功的核心设计原则
- 研究发现与实践经验
成果链接
论文名称:B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners
Abs:https://arxiv.org/pdf/2412.17256
论文名称:SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild
Abs:https://arxiv.org/abs/2503.18892
Code:https://github.com/hkust-nlp/simpleRL-reason
直播时间
4月19日(周六)上午11点