Satori:通过训练LLM做自回归搜索来增强推理能力

2月15日上午11点,青稞Talk 第38期,Satori第一作者、MIT博士生沈茂昊,将直播分享《Satori:通过训练LLM做自回归搜索来增强推理能力》。

主讲嘉宾

沈茂昊,MIT EECS系四年级博士生,长期和MIT-IBM Watson AI lab 合作,本科毕业于UIUC ECE系。研究兴趣包括提升AI系统的可靠性,不确定性估计,以及涉及LLM的多个方向,包括提升LLM的推理能力等,曾在ICML、NeurIPS、AAAI等AI学术会议发表多篇论文。

主题提纲

Satori:通过训练LLM做自回归搜索来增强推理能力

  • 1、O1 类推理模型的技术路线
  • 2、Satori 推理模型及两阶段训练解析 - 行动思维链 COAT 推理范式 - 小规模格式微调 - 大规模的强化学习阶段
  • 3、Satori 的推理能力及泛化讨论

成果链接

  • Paper:https://arxiv.org/pdf/2502.02508
  • Project:https://satori-reasoning.github.io

直播时间

2月15日(周六)11:00 – 12:00