Satori:通过训练LLM做自回归搜索来增强推理能力
发表于🎥 观看直播

Satori:通过训练LLM做自回归搜索来增强推理能力
青稞2月15日上午11点,青稞Talk 第38期,Satori第一作者、MIT博士生沈茂昊,将直播分享《Satori:通过训练LLM做自回归搜索来增强推理能力》。
主讲嘉宾
沈茂昊,MIT EECS系四年级博士生,长期和MIT-IBM Watson AI lab 合作,本科毕业于UIUC ECE系。研究兴趣包括提升AI系统的可靠性,不确定性估计,以及涉及LLM的多个方向,包括提升LLM的推理能力等,曾在ICML、NeurIPS、AAAI等AI学术会议发表多篇论文。
主题提纲
Satori:通过训练LLM做自回归搜索来增强推理能力
- 1、O1 类推理模型的技术路线
- 2、Satori 推理模型及两阶段训练解析 - 行动思维链 COAT 推理范式 - 小规模格式微调 - 大规模的强化学习阶段
- 3、Satori 的推理能力及泛化讨论
成果链接
- Paper:https://arxiv.org/pdf/2502.02508
- Project:https://satori-reasoning.github.io
直播时间
2月15日(周六)11:00 – 12:00