Satori：通过训练LLM做自回归搜索来增强推理能力

发表于2025-02-15🎥 观看直播

Satori：通过训练LLM做自回归搜索来增强推理能力

青稞2025-02-15

2月15日上午11点，青稞Talk 第38期，Satori第一作者、MIT博士生沈茂昊，将直播分享《Satori：通过训练LLM做自回归搜索来增强推理能力》。

主讲嘉宾

沈茂昊，MIT EECS系四年级博士生，长期和MIT-IBM Watson AI lab 合作，本科毕业于UIUC ECE系。研究兴趣包括提升AI系统的可靠性，不确定性估计，以及涉及LLM的多个方向，包括提升LLM的推理能力等，曾在ICML、NeurIPS、AAAI等AI学术会议发表多篇论文。

主题提纲

Satori：通过训练LLM做自回归搜索来增强推理能力

1、O1 类推理模型的技术路线
2、Satori 推理模型及两阶段训练解析 - 行动思维链 COAT 推理范式 - 小规模格式微调 - 大规模的强化学习阶段
3、Satori 的推理能力及泛化讨论

成果链接

Paper：https://arxiv.org/pdf/2502.02508
Project：https://satori-reasoning.github.io

直播时间

2月15日（周六）11:00 – 12:00

喜欢这篇文章的人也看了

PRIME：结合隐式过程奖励的强化学习

从 TinyZero 到 APR：语言模型推理能力的探索与自适应并行化

基于 LightLLM 的 DeepSeek R1/V3 模型部署实战

PC-Agent：面向复杂 PL 任务的多模态智能体框架

COAT：显存高效的 FP8 训练，实现高效深度学习

ChatDev：大语言模型驱动的多智能体协作与演化