加载头像
推理大模型

2025

PRIME:结合隐式过程奖励的强化学习
PRIME:结合隐式过程奖励的强化学习
Satori:通过训练LLM做自回归搜索来增强推理能力
Satori:通过训练LLM做自回归搜索来增强推理能力
引用到评论
随便逛逛博客分类文章标签
复制地址关闭热评深色模式轉為繁體