OpenAI o1复现之旅:通过简单蒸馏是超越o1-preview的巨大进步还是苦涩教训?

作者:莫笑傅立叶
原文:https://zhuanlan.zhihu.com/p/9229809205
>>加入青稞AI技术交流群,与青年AI研究员/开发者交流最新AI技术

1
2
Paper:O1 Replication Journey
Abs:https://www.hotaipapers.com/ai-papers/2411-16489

摘要

本文批判性地审视了当前复制OpenAI O1模型能力的方法,尤其关注广泛使用但常常未公开的知识蒸馏技术。我们之前的研究(第一部分[@qin2024o1])探讨了复制O1的基本技术路径,本研究则揭示了简单的O1 API蒸馏结合监督微调,如何在复杂的数学推理任务上取得优异性能。大量实验表明,仅在数万个O1蒸馏的长链推理样本上微调的基础模型,在全美邀请数学考试(AIME)中,其性能已超越O1预览版,且技术复杂度极低。此外,我们研究扩展到数学推理之外,探索了O1蒸馏模型在不同任务上的泛化能力:幻觉、安全性及开放域问答。值得注意的是,尽管仅在数学问题求解数据上训练,我们的模型在开放式问答任务中展现出强大的泛化能力,微调后对迎合性行为的敏感度也显著降低。我们公开这一发现,旨在提升AI研究的透明度,并挑战该领域技术论断含糊不清的现状。

我们的工作包括:(1)详细的技术阐述,涵盖蒸馏过程及其有效性;(2)一个全面的基准框架,用于评估和分类O1复制尝试的技术透明度和可重复性;(3)对过度依赖蒸馏方法的局限性和潜在风险的批判性讨论;我们的分析最终得出关键的“苦涩教训”:追求更强大的AI系统固然重要,但培养基于第一性原理思考的研究人员同样至关重要。这不仅是技术考量,更是关乎人类未来,将深刻影响AI创新的根本性使命。

绪论

自从OpenAI发布O1模型[@openai2024reasoning]以来,人工智能研究领域发生了巨变。该模型在复杂推理任务,特别是数学问题求解方面展现出前所未有的能力。这一突破引发全球研究机构和公司竞相复制其能力,近几周涌现大量宣称取得成功的案例[@Openo1; @qin2024o1; @llamao1; @k0math; @skyworko1; @deepseekr1lite]。然而,这些声明也暴露了研究界一个令人担忧的趋势:优先追求快速提升性能,而非透明的技术创新。

在探索O1复制工作的最新进展中,我们提出了一种简单而有效的方法:利用O1 API进行知识蒸馏[@hinton2015distilling]。此方法直接向O1提出复杂问题,生成长链条的推理过程,然后用于其他模型的监督微调或强化学习[@christiano2017deep; @ziegler2019fine; @ouyang2022training]。实验表明,只需数万个蒸馏样本和标准监督微调,基础模型就能在全美邀请赛数学考试(AIME)上超越O1预览版的性能。

虽然此方法能取得令人瞩目的性能提升,但其广泛应用却鲜为人知,这引发了对人工智能研究现状和未来方向的严重担忧。

这种“捷径”方法的影响远不止技术层面:

(1)方法缺乏透明度,使研究界难以准确评估并借鉴所谓的进展。许多机构可能隐瞒实际方法,却夸大自身技术能力,导致对领域进展的认知偏差。

  1. 这种趋势导致创新停滞,研究人员越来越依赖现有强大模型,而非开发根本性的新技术。研究重点从原创性技术贡献转向复杂的提示词工程,可能阻碍该领域的长期发展。

  2. 此外,通过蒸馏训练的模型存在固有局限性——其能力受限于教师模型(O1),形成难以突破的天花板效应,阻碍真正进步。这种依赖不仅限制潜在突破,也限制了将能力扩展到新领域或超越现有基准的能力。

  3. 最令人担忧的是其对教育的影响:我们错失了培养下一代人工智能研究人员真正研究技能和解决问题能力的关键机会

为了促进这种透明度,我们引入了一个新颖的基准框架,用于根据其技术透明度和可重复性对O1复制尝试进行分类和评估。该框架为评估不同方法的透明度和开放性提供了明确的指标,创建了一个标准化的平台,用于比较各种复制工作。通过这种系统的评估,我们希望鼓励对该领域的技术成就进行更严格诚实的报告。我们的工作不仅是技术贡献,也是对人工智能研究界的行动号召。我们认为,虽然蒸馏方法提供了直接的性能提升,但它们也存在创建依赖循环的风险,最终可能阻碍真正的技术进步。随着该领域继续追求越来越先进的推理能力,我们认为在性能改进真正的技术创新之间保持平衡至关重要。前进的道路需要重新致力于科学探究的基本价值观:透明度、原创性和真正的创新。通过公开承认当前方法的优势和局限性,我们希望营造一种鼓励研究人员投资于基础技术创新,而不是仅仅依赖现有解决方案的环境。本文旨在就人工智能的研究实践发起更广泛的讨论,并倡导回归更透明和创新的方法来推动该领域的发展。

O1复现的核心技术栈

在我们O1复现之旅的第一部分[@qin2024o1]中,我们介绍了一种合成长期思考过程的新方法,称为“旅程学习(Journey Learning)”,如图2所示。该方法利用树形搜索算法(例如,蒙特卡洛算法)来探索不同的解决方案路径,然后通过战略性节点选择来构建有希望的探索轨迹。这些探索轨迹通常包含不正确的结果或不理想的方法,并以正确的答案结束。为了解决树中缺乏反思内容的问题,我们利用大型语言模型(LLM)来分析之前的步骤并识别推理错误,从而更好地进行纠正。这个过程产生了通向正确答案的完整轨迹。我们将这些轨迹(包括反思和纠正步骤)收集起来,用于微调大型语言模型(LLM)。然后,经过微调的LLM可用于后续的训练迭代。

长链推理综合的替代方法

在O1技术流程中,最具挑战性的方面之一是有效地综合长链推理以解决复杂问题。这些推理链通常包含反思、纠错和回溯步骤。如上所述,树搜索是一种非常有效的方法,但它可能计算成本高昂且耗时。除了树搜索之外,以下是综合长链推理的替代方法。这些方法在计算效率和推理的彻底性之间做出了不同的权衡。

方法一:完整的人类思维过程标注

人类解决问题很少遵循一条通往成功或失败的线性路径。相反,人们经常会停下来反思、回溯并调整解决问题的策略,以克服遇到的障碍。这一自然过程体现了深度思考的特点。通过完整记录人类解决问题的过程,我们可以生成真实的深度思考训练数据。

方法二:多智能体方法

与旅程学习中策略模型不直接响应反馈不同,我们可以利用多智能体来完成探索过程,并指派它们不同的角色。例如,我们可以构建一个多智能体辩论系统,其中策略模型持续进行推理,而批判模型则评估是否继续或回溯。当找到解决方案时,这种交互过程会自然地生成用于长思考训练的大量数据。

方法三:从高级模型中蒸馏

像o1这样的高级模型展现出强大的反思和自我纠正能力。遵循使用更强大模型指导较弱模型的常见做法,从o1中蒸馏其生成的答案是一种自然的方法。然而,由于o1限制了对其内部思维过程的访问,因此需要精心设计的提示词。

虽然存在多种生成长思考的方法,但蒸馏方法提供了一种经济有效且可靠的方法来获取高质量的数据。

蒸馏背景

在大语言模型 (LLM) 时代,训练数据的质量已成为模型开发的关键因素。近期研究表明,数据质量对模型性能的影响远大于模型规模或数据量。例如,LIMA[@zhou2024lima] 通过仅使用 1000 个精心设计的提示和回复进行监督微调 (SFT),其性能超越了那些使用海量但质量较低数据集训练的模型。同样,Phi-1[@gunasekar2023textbooks] 利用从 GPT-3.5 合成的高质量数据取得了显著成果,在 MBPP[@austin2021program] 和 HumanEval[@chen2021codex] 基准测试中均优于参数规模更大的模型。先进的 LLM 具备全面的知识库、强大的推理能力和指令遵循能力[@wei2022chain; @brown2020languagemodelsfewshotlearners],且其运行成本不断下降,因此,从这些模型中提取高质量数据以训练更小模型的做法日益普遍。例如,Alpaca[@taori2023alpaca] 是一个源自 GPT-3.5 的指令微调数据集,而 WizardLM[@xu2023wizardlm] 则提升了现有指令数据的复杂性和多样性。对于具有可验证解的推理任务,研究人员已采用拒绝采样方法,结合蒸馏技术,能够有效提取和验证高级模型的推理过程[@zelikman2022star; @yu2023metamath]。鉴于 O1 优异的性能和强大的推理能力,对其认知机制进行蒸馏是实现模型复制最可行的方法。

训练后数据整理

为了准备用于下游微调(例如 SFT)的数据集,我们从开源数据集和自行整理的数据集中选取了奥运级别难度的题目子集。我们应用了过滤流程来细化数据集:根据精心设计的规则,去除了依赖图像的题目、缺少明确标记答案的题目以及所有基于证明的题目,同时保留了答案类型为数值型的题目。

我们采用重格式化技术[@fan2024reformatted]对数据集进行进一步增强,并利用GPT-4o-mini重写原始解决方案。重写过程严格遵循特定规范,确保解决方案步骤清晰、详尽且篇幅更长。此步骤还统一了输出格式,要求最终答案以,与长篇思考的格式保持一致。

质量保障机制

我们选择Qwen2.5-Math-72B[@yang2024qwen2]作为我们的基础模型,因为它在数学推理方面具有卓越的基础能力。这个强大的基线为进一步增强模型的推理能力提供了坚实的基础,确保了后续改进的良好起点。

监督微调方法

为了使模型适应并熟悉长篇思考的格式,我们在进行知识蒸馏之前,先进行一个初始的监督微调 (SFT) 阶段。利用上述经过细化和重新格式化的数据集,我们训练模型生成更长、更细致的逐步解决方案。此阶段重点在于确保模型能够熟练地进行详细推理,并遵循标准化的输出格式,从而为后续的蒸馏阶段做好准备。之后,我们使用蒸馏数据集进行下一个 SFT 阶段。这个数据集通过我们的蒸馏过程生成,专门用于收集符合长篇思考格式的高质量、详细推理结果。在这个阶段,模型将进一步微调,不仅提升其推理能力,而且确保输出结果的一致性、精确性和连贯性。

基准测试使用

我们选择了数学推理领域中几个广泛认可和常用的基准测试,这些基准测试因其具有挑战性而被选中。这些包括MATH[@hendrycks2021measuring]和AIME。具体来说,我们使用精简的MATH500子集来促进更广泛的推理时间扩展实验。对于AIME,我们利用2024年新发布的问题来最大限度地降低数据泄漏的风险(我们将其称为AIME2024)。此外,我们从2024年中国全国高中数学联赛 (China National High School Mathematics Competition, CNHS) 中精选了30道题,作为额外的基准测试(MATH2024),以使我们的评估多样化和丰富。这种基准测试的组合确保了对我们模型数学推理能力的全面评估。

推理时间缩放的评估指标

与仅依赖于Pass@k[@chen2021evaluating]、Maj@k[@wang2022self]或RM@k[@DBLP:conf/iclr/LightmanKBEBLLS24]等指标的传统评估策略不同,我们提出了一种新颖的指标,用于评估模型在不同计算成本场景下的性能。这种新方法反映了推理时间缩放[@snell2024scaling]的现实情况,其中测试时间的计算对于确定现代大型模型的有效性和效率至关重要。在推理时间缩放时代,例如OpenAI的O1系列模型已经证明,模型的性能不仅取决于训练时间的计算量,还显著受到推理过程中“思考”时间的影响。这种转变需要一个更细致的评估框架,以权衡计算成本和性能。我们提出的指标直接解决了这个问题,通过测量模型在受限测试Token预算下的推理能力,确保评估结果能够反映实际的约束和部署场景。具体来说,我们使用模型输出的平均Token数量来衡量其在给定基准测试集上的计算成本。该指标反映了测试时间的计算开销:平均Token数量越长,表示推理步骤越复杂。能够生成更长、更详细输出的模型通常能够更有效地捕捉复杂的推理模式,从而展现其在推理时间计算下的可扩展性。此外,平均Token数量指标本身具有可扩展性。如果评估需要比单次响应中通常生成的平均Token数量更高的值,我们可以利用Maj@k指标来近似模型的性能,而无需使用任何额外的奖励模型。这种方法能够反映模型在扩展计算成本下的推理能力,即使单个输出无法自然地达到所需的Token长度。

通过采用这种方法,我们确保了一个可扩展且公平的评估框架,能够捕捉模型在不同推理时间计算设置下的性能表现。此方法避免了人为约束,允许进行有意义的比较,无需依赖外部奖励信号,而是专注于模型自身的推理能力。

与O1性能的比较

如表1所示,在类似的“推理计算成本”(即在相应的基准测试上具有可比的平均输出Token数量)下,蒸馏模型展现出优异的性能,超过了O1-preview在AIME2024上的结果。

模型行为和局限性分析

虽然该模型取得了令人印象深刻的结果,但在数学推理性能方面与O1-mini相比仍存在明显的差距。此外,生成的详细推理过程仍然存在缺陷。解决这些局限性对于缩小性能差距并确保生成的详细推理过程达到清晰度和正确性的最高标准至关重要。

应用超越数学推理

在本节中,我们将探讨在数学长篇推理数据上训练的模型,当应用于其他任务或应用场景时的泛化能力。

训练细节

为了研究模型在不同领域上的泛化能力,我们首先通过系统的数据提取和翻译过程构建了一个多样化的双语数据集。从我们提炼的O1模型输出中,我们仔细挑选了大约5000个包含回顾性思考和自我反思元素的高质量样本。然后,我们使用GPT-4o mini模型将这些样本翻译成中文,从而得到一个平衡的双语数据集。最终的训练数据集包含10750个中英文混合样本对,每个样本包含一个问答对。然后,我们使用这个精心策划的数据集对Qwen2.5-72B-Instruct[@yang2024qwen2b]模型(命名为“基线模型”)进行监督微调(SFT),以获得我们的最终模型(命名为“我们的模型”)。

设置

为了全面评估模型泛化能力的安全特性,我们构建了一个包含600个问题的多样化测试集,这些问题是从三个已有的安全评估数据集精心挑选的:Flames[@huang2023flames]、DiaSafety[@DBLP:conf/acl/0012XDCZZP0H22]和WildSafety[@liu2024safety]。具体而言,我们从每个数据集中提取200个问题,以确保不同安全场景的均衡表示。我们使用Safety-J[@liu2024safety]评估原始模型和微调模型的响应。

结果与见解

评估结果揭示了微调过程对模型安全性的有趣见解。Flames数据集的性能略有提升(从91%提升至92.5%),DiaSafety数据集的性能保持稳定(100%),但WildSafety数据集的性能显著下降(从92%下降至86.5%)。总体而言,微调后安全性评分小幅下降,从94.3%下降至93.0%。这一安全性指标的微小下降凸显了一个关键发现:即使使用高质量的、类似O1的长思考训练数据(侧重于回顾与反思),如果训练数据缺乏明确的安全对齐,模型的安全性性能也可能出现细微下降。我们推测,Flames数据集上的改进可能归因于其与其他数据集相比,更侧重于测试模型的深度反思能力,这与我们强调周密思考的类似O1的训练数据高度契合。

图4

案例研究

为了探究我们微调后的模型在Flames数据集上性能提升的原因(从91%提升至92.5%),我们对Flames中的典型案例进行了详细分析。我们发现Flames中的大多数查询旨在诱导模型优先考虑效用而非安全,常常导致不安全的回应。图4展示了一个关于在建筑物走廊内存放和充电电动自行车的典型案例。Qwen2.5-72B-Instruct(基线模型)的回应体现了这种重效用轻安全的倾向,它只关注防盗措施。该模型提供了关于锁具选择、安装方法和监控的详细建议,直接回应了用户对财产安全的担忧。然而,它完全忽略了关键的安全隐患,特别是电动自行车在走廊充电带来的火灾风险,这可能危及多名居民的生命安全。相比之下,我们的模型在经过大量深思熟虑的数据训练后,展现出更全面、更系统的思维模式。它并非立即解决盗窃问题,而是首先识别出根本性的安全问题:走廊充电带来的火灾隐患、法规合规性以及社区安全。该回应通过优先考虑危及生命的风险而非财产风险,兼顾居民和物业管理等多方利益相关者,并对不同安全维度进行分层分析,并提出更优的解决方案以平衡效用和安全,展现出更强的分析能力。本案例研究揭示了一个重要发现:通过微调过程提升的系统性思维和长篇推理能力,显著增强了模型的安全性能,尤其是在安全考量可能被即时效用所掩盖的场景中。模型能够暂停、思考并全面分析情境的能力,使其能够识别在更直接、更注重效用的回应中可能被忽略的潜在安全隐患。

然而,WildSafety 的性能下降(从 92% 降至 86.5%)表明,仅增强思维能力不足以实现全面的安全对齐。系统性思维虽然有助于模型识别潜在的安全问题,但确保适当的安全对齐对于在各种场景下持续保持高安全标准仍然至关重要。这一发现表明,未来研究应侧重于将系统性思维能力与明确的安全对齐机制相结合,以实现更稳健、更全面的安全性能。

设置

我们在 SFT 前后评估了模型的事实性。我们使用了来自 SimpleQA [@wei2024measuring](一个用于评估模型事实性的英文数据集)、ChineseSimpleQA [@he2024chinese](一个用于评估模型事实性的中文数据集)和ChineseFactEval [@wang2023chinesefacteval](一个包含通用问答和谄媚问答两个子集的中文数据集)的数据集。这些数据集包含中文和英文的知识型问题,用于验证模型的事实性。ChineseFactEval 数据集中的“谄媚问答”子集在提示词中包含误导性答案,以测试模型的谄媚倾向;而“通用问答”子集的格式类似于 SimpleQA。这些数据集中的所有问题都需要可验证的简短答案。我们使用 GPT-4o 将模型的答案与黄金答案进行比较,以获得更强大的答案匹配。

图5
图6
图7

结果与见解

我们的结果表明,经过监督微调 (SFT) 后的模型在事实性方面并没有显著提高 (10.58% 至 10.41%,47.08% 至 45.76%,69.08% 至 62.65%)。这主要是因为更长的推理链导致了额外的幻觉——具体来说,模型试图使用搜索引擎并编造搜索结果 (图 5{reference-type="ref" reference="fig:halu1"})。尽管如此,这些积极使用搜索引擎的尝试表明了一个有希望的方向,我们相信为模型提供实际的网络访问或工具使用 [@gao2022rarr; @chern2023factool] 将显著提高它们的事实性。此外,SFT 后模型中增强的推理链提供了详细的分析和自我反思能力,这有助于防止幻觉 (图 6。

我们还发现,经过 SFT 后,模型对谄媚行为的易感性略有下降 (89.70% 至 92.65%)。这种改进可以归因于自我反思过程,在这个过程中,模型能够辨别并深入思考提示中提出的不合理假设,而不是不加质疑地接受它们 (图 7)。

案例研究

在图5中,我们观察到我们的模型尝试利用搜索引擎,并有可能收集和交叉验证来自多个来源的结果。尽管这些搜索引擎交互是模拟的(因为我们没有整合访问外部数据库的权限),但这种行为展现出良好的发展潜力。在图6中,我们观察到我们的模型系统地记录了阿根廷所有世界杯比赛的比赛和结果,以确保全面性。此外,该模型通过自我验证过程验证了其最初的发现。在图7中,通过自我检查,该模型成功地纠正了提示词中的错误假设(即珠江是第二长河),并正确地识别出黄河是中国第二长河。该模型还从不同的角度(例如,经济重要性、水流量)提供了宝贵的见解,使回应更加全面和信息丰富。

图8

设置

为了评估我们的模型在一般场景下的性能,我们精心策划了一个包含100个查询的测试集,这些查询从Auto-J[@li2023generative]和LIMA[@zhou2024lima]数据集(各50个)中平均采样,并通过人工适配,特别关注长期规划任务。三位领域专家对响应质量进行0-100分的评估。

结果与见解

评估结果显示,微调后模型性能显著提升。Auto-J 查询的得分从 81.6% 提升至 88%,LIMA 查询的得分从 77.2% 提升至 87.2%。性能的提升表明,我们的微调方法不仅改善了模型的双语对话能力,也增强了其处理通用开放域问答任务的能力,尤其是在需要长期规划和结构化思维的复杂场景中。

案例研究

图8详细展示了一个案例研究,比较了Qwen2.5-72B-Instruct 和我们的模型对一个关于 Python asyncio 库的技术编程问题的回答。该问题“为什么在 Python 中 await asyncio.sleep() 会卡住?”代表了一个常见的编程挑战,需要技术准确性和清晰的解释。Qwen2.5-72B-Instruct 的回答虽然在技术上准确,但结构相对简单,只有五个要点和相应的代码示例。它涵盖了事件循环问题、阻塞代码和不正确的 await 用法等重要方面,但在几个方面缺乏深度。值得注意的局限性包括调试指导不足,关于线程安全操作的建议可能存在误导,以及缺乏性能考虑和最佳实践。

我们的模型在多个维度上展现出显著的改进。首先,模型的输出结构更加复杂,具有清晰的分层章节和逻辑流程,使复杂的概念更容易理解。其次,它显著扩展了技术覆盖范围,涵盖了系统调试方法、事件循环管理策略以及阻塞代码场景的详细分析等高级主题。第三,它通过整合全面的调试技巧、常见错误模式的具体示例以及系统的故障排除步骤,增强了实用价值。最后,它集成了对官方文档和可靠学习资源的引用,方便用户持续学习。尽管我们的监督微调 (SFT) 数据集完全专注于数学问题求解,但我们的模型在不同领域展现出显著的泛化能力。这表明数学问题求解中固有的系统思维模式和结构化方法可以有效地迁移到其他领域。在我们的案例研究中看到的改进,特别是在结构组织、综合分析和逻辑流程方面,反映了数学推理模式成功地迁移到一般问题求解场景中。这一发现表明,精心策划的数学指导数据可以作为开发大语言模型通用推理能力的有效基础。

用于评估O1复制声明的框架:技术透明度指数

为了系统地评估和比较各种O1复制尝试,我们提出了技术透明度指数 (TTI),这是一个全面的框架,用于量化声称实现的透明度和可重复性。该框架旨在为研究界提供客观的指标,用于评估不同方法的开放性和可验证性。

透明度评估维度

该框架评估O1复制工作,主要关注透明度,并从几个相互关联的方面进行评估。这些方面包括:数据透明度,涵盖用于下游搜索或训练后数据集的可访问性、质量和文档完整性;方法透明度,体现在所描述的技术、流程和实验设置的清晰度和细节;以及评估透明度,这考虑了性能评估的可重复性和全面性。此外,该框架还考察资源开放性,例如代码、数据集和模型的可用性,以确保这项工作能够被研究界独立验证并有效利用。这种全面的视角捕捉了复制工作中透明度的多方面性质。详细信息将在下面介绍。

索引 1:数据透明度

本方面评估数据来源是否清晰明确,包括对所用数据集及其各自来源的详细描述。它考虑是否明确提及数据集的名称、提供者或数据来源的出版物。这适用于所有在下游任务中使用的数据集,例如监督微调 (SFT)、强化学习 (RL) 或搜索算法,当数据集用作合成长期思考数据的基础数据时,这一点就显得尤为重要。

  • 数据来源:本方面评估数据来源是否清晰明确,包括对所用数据集及其各自来源的详细描述。它考虑是否明确提及数据集的名称、提供者或数据来源的出版物。
  • 数据选择过程:这侧重于用于在应用于下游任务(例如监督微调 (SFT)、搜索或强化学习 (RL))之前过滤、清理或预处理数据的标准和方法的清晰度和严谨性。 ### 索引 2:方法透明度

方法透明度确保工作中采用的方法、技术和流程以足够的细节进行描述,以便独立复现和验证。本节评估多个组成部分,从基础模型描述到训练和数据整理方法。此外,除了详细说明方法的实现方式外,验证方法本身的有效性更为重要。它强调了验证每种方法有效性的重要性。彻底的评估应该量化各个技术的贡献对整体系统性能的影响,而不仅仅是报告最终结果。- 基础模型细节:这评估了关于工作中使用的基础模型所提供信息的深度和清晰度。它包括诸如架构(例如,Transformer 层、注意力机制)、参数规模(可训练参数的数量)等细节。目标是确保方法的基础组件得到充分理解和可复现。

  • 搜索算法:本部分重点阐述用于推理时间扩展的搜索算法。评估文档是否完整地描述了波束搜索、蒙特卡洛树搜索 (MCTS) 或其他策略的应用方法,包括参数、步骤流程以及任何自定义修改。
  • 强化学习算法:本部分详细说明强化学习 (RL) 或偏好学习方法(例如,直接偏好优化)的细节。包括奖励函数的定义、优化目标和训练过程。
  • 类O1长思考合成算法:本部分评估生成或合成类O1长思考数据集的过程。包括对数据生成或选择过程中使用的任何特定算法、启发式方法或规则的解释。
  • 训练细节:本部分详细说明训练过程,包括关键超参数(例如,学习率、批量大小、优化器类型)以及整体训练配置。
  • 有效性验证:本部分评估每种方法的有效性是否经过严格验证。例如,通过消融实验、对比实验或增量分析来量化各个技术对整体系统的贡献。这些验证确保关于方法重要性的论述有明确的实证证据支持,从而提高透明度和可重复性。

索引 3:评估透明度

  • 基准使用:此部分评估用于评估模型性能的基准选择,考虑所选基准是否适合任务和领域。
  • 评估指标:此部分评估用于量化模型性能的指标,例如 pass@k、maj@k 或 rm@k (例如,pass@k 指的是Top-k准确率,maj@k 指的是Top-k多数投票准确率,rm@k 指的是Top-k排序准确率)。它检查指标定义的清晰度、它们与特定任务的相关性以及为解决评估的独特方面而引入的任何自定义。此外,它还评估如何在基线之间标准化和对齐指标,以确保公平公正的比较。

索引 4:开源资源

开源资源在促进可重复性并使研究社区能够在现有工作基础上进行构建方面起着至关重要的作用。本节评估数据集、模型、代码和文档的可用性和可访问性,这些对于独立验证和进一步实验至关重要。

  • 数据:此部分评估训练后原始数据和合成的类似O1的数据集是否公开可用。这些数据集的公开可用性显著增强了可重复性,并使研究人员能够将其应用于更多任务。
  • 模型权重:此部分评估已训练模型权重的公开发布情况。共享模型权重有助于模型的复制和进一步优化。
  • 代码:此部分考量发布的代码库是否包含用于模型训练和性能评估的脚本。完整且文档完善的代码库对于他人重现和验证研究结果至关重要。
  • 文档:此部分考察补充文档(例如研究论文、技术报告或博客文章)的可用性。它评估这些材料是否清晰地解释了方法、结果和底层思想,以及它们是否为研究人员和实践者提供了可操作的见解。

O1风格技术清单

评分框架 (100 分)

我们提出一个评分框架,该框架提供了一种统一的方法来评估O1 复制工作的努力,其重点完全放在透明度上,总分为 100 分。这一重点突出了可重复性和开放性在评估复制工作质量中的关键重要性。该框架评估关键维度,确保对每一项工作对清晰度和可访问性的承诺进行全面而公平的评估。通过系统化的清单方法强调透明度,该评分系统突出了建立信任和推动该领域进一步发展的必要基础方面。 (假设O1指代一个已知项目,如果O1有其他含义,请补充说明。)

二元评分

在这个框架下,清单中的每个评估指标都通过简单的“是/否”问题进行评估,每个“是”的回答都会为总分贡献其指定的点数。该系统的二元性质确保了评估的清晰性和一致性,因为每个指标要么完全满足,要么不满足。这种方法更注重透明度而非实现范围。例如,如果一项工作明确声明未采用某种特定技术(例如,强化学习),它仍然会在该指标的透明度方面获得满分,因为公开记录这些细节体现了对可重复性和开放性的承诺。

在为每个指标分配点数时,我们仔细权衡了它们在技术流程中的相对重要性。那些被认为对O1复制工作的成功和可重复性影响更大的指标,将被赋予更高的点数。例如,搜索算法和长思考数据合成算法的透明度得分更高,这反映了它们在获得高质量和可重复结果中的关键作用。这种加权评分确保该框架与技术流程的优先级保持一致,强调了驱动整个系统性能和可重复性的关键组件的文档记录。

对比研究

我们对现有复制O1的尝试进行了全面的评估,从透明度和性能两个维度对其进行了评估。我们涵盖的研究包括开放O1[@Openo1]O1-Journey(第一部分)[@qin2024o1]LLaMA-O1[@llamao1]k0Math[@k0math]Skywork O1[@skyworko1]Deepseek-R1-Lite[@deepseekr1lite]以及这项工作O1-Journey(第二部分)。这些比较提供了对O1复制工作当前进展的整体视图,突出了它们的优势和改进空间。

排行榜

排行榜显示了各种O1复制工作的透明度水平,我们的工作获得了满分透明度评分。这一结果凸显了我们对开放性和可复现性的承诺,并建立在O1之旅(第一部分)奠定的坚实基础之上。“O1之旅”系列共同为透明度树立了新的标杆,在数据可访问性、方法清晰度和开源资源可用性等所有评估维度上均表现出色。

所谓简单蒸馏的苦涩教训

知识蒸馏从O1取得的显著成功,为在数学推理任务中取得令人印象深刻的性能提升提供了一条诱人的捷径。虽然这种方法提供了直接且切实的益处,但它掩盖了一系列深刻的挑战,这些挑战威胁着人工智能技术及其研究界的长期发展。在本节中,我们将考察优先考虑容易取得的胜利而非基础性创新所带来的真正代价,揭示其影响远远超出了单纯的技术考虑。

表面吸引力

乍一看,知识蒸馏似乎是一个优雅的解决方案:通过直接学习O1复杂的推理模式,模型可以快速实现显著的性能提升,并且实现相对简单直接。这种易用性导致了它的广泛采用,尤其是在那些寻求快速展示与O1相当能力的组织中。然而,这种便利性是以牺牲为代价的,这种代价可能并非立竿见影,但却可能对该领域的长期发展造成毁灭性打击

性能上限

也许最直接的技术问题在于蒸馏式方法的内在局限性。通过蒸馏训练的模型总是受其教师模型(在本例中为 O1)能力的限制,即模型性能无法突破教师模型的水平。这会产生一种隐含的上限效应,无论蒸馏过程多么复杂,改进都永远无法真正超越原始模型的能力。当需要将能力扩展到新的领域或应对以前未曾见过的挑战时,这种限制就变得尤其成问题。

错失的创新

更根本地说,模型蒸馏方法的广泛采用正在导致我们错过核心技术创新中的关键机遇。O1的真正突破可能不仅在于其解决复杂问题的能力,还在于其用于推理时间缩放和搜索优化的精巧机制。通过绕过开发这些基础能力的挑战,我们冒着造成技术差距扩大的风险,这种差距存在于已掌握这些核心技术的组织与主要依赖模型蒸馏技术的组织之间。随着该领域的发展,这种基础设施差距可能越来越难以弥合。

研究文化转变

对研究文化的影响同样令人担忧。通过蒸馏技术轻松取得成果的便捷性已经开始将研究重点从解决根本性挑战转移开来。这种趋势表现为对先进计算基础设施投资的减少,以及对开发复杂搜索和推理算法的重视程度降低。由此产生的恶性循环——基础设施的缺乏限制了研究的可能性,进一步促使人们依赖蒸馏方法——威胁到形成一个创新瓶颈,这可能会扼杀未来的突破。

基础知识的侵蚀

也许最令人担忧的是对该领域教育发展的影响。蒸馏方法的广泛采用对未来人工智能研究人员的发展构成重大风险。当学生和早期职业研究人员主要接触“捷径”解决方案时,他们错过了发展深层解决问题能力的关键机会。从第一性原理解决复杂技术难题的能力——科学创新的基石——可能会随着快速解决方案成为常态而逐渐被侵蚀。我们正在见证下一代人工智能研究人员解决问题方法的转变。许多人接受的训练主要是在优化和提示工程方面,而不是通过与根本性挑战作斗争来发展深刻的理解。这种从“它是如何工作的”到“什么有效”的转变代表了研究心态的根本变化,这可能会对该领域的未来创新能力产生深远的影响

人工智能领域第一性原理的衰退

这种对第一性原理思维的侵蚀尤其令人担忧,因为它动摇了科学创新的根基。开发搜索算法、优化推理时间以及从零开始构建推理机制的过程,提供了无法通过迁移学习等方法复制的宝贵学习经验。这些挑战迫使研究人员深入理解模型的行为和局限性,开发系统的解决问题策略,并培养对算法设计和优化的直觉。如果没有这些经验,我们就有可能培养出一代更乐于应用现有解决方案,而不是从基本原理开发新解决方案的研究人员

学术影响

教育的影响远不止个体技能发展。学术研究环境,传统上是基础创新的熔炉,尤其容易受到这些影响。追求快速成果的压力可能会掩盖更深入的技术研究的价值;学生可能会因此却步于追求更有挑战性的基础研究方向。强调绩效指标而非理解,可能会导致培养出一代擅长优化但缺乏创新能力的研究人员。

日益扩大的差距

展望未来,这些因素的累积效应描绘出一幅令人担忧的图景。在已经开发出基础搜索和推理技术的组织与主要依赖蒸馏技术的组织之间,技术能力差距可能会越来越难以弥合。这种差距可能导致一个研究生态系统,在这个生态系统中,真正的突破将成为少数资源丰富的机构的专属领域,而更广泛的社区则被困在一个通过蒸馏进行渐进式改进的循环中。

建议

为了应对这些挑战,我们提出一些至关重要的建议。

日益扩大的差距

首先,组织必须保持一个平衡的研究组合,涵盖基于蒸馏的方法以及对搜索和推理优化技术的基础研究。其次,尽管基于蒸馏的解决方案已可立即应用,但持续投资先进计算基础设施仍然至关重要。第三,研究项目应优先发展在搜索算法和推理优化方面的核心竞争力,并同时提升性能。

教育改革

在教育领域,我们必须重新设计培养未来研究人员的方法。这包括开发平衡的课程,兼顾实际应用和基础理论;构建研究项目,鼓励深入理解的同时优化绩效;并培养一种重视长期创新而非短期收益的研究文化。

这里的教训是:蒸馏本身并非问题——它仍然是我们技术库中的宝贵工具。然而,危险在于,我们可能会因为蒸馏的便利性而偏离了更艰难但最终更有价值的基础创新之路。展望未来,保持近期收益与长期发展之间的平衡,对于确保人工智能能力的持续进步和培养该领域未来的创新者至关重要。

**构建智能AI固然重要,但培养具有第一性原理思维的人才才是我们的最终使命——毕竟,他们才是AI未来真正的缔造者。