OpenAI o1：AI新范式以及对未来的 10 个启示

青稞2024-10-272024-11-17

翻译：青稞AI
原文：https://www.thealgorithmicbridge.com/p/openai-o1-a-new-paradigm-for-ai

不， GPT 并没有消失。但从新的 OpenAI o1 模型系列中，我们可以清晰地看出——请允许我为此感到激动——一个全新的范式正在诞生：推理的新范式，扩展的新范式，人工智能的新范式。

虽然 ChatGPT 和 GPT-4 仍然会陪伴我们，但它们不再是 OpenAI 的“宠儿”。我们正步入一个新的阶段，一个新的时代。公司未来的资源和精力将主要集中在探索、扩展和完善这个新范式上，这个时刻更像是 GPT-3 带来的震撼（“等等，人工智能居然能做到这些？”），而非 ChatGPT 的“全民狂欢时刻”（“人人都来参加派对！”）。

我们需要很多答案来解释这一整体转变：

推理人工智能对于生成人工智能来说意味着什么（它到底具有生成性吗）？
用户将如何与能够思考的人工智能模型建立联系并进行互动？
当让推理模型思考几个小时、几天甚至几周时，它们能做什么？
推理模型现在如何根据计算来扩展性能？
公司将如何在训练推理流程中分配计算？
所有这些对于人工智能的最终目标意味着什么？
这与 GPT-5 有何关系（如果有的话）？

但别急于下结论。这些问题都很复杂，也非常有趣。首先，我想回顾一下 OpenAI 的最新发布： o1-preview 和 o1-mini。我会为大家总结一下这些模型的新特性、能力、基准测试表现，以及我收集到的正反两方面的例子。（这两款模型现在已经对所有 Plus 和 Team 用户开放，在 ChatGPT 网站上可以使用，每周消息限额分别是 o1-preview 30 条， o1-mini 50 条。赶紧去试试吧，记得：提示语尽量简洁）。

接下来，我会深入探讨这个新范式的含义，以及我对未来趋势的预测。我还会在分析中加入一些我个人的看法和评论，既有支持也有质疑 OpenAI 对这一新范式的描述的观点。

虽然这篇文章很长，但它涵盖了未来几年内至关重要的议题（提前为众多脚注表示抱歉，但这些脚注包含了“精华”，我特意把它们从正文中拿出来，免得打扰不关心细节的读者）。

OpenAI o1 模型系列与 GPT

理解新事物的最好方法是将其与最接近的现有事物进行比较。对于o1来说，这就是 GPT。这张图最好地说明了 o1 与 GPT 的不同之处：

上方的条形表示传统的大型语言模型 (LLM)，即 OpenAI GPT（以及 Gemini、Claude、Llama、Grok 等）。下方是草莓，这是 o1 模型系列的内部名称。条形测量分配给 AI 模型经历的三个阶段（训练前/训练后和推理）的计算能力。

首先，该模型基于大量来自互联网的质量一般的数据进行训练（预训练）。
其次，对其进行微调和修改，以调整其行为、提高其性能等（训练后）。
最后，人们在生产中使用它，例如在网站上向 ChatGPT 提问（推理）。

在 o1 之前，大部分计算能力（从现在开始计算）都用于使模型吞噬大量数据（“越大越好”的范式）。GPT-2 有 15 亿个参数，GPT-3 有 1750 亿个参数，GPT-4 有 1.76 万亿个参数。四年内大了三个数量级。规模越大，在预训练期间处理和编码的数据池就越深。GPT-4 在预训练时需要比它的老大哥们多得多的计算，因为它更大，这也使它“更聪明”。随着时间的推移，人工智能公司意识到他们还必须改进训练后并节省一些资源来改善模型的行为。所以他们这样做了。这些都是在模型开发期间的预生产阶段。

推理是另一回事。首先，每周有 2 亿人使用你的 AI 模型，成本非常高。你只训练一次，但人们会使用它数百万次，甚至数十亿次。其次，需要克服技术障碍，不可能让模型根据查询的复杂性学习何时应该为给定查询投入更多计算。ChatGPT 回答“二加二等于多少”和“解决黎曼假设”所用的能量相似。（当然，后者会失败——前者也可能失败）。因此，你问 AI 一个问题，无论问题有多难，聊天机器人都会立即开始回答。越快越好。

无论如何，人类不是那样工作的，所以研究人员意识到他们必须找到一种方法，让模型在推理时（或测试时）占用更多资源来“思考”复杂查询。这就是 o1 模型所做的。他们已经学会了用强化学习机制进行推理（稍后会详细介绍），并且可以花费资源来提供缓慢、深思熟虑、理性（根据 Daniel Kahneman 的定义，系统 2 思维）的答案，以回答他们认为需要这种方法的问题。这就是人类的做法——我们快速解决简单问题，而缓慢解决更难的问题。

虽然类比并不完美，但可以毫不夸张地说，这些模型与上一代模型的区别在于，它们可以像人类一样进行实时推理。

这就是为什么 OpenAI 将这个新阶段称为“推理范式”，而旧阶段则称为“预训练范式”（我不确定这些标签是否会坚持，但目前我会坚持它们）。

o1 的基准测试表现很棒

为了将 o1 的性能得分与上面的部分联系起来，我将分享 OpenAI 在评估博客文章中给我们的最重要的图表：

这些图表是 o1 在 AIME（美国数学邀请赛）上的得分，但这不是重点。我敢打赌它们（大部分）可以在基准测试中复制。

在左侧，我们将训练期间的准确率作为用于训练的计算的函数。当我们在该图上向右移动（对数刻度）时，我们会看到性能或多或少呈线性增长。这种增长代表了旧的预训练范式：你训练模型越多，它就越好。

右侧是推理期间的准确率与用于测试的计算量的关系。这里引人注目的是，我们在此图中看到的性能提升与我们在左侧图中看到的性能提升相似（甚至更大），即随着 o1在推理期间获得更多计算来推理 AIME 问题，它的表现也会好得多。

简而言之，通过让模型有更多时间思考问题，训练期间吞噬更多数据所带来的性能提升可以得到令人惊讶的良好权衡。

有趣的是，不仅收益可以互换，而且通过优化测试时间计算模型所实现的技能上限与优化训练时间计算相比相当大。这意味着新范式允许 AI 模型解决更复杂的问题，并且它们不需要扩大规模来变得更聪明——你给它们更多时间思考就足够了。

在将新模型 o1（尚未推出）和 o1-preview 与 GPT-4o 进行并行测试时，我们看到了这一点（推理模型越小，这一点就越明显，例如 o1-mini 与 o1-preview，下图中未显示）：

OpenAI 对基准性能的评价如下：

OpenAI o1 在竞争性编程问题（Codeforces）中排名第 89 位，在美国数学奥林匹克（AIME）资格赛中跻身美国前 500 名学生之列，并在物理、生物和化学问题（GPQA）基准测试中超过了人类博士级别的准确度。

AIME 和 Codeforces（编码竞赛）的结果非常好。物理和化学方面的 GPQA Diamond（博士级难题）也是如此。我认为 MMLU 和 MATH 没那么有用，但即使我们忽略我们不喜欢的评估（我将所有为人类设计的考试都归入该类别），情况也很清楚：STEM、科学、数学、编码——与 GPT-4o 以及当今任何其他 LLM 相比，o1 在每一个方面都是一头猛兽。

让我们看一些最令人惊讶的例子和见证——除了 OpenAI 分享的那些，比如公主谜语和上面的那些——它们揭示了 o1-preview 与 LLM 相比有多好（甚至不是权威模型！）：

研究员科林·弗雷泽（Colin Fraser，以对人工智能公司的说法持怀疑态度而闻名）表示，他“对 [o1-preview] 的印象比我预期的要深刻一些。它似乎能够比 gpt4 更好地进行计数和其他简单的计算。”
Ethan Mollick 教授仅通过提供第一个提示就帮助 o1-preview 解决了一道很难的填字游戏（由于自回归陷阱，这种迭代问题对于法学硕士来说非常难）。
研究员 Shital Shah 表示：“ChatGPT o1 在我的私人基准测试中取得了 80% 的成绩。之前的最佳成绩是 Sonnet 3.5 的 30% 和 GPT 4o 的 20%。”
作者 Daniel Jeffries ：“在这个测试中，没有一个模型的得分超过 40%。我从未公布过这些问题或基准，因为我不希望出现任何漏洞。这是一项真正的思考和推理测试。[o1-preview] 到目前为止的正确率为 100%，我首先对最难的问题进行了测试。”
Mehran Jalali ：“Llama 405b 未能解答我文档中的‘gpt4 无法解答的问题’中的所有问题。Claude 3.5 Sonnet 可以解答其中的一些问题……o1 [预览] 几乎解答了所有问题。”另外，看看这首诗。
OpenAI 应用研究主管 Boris Power 要求人们分享令他们印象深刻的例子。其他有趣的见证包括 Cognition在内部机构基准测试中对o1-enhanced Devin的成就，以及 Tyler Cowen 教授对 o1-perview经济学博士知识的评估。

ARC-AGI背后的团队（包括 François Chollet）将在 ARC-AGI 基准上测试 o1-preview，我认为这是最能说明 AGI（通用 AI 或人类级 AI）进展的基准。请拭目以待这次测试的结果。

困难、科学、逻辑性强——这些任务正是融入新推理范式的人工智能模型最擅长解决的。它们不能通过立即回答然后坚持自己的答案（因为你不能回头）来解决，而是需要遵循一个缓慢、慎重的反复试验、反馈循环和回溯过程。

这是 o1 模型的另一个技术基石。这就是他们通过强化学习 (RL) 思考和推理的方式。

那么，推理是如何进行的呢？

我解释了 OpenAI 为实现这一新范式所解决的第一个技术挑战：使用测试时计算（推理期间）来解决复杂问题并回答难题。但是，如果像 GPT-4o 一样，这些额外的图形处理器被浪费在盲目预测下一个单词上，那么它们就毫无用处。

如果人工智能有时间思考，但不知道如何思考，那还有什么意义呢？

这是 OpenAI 解决的第二个技术难题。o1 学会了在训练过程中通过强化自己的推理来评估自己的“思考”，随后它可以在推理过程中回答你的棘手问题时使用这项技能。

在某种程度上，o1 是 OpenAI 最好的 GPT（语言掌握、聊天机器人形式）和 DeepMind 最好的 Alpha（强化学习）的结合，形成了一个利用测试时计算的全新范式。

但是 o1 是如何进行推理的？它如何利用推理的时间来改进答案？这种新的 AI 范式背后的细节是什么？我们知之甚少。以下是我们从博客文章中得到的有关这个问题的所有内容：

我们的大规模强化学习算法教会模型如何在高度数据高效的训练过程中利用其思路进行有效思考。我们发现，随着强化学习（训练时计算）的增加和思考时间的增加（测试时计算），o1 的性能不断提高。

让我分析一下第一句话。

“大规模强化学习算法”意味着模型从训练过程中的错误中学习（我上面顺便提到的 LLM 的一个痛点是自回归陷阱，它阻止他们反悔来纠正自己或重新开始；一个错误不可避免地意味着后续的错误）。o1 已经学会在说错话之前使用“心理”反馈回路进行自我纠正。强化学习方法以前从未在生产中令人满意地用于 LLM。

“利用它的思路链”意味着强化发生的机制是众所周知的思路链 (CoT) 提示方法。你要求模型“一步一步思考”，结果就会得到改善。这个细节很重要，因为它揭示了——或者至少 OpenAI 希望我们这么认为——他们并没有发明一种新技术，而是应用了（并增强了）谷歌两年前发明的一种技术。16知道它背后是 CoT 让人感到意料之中但又苦乐参半。感觉就像一个补丁。这就是为什么我坚持认为这个版本的关键点不是 o1 模型本身，而是新范式和它可以进一步扩展的想法（或者也许我只是习惯了 CoT，所以感觉没那么神奇）。

“高度数据高效的训练过程”意味着他们必须创建一个新的数据集来微调底层的 LLM。推理密集型数据用于 CoT 驱动的强化过程。它之所以高效，是因为他们微调和强化 o1 所需的数据可能比预训练 GPT-4o 所需的数据少得多。模型为改进自身而创建的超高质量合成数据才是真正的护城河。

稍后他们会用外行人能理解的语言进一步解释：

与人类在回答难题之前会长时间思考的方式类似，o1 在尝试解决问题时会使用思路链。通过强化学习，o1 学会磨练其思路链并改进其使用的策略。它学会识别和纠正错误。它学会将棘手的步骤分解为更简单的步骤。它学会在当前方法不起作用时尝试不同的方法。

因此，我们或多或少知道 o1 的功能，但不知道它是如何实现的，也不知道它是如何设计的。这就是 OpenAI 所能提供的透明度。

黑匣子里的另一个黑匣子

说到他们缺乏透明度，他们坚信最好向用户隐藏原始的 CoT（即推理）而不是展示它，这一点非常了不起。我对此有一些想法（双关语，我会在这里分享，因为这样你就可以决定是否相信我的结论，哈哈），但首先，以下是OpenAI 的指控：

我们相信隐藏的思路链为监测模型提供了一个独特的机会……为了实现这一点，模型必须能够自由地以不变的形式表达其思想，因此我们不能将任何政策合规性或用户偏好训练到思路链上，[或]让不一致的思路链直接对用户可见。

…在权衡了用户体验、竞争优势以及进行思路链监控的选项等多种因素后，我们决定不向用户展示原始的思路链。…对于 o1 模型系列，我们展示了模型生成的思路链摘要。

没错。当你从 o1 得到答案时看到的思路推理并不是模型用来得出答案的真正思路。这是一个符合 OpenAI 对齐策略的总结版本。你看不到真正的推理过程。

竞争优势是主要原因：o1 已经通过自己的推理进行了训练，这也是 OpenAI 目前拥有的数据护城河。如果他们提供这些信息，其他公司只需收集整个推理数据集并用它来微调标准 LLM 模型（例如 Meta 的 Llama 等开源模型）。这是一个明智的商业举措，但对我们意味着什么？

我的第一反应是，不知道 AI 模型是如何得出答案的，这对“调试”是不利的（或者，拟人化地说，不知道它真正的想法）。当这种情况发生在我们的人类同胞身上时，如果事情被误解且从未澄清，它会产生挫败感（如果你意识到的话），或者产生下游关系债务。一旦 o1 集成到需要彻底分析其输出的复杂工作流程中，也可能会发生同样的情况。这是 OpenAI 的长期目标，让这种新范式延伸到“数小时、数天甚至数周”的思考。这种思考在LLM 本身的神经活动之上增加了一个新的黑盒层。这是一颗技术债务定时炸弹。

在消费者层面，最糟糕的部分可能是 OpenAI 向 API 开发人员收取这些不可见的推理令牌的费用，就好像它们是完成令牌一样。他们看不到输出，但无论如何都必须付费。这对于在 o1 模型之上构建应用程序、包装器和业务，或将它们集成到现有工作流程中的人来说意义重大。为什么要为你得不到、无法检查的东西付钱呢？开发人员 Simon Willison就此发表了他的看法，我认为这代表了整个社区的观点：

我对这个政策决定一点也不满意。作为一个以 LLM 为目标进行开发的人，可解释性和透明度对我来说至关重要——我可以运行一个复杂的提示，而隐藏该提示如何评估的关键细节，这种想法感觉就像是倒退了一大步。

也许 OpenAI 会重新考虑隐藏发布版 CoT 的方面（Noam Brown 表示“发布 o1-preview 的一个动机是看看哪些用例会流行，以及模型在哪些方面需要改进”，我认为这包括这种批评性反馈），但我并不抱有希望。他们在这里保护的竞争优势使 OpenAI 能够花一年时间（以及一半的员工）开发新模型。

从科学角度看应受谴责，但从财务角度看却合理——这就是 OpenAI，一家在激烈的竞争和高昂（且不断增加）的成本中挣扎求生的公司。

亲眼见证人工智能推理的魔力

坏消息越来越多。我们不知道 o1 的魔法是如何运作的，OpenAI 也不允许我们调查推理过程，所以剩下的就是嘲笑 o1 犯的错误——至少这是 AI Twitter 上怀疑论者团队最喜欢的运动，他们一直在忙着测试 o1 并欺骗 o1。

让我们从最流行的模因问题开始，“草莓这个词中有多少个 R？”好吧，o1 似乎答对了：

OpenAI 甚至分享了一段关于此的视频：

但是等一下，这里发生了什么：

萨姆·奥特曼本人也曾对此提出质疑：“o1 仍然存在缺陷，仍然有限，并且第一次使用时的感觉仍然比花更多时间使用后的感觉更令人印象深刻。”

Noam Brown 还指出，o1 并非完美无缺：“OpenAI o1-preview 并不完美。它有时甚至会在井字游戏上出错。人们会在推特上发布失败案例。”然而，他补充道：“但在人们用来证明‘法学硕士无法推理’的许多流行例子中，o1-preview 表现得更好，o1 表现惊人，我们知道如何进一步扩大它的规模。”所以是的，人们在推特上发布了失败案例，但这个案例相当受欢迎，而 o1 仍然并不总是正确。

无论如何，在做出判断之前，让我们先看看其他例子。另一个流行的测试是过河谜题，但经过修改后变得非常简单（根本不是谜题）。同样，o1-preview做对了：

直到它不存在为止，只要你稍微改变一下谜题：

另一个测试这是“母亲是医生”的谜语，但经过修改，因此，实际上没有谜语；医生是父亲（或者至少任何人都会立即做出这样的反应）。以下是 o1-preview 的内容：

答案和理由都是毫无意义的。

我想要分享的最后一个例子是“9.11 和 9.9 哪个更大？”如果不包含上下文， LLM 通常会答错这个问题，但如果包含上下文，就会答对：

我在前面的部分分享了许多积极的例子，揭示了使用推理人工智能解决复杂问题的好处，但是当推理人工智能无法推理时会发生什么？

我们不再谈论 GPT-4o 或其他愚蠢的 LLM。这是一个专门设计和训练的 AI 模型，用于思考难题。它可以解决人们多年来精心策划的一些最难的公共和私人基准。它花费更多资源来解决最难的查询。这就是卖点。然后它说“草莓”有两个 R，9.11 大于 9.9。

你为什么要为此付费？它只会花更多时间才会失败（即使它大部分时候都能正确完成，你也无法预见它何时会失败）。

似乎对推理型人工智能每次都能解答草莓问题或过河难题的期望太高了。人们会用非常常见的“我做对了”来为 OpenAI 辩护。是的，问题是它每次都应该正确回答这些非常简单的问题。或者你知道有人会因为错误的推理而时不时地答错吗？我们假定的非确定性行为并不能解释这些愚蠢的错误。我希望 o1 每次都能解答问题——无论是简单问题还是困难问题，尤其是简单的问题。无论是否预览，能够推理的人工智能都不应该犯这些错误。

但是，尽管我在这里分享了这些例子，但我认为这是一种不公正的描述。OpenAI 发布 o1 作为预览版的原因（很可能是一个中间检查点）就是为了捕捉这些数据点。它在哪里失败了？他们如何确保推理过程在模型具有非确定性的情况下保持稳健（即它并不总是对同一个问题输出相同的答案）？o1 会把所有事情都做对吗？按照 Altman 的话来说，我们不应该指望这一点。OpenAI 员工 Joanne Jang表示，o1 并不是“一个比以前的模型做得更好的奇迹模型”。这就是你得到这些不满足的期望的原因。

无论如何，这只是个开始。人们会发现更多错误（荒谬的错误值得我们发笑）。其他人会花时间寻找它正确解决的最困难的问题（也许是黎曼假设的解决方案？或者一个自相矛盾的查询？或者如何减少宇宙的熵？）。我只是开玩笑。Ethan Mollick首先说：o1-preview 仍然参差不齐。他进一步预言，AI 的典型特征——参差不齐将伴随我们直至 AGI 的水平。

我不太确定这一点，但它肯定跟进了我们：强化学习的注入未能消除人工智能底层统计性质的不一致性。随机鹦鹉确实可以飞得很高，但它们仍然是随机鹦鹉。

我目前的立场是，为了避免表达不清楚，我愿意坦白地说，我喜欢我所看到的。我并不完全信任 OpenAI 的每个人（或他们的正直），但我非常尊重的研究人员之一正是 Noam Brown（我多次引用过他的话）。他对某件事很有信心：o1 代表了一种新的范式，它将训练时的 RL 与测试时的推理技能相结合。这是一个有前途的研究路线的起点，将在未来几年结出更多的果实——可能是草莓。o1-preview 在应该做对的简单任务上失败了。但 o1 失败的次数会少一些。o2 甚至更少。他们会一直解决所有问题吗？不会。但 o1-preview 的净结果集合（包括正确和不正确的结果）描述了一个我们才刚刚开始探索的新故事。

那些总是寻找失败的人，直到他们找到一个，这样他们就可以不再关心，并装出一副典型的愤世嫉俗的样子，他们参与人工智能辩论完全是为了自己的利益，无论是物质还是身份。

o1-mini，一款新型海量AI产品

到目前为止，我一直关注 o1、o1-preview 和整个模型系列，但我认为 o1-mini 值得有一个独立的部分，原因有三：

首先，它比更大的 o1 效率更高，同时保持性能在一个显著的水平（有时比 o1-preview 更好）。
其次，它体现了如何用训练时间计算来换取测试时间计算，并取得惊人的成果——因此是这种新扩展范式最有前途的种子。
第三，OpenAI 如何将这种新颖的 AI 使用方式转变为大众产品，而不会因运营支出的重压而夭折。

博客文章中介绍了一些有关 o1-mini 性能的详细信息以及它与其他型号的速度比较：

作为一个较小的模型，o1-mini 比 o1-preview 便宜 80%，这使其成为需要推理但不需要广泛世界知识的应用程序的强大、经济高效的模型。。。在高中 AIME 数学竞赛中，o1-mini (70.0%) 与 o1 (74.4%) 具有竞争力——同时价格便宜得多——并且优于 o1-preview (44.6%)。

……我们比较了 GPT-4o、o1-mini 和 o1-preview 对一个单词推理问题的回答。虽然 GPT-4o 没有正确回答，但 o1-mini 和 o1-preview 都回答正确，而且 o1-mini 得出答案的速度快了大约 3-5 倍。

尽管规模较小，但 o1-mini 仍然很棒（可能基于 GPT-4o-mini，尽管我们尚未确认，也可能永远不会确认）。最引人注目的含义是，在某些情况下，将计算用于推理可能比在训练期间将其用于更多的强化学习更有价值（这就是为什么 o1-mini 有时比 o1-preview 做得更好）。

o1-mini 的高性能可能与业务层面最为相关。OpenAI 创造了一项有趣的技术，但现在他们想将其商业化。这个东西可能要花很多钱，肯定比 GPT-4 等标准 LLM 要多。制作一个成本高效、数据高效的模型，在测试时弥补训练时缺失的强化循环，是将这个东西变成可销售产品的一线希望。

这至少是眼前的障碍。正如研究员 Jim Fan 指出的，还有其他障碍：

生产 o1 比达到学术基准要困难得多。对于自然推理问题，如何决定何时停止搜索？奖励函数是什么？成功标准是什么？何时在循环中调用代码解释器等工具？如何将这些 CPU 进程的计算成本考虑在内？

这里出现了一个不同的权衡问题：用户是否会认为增强的推理技能值得在每次查询中花费更多的时间和成本（暂且不论无意犯下的代价高昂的错误以及根本不需要推理的情况）？我对此并不确定。对我来说，这是 OpenAI 面临的更大挑战，前提是他们打算利用这项技术继续开展 B2C 业务，而我对此并不确定。（实际上，我非常不确定。）

从某种程度上来说，我认为最好不要将 o1 理解为一种消费产品。相反，它是一种科学工具。OpenAI 研究员 Jason Wei 表示，我们需要“找到更难的提示”才能感受到 o1 模型的价值，但这是错误的观点。你无法改变人们的想法。人们不会做任何事情来寻求这项技术奇迹的隐藏价值（大多数人并不太在意检查 GPT-4 与 GPT-3.5 相比的价值）。相反，他们会寻求简单和廉价。

以下是 OpenAI用一种更容易接受的语气说的话：

如果您正在解决科学、编码、数学和类似领域的复杂问题，这些增强的推理能力可能特别有用。例如，医疗研究人员可以使用 o1 来注释细胞测序数据，物理学家可以使用 o1 来生成量子光学所需的复杂数学公式，各领域的开发人员可以使用 o1 来构建和执行多步骤工作流程。

是的，没错，量子光学和测序数据。大多数人自然不关心这个。对于大多数用例，我们最好使用 ChatGPT。

那么，相关的问题是：OpenAI 是否愿意投入人才、时间和金钱来打造更好的聊天机器人？是否有可能（或者用户能否辨别）打造出更好的聊天机器人？我认为 Claude、Gemini 和 ChatGPT 几乎是我们能为聊天机器人获得的最好的“足够好”的水平。

也许我错了，但我认为这里的增强功能越来越只对较狭窄的受众有用。

或者想象一下，如果人们在他们无尽的无目的的创造力中，决定使用原本无法使用的产品来解决这样的问题：

这或许毕竟不是大众的新范式。

对长期未来的 10 个影响

生成式人工智能作为人工智能的领先范式的时代已经结束

对于大多数不关心人工智能超出其用途的用户来说，这也许是最重要的影响。生成式人工智能是关于创建新数据的。但推理式人工智能并不关心这一点。它旨在解决难题，而不是产生垃圾。此外，OpenAI 隐藏了推理令牌。其他人也会这样做。您仍然可以使用生成式人工智能工具来生成东西，但最好的人工智能不会以生成为中心，而是以推理为中心。这是另一回事，我们还不太了解它的应用。

聊天机器人的时代也结束了

人们仍会用它们来随意聊天，但它们不再是最好的人工智能。人工智能公司的精力将花在其他地方。OpenAI、DeepMind 和 Anthropic 将探索和扩展推理路线，将聊天机器人路线降为次要优先事项。只要当前的聊天机器人服务继续为他们提供经常性收入来源，他们就不会投入太多资源来改进它们，超出市场需求。

在我们一直认为自己最适合完成的任务上，人类将越来越感觉自己与人工智能不平等（最终会处于劣势）

用户与人工智能建立平等关系（例如工作）的想法现在已成为过去。相反，我们将敬畏或恐惧地见证人工智能如何走得比我们所能跟上的更深、更广。在过去，我们是世界的建筑师和建造者，但后来机械出现了，我们不再是建造者。我们也即将不再是建筑师。2

旧的缩放定律（所有计算都专用于预训练和后训练）已被新的缩放定律（计算分布在训练和推理之间，以便模型可以实时推理）取代

从现在开始发生的事情是无法预测的，因为我们在过去四年中一直应用众所周知的启发式方法。是时候更新了（如果 OpenAI 决定慷慨地向我们提供有关如何更新的更多详细信息）。

OpenAI 终于将过去 20 年人工智能研究中最重要的两个范式融合在一起

大型语言模型（OpenAI 的 GPT）和深度强化学习系统（DeepMind 的 Alpha）。这就是他们最终决定放弃 GPT 这个名字的原因。从这个意义上说，o1 系列重启了该公司长达五年的研究之路。

出现 AI 富人和 AI 贫乏的用户类别

AI 模型变得昂贵的速度将快于公司找到降低成本的优化方法的速度。很快，新的定价层级（已经暗示）将出现，只有少数特权阶层才能负担得起尖端 AI 模型的好处。其余人将属于 AI 贫乏的底层阶级。

我们认为我们所了解的关于人工智能的一切都发生了变化

OpenAI 富有创造力、深奥且精神丰富的匿名研究员 Roon说道：“我们将不得不重写所有关于停滞期、扩展性等的公共辩论对话树。关于自回归模型中的错误是复合的还是自我恢复的。关于语言是否能带来真正的智慧。关于通用智能的界限在哪里。”我同意。

这种新型人工智能对用户没有任何价值主张

大多数人不知道该如何利用能够推理的人工智能。这是残酷的事实，它揭示的更多是人类而不是人工智能。要弄清楚在哪里应用一个可以花一整天思考单个问题的人工智能并非易事。

这不是 ChatGPT 的时刻。它不是可访问的，但意义深远

大多数人都无法意识到它有多深远。ChatGPT 的主要特点是它的可访问性（免费、易于使用、直观）。GPT-3 的主要特点是它令人惊讶的功能——但你必须努力才能找到它们。o1 更像 GPT-3，因此大多数用户不会理解它的价值（尤其是考虑到每个查询的等待时间和当前的消息传递限制）。

这与 GPT-5 有何关系？新的基础模型即将推出

o1 基于 GPT-4o，这意味着如果他们改变底层的 LLM，它还有很大的改进空间。GPT-5 将利用这种新范式，但同样，只有一小部分受众会欣赏它的价值。但是，你现在仍然应该尝试跨越。o1 适用于科学和数学，对你来说可能没有那么有用。但最终目标是 JARVIS，然后是 AGI，然后——谁知道呢。你可能会觉得现在转换不值得，但这是一个短视的选择：OpenAI 和其他公司将继续开发新范式，因为这才有可能实现该领域的最终目标。