GPT-5：你需要知道的一切

青稞2024-08-162024-08-16

这篇超长的文章（部分是评论，部分是探索）是关于 GPT-5 的。但它的内容远不止于此。它讲述了我们对下一代人工智能模型的期望。它讲述了即将出现的令人兴奋的新功能（如推理和代理）。它讲述了 GPT-5 技术和 GPT-5 产品。它讲述了 OpenAI 面临的竞争业务压力以及其工程师面临的技术限制。它讲述了所有这些事情——这就是为什么它有 14,000 个字那么长。

你现在想知道，既然你已经听说了有关 GPT-5 的泄密和谣言，为什么还要花一个小时阅读这篇迷你书大小的文章。答案是：如果没有背景，零散的信息是无用的；只有当你把所有信息都放在一个地方时，大局才会清晰。就是这样。

在我们开始之前，我们先简单介绍一下 OpenAI 的成功历程，以及为什么人们对 GPT-5 的巨大期待会给他们带来压力。四年前，也就是 2020 年，GPT-3震惊了科技界。谷歌、Meta 和微软等公司纷纷挑战 OpenAI 的领先地位。他们确实这么做了（例如LaMDA、OPT、MT-NLG），但仅仅几年后。到 2023 年初，在 ChatGPT 取得成功（引起 OpenAI 的广泛关注）之后，他们准备发布GPT-4。同样，各大公司纷纷效仿 OpenAI。一年后，谷歌推出了 Gemini 1.5，Anthropic 推出了 Claude 3，Meta 推出了 Llama 3。OpenAI 即将宣布 GPT-5，但它的竞争对手现在还有多远？

差距正在缩小，竞争再次陷入僵局，因此每个人——客户、投资者、竞争对手和分析师——都在关注 OpenAI，兴奋地想看看他们是否能第三次重复这一飞跃，将他们推向一年后的未来。这就是 GPT-5 的隐含承诺；OpenAI 希望在与历史上最强大的科技公司的战斗中保持影响力。想象一下，如果期望没有得到满足（比尔盖茨等业内人士认为这可能会发生），人工智能世界将是多么失望。

这就是 GPT-5 正在酝酿的充满活力和期待的环境。一步走错，每个人都会向 OpenAI 发起攻击。但如果 GPT-5 超出我们的预期，它将成为未来几年人工智能难题的关键一环，不仅对 OpenAI 及其相当绿色的商业模式如此，对为其付费的人——投资者和用户也是如此。如果发生这种情况，Gemini 1.5、Claude 3 和 Llama 3 将重新陷入话语的默默无闻，而 OpenAI 将再次松一口气。

为了清晰起见，文章分为三个部分。

首先，我写了一些关于 GPT-5 的元知识：其他公司是否会对 GPT-5 做出回应，对数字的怀疑（例如 GPT-4.5 与 GPT-5），以及我称之为“GPT 品牌陷阱”的东西。如果你只想了解 GPT-5 本身，你可以跳过这部分。
其次，我整理了一份有关 GPT-5 的信息、数据点、预测、泄漏、提示和其他证据的列表。本节重点介绍来源的引述（含糊不清时添加我的解释和分析），以回答以下两个问题：GPT-5 何时问世以及它会有多好？
第三，我通过循序渐进的方式探索了我们可以从 GPT-5 中期待什么，以及我们对这些领域官方仍然一无所知（甚至没有泄露）的内容：缩放定律（数据、计算、模型大小）和算法突破（推理、代理、多模态性等）。这些都是有根据的猜测，因此也是最有趣的部分。

本文大纲：

第 1 部分：有关 GPT-5 的一些元信息
第二部分：我们对 GPT-5 所了解的一切
第三部分：关于 GPT-5我们不知道的一切
- GPT-5 和缩放定律的统治
- GPT-5 的算法突破
  - 多模态
  - 机器人
  - 推理
  - 个性化
  - 可靠性
  - 代理
结束语

第 1 部分：有关 GPT-5 的一些元信息

GPT-5 类模型

2023 年 3 月至 2024 年 1 月期间，当你谈论最先进的人工智能或跨学科能力时，你谈论的是 GPT-4。没有其他东西可以与之相比。OpenAI 的模型独树一帜。

自 2 月份以来，情况发生了变化。Google Gemini（1.0 Ultra 和 1.5 Pro）和 Anthropic Claude 3 Opus 是 GPT-4 级模型（即将推出的Meta Llama 3 405B也是 GPT-4 级，在撰写本文时仍在训练中）。这个备受追捧的头衔早就该有竞争者了，但最终还是来了。优点和缺点取决于您如何使用它们，但就性能而言，这三款产品都差不多。

这一新现实——以及早期采用者似乎一致认为 Claude 3 Opus 比 GPT-4 更好（在最近的GPT-4 涡轮升级之后，可能不再如此）或 Llama 3 405B 评估在中级检查点方面已经表现强劲——让人们对 OpenAI 的领导地位产生了怀疑。

但我们不应忘记，OpenAI 与其他模型之间有一年的差距；按照 AI 进步速度的标准，GPT-4 是一个老模型。不可否认，最新的 GPT-4 turbo 版本一点也不老（于 4 月 9 日发布）。然而，很难否认，区分 GPT-4 版本的适度迭代改进与 Google、Anthropic 或 Meta 的全新最先进模型相媲美。GPT-4 的骨架已有 1.5 年的历史；这就是与 Gemini、Claude 和 Llama 相比的关键，它们肯定在更深层次上利用了最新的研究（例如架构变化），而 GPT-4 可能仅通过更新微调就无法采用这些研究。

有趣的问题是：OpenAI 在构建 GPT-5 时是否保持了其优势？还是其竞争对手终于缩小了差距？

一种可能性是，Google、Anthropic 和 Meta 已经向我们提供了它们的所有产品：Gemini 1.0/1.5、Claude 3 和 Llama 3 是它们目前能做到的最好的产品。我认为两者都不是这种情况（这里我将跳过 Meta 的情况，因为它们的情况相当特殊，应该单独分析）。1让我们从谷歌开始。

谷歌在发布Gemini Advanced （带有 1.0 Ultra 后端）一周后宣布了Gemini 1.5。他们只让我们一睹 Gemini 1.5 的功能；他们宣布了中间版本 1.5 Pro，它已经是 GPT-4 级的了，但我认为这并不是他们最好的版本。我相信 Gemini 1.5 Ultra 已经准备就绪。如果他们还没有推出它，那是因为他们吸取了 OpenAI 自早期以来一直在利用的一个教训：把握好发布时机是成功的基础。生成式人工智能竞赛太广泛了，不容忽视这一点。

考虑到1.0 Pro 和 1.0 Ultra 之间存在很大差距，可以合理地假设 Gemini 1.5 Ultra 将明显优于 1.5 Pro（尽管谷歌尚未改进命名部分）。但 Gemini 1.5 Ultra 会有多好？GPT-5 级别有多好？我们不知道，但考虑到 1.5 Pro 的评估分数，这是有可能的。

要点是，Gemini 1.0 达到 GPT-4 级别并不是偶然的（这不是碰壁的结果，也不是谷歌局限性的标志），而是一个预先定义的计划，旨在告诉世界他们也可以创造出那种人工智能（让我提醒你，构建模型的团队不是负责谷歌经常失败的营销部分的团队）。

Anthropic 的情况对我来说不是那么清楚，因为他们比谷歌和 OpenAI 更不愿意接受媒体采访，但我没有理由排除他们，因为 Claude 3 的表现比 GPT-4 略高，很难相信这只是巧合。另一个有利于 Anthropic 的关键点是它成立于 2021 年。一家世界级的人工智能初创公司需要多少时间才能开始在最高水平上竞争？合作伙伴关系、基础设施、硬件、训练时间等都需要时间，当 OpenAI 开始训练 GPT-4 时，Anthropic 才刚刚安定下来。Claude 3 是 Anthropic 的第一次真正努力，所以如果 Claude 4 比预期的更早到来，并且与 OpenAI 用 GPT-5 可能实现的任何目标相匹配，我不会感到惊讶。

我看到的模式很明显。对于每一代最先进的模型（首先是 GPT-3 级别，然后是 GPT-4 级别，接下来是 GPT-5 级别），领先者与其他模型之间的差距都在缩小。原因很明显：顶级人工智能公司已经学会了如何可靠地构建这项技术。构建一流的大型语言模型 (LLM) 是一个已解决的问题。这不再是 OpenAI 的秘密。他们一开始就占据优势，因为他们发现了别人还没有发现的东西，但其他人已经赶上了。

即使公司擅长向间谍和泄密者隐瞒商业机密，技术和创新最终也会在可行且经济实惠的方面趋于一致。GPT-5 类模型可能存在一定程度的异质性（就像 GPT-4 类模型一样），但它们的发展方向都是相同的。

如果我没记错的话，这会让 GPT-5 本身失去相关性——这就是为什么我认为这篇 14,000 字的分析应该被更广泛地阅读，而不仅仅是 GPT-5 的预览——并将其纳入整个模型类别中。这是一件好事。

GPT-5 还是 GPT-4.5？

3 月初有传言称GPT-4.5 已泄露（是公告，不是权重）。搜索引擎在 OpenAI 删除该消息之前就发现了它。网页上说，“知识截止时间”（模型了解世界状况的时间点）是 2024 年 6 月。这意味着假设的 GPT-4.5 将训练到 6 月，然后经历长达数月的安全测试、护栏和红队测试，将发布推迟到年底。

如果这是真的，这是否意味着 GPT-5 今年不会问世？可能，但不一定。我们需要记住的是，这些名称（GPT-4、GPT-4.5、GPT-5（或其他完全不同的名字））是 OpenAI 认为足够高、值得获得给定发布号的某种能力水平的占位符。OpenAI 一直在改进其模型、探索新的研究场所、使用不同级别的计算进行训练运行并评估模型检查点。构建新模型并不是一个简单而直接的过程，而是需要大量的反复试验、调整细节和“ YOLO 运行”，这可能会产生意想不到的好结果。

经过所有的实验后，当他们觉得准备好了，他们就会开始进行大规模的训练。一旦达到“足够好”的性能点，他们就会以最合适的名字发布它。如果他们把 GPT-4.5 称为 GPT-5 或反之亦然，我们不会注意到。这个一步一步的检查点过程也解释了为什么 Gemini 1.0/1.5 和 Claude 3 可以略高于 GPT-4，但这并不意味着 LLM 存在障碍。

这意味着，我将在下文中引用的所有关于“GPT-5 发布”的消息来源实际上可能在不知不觉中谈论的是 GPT-4.5 或某种名称不同的新奇事物。也许，将知识截止时间定在 2024 年 6 月的 GPT-4.5 泄漏将是经过进一步改进后的 GPT-5（也许他们试图达到 GPT-4.5 的水平，但无法完全达到，因此不得不放弃发布）。这些决定会根据内部结果和竞争对手的动向而不断变化（也许 OpenAI 在 3 月份没有预料到 Claude 3 会成为公众首选的模型，因此决定放弃 GPT-4.5 版本）。

有充分的理由认为不会发布 GPT-4.5：在竞争如此激烈、审查如此严格的情况下，发布 .5 个版本是没有意义的（即使 Sam Altman 表示他希望加倍进行迭代部署，以避免震惊世界并给我们时间去适应等等）。

人们会不自觉地将每个新的大版本都视为“下一个模型”，无论数字是多少，并会根据自己的期望对其进行测试。如果用户觉得它不够好，他们会质疑为什么 OpenAI 没有等待 .0 版本。如果他们觉得它非常好，那么 OpenAI 会怀疑他们是否应该将其命名为 .0，因为现在他们必须做出更大的飞跃才能获得可接受的 .0 模型。并非所有东西都是客户想要的，但生成式人工智能现在更像是一个行业，而不是一个科学领域。OpenAI 应该选择 GPT-5 模型并使其变得更好。

不过也有例外。OpenAI 发布了 GPT-3.5 模型，但如果你仔细想想，这是一个低调的变化（后来被 ChatGPT 所掩盖）。他们并没有像 GPT-3 和 GPT-4 甚至 DALL-E 和 Sora 那样大肆宣传。另一个例子是谷歌在 Gemini 1 Ultra 发布一周后发布的 Gemini 1.5 Ultra。谷歌希望通过连续两次发布高于 OpenAI 最佳模型的版本，加倍其对 GPT-4 的胜利。它失败了——Gemini 1 Ultra 并不比 GPT-4 好（人们期待更多，而不是一个棘手的演示），Gemini 1.5 被 Sora 推到了一边，OpenAI 几个小时后发布了 Sora（谷歌还有很多东西要从 OpenAI 的营销策略中学习）。2无论如何，OpenAI 需要一个很好的理由来发布 GPT-4.5。

GPT品牌陷阱

本节最后要提到的是 GPT 陷阱：与其他公司不同，OpenAI 将其产品与 GPT 首字母缩略词紧密联系在一起，现在 GPT 既是一个技术术语（就像它最初的样子），也是一个拥有难以放弃的威望和力量的品牌。GPT，即生成式预训练变压器，是一种非常特殊的神经网络架构，可能会也可能不会在新的研究突破中幸存下来。GPT 能否逃脱“自回归陷阱”？你能将推理注入 GPT 或将其升级为代理吗？目前尚不清楚。

我的问题是：OpenAI 是否仍将其模型称为 GPT，以维护大多数人与 AI 相关的强大品牌，还是会保持严谨，一旦技术含义被更好的东西耗尽，就会切换到其他名称（Q* 或其他）？如果 OpenAI 坚持使用这个无价的首字母缩略词（正如商标注册所暗示的那样），他们是否会因为将其锚定在过去而自我破坏自己的未来？OpenAI 冒着让人们错误地认为他们正在与另一个聊天机器人互动的风险，而他们手中可能有一个强大的代理。只是一个想法。

第二部分：我们对 GPT-5 所了解的一切

OpenAI 何时发布 GPT-5？

3 月 18 日，Lex Fridman 采访了 Sam Altman。他透露的细节之一是关于GPT-5 的发布日期。Fridman 问道：“那么，GPT-5 什么时候发布呢？” Altman 回答说：“我不知道；这是诚实的回答。”

我相信他的诚实，因为对于他模棱两可的“我不知道”这句话，可能会有不同的解释。我认为他确切地知道他想让OpenAI 做什么，但生命固有的不确定性让他有语义空间说，老实说，他不知道。就 Altman所知道的程度而言，他可能不会说更多，因为首先，他们仍在决定是否发布中间版 GPT-4.5，其次，他们正在与竞争对手拉开距离，第三，他不想透露确切日期，以免让竞争对手有机会以某种方式掩盖发布，就像他们一直对谷歌所做的那样。

随后，他犹豫着是否要回答 GPT-5 是否会在今年问世，但补充说：“我们今年将发布一款令人惊叹的新模型；我不知道我们会给它起什么名字。”我认为，我在上面“GPT-5 这个名字是随意的”一节中的论点已经解决了这个模糊性问题。Altman还表示，他们“还有很多其他重要的东西要先发布”（他可能指的是：公共 Sora 和语音引擎、独立的网络/工作 AI 代理、更好的 ChatGPT UI/UX、搜索引擎、Q* 推理/数学模型）。因此，构建 GPT-5 是当务之急，但发布它不是当务之急。

Altman 还表示，OpenAI 之前未能做到“不向世界发布令人震惊的更新”（例如第一个 GPT-4 版本）。这可以解释他对 GPT-5 发布日期含糊其辞的原因。他补充说：“也许我们应该考虑以不同的方式发布 GPT-5。”我们可以将此解读为一种示意性评论，但我认为这有助于解释 Altman 犹豫不决，不愿说“我知道我们什么时候会发布 GPT-5，但我不会告诉你”，这样说是公平且可以理解的。

这甚至可以解释最新的 GPT-4 turbo 版本（4 月 9 日）在数学推理方面的显著改进：也许他们以不同的方式发布 GPT-5 以不震惊世界，方法是先在野外测试其各个部分（例如，针对 GPT-4 的新数学/推理微调），然后将它们组合成一个有凝聚力的整体，形成一个更强大的基础模型。这同样是不负责任的，也与 Altman 的话不一致。

让我们听听其他消息来源。3 月 19 日，也就是 Fridman-Altman 采访的第二天，Business Insider 发表了一篇新闻文章，题为“消息人士称，OpenAI 预计将在年中为其聊天机器人发布‘实质性改进’的 GPT-5”，这与 Altman 前一天的说法完全相反。如果 Altman 不知道日期，非 OpenAI 的消息来源怎么会知道？如果 OpenAI 还有这么多东西要先发布，GPT-5 怎么会在年中发布？这些信息是不连贯的。以下是 Business Insider 写道：

据两位知情人士透露，由Sam Altman领导的这家生成式人工智能公司有望在年中某个时候（可能是夏季）推出 GPT-5。其中一位知情人士表示，OpenAI 仍在训练 GPT-5。训练完成后，它将在内部进行安全测试，并进一步进行“红队测试”……

因此，GPT-5 在 3 月 19 日仍在训练中（这是文章中唯一一个不是预测而是事实的数据点）。让我们采取慷慨的估计，假设它已经完成训练（2024 年 4 月），OpenAI 已经在进行安全测试和红队测试。在他们准备部署之前，这会持续多久？让我们再次采取慷慨的估计，并说“与 GPT-4 相同”（GPT-5 可能更复杂，正如我们将在下一节中看到的那样，这是一个安全的下限）。GPT -4 于 2022 年 8 月完成训练，OpenAI 于 2023 年 3 月宣布了这一消息。这是七个月的安全层。但请记住，微软的 Bing Chat 已经在后台运行 GPT-4。BingChat 于 2023 年 2 月初发布。所以是半年。

总而言之，最乐观的估计是 GPT-5 的发布时间距今还有半年，也就是说，发布日期不是 2024 年夏天（六月似乎是 AI 发布的最佳时间），而是 2024 年 10 月——最好的情况下！也就是选举前一个月。考虑到AI 驱动的政治宣传的先例，OpenAI 肯定不会那么鲁莽。

“GPT-5 将在年中某个时候发布”可能是 Business Insider 的一个错误，指的是 GPT-4.5（或者什么都没提到）？我已经说过，我认为 OpenAI 不会用 4.5 取代 GPT-5 公告，但他们可能会将此版本添加为一个中期低调里程碑，同时明确表示 GPT-5 即将推出（在谷歌和 Anthropic 发布其他产品之前与他们抗争是发布 4.5 版本的一个很好的理由——只要 GPT-5 模型在几个月后推出）。

这种观点调和了我们迄今为止分析的所有信息：它调和了 Altman 的“我不知道 GPT-5 什么时候发布”和“我们还有很多其他重要的东西要先发布”。这也符合加倍迭代部署以及“令人震惊”的新模式对选举构成的威胁。谈到选举，GPT-5 发布日期的另一个候选日期是 11 月的 DevDay 左右（我最看好的预测）。去年，OpenAI 于 11 月 6 日举行了第一次开发者大会，今年是选举后的第二天。

考虑到所有这些信息（包括那些不连贯的部分，一旦我们理解“GPT-5”是一个任意名称，并且非 OpenAI 来源可能会混淆即将发布的版本的名称，这些不连贯的部分就说得通了），我打赌：GPT-4.5（可能是 GPT-5 的另一种偷偷推进版本）将于夏季发布，GPT-5 将在选举后发布。OpenAI 将在未来几个月发布一些新产品，但这不会是 Altman 所说的今年最大的发布。（最近的事件表明，更早的惊喜仍有可能。）3

GPT-5 会有多好？

这是每个人都在等待的问题。我先声明一下，我没有独家信息。但这并不意味着你不会从本节中得到任何东西。它的价值有两方面：首先，它是你可能错过的资料的汇编；其次，它是对信息的分析和解释，可以进一步阐明我们可以期待什么。（在“算法突破”部分，我更深入地探讨了 GPT-5 可能从前沿研究中整合的内容。目前还没有关于这方面的官方信息，只有线索和线索，以及我对能够相当好地遵循它们的自信。）

几个月来，Altman 一直暗示他对 GPT-5 比现有 AI 更胜一筹充满信心。今年 1 月，在达沃斯世界经济论坛期间举行的一次私人谈话中，Altman 私下接受韩国媒体《每日经济新闻》等新闻媒体采访时表示（谷歌翻译）：“GPT2 非常糟糕。GPT3 相当糟糕。GPT4 相当糟糕。但 GPT5 会很好。”一个月前，他告诉 Fridman，GPT-4“有点糟糕”，而 GPT-5 将“更聪明”，不仅在某一方面，而是在各个方面。

接近 OpenAI 的人士也发表了含糊其辞的言论。理查德·何（Richard He）通过 Howie Xu表示：“GPT-4 的大多数局限性将在 GPT-5 中得到修复”，一位未公开的消息人士告诉 Business Insider，“[GPT-5] 真的很好，就像是实质性的改进一样。”所有这些信息都很好，但也有些琐碎、模糊，甚至不可靠（我们现在可以相信 Business Insider 的消息来源吗？）。

然而，Altman 告诉 Fridman 的一件事，我认为是我们掌握的有关 GPT-5 智能的最重要的数据点。他说的是：“我预计 5 和 4 之间的差值将与 4 和 3 之间的差值相同。”这一说法比其他说法的 SNR 丰富得多。如果它听起来同样神秘，那是因为它所说的不是关于 GPT-5 的绝对智能水平，而是关于它的相对智能水平，这可能更难分析。具体来说：GPT-3 → GPT-4 = GPT-4 → GPT-5。

要解释这个“等式”（诚然，它仍然含糊不清），我们需要技术手段来解开它，同时也需要对 GPT-3 和 GPT-4 有充分的了解。这就是我为本节所做的工作（此外，除非发生重大泄密，否则这是我们能从 Altman 那里得到的最好的信息）。我唯一需要做的假设是，Altman 知道自己在说什么——他明白这些增量意味着什么——而且他已经知道 GPT-5 智能的大概情况，即使它还没有完成（就像扎克了解 Llama 3 405B 检查点的性能一样）。由此，我得出了三种解释（为了清楚起见，我只使用了型号，没有使用“GPT”）：

第一个解读是，4-5 和 3-4 的增量是指跨基准评估的可比跳跃，这意味着 5 将比4*更**聪明，*因为 4 比 3 更聪明（这个开始很棘手，因为众所周知评估是有问题的，但我们先把这个放在一边）。这肯定是一个人们乐于接受的结果，因为随着模型变得越来越好，攀登基准变得越来越困难。实际上，难度如此之大，以至于我怀疑这是否有可能。这并不是因为人工智能不能变得那么智能，而是因为这种智能会让人类的测量标准太短，即基准对于 GPT-5 来说太容易了。

上图是 4 与 3.5 的比较（3 更低）。在某些方面，4 并没有太大的进步，但在其他方面，它比现在好得多，这可能会让分数变得毫无意义，因为分数太高了。即使我们接受 5 不会在所有方面都变得更好，但在那些方面，它已经超越了基准所能提供的极限。这使得 5 不可能实现与 4 相差 3-4 的大小。至少如果我们使用这些基准的话。

如果我们假设 Altman 正在考虑更难的基准（例如SWE-bench或ARC），其中 GPT-3 和 GPT-4 的表现都很差（GPT-4 在 SWE-bench 上，GPT-3 在 ARC 上，GPT-4 在 ARC 上），那么让 GPT-5 显示出类似的差异将令人失望。如果你参加为人类设计的考试（例如SAT、Bar、AP），你就不能相信 GPT-5 的训练数据没有被污染。

第二种解释表明，增量指的是非线性的“指数”缩放定律（大小、数据、计算的增加），而不是性能的线性增加。这意味着 5 延续了之前由 2、3 和 4 描绘的曲线，无论在性能方面产生什么。例如，如果 3 有 175B 个参数，4 有1.8T 个参数，那么 5 将有大约 18 万亿个参数。但参数数量只是扩展方法的一个因素，因此增量可能包括其他所有因素：它们使用了多少计算能力，它们为模型提供了多少训练数据，等等。（我在下一节中更深入地探讨了 GPT-5 与缩放定律的关系。）

这是 Altman 更稳妥的说法（OpenAI 控制这些变量），也更合理（新兴能力需要新的基准，而之前的数据并不存在，因此无法进行 3→4 与 4→5 的比较）。然而，Altman 表示他预计会有这个增量，这表明他并不确定，而这个（例如，训练 GPT-5 需要多少 FLOP）他会知道。

第三种可能性是，Altman 的 delta 指的是用户感知，即用户会认为 5 比 4 好，就像他们认为 4 比 3 好一样（问问重度用户，你就会知道答案是“好很多”）。这是一个大胆的说法，因为 Altman 不可能知道我们会怎么想，但他可能是根据经验说的；这是他从初步评估中感受到的，他只是在分享他的轶事评估。

如果这种解释是正确的，那么我们可以得出结论，GPT-5*将令人**印象深刻。*如果那些最习惯使用以前版本的人真的有这种感觉——他们也是期望最高的人，而这项技术的新鲜感对他们来说已经消退得最厉害。如果我很慷慨，必须打赌哪种解释最正确，我会选择这个。

如果我不觉得慷慨，还有第四种解释：Altman 只是在炒作他公司的下一款产品。OpenAI 过去曾取得过成绩，但激进的营销策略一直存在（例如，在谷歌发布 Gemini 1.5 数小时后发布 Sora）。我们可以默认使用这一解释以保证安全，但我相信上述三种解释都有一定道理，尤其是第三种。

OpenAI 的目标如何塑造 GPT-5

在我们进一步深入猜测之前，让我分享一下我认为正确的框架，以了解 GPT-5 能做什么和不能做什么，即如何区分明智的猜测和妄想。这可以作为理解 OpenAI 整个 AI 方法的一般视角。我将在 GPT-5 上具体化它，因为这是我们今天的主题。

OpenAI宣称的目标是 AGI，但这太过模糊，与严肃的分析无关。除了 AGI，OpenAI 还有两个“非官方目标”（如果你愿意的话，也可以称之为工具性目标），它们更具体、更直接，是前进的真正瓶颈（从技术意义上讲；从产品角度来看，还有其他考虑因素，比如“制造人们想要的东西”）。这两个目标是增强能力和降低成本。无论我们对 GPT-5 做出什么假设，都必须遵循平衡两者的需要。

OpenAI 总是可以无意识地增强功能（只要其研究人员和工程师知道如何做），但这可能会给 Azure 云带来不可接受的成本，而 Azure 云会不满微软的合作关系（微软与 OpenAI 的合作关系已经不像以前那么独家了）。OpenAI 不能成为现金流失。DeepMind 早期是谷歌的无底洞，但借口是“以科学的名义”。OpenAI 专注于业务和产品，因此他们必须带来一些丰厚的利润。

他们总是可以降低成本（以不同的方式，例如定制硬件、压缩推理时间、稀疏性、优化基础设施和应用量化等训练技术），但盲目这样做会阻碍能力的发挥（2023 年春季，他们不得不放弃一个代号为“Arrakis”的项目，通过稀疏性提高 ChatGPT 的效率，因为它的表现不佳）。花更多的钱总比失去客户的信任要好——或者更糟的是，失去投资者的信任。

因此，无论如何，由于这两个相互矛盾的要求（能力和成本）位于 OpenAI 优先级的顶部（仅低于始终模糊的 AGI），即使我们缺乏官方信息，我们也可以缩小对 GPT-5 的期望范围——我们知道他们关心这两个因素。如果我们加上限制他们选择的外部环境，平衡将进一步对 OpenAI 不利：GPU 短缺（不像2023 年中期那么严重，但仍然存在）、互联网数据短缺、数据中心短缺以及对新算法的迫切搜索。

最后一个因素直接影响了 GPT-5，并以某种方式推动 OpenAI 打造出他们所能打造的最强大的模型：他们在行业中的特殊地位。OpenAI 是最受瞩目的人工智能初创公司，在经济和技术上处于领先地位，每次他们发布新东西时，我们都会屏住呼吸。所有人的目光都集中在他们身上——竞争对手、用户、投资者、分析师、记者，甚至政府——所以他们必须大干一场。GPT-5 必须打破预期，改变范式。尽管 Altman 说过迭代部署和不震惊世界，但在某种程度上，他们必须震惊世界。哪怕只是一点点。

因此，尽管成本和一些外部约束（计算、数据、算法、选举、社会影响）限制了他们的发展，但对增强能力的无限渴求和稍微震撼世界的需要将推动他们走得尽可能远。让我们看看他们能走多远。

第三部分：关于 GPT-5我们不知道的一切

GPT-5 和缩放定律的统治

2020 年，OpenAI 设计了一种经验形式的扩展定律，自此以后，该定律定义了 AI 公司的发展路线图。主要思想是，三个因素足以定义甚至预测模型性能：模型大小、训练 token 数量以及计算/训练 FLOP（2022 年，DeepMind 将这些定律和我们对如何训练计算效率高的模型的理解细化为所谓的“Chinchilla 扩展定律”，即最大的模型训练不足；您需要按与模型大小相同的比例扩展数据集大小，以充分利用可用的计算并实现性能最高的 AI）。

扩展定律（无论是 OpenAI 的原始形式还是 DeepMind 的修订版本）的底线意味着，随着预算的增长，大部分预算应该分配给扩展模型（大小、数据、计算）。（即使定律的具体内容存在争议，但无论常数是什么，它们的存在在这一点上都是毋庸置疑的。）

奥尔特曼在 2023 年声称，“我们正处于这些巨型模型时代的终结，我们将通过其他方式让它们变得更好。”这种方法塑造了 GPT-4（并且肯定会塑造 GPT-5），同时又不放弃规模，其中之一就是使其成为专家混合模型 (MoE)，而不是像 GPT-3 和 GPT-2 那样的大型密集模型。

MoE 巧妙地将小型专业模型（专家）组合在一起，这些模型会根据输入的性质进行激活（您可以将其想象为数学专家来解决数学问题，创意专家来撰写小说等等），通过门控机制激活，该机制也是一个神经网络，可以学习将输入分配给专家。在固定预算下，与小型密集模型相比，MoE 架构可以提高性能并缩短推理时间，因为对于任何给定查询，只有一小部分专业参数处于活动状态。

Altman 关于“巨型模型时代的终结”或从密集模型到多模态模型的转变是否与缩放定律相矛盾？一点也不。如果说有什么不同的话，那就是通过利用架构优化等其他技巧，更明智地应用了缩放的经验教训（我错误地批评了OpenAI 将 GPT-4 变成了多模态模型）。在生成式人工智能中，缩放仍然是王道（尤其是在语言和多模态模型中），因为它有效。你能通过在其他方面改进模型让它更好地发挥作用吗？太棒了！

在最高水平上竞争的唯一方法是用整体视角来对待人工智能创新：如果更多的计算和数据可以为你缩小性能差距，那么大量研究更好的算法是没有意义的。当更简单的架构或优化技术可以为你节省一半的钱时，在 H100 上浪费数百万美元也是没有意义的。如果将 GPT-5 放大 10 倍可行，那很好。如果将其变成超级 MoE 可行，那很好。

弗里德曼问阿尔特曼，创建 GPT-5 的主要挑战是什么（计算还是技术/算法），阿尔特曼说：“总是所有这些。”他补充说：OpenAI 真正擅长的事情是“我们将 200 个中等大小的东西组合成一个巨大的东西。”4

人工智能一直是一个权衡的领域，但一旦生成式人工智能进入市场并成为一个盈利行业，就会增加更多的权衡。OpenAI 正在处理所有这些问题。目前，寻找更好路线的首选启发式方法是遵循Richard Sutton 在《苦涩的教训》中的建议，这是缩放定律的非正式表述。以下是我用一句话总结 OpenAI 处理这些权衡的整体方法：坚信缩放定律，但在有希望的研究面前不要过于保守。

GPT-5 是这种整体观点的产物，因此它将充分利用缩放定律——以及任何其他东西，只要它能让 OpenAI 更接近其目标。缩放在哪些方面定义 GPT-5？我的猜测很简单：在所有方面。增加模型大小，增加训练数据集，增加计算/FLOP。让我们做一些粗略的数字。

模型大小

GPT-5 也将是一个 MoE（AI 公司现在大多出于充分的理由制作 MoE；高性能和高效推理。Llama 3 是一个有趣的例外，可能是因为它旨在（尤其是较小的版本）在本地运行，以便 GPU 贫乏者可以在有限的内存中安装它）。GPT-5 将比 GPT-4 更大（总参数数量意味着，如果 OpenAI 没有找到比 MoE 更好的架构设计，那么 GPT-5 将拥有比 GPT-4 更多的专家或更大的专家，无论哪种方式都能产生最佳的性能和效率组合；还有其他方法可以添加参数，但这对我来说最有意义）。

GPT-5 会大多少还不得而知。我们可以天真地推断出参数数量的增长趋势：GPT，2018 年（1.17 亿），GPT-2，2019 年（15 亿），GPT-3，2020 年（1.75 亿），GPT-4，2023 年（1.8 万亿，估计），但跳跃并不对应任何明确的曲线（尤其是因为 GPT-4 是 MoE，因此它不能与其他模型进行同类比较）。这种天真的推断不起作用的另一个原因是，新模型的规模取决于训练数据集的大小和可以训练它的 GPU 数量（记住我之前提到的外部限制；数据和硬件短缺）。

我找到了其他地方发布的尺寸估计（例如2-5T 参数），但我认为没有足够的信息来做出准确的预测（无论如何，我已经计算过了，即使最终不是非常准确，也可以给你一些有趣的东西）。

让我们看看为什么做出明智的规模估计比听起来更难。例如，艾伦·汤普森 (Alan Thompson) 给出的上述 2-5T 数字是基于这样的假设：与 GPT-4 相比，OpenAI 对 GPT-5 使用的计算量是 GPT-4 的两倍（“10,000 → 25,000 个 NVIDIA A100 GPU 和一些 H100”），训练时间是 GPT-4 的两倍（“约 3 个月 → 约 4-6 个月”）。

GPT-5 早在 11 月就已开始训练，而最后一次训练在一个月前仍在进行中，因此将训练时间增加一倍是有道理的，但 GPU 数量不对。当他们开始推出 GPT-5 时，尽管 H100 GPU 短缺，但 OpenAI 仍可以使用 Microsoft Azure Cloud 的大部分计算能力，即“ 10k-40k H100”。因此，GPT-5 可能比 2-5T 大 3 倍（我已在下面写下了我的计算细节）。

数据集大小

Chinchilla 缩放定律表明，最大的模型训练不足，因此如果没有更多数据来提供附加参数，那么让 GPT-5 比 GPT-4 更大是没有意义的。

即使 GPT-5 的大小相似（我不会打赌这不会违反缩放定律并且在新的算法范式下可能是合理的），Chinchilla 定律表明，仅靠更多的数据也会产生更好的性能（例如，Llama 3 8B 参数模型在 15T 令牌上进行训练，严重“过度训练”，但当他们停止训练时它仍在学习）。

据估计， GPT-4（1.8T 参数）已针对大约12-13 万亿个 token进行了训练。如果我们保守地假设 GPT-5 与 GPT-4 的大小相同，那么 OpenAI 仍然可以通过向其输入多达 100 万亿个 token 来改进它——如果他们找到收集这么多 token的方法！如果它更大，那么他们需要那些多汁的 token。

OpenAI 的一个选择是使用 Whisper转录 YouTube视频（他们一直违反 YouTube 的服务条款）。另一个选择是合成数据，这在 AI 公司中已经是一种常见的做法，一旦人造互联网数据“耗尽”，这将成为常态。我相信 OpenAI 仍在压缩最后剩余的可访问数据，并寻找新方法来确保合成数据的高质量。

（他们可能找到了一种有趣的方法来实现后者，从而在不增加预训练标记数量的情况下提高性能。我在“算法突破”部分的“推理”小节中探讨了这一部分。）

计算

更多 GPU 允许在同一数据集上构建更大的模型和更多轮次，从而在两种情况下都能获得更好的性能（直到他们尚未找到某个点）。要从整个表面分析中得出一个粗略的结论，我们应该关注一件我们确信在 2022 年 8 月至 2023 年 3 月期间（GPT-4 的训练运行跨度）和现在之间发生了变化的事情：OpenAI 可以访问 Azure 的数千台 H100，随后可用 FLOP 的数量会增加，以训练下一个模型。

也许 OpenAI 还找到了一种进一步优化 MoE 架构的方法，以相同的训练/推理成本拟合更多参数，也许他们找到了一种方法，将合成的 AI 生成数据制作成高质量的 GPT-5 代币，但我们都不确定。然而，Azure 的 H100 具有我们不应忽视的某种优势。如果有一家 AI 初创公司摆脱了 GPU 短缺，那就是 OpenAI。计算是成本发挥作用的地方，但目前，只要 GPT-5 产生出色的结果（并且还不是 AGI），微软就会负责这一部分。

我对 GPT-5 大小的估计

假设 OpenAI 没有像 Thompson 所说的那样使用 25k A100，而是使用了 25k H100 来训练 GPT-5（微软云为 OpenAI 保留的“ 10k-40k H100”的平均值）。四舍五入后，H100训练 LLM 的速度比 A100 快2到4 倍（成本相似）。OpenAI 可以在一个月内用这个计算量训练出一个 GPT-4 大小的模型。如果 GPT-5 需要 4-6 个月的时间，那么其大小的最终估计值为7-11T 参数（假设相同的架构和训练数据）。这是 Thompson 估计的两倍多。但是，把它做这么大是否有意义，还是最好在更多的 FLOP 上训练一个较小的模型？我们不知道；OpenAI 今年可能在架构或算法上取得了另一项突破，以在不增加规模的情况下提高性能。

现在让我们进行分析，假设推理是限制因素（Altman 在 2023 年表示，OpenAI 在训练和推理方面都受到 GPU 的限制，但他希望后者的效率提高 10 倍，这表明推理成本最终将超过训练成本）。有了 25k H100，OpenAI 对 GPT-5 的最大浮点数是 GPT-4 的两倍，推理批次大小更大，并且能够以 FP8 而不是 FP16（半精度）进行推理。这意味着推理性能提高了2到8 倍。GPT-5 的参数可能多达10-15T ，比 GPT-4 大一个数量级（如果在推理时将模型权重分配到 GPU 上的现有并行配置不会在这种规模下崩溃，但我不知道）。 OpenAI 还可以选择使其效率提高一个数量级，这与更便宜是同义词（或两者的某种加权混合）。

另一种可能性是，考虑到 OpenAI不断改进 GPT-4 ，我认为这种可能性值得考虑，那就是部分新可用的计算将被重新定向，以使 GPT-4 更高效 / 更便宜（甚至免费，完全取代 GPT-3.5；这是可以想象的，对吧？）。这样，OpenAI 可以从那些知道 ChatGPT 存在但不愿意付费或不知道 3.5 免费版和 4 付费版之间的差距巨大的可疑用户那里获取收入。我不会对服务价格发表更多评论（不确定 GPT-5 是否会在 ChatGPT 上使用），因为没有确切的规格，就无法判断（大小/数据/计算是一阶不确定性，但价格是二阶不确定性）。这只是商业视角的猜测：ChatGPT 的使用率并没有增长，OpenAI 应该对此做点什么。5

GPT-5 的算法突破

这是最有趣的部分（是的，甚至比上一节更有趣），而且，正如有趣定律所规定的那样，也是最具推测性的。从 GPT-4 推断出 GPT-5 的扩展定律是可行的，尽管有点棘手。考虑到目前该领域的不透明度，试图预测算法的进步是更大的挑战。

最好的启发式方法是关注与 OpenAI 相邻的人，潜伏在具有高 SNR 的 alpha 位置，并阅读来自顶级实验室的论文。我只做了部分这些，所以请原谅任何古怪的说法。如果你已经读到这里，你对我的谵妄已经太深了。所以谢谢你。以下是我们可以期待的提示（即 OpenAI 自 GPT-4 以来一直在研究的内容）：

当然，这是奥特曼的营销，但我们可以利用这种结构化的愿景来获取宝贵的见解。6这些能力中，有些更侧重于行为方面（例如推理、代理），而有些则更侧重于消费者方面（例如个性化）。所有这些都需要算法上的突破。7问题是，GPT-5 会成为这一愿景的实现吗？让我们来分析一下，并做出合理的猜测。

多模态

几年前，多模态性还是一个梦想。如今，它已成为必需品。所有顶级人工智能公司（无论是否对 AGI 感兴趣）都在努力让他们的模型能够捕捉和生成各种感官模态。人工智能人员喜欢认为没有必要复制使我们变得聪明的所有进化特征，但大脑的多模态性是他们无法承受的。这些努力的两个例子是：GPT-4 可以获取文本和图像并生成文本、图像和音频。Gemini 1.5 可以获取文本、图像、音频和视频并生成文本和图像。

显而易见的问题是：多模态性将走向何方？GPT-5（以及下一代人工智能模型）将拥有哪些额外的感官技能？我们可能天真地认为人类有五种技能，一旦将它们整合在一起，我们就大功告成了。事实并非如此，人类实际上还有更多。所有这些都是人工智能智能所必需的吗？我们应该实现动物拥有而我们没有的那些模式吗？这些都是有趣的问题，但我们正在讨论 GPT-5，所以我坚持直接的可能性；OpenAI 已经暗示已经解决了这些问题。

Voice Engine表明情感/人类合成音频已经相当成熟。它已经实现在 ChatGPT 中，因此它将出现在 GPT-5 中（也许不是从一开始就出现）。尚未解决但几乎最热门的领域是视频生成。OpenAI在 2 月份宣布了 Sora，但并未正式发布。据The Information 报道，谷歌 DeepMind 首席执行官 Demis Hassabis 表示：“谷歌可能很难赶上 OpenAI 的 Sora。”考虑到 Gemini 1.5 的功能，这并不是对谷歌在发布 AI 产品方面的限制的证实，而是对 Sora 的出色表现的认可。OpenAI 会把它放到 GPT-5 中吗？他们正在艺术家和TED中测试第一印象；一旦任何人都可以制作任何东西的视频，谁也说不准会发生什么。

据 The Verge 报道，Adobe Premiere Pro 将集成 AI 视频工具，其中可能包括 OpenAI Sora。我敢打赌，OpenAI 会先将 Sora 作为独立模型发布，但最终会将其与 GPT-5 合并。考虑到我们已经习惯了文本模型而不是视频模型，这将是对“不震惊世界”承诺的认可。他们将逐步推出对 Sora 的访问权限，就像他们之前对 GPT-4 Vision 所做的那样，然后让 GPT-5 能够生成（和理解）视频。

机器人

Altman 并没有在“AI 能力”幻灯片中提及人形机器人或实体，但与 Figure 的合作（以及你不应该相信的花哨演示，即使它是真实的）说明了 OpenAI 未来在该领域的押注（请注意，多模态性不仅仅涉及眼睛和耳朵，还包括触觉和本体感觉以及运动系统，即行走和灵活性。在某种程度上，机器人技术是多模态性和代理之间的共同因素）。

我最有信心但不太为人工智能圈接受的观点之一是，身体是达到人类智力水平的必要条件，无论是硅基还是碳基。我们倾向于认为智力存在于我们的大脑中，但这对我们的身体（以及他人的身体）在感知和认知中所起的关键作用是一种智力上的损害。Melanie Michell 写了一篇关于一般智力的科学评论，并谈到了具体化和社会化：

许多研究生物智能的人也怀疑所谓的“认知”智能方面是否可以与其他模式分离并被无形的机器捕获。心理学家已经表明，人类智能的重要方面植根于一个人的具体身体和情感体验。证据还表明，个人智能在很大程度上依赖于一个人对社会和文化环境的参与。理解、协调和向他人学习的能力对于一个人实现目标的成功可能比个人的“优化能力”更重要。

我敢打赌，OpenAI 会重返机器人领域（我们将看到 GPT-5 在多大程度上预示着这种转变）。他们放弃它不是出于哲学信念（即使公司中的某些成员仍然会说“视频生成将通过模拟一切而导致 AGI”，这表明身体是不必要的），而是出于务实的考虑：没有足够的现成数据，模拟不够丰富，无法将结果推断到现实世界，现实世界的实验过于昂贵和缓慢，莫拉维克悖论等。

也许他们会将工作外包给专注于机器人领域的合作伙伴，从而重返机器人领域。一台内置 GPT-5 的 Figure 02 机器人，能够进行代理行为和推理——并且能够直行——这将是一项巨大的工程壮举，值得见证。

推理

这是一个重大突破，GPT-5 可能会以前所未有的方式实现这一突破。奥尔特曼告诉弗里德曼，GPT-5 将比之前的模型更加智能，简而言之，它将具有更强的推理能力。如果说人类智能在某件事上胜过动物智能，那就是我们可以推理事物。推理，定义就是从现有知识中获取知识的能力，即通过遵循逻辑规则（如演绎或归纳）将现有知识与新信息相结合，从而更接近真相。这就是我们构建世界心理模型的方式（目前人工智能的一个热门概念），也是我们制定计划实现目标的方式。简而言之，这就是我们在周围建造奇迹的方式，我们称之为文明。

有意识的推理很难。确切地说，我们感觉很难。这是理所当然的，因为它在认知上比我们做的大多数其他事情都难；在脑海中计算四位数的乘法是只有最聪明的人才能做到的能力。如果它如此困难，那么天真的计算器如何能够立即计算出比我们知道的更大的数字呢？这可以追溯到莫拉维克悖论（我刚才顺便提到过）。汉斯·莫拉维克观察到，人工智能可以非常轻松地完成对我们来说似乎很难的事情，比如高数运算，但它很难完成看起来最平凡的任务，比如直行。

但是，如果愚蠢的设备可以立即进行神级算术运算，为什么人工智能在推理解决新任务或问题时会比人类困难得多？为什么人工智能的泛化能力如此之差？为什么它表现出卓越的晶体智力，却表现出可怕的流体智力？关于目前最先进的法学硕士（如 GPT-4 或 Claude 3）是否具有推理能力，一直存在争议。我认为有趣的数据点是，它们*无法**像我们一样推理*，无法具有相同的深度、可靠性、稳健性或泛化能力，而只能“以极其有限的方式”进行推理，用 Altman 的话来说。（在 MMLU或BIG-bench等“推理”基准测试中获得相当高的分数并不等同于具有像人类一样的推理能力；它可以通过记忆和模式匹配来捷径，更不用说受到数据污染的影响了。）

我们可以认为这是一个“技能问题”，或者“抽样可以证明知识的存在，但不能证明知识的缺失”，这些理由都是合理且有效的原因，但不能完全解释 GPT-4 在人类可以解决的ARC 挑战等问题上的绝对失败。进化可能为我们提供了不必要的推理障碍，因为它是一个无效的优化过程，但有大量经验证据表明，人工智能仍然以 Moravec 没有预测到的方式落后于我们。8

以上这些都是为了向你介绍我认为是人工智能推理缺陷背后的深层技术问题。我认为最大的因素是人工智能公司过于注重模仿学习，即从互联网上获取大量人造数据，并将其输入到大型模型中，这样他们就可以像我们一样写作、像我们一样解决问题（这就是纯粹的法学硕士所做的）。其原理是，通过向人工智能输入几个世纪以来创造的人类数据，它会学会像我们一样推理，但这是行不通的。

模仿学习方法有两个重要的局限性：首先，互联网上的知识大多是显性知识（知道什么），但隐性知识（知道怎么做）无法用文字准确传达，所以我们甚至不会尝试——你在网上找到的大多是复杂迭代过程的成品（例如，你读了我的文章，但你完全不知道我必须经过数十次草稿）。（我回到代理人部分的显性-隐性区别。）

其次，模仿只是人类儿童学习工具箱中的众多工具之一。孩子们也会进行实验、反复试验和自我对弈——除了模仿之外，我们还有多种学习方式，即通过反馈循环与世界互动来更新知识，以及通过整合机制将其堆叠在现有知识之上。法学硕士缺乏这些批判性推理工具。然而，它们在人工智能领域并非闻所未闻：DeepMind 的 AlphaGo Zero就是以 100-0击败AlphaGo的——没有任何人类数据，只是利用深度强化学习 (RL) 和搜索的组合与自己对弈。

除了这种强大的反复试验循环机制之外，AlphaGo 和 AlphaGo Zero 都具有一项附加功能，即使是当今最好的 LLM（GPT-4、Claude 3 等）也不具备这项功能：思考下一步该做什么的能力（这是一种平凡的说法，他们使用搜索算法通过对比和整合新信息与先前知识来辨别针对目标的坏的、好的和更好的选项）。根据手头问题的复杂性分配计算能力的能力是人类一直在做的事情（DeepMind 已经测试了这种方法并得到了有趣的结果）。这就是丹尼尔·卡尼曼在他畅销书《思考，快与慢》中所说的系统 2 思维。Yoshua Bengio和Yann LeCun曾试图赋予 AI“系统 2 思维”能力。

我相信这两个功能——自我游戏/循环/反复试验和系统 2 思维——是有前途的研究场所，可以开始缩小人工智能和人类之间的推理差距。有趣的是，拥有这些能力的人工智能的存在，比如 DeepMind 的 AlphaGo Zero——还有AlphaZero和MuZero（甚至没有游戏规则）——与当今最新的人工智能系统（如 GPT-4）缺乏这些能力的事实形成了鲜明对比。原因是现实世界（即使只是语言世界）比棋盘更难“解决”：不完美信息、规则和奖励定义不明确、自由度接近无限的不受约束的动作空间的游戏是最接近科学中不可能的挑战。

我相信，弥合推理游戏玩家 AI 和推理现实世界 AI 之间的差距是所有当前推理项目的目的（我相信 Gemini已经有了这方面的一些成果，但我认为它还没有显示出令人满意的结果）。证据让我认为 OpenAI 一直专注于通过将搜索和 RL 的功能与 LLM 相结合来摆脱纯粹的模仿学习。这就是对 Q* 的猜测所暗示的，也是来自领先研究人员的公开线索悄悄发出的呼声。也许在 OpenAI 中寻找这方面线索的关键人物是 Noam Brown，他是人工智能推理专家，于 2023 年 6 月从 Meta 加入该公司。他在公告推文中说：

多年来，我一直在研究扑克和外交等游戏中的人工智能自我对弈和推理。我现在将研究如何使这些方法真正具有通用性。如果成功，我们有一天可能会看到比 GPT-4 好 1,000 倍的 LLM。2016 年，AlphaGo 击败了李世石，这是人工智能的一个里程碑。但关键在于人工智能在每一步之前“思考”约 1 分钟的能力……如果我们能发现一个通用版本，那么好处将是巨大的。是的，推理可能慢 1,000 倍且成本更高，但我们会为一种新的抗癌药物支付什么样的推理成本呢？或者为黎曼猜想的证明？

我想他只是在你了解了我上面提供的背景知识后才说出这一切。最近，在一条现已被删除的推文中，他说：“你不会通过在人类数据上进行更好的模仿学习来获得超人的表现。”

最近在红杉资本 (Sequoia) 的一次演讲中，刚刚离开 OpenAI 的 Andrej Karpathy 也说了类似的话：

我认为人们还没有真正看到这个领域的可能性……我认为我们已经完成了 AlphaGo 的第一步。我们已经完成了模仿学习部分。AlphaGo 的第二步是强化学习，人们还没有做到这一点……这是真正让它发挥作用并成为超人的部分。……模型需要自我练习……它需要弄清楚什么对它有用，什么对它没用[他认为我们的教学方式不适合人工智能的心理]。

Brown 和 Karpathy 对模仿学习局限性的言论与 DeepMind 联合创始人Shane Legg在 Dwarkesh Patel 的播客上所说的话相呼应，再次提到了 AlphaGo：

要获得真正的创造力，你需要搜索各种可能性，找到这些隐藏的宝藏（他指的是AlphaGo 与李世石的第二场比赛中著名的第 37 步）……我认为当前的语言模型……并没有真正做到这种事情。它们实际上是在模仿数据……人类的智慧……这些都来自互联网。

因此，要超越模仿学习，你必须将其与搜索、自我对弈、强化学习等相结合。这就是人们所认为的 Q。这就是我所认为的 Q。有几篇论文介绍了如何将搜索能力引入 LLM或如何在游戏中推广自我对弈，但我还没有找到确凿的证据证明 OpenAI 究竟使用什么来为 GPT-5 添加推理技能。

具有推理能力的 Q/GPT-5 会像上述情况一样令人印象深刻吗？Yann LeCun 表示，我们应该“忽略关于 Q 的大量胡说八道”，声称所有顶级人工智能实验室都在研究类似的事情（技术趋于可能，所以这是有道理的）。他指责 Altman “长期自欺欺人”，这是对Altman 在董事会闹剧中被解雇前一天关于 Q* 的言论的批评：“[第四次] 当我们推开无知之幕、推进发现前沿时，我终于有机会在场了。”

但 LeCun 可能也在试图为 Meta 的工作辩护，或者他只是对 OpenAI 收购 Brown 感到不满，Brown 在 LeCun 的 FAIR 实验室创造了 Libratus（扑克）和 CICERO（外交）。（为了支持 LeCun 的警告，我们还应该注意到，Karpathy 说这还没有完成，Brown 只是暗示了他未来的工作，而不是已经存在的东西。）

就实际结果而言，考虑到我们目前掌握的有关 AI 推理的背景和证据数量， Flowers （一位半可靠的 OpenAI 泄密者）的评论表明，最新的 GPT-4 turbo 版本是 OpenAI 目前在这方面最先进的版本。The Information 报道称，Q* 可以解决以前从未见过的数学问题，而事实上，新的 GPT-4 turbo 在数学/代码问题上改进最多（数学任务能最好地显示推理能力的早期信号）。OpenAI 选择这个低调的预览来通过 GPT-4 评估 Q* 作为以推理为中心的模型，在赋予 GPT-5 这种智能之前进行一次“不令人震惊”的中期公开发布，这也是有道理的。

我敢打赌，GPT-5 将是一个纯粹的 LLM，具有显著增强的推理能力，借鉴 Q* 类 RL 模型。9除此之外，OpenAI 将继续进一步探索如何将这两条尚未完全融合的研究路线结合在一起。

个性化

我就长话短说吧。个性化就是让用户与人工智能建立更亲密的关系。用户无法将 ChatGPT 变成他们想要的定制助手。系统提示、微调、RAG 和其他技术允许用户引导聊天机器人按照他们想要的行为行事，但就人工智能对用户的了解和用户对人工智能的控制而言（以及它发送到云端以获得服务器响应的数据而言），这是不够的。如果你想让人工智能更多地了解你，你需要提供更多的数据，这反过来会降低你的隐私。这是一个关键的权衡。

如果 AI 公司不想让客户冒险采用开源技术，即使这需要付出更多努力（Llama 3 让这种转变比以往任何时候都更具吸引力），那么他们就需要找到一种让他们和客户都满意的折衷解决方案。在权力和隐私之间是否存在令人满意的中间立场？我不这么认为；如果你做大，你就去云。OpenAI 甚至没有试图让个性化成为 GPT-5 的强项。原因之一是：该模型将非常庞大且计算量很大，因此不要考虑本地处理和数据隐私（大多数企业不愿意将他们的数据发送给 OpenAI）。

除了隐私和设备处理之外，还有其他一些东西可以实现新的个性化水平（其他公司已经实现了，特别是谷歌和Magic，尽管只有谷歌公开发布了具有此功能的模型）：数百万个令牌上下文窗口。

从向 ChatGPT 提出两个句子的问题到能够用包含十年工作成果的 400 页 PDF 填充提示窗口，ChatGPT 可以帮助您检索其中可能隐藏的任何内容，适用性有了很大的提高。为什么以前没有这个功能？因为对如此多的输入提示进行推理的成本非常高，而且随着您添加的每一个单词，成本会以二次方的方式变得更加难以承受。这就是所谓的“二次注意力瓶颈”。然而，代码似乎已经被破解了；谷歌和Meta 的新研究表明，二次瓶颈已不复存在。

一旦 PDF 的长度可以无限长，Ask Your PDF 就是一款很棒的应用程序，但现在百万个标记窗口可以实现一些新东西，而十万个标记窗口则无法实现：“ Ask My Life”类别的应用程序。我不确定 GPT-5 的上下文窗口大小是多少，但考虑到像 Magic 这样的年轻初创公司似乎已经通过数百万个标记窗口取得了巨大的成果——并且考虑到 Altman 明确提到个性化是必备的 AI 功能——OpenAI 至少必须匹配这个赌注。

可靠性

可靠性是怀疑论者的最爱。我认为 LLM 不可靠（例如幻觉）是人们认为生成式 AI 的价值主张不够清晰以至于无法获得报酬的主要原因之一，也是增长停滞和使用停滞的原因，也是一些专家认为它们是一种“有趣的消遣”而不是提高生产力（即使可以，也并不总是很顺利）的原因。这并不是每个人对 LLM 的体验，但它足够突出，以至于公司不应该否认可靠性是他们需要解决的问题（特别是如果他们希望人类使用这项技术来帮助解决高风险类别的案件）。

可靠性是任何科技产品的关键，那么为什么这些大型人工智能模型很难做到这一点呢？我发现一个有助于理解这一点的概念是，像 GPT-5 这样的东西既不是发明也不是发现。它们最好被描述为被发现的发明。即使是更接近构建现代人工智能的人（更不用说用户或投资者）也不知道如何解释输入查询并获得输出后模型内部发生的事情。（机械可解释性是一个针对这一问题的热门研究领域，但仍处于早期阶段。如果你对此感兴趣，请阅读Anthropic 的作品。）

就好像 GPT-5 及其同类是先进文明遗留下来的古老设备，而我们恰好在考古硅片挖掘中偶然发现了它们。它们是我们发现的发明，现在我们正试图弄清楚它们是什么、它们如何工作，以及如何使它们的行为可解释和可预测。我们所认为的不可靠性仅仅是对文物理解不够的后续后果。这就是为什么尽管公司在客户流失和企业疑虑方面损失了数百万美元，但这个缺陷仍未得到解决。

OpenAI 正试图通过重重护栏 (RLHF)、测试和红队测试让 GPT-5 更加可靠和安全。这种方法存在缺点。如果我们接受我上面解释的观点，即人工智能无法推理是因为“抽样可以证明知识的存在，但不能证明知识的缺失”，我们就可以将同样的想法应用于安全测试：抽样可以证明安全漏洞的存在，但不能证明漏洞的缺失。这意味着无论 OpenAI 进行多少测试，他们都无法确定他们的模型在越狱、对抗性攻击或即时注入方面是完全可靠或完全安全的。

OpenAI 会改善 GPT-5 的可靠性、幻觉和外部攻击媒介吗？GPT-3 → GPT-4 的轨迹表明他们会的。他们会解决这些问题吗？别指望它了。

代理

在我看来，这一部分是整篇文章中最有趣的部分。到目前为止，我所写的所有内容都以某种方式对 AI 代理（特别强调推理）很重要。最大的问题是：GPT-5 是否具有代理能力，还是会像之前的 GPT 版本一样，成为一个可以做很多事情但不能制定计划并采取行动实现目标的标准语言模型？这个问题之所以重要，是因为我将以下三个原因分解如下：首先，代理对于智能的重要性怎么强调也不为过。其次，我们知道这种代理的原始版本在某种程度上是可能的。第三，OpenAI 一直在研究 AI 代理。

许多人认为，自主性（即利用现有资源，随着时间的推移，自主推理、计划和行动以达到某个目标的能力）是法学硕士和人类级人工智能之间的缺失环节。自主性比纯粹的推理更能成为智能的标志。正如我们上面所看到的，推理是实现目标的第一步，也是任何智能代理的关键能力，但还不够。在现实世界中计划和行动（对于人工智能来说，模拟环境可以很好地作为初步近似）是所有人类都具备的技能。我们很早就开始以一种展现针对预定目标进行顺序推理的能力的方式与世界互动。起初，它是无意识的，不涉及推理（例如哭闹的幼儿），但随着我们的成长，它变成了一个复杂而有意识的过程。

解释为什么主动性是智能的必需品，而真空推理却没有多大用处的一种方法是通过显性知识和隐性知识之间的差异。让我们想象一个强大的推理能力强的人工智能，它可以被动地体验和感知世界（例如物理专家人工智能）。阅读网络上的所有书籍将使人工智能能够吸收并创建大量显性知识（知道什么），这些知识可以形式化、转移并写在纸上和书上。然而，无论人工智能在物理方面有多聪明，它仍然缺乏将所有这些公式和方程式应用于例如确保为昂贵的引力波探测实验提供资金的能力。

为什么？因为这需要了解世界的社会经济结构，并将这些知识应用于不确定的新情况和许多可变因素。这种应用概括能力超出了任何书本所能涵盖的范围。这就是隐性知识（诀窍）；只有通过实践和直接从已经知道如何做的人那里学习才能学到。10底线是：如果人工智能不首先获得专门技术/隐性知识，那么无论其纯推理能力有多强，它都无法发挥有用的代理作用并实现目标。11

为了获得诀窍，人类会做一些事情。但是，要以一种有助于学习和理解的方式“做”，就需要遵循行动计划，以通过反馈循环、实验、工具使用以及将所有这些与现有知识库相结合的方式实现目标（这就是 AlphaZero 所做的超越模仿学习的有针对性的推理的目的）。因此，对于代理来说，推理是一种达到目的的手段，而不是目的本身（这就是为什么它在真空中毫无用处）。推理提供了新的显性知识，然后人工智能代理可以使用这些知识来计划和行动，以获取实现复杂目标所需的隐性知识。这是智能的精髓；这是人工智能的终极形式。

这种代理智能与 GPT-4、Claude 3、Gemini 1.5 或 Llama 3 等 LLM 形成鲜明对比，这些 LLM 无法令人满意地执行计划（早期基于 LLM 的代理尝试，如BabyAGI和AutoGPT或失败的自主性实验就是证据）。当前最好的 AI 是亚代理，或者用或多或少官方的术语来说，它们是AI 工具（Gwern 在 AI 工具与 AI 代理二分法方面有很好的资源）。

那么，我们如何从 AI 工具转变为能够推理、计划和行动的 AI 代理？OpenAI 能否缩小 GPT-4（AI 工具）与 GPT-5（潜在的 AI 代理）之间的差距？要回答这个问题，我们需要回顾 OpenAI 目前对代理的关注和信念，并考虑是否有一条从那里开始的道路。特别是，OpenAI 似乎确信 LLM（或更一般的 token 预测算法 (TPA)，这是一个总体术语，包括其他模态的模型，例如 DALL-E、Sora 或语音引擎）足以实现 AI 代理。

如果我们相信 OpenAI 的立场，我们首先需要回答另一个问题：人工智能代理能否从 TPA 中诞生，从而绕过对隐性知识甚至手工推理特征的需求？12

这些问题背后的原理是，一个伟大的人工智能预测器/模拟器（理论上是可能的）必须以某种方式开发出一个内部世界模型，才能做出准确的预测。这样的预测器只需深入了解世界是如何运作的，就可以绕过获取隐性知识的需要。例如，你不是从书本上学会骑自行车的，你必须骑它，但如果你能以任意高的细节水平预测接下来会发生什么，这可能足以让你在第一次骑行和所有后续骑行中都准确无误。人类做不到这一点，所以我们需要练习，但人工智能可以吗？十三在介绍 AI 代理的真实示例（包括 OpenAI 正在开展的工作）之前，让我们先对此进行一些阐述。

标记预测算法 (TPA) 非常强大。它如此强大，以至于整个现代生成式人工智能都建立在这样一个前提上：足够强大的 TPA 可以发展智能。14GPT-4、Claude 3、Gemini 1.5 和 Llama 3 都是 TPA。Sora 是一个 TPA（其创造者称“将通过模拟一切实现 AGI”）。Voice Engine和Suno是 TPA。即使是像Figure 01（“视频输入，轨迹输出”）和Voyager（使用 GPT-4 的 AI Minecraft 玩家）这样不太可能的例子也本质上是 TPA。但纯粹的 TPA 可能并不是解决所有问题的最佳解决方案。例如，DeepMind 的AlphaGo和AlphaZero不是 TPA，而是我在“推理”部分中所说的强化学习、搜索和深度学习的巧妙结合。

一个智能的 AI 代理能否从像 GPT-4 一样训练的 GPT-5 中脱颖而出，成为 TPA？还是说，要让 GPT-5 成为代理，OpenAI 需要找到一个完全不同的功能来优化，甚至找到一个新的架构？（好得多的）GPT-4 最终能否发展出代理能力，还是 AI 代理需要完全不同？OpenAI 早期成功背后的科学头脑 Ilya Sutskever对 TPA 的力量毫不怀疑：

…当我们训练一个大型神经网络来准确预测来自互联网的大量不同文本中的下一个单词时……我们正在学习一个世界模型……表面上看，我们只是在学习文本中的统计相关性，但事实证明，为了“仅仅学习”文本中的统计相关性，为了很好地压缩它们，神经网络学习的是生成文本的过程的一些表示。这个文本实际上是世界的投影……这就是通过准确预测下一个单词所学到的东西。

Sora 的创造者之一 Bill Peebles在最近的一次演讲中更进一步：

随着我们继续扩展这一范式 [TPA]，我们认为它最终必须模拟人类的思维方式。要生成具有真正逼真的动作序列的真正逼真的视频，唯一的方法是拥有一个关于所有物体、人类等环境如何运作的内部模型。

您可能不认同这种观点，但我们可以放心地推断 Sutskever 和 Peebles 的观点，以了解 OpenAI 内部的争论除外，他们的观点是一致的。如果成功，这种方法将推翻人工智能需要捕捉隐性知识或特定推理机制来规划和行动以实现目标并变得智能的想法。也许它只是一路上的代币。

我不认同 OpenAI 的观点，原因之一是：他们没有绕过隐性知识的挑战。他们只是把它转移到了其他地方。现在的问题不是学习推理、计划和行动，而是模拟世界。他们想要解决的实际上是预知问题。Peebles 对此的讨论非常随意，以至于它看起来并不重要。但是，创建一个完美的预测器 / 模拟器不是比创建一个可以在世界上计划和行动的实体更难吗？是否有可能创建一个可以模拟“真正逼真的动作序列”的人工智能，正如 Peebles 在他的演讲中所声称的那样？我不这么认为——我不认为我们可以做到这一点，而且我认为我们无论如何都无法评估这种能力。也许 OpenAI 对 Bitter Lesson 的信任和依赖太过分了（或者也许我错了，我们拭目以待）。

无论如何，如今人工智能公司的选择非常有限——尽管 Yann LeCun一直在尝试，但没有人知道如何构建计划/行动系统——因此，无论他们喜欢与否，他们都以 LLM 的形式使用基于转换器的 TPA（包括 OpenAI）来应对代理挑战，因为这是他们掌握的最佳技术。让我们从现有的原型开始，然后跳到我们对 OpenAI 的努力的了解。

除了我上面分享的例子（例如 BabyAGI、AutoGPT、Voyager 等）之外，还有其他基于 LLM 的代理尝试。第一个引起我注意的是 pre-ChatGPT。2022 年 9 月，Adept AI 宣布了他们所谓的 Action Transformer 的第一个版本，这是一个“通过观看人们的视频来训练使用数字工具的大型变压器”。他们发布了一些演示，但仅此而已。一年前，两位联合创始人离开了公司，这根本不是一个好兆头（The Information 报道称，Adept 正准备在夏天推出一款 AI 代理。我们拭目以待）。另一家最近加入 AI 代理淘金热的年轻初创公司是 Cognition AI，它最出名的是作为“第一位 AI 软件工程师” Devin的创造者（它现在有一个开源表亲OpenDevin）。一开始还算顺利，但后来，一则名为“揭穿 Devin 的真面目”的评论视频曝光后迅速走红，揭露了 Cognition 对 Devin 能力的过度炒作。结果呢？Cognition 不得不公开承认，Devin 的能力不足以“通过接手繁琐的 Upwork 任务赚钱”。

那些都是纯粹的软件代理。还有另一个分支，诚然，更难实现：AI 代理设备。最著名的例子是Rabbit R1和Humane AI Pin。R1的评论即将发布，所以我们会等待它们（大约在这篇文章计划发布的同一天）。Humane AI Pin 的评论上周已经发布，它们绝对是毁灭性的。

只需知道，考虑到上述所有证据，结论是，基于 LLM 的 AI 代理尚未实现。OpenAI 能做得更好吗？

人工智能代理”变成一个“包罗万象的术语”，而不是放弃自己的雄心壮志或迎接技术挑战。OpenAI的 Ben Newhouse 表示，他们正在打造“一款可能成为行业定义的从零到一的产品，利用我们即将推出的模型中最新和最优秀的技术”。我们拭目以待。

作为本节关于代理的总结，我认为 OpenAI 尚未准备好通过其最大的版本向 AI 代理迈进。还有很多工作要做。尽管 TPA 是目前唯一可能的解决方案（直到我上面描述的推理挑战得到解决），但它本身还不足以实现人们所追求的代理能力，以至于人们会考虑将它们用于严肃的项目。

我敢打赌，GPT-5 将会像我们之前见过的一样，是一个多模态法学硕士——如果你愿意的话，可以说是一个改进的 GPT-4。它周围很可能是 GPT-4 中尚不存在的系统，包括连接到 AI 代理模型以在互联网和设备上执行自主操作的能力（但这与人类般的 AI 代理的真正梦想相去甚远）。虽然多模态、推理、个性化和可靠性是系统的特征（它们都将在 GPT-5 中得到改进），但代理是一个完全不同的实体。GPT-5 不需要成为代理即可享受代理的力量。它很可能是一种原始的“AI 代理管理器”，也许是我们一致认可的第一个这样的管理器。

OpenAI 将在产品层面整合 GPT-5 和 AI 代理，以试水。他们也不会同时发布 GPT-5 和 AI 代理群（作为先例，GPT-4 和 GPT-4V 曾分离过一段时间）。我认为 OpenAI 认为代理能力比“仅仅”更好的多模态 LLM 更难控制，因此他们将更慢地推出 AI 代理。让我强调一下Newhouse的上述引言，以清楚说明我为什么相信这一点：“我们正在构建……可能成为行业定义的从零到一的*产品，该产品将利用我们即将推出的**模型*中最新和最出色的功能 [重点是我的]。”一款利用即将推出的模型（GPT-5）中最出色功能的产品（AI 代理）。