AI 资讯

返回首页播客摘要节目时长 · 1:13:56

5月21日周四 · 11:30

OpenAI的Yann Dubois：为什么AI进步突然感觉真实了

Original title · OpenAI's Yann Dubois: Why AI Progress Suddenly Feels Real

播客中文摘要全文翻译

TL;DR

这期讲了什么

OpenAI的Yann Dubois探讨了为什么AI进步虽然底层是连续的，却给人突然跃升的感觉。他将此归因于三个因素：去年12月前后可靠性阈值的确立、模型通过编程自我加速发展，以及强化学习从竞赛类任务向实际应用场景的转变。Dubois强调了GPT 5.5的效率提升以及全公司围绕共同目标协作的重要性。他的团队专注于指令遵循、思考时长等横向改进，以及整合模型中的纵向改进。

本期你会听到

AI可靠性在去年12月左右达到临界阈值，实现了从竞争到实用的跨越
强化学习已从数学竞赛等可验证奖励任务转向实际编码等复杂场景
GPT 5.5通过推理优化和更高效的模型思考实现约两倍速度提升
后训练前沿团队平衡横向改进（如指令遵循）与纵向团队贡献整合

对话时间线

00:00→ 00:26Speaker 1
You need to reach this level of reliability to really make any of these AI tools very u…
15:06→ 15:17Speaker 1
Exactly.
30:49→ 31:05Speaker 1
So I just think people need to realize when to stop that.
45:36→ 45:42Speaker 2
Like, you you just pick one problem and you just do reinforcement learning specifically…
1:00:30→ 1:01:16Speaker 1
Evaluation has been harder and harder as models become better, and that's because the t…
1:13:36→ 1:13:56Speaker 2
Hi, it's Matt Turk again.

对话逐字稿

中文逐字稿

00:00→ 00:26发言人1

你需要达到这种可靠性水平，才能真正让这些AI工具变得非常有用。我认为我们大约在去年12月跨过了这个门槛，至少在OpenAI是这样。现在我们可以信任这些模型来完成我们正在做的很多工作。过去几个月相当疯狂。我们从竞赛转向实用性再转向用户，这就是我们现在的感受。我认为大部分时间，生物医学是最后一公里。

00:26→ 00:34发言人1

这个最后一公里在不同垂直领域总是有很大的空间。我强烈鼓励人们继续在这方面努力。

00:34→ 01:03发言人2

你好，我是Matt Turk。欢迎来到MAD播客。今天的嘉宾是Jan Dubois，他是OpenAI后训练前沿团队的联合负责人。GPT 5.5的发布是AI领域的又一个重要里程碑，Jan的团队帮助构建了它，以及OpenAI之前的顶级推理模型，包括o1、o3和GPT-5 thinking。在加入OpenAI之前，Jan在斯坦福大学工作，他共同创立了Stanford Alpaca，这是一个开创性的项目，催生了现代后训练研究社区的许多研究。

01:03→ 01:29发言人2

在这次对话中，我们将深入探讨GPT 5.5的实际新功能，为什么强化学习正在从数学和编程竞赛转向混乱的现实世界工作，为什么AI进步感觉像突然的阶梯函数，以及为什么持续学习仍然是ChatGPT三年后AI领域尚未解决的大问题之一。请欣赏与Jan Dubois的精彩对话。嘿，Jan。欢迎。

01:29→ 01:30发言人1

你好，Matt。谢谢你邀请我。

01:30→ 01:57发言人2

过去几周前沿AI领域又是一次疯狂的冒险，发布了GPT 5.5和Claude Opus预览版。所以感觉好像我们又解锁了一个进步阶梯，特别是在网络安全、代理编码方面。从你的角度来看，这最好的思考方式是什么？事情在加速吗？发生了什么？

01:57→ 02:31发言人1

是的。过去几个月相当疯狂。在内部，我们也能真正感受到这一点，我认为任何与AI一起工作的人、任何在编程的人，现在都在真正感受到这一点。我认为这是由于三个原因。第一个是，尽管在我脑海中，进步实际上是相当连续的，但你需要达到这种可靠性水平，才能真正让这些AI工具变得非常有用，我认为我们大约在去年12月跨过了这个门槛，至少在OpenAI是这样。

02:31→ 03:05发言人1

这就是我认为我们真正跨过了那个阈值的地方，现在我们可以信任这些模型来完成我们正在做的很多工作。所以这感觉像一个阶梯函数，尽管我认为实际上在能力方面，这是相当连续的。所以这是第一件事。第二个原因是，一旦你开始拥有真正优秀的模型，你就会加速自己的发展，特别是在编程方面，因为我们内部都在编程。你加速自己有两个方面：让这些模型训练其他模型，同时也构建我们作为研究人员需要做的工具。

03:05→ 03:44发言人1

所有这些加速，我认为，意味着我们看到过去几个月越来越快。第三件我们正在感受到的事情是，去年一整年，我们真的在构建这些推理模型，我们真的在大力推进强化学习。最初，当我们有o1预览版，甚至o3时，这些模型仍然针对我们所说的可验证奖励进行优化，这些情况下我们可以访问ground truth。测试你是否正确很容易。例如，数学问题或编程竞赛就是这种情况。

03:45→ 04:13发言人1

我认为我们现在意识到的是，我们能够把我们为这些可验证奖励案例构建的许多工具拿出来，能够更普遍地用于真实用例上的强化学习。我认为这就是我们现在真正感受到的原因，就像是在现实世界的编程中，而不是竞赛中。所以我们从竞赛转向实用性再转向用户，这就是我们现在正在感受到的。

04:13→ 04:23发言人2

好的。很有趣。所以我们要深入探讨很多内容，特别是在RL方面。对于你提到的第一件事，可靠性，那是工程方面吗？是模型方面吗？

04:23→ 04:27发言人2

像，你所说的可靠性是什么意思？

04:27→ 04:55发言人1

这是多方面的。但一般来说，鉴于这些是代理模型，如果简单地想想，每两分钟，它们有一定的概率是错误的。运行时间越长，最终答案是错误的概率就越高。所以这是代理模型固有的东西。我们一直在大力推进的是确保模型降低每两分钟出错的可能性。

04:55→ 05:11发言人1

所以纯粹从模型的角度来看，当然有很多可靠性也是在应用方面完成的。OpenAI的团队在这方面做得非常出色。但我甚至只是在谈论我们模型的可靠性，确保我们基本上降低出错的可能性。

05:11→ 05:28发言人2

好的。所以5.5，之前被称为Strawberry，是一件大事。它确实是一件大事。我只是好奇从内部来看，你们最自豪的是什么？什么最具挑战性？

05:28→ 05:34发言人2

给我们一些关于发布这个的感受的颜色。

05:34→ 06:00发言人1

说实话，我们对5.5都非常兴奋。这是一款公司里每个人都深度参与构建的模型之一，我认为我们现在真的感受到了。我们因为5.5得到了很多关注，似乎所有的星星都排成了一线。这并不总是发生，这款模型正好非常适合。我确实感受到了。

06:00→ 06:43发言人1

这很有趣，因为通常对于每款早期看起来非常好的模型，我们都有一个模型，我们都对此非常兴奋，然后有很多疑虑开始出现，因为就像，哦，每个人都这么炒作这个东西，但实际上它在所有其他方面都很糟糕，然后有另一波，人们开始低估它，它有点像波浪式前进。这取决于我们实际发布时，人们内部的感受。但我们大多数模型都是如此。

06:43→ 06:56发言人2

这个过程需要多长时间？包括波浪式的起伏兴奋。是几周吗？是几个月吗？

06:56→ 07:33发言人1

这真的取决于。我可以，所以我不能确切谈论5.5的具体内容，但它取决于管道的哪个部分是训练模型的不同部分。我们真的有不同的子团队，包括预训练，你有中间训练阶段，你有后训练，通常越接近产品，后训练是最后一个，迭代周期越快。如果你更上游，迭代周期越慢。所以可能从几个月到几天不等。

07:33→ 07:48发言人2

5.5在代理编码、计算机使用、知识工作和早期科学研究方面特别出色。这在内部是如何运作的？不同的人专注于这些不同的部分吗？你们如何达到这个结果？

07:48→ 08:15发言人1

是的。我们确实有不同的团队致力于特定的用例，并推动这些用例。我的团队具体来说，是那个将这些垂直改进整合到最终模型中的团队。你可以把它看作是一个既做平滑函数的团队。所以你有所有这些改进，但你需要确保模型不会感觉太尖锐，不会感觉在不同的垂直领域有所不同。

08:15→ 08:48发言人1

还有一些团队在处理所有横向改进。这就是我的团队在做的事情。有很多事情是横向的，比如指令遵循、函数调用，或者思考模型应该在不同问题上思考多少。这些非常横向，影响所有这些用例。所以我们有这些更垂直的团队和这些更横向的团队，两者对模型改进都非常重要。好的事情是这些东西可以正交改进。

08:48→ 09:28发言人1

所以你可能有很多不同的团队在某些垂直领域工作，也许对于一个模型，在最后一次运行中只有一半的团队做出了整合，基本上改进了这些能力，也许对于下一个模型，将是另一半。所以从高层次来看就是这样。我要说的是，因为你也问了我们对这个模型真正自豪的事情之一，我会说两件事。第一件事是模型的效率。我们真的，真的提高了模型的效率，大多数任务基本上可以以两倍的速度执行。

09:29→ 09:49发言人1

太好了。另一件我之前已经提到过的事情，但是有点像公司的这种一致性，确保每个人都朝着相同的目标努力。这真的需要整个公司朝着一个北极星努力，在特定时间线内构建一个好的模型。所以对这一切的发生我非常自豪。

09:49→ 10:02发言人2

好的。然后说到效率，你如何优化它？我们谈论的是每token效率。我们也谈论服务模型的延迟吗？什么是AI研究，什么是工程？

10:02→ 10:27发言人1

所以这就是我说的整个公司，这就是它的意思，它真的来自各个方面。它必须来自推理优化。它必须来自模型在其思考时间中更高效。所以基本上，你思考的每个token。你应该看的通常图表是x轴，你思考的token数量，y轴是性能。

10:27→ 11:03发言人1

所以这是我们看的这些测试时间扩展曲线。研究基本上试图将这条曲线向左移动，所以少思考，达到相同或更正确的水平。然后推理也处理这个x轴，但将其从token数量转换为实际延迟。最终人们关心的是x轴上的延迟，y轴上的性能，这是所有东西汇聚的地方，这就是5.5真正发生的事情。所以，是的，这就是为什么我总是说我对这个公司非常自豪。

11:03→ 11:11发言人2

好的。太好了。让我们谈谈你一分钟。你在后训练前沿团队。那个你描述为横向的团队。

11:11→ 11:14发言人2

那个团队通常做什么？

11:14→ 11:30发言人1

是的。我会说有三件事。所以广义地说，我们在后训练组织，我的团队是后训练前沿团队。所以我的团队做三件事。第一件事是我们决定什么进入最终运行。

11:30→ 12:06发言人1

所以就像我们之前谈到的，有很多垂直领域，有人需要决定什么可以进入，什么不能，还要为人们提供科学实验，让他们迭代一些能够代表最终运行的东西。所以这是我的团队做的第一件事。我的团队做的第二件事是将所有东西整合在一起，实际进行大运行。

12:06→ 12:31发言人2

这需要大量的GPU，所以需要大量的基础设施工作，但也需要大量的ML工作，将所有东西整合在一起，确保它们协同工作。然后我的团队做的第三件事是对模型的横向改进。基本上，是一些这些垂直团队通常不会太关注的事情。例如，思考时间，就像我之前说的。模型应该在某些答案上思考多少？或者指令遵循，函数调用，像记忆这样的事情，以及对模型的真正跨栈改进。所以这就是前沿推进团队所做的，我正在领导那个团队。

12:31→ 12:35发言人2

好的。太好了。然后，你加入OpenAI的旅程是什么？

12:35→ 13:00发言人1

哦，这是一个很长的故事，但我会尽量简短。基本上，我在瑞士做了生物医学工程本科。然后我在加拿大做交换生，我了解了word2vec。所以我不知道你是否听说过这个算法，但它基本上是获取单词，这些像离散的的东西，并将其放入向量空间。

13:01→ 13:30发言人1

所以基本上把它放在一个你可以把它看作一个平面的地方，在那里更相似的单词会更接近彼此。所以它把这些离散的单词带入某种连续的语义有意义的连续空间。我绝对被那个算法震惊了。那是我决定我想从事自然语言处理和理解语言的时候。当时我非常错误，但我认为英语NLP基本上已经解决，或者说接近解决。

13:30→ 14:04发言人1

那是在2017年。那是在Transformers开始的时候，实际上是在Transformers之前。所以我非常错误，但我决定我想研究研究不足的语言。基本上，我想在数据不多的语言上改进NLP。所以我去了新加坡为Grab工作，我基本上为他们构建自然语言处理管道，使用高棉语、马来语、泰语、越南语以及所有这些不同语言。

14:04→ 14:18发言人1

然后我跳过了一点。我在不同国家做了更多学术类型的工作，然后在斯坦福大学做了我的博士。之后，我在创业公司有一小段时间，然后，去了OpenAI。

14:18→ 14:30发言人2

是的。我记得在你的博客或页面上看到一个给量化公司的便条，不要联系你，因为你对他们不感兴趣。

14:31→ 14:43发言人1

是的。我一直认为对我来说思考我在世界上拥有的积极影响，或者至少我试图拥有的积极影响，是非常重要的。是的。所以这就是那个想法的原因。

14:43→ 15:05发言人2

是的。正如我们刚才开始录制之前说的，人们可能已经在GPT 5视频公告中看到了你，你做了一个非常有趣的演示，展示了如何即时构建一个应用程序来教你的伴侣法语。所以，人们应该去看看那个。

15:06→ 15:17发言人1

没错。那个那个很有趣。那个很有趣。GPT 5当时没那么可靠，我...