你需要达到这种可靠性水平,才能真正让这些AI工具变得非常有用。我认为我们大约在去年12月跨过了这个门槛,至少在OpenAI是这样。现在我们可以信任这些模型来完成我们正在做的很多工作。过去几个月相当疯狂。我们从竞赛转向实用性再转向用户,这就是我们现在的感受。我认为大部分时间,生物医学是最后一公里。
OpenAI的Yann Dubois探讨了为什么AI进步虽然底层是连续的,却给人突然跃升的感觉。他将此归因于三个因素:去年12月前后可靠性阈值的确立、模型通过编程自我加速发展,以及强化学习从竞赛类任务向实际应用场景的转变。Dubois强调了GPT 5.5的效率提升以及全公司围绕共同目标协作的重要性。他的团队专注于指令遵循、思考时长等横向改进,以及整合模型中的纵向改进。
- AI可靠性在去年12月左右达到临界阈值,实现了从竞争到实用的跨越
- 强化学习已从数学竞赛等可验证奖励任务转向实际编码等复杂场景
- GPT 5.5通过推理优化和更高效的模型思考实现约两倍速度提升
- 后训练前沿团队平衡横向改进(如指令遵循)与纵向团队贡献整合
- 00:00→ 00:26Speaker 1
You need to reach this level of reliability to really make any of these AI tools very u…
- 15:06→ 15:17Speaker 1
Exactly.
- 30:49→ 31:05Speaker 1
So I just think people need to realize when to stop that.
- 45:36→ 45:42Speaker 2
Like, you you just pick one problem and you just do reinforcement learning specifically…
- 1:00:30→ 1:01:16Speaker 1
Evaluation has been harder and harder as models become better, and that's because the t…
- 1:13:36→ 1:13:56Speaker 2
Hi, it's Matt Turk again.
中文逐字稿
这个最后一公里在不同垂直领域总是有很大的空间。我强烈鼓励人们继续在这方面努力。
你好,我是Matt Turk。欢迎来到MAD播客。今天的嘉宾是Jan Dubois,他是OpenAI后训练前沿团队的联合负责人。GPT 5.5的发布是AI领域的又一个重要里程碑,Jan的团队帮助构建了它,以及OpenAI之前的顶级推理模型,包括o1、o3和GPT-5 thinking。在加入OpenAI之前,Jan在斯坦福大学工作,他共同创立了Stanford Alpaca,这是一个开创性的项目,催生了现代后训练研究社区的许多研究。
在这次对话中,我们将深入探讨GPT 5.5的实际新功能,为什么强化学习正在从数学和编程竞赛转向混乱的现实世界工作,为什么AI进步感觉像突然的阶梯函数,以及为什么持续学习仍然是ChatGPT三年后AI领域尚未解决的大问题之一。请欣赏与Jan Dubois的精彩对话。嘿,Jan。欢迎。
你好,Matt。谢谢你邀请我。
过去几周前沿AI领域又是一次疯狂的冒险,发布了GPT 5.5和Claude Opus预览版。所以感觉好像我们又解锁了一个进步阶梯,特别是在网络安全、代理编码方面。从你的角度来看,这最好的思考方式是什么?事情在加速吗?发生了什么?
是的。过去几个月相当疯狂。在内部,我们也能真正感受到这一点,我认为任何与AI一起工作的人、任何在编程的人,现在都在真正感受到这一点。我认为这是由于三个原因。第一个是,尽管在我脑海中,进步实际上是相当连续的,但你需要达到这种可靠性水平,才能真正让这些AI工具变得非常有用,我认为我们大约在去年12月跨过了这个门槛,至少在OpenAI是这样。
这就是我认为我们真正跨过了那个阈值的地方,现在我们可以信任这些模型来完成我们正在做的很多工作。所以这感觉像一个阶梯函数,尽管我认为实际上在能力方面,这是相当连续的。所以这是第一件事。第二个原因是,一旦你开始拥有真正优秀的模型,你就会加速自己的发展,特别是在编程方面,因为我们内部都在编程。你加速自己有两个方面:让这些模型训练其他模型,同时也构建我们作为研究人员需要做的工具。
所有这些加速,我认为,意味着我们看到过去几个月越来越快。第三件我们正在感受到的事情是,去年一整年,我们真的在构建这些推理模型,我们真的在大力推进强化学习。最初,当我们有o1预览版,甚至o3时,这些模型仍然针对我们所说的可验证奖励进行优化,这些情况下我们可以访问ground truth。测试你是否正确很容易。例如,数学问题或编程竞赛就是这种情况。
我认为我们现在意识到的是,我们能够把我们为这些可验证奖励案例构建的许多工具拿出来,能够更普遍地用于真实用例上的强化学习。我认为这就是我们现在真正感受到的原因,就像是在现实世界的编程中,而不是竞赛中。所以我们从竞赛转向实用性再转向用户,这就是我们现在正在感受到的。
好的。很有趣。所以我们要深入探讨很多内容,特别是在RL方面。对于你提到的第一件事,可靠性,那是工程方面吗?是模型方面吗?
像,你所说的可靠性是什么意思?
这是多方面的。但一般来说,鉴于这些是代理模型,如果简单地想想,每两分钟,它们有一定的概率是错误的。运行时间越长,最终答案是错误的概率就越高。所以这是代理模型固有的东西。我们一直在大力推进的是确保模型降低每两分钟出错的可能性。
所以纯粹从模型的角度来看,当然有很多可靠性也是在应用方面完成的。OpenAI的团队在这方面做得非常出色。但我甚至只是在谈论我们模型的可靠性,确保我们基本上降低出错的可能性。
好的。所以5.5,之前被称为Strawberry,是一件大事。它确实是一件大事。我只是好奇从内部来看,你们最自豪的是什么?什么最具挑战性?
给我们一些关于发布这个的感受的颜色。
说实话,我们对5.5都非常兴奋。这是一款公司里每个人都深度参与构建的模型之一,我认为我们现在真的感受到了。我们因为5.5得到了很多关注,似乎所有的星星都排成了一线。这并不总是发生,这款模型正好非常适合。我确实感受到了。
这很有趣,因为通常对于每款早期看起来非常好的模型,我们都有一个模型,我们都对此非常兴奋,然后有很多疑虑开始出现,因为就像,哦,每个人都这么炒作这个东西,但实际上它在所有其他方面都很糟糕,然后有另一波,人们开始低估它,它有点像波浪式前进。这取决于我们实际发布时,人们内部的感受。但我们大多数模型都是如此。
这个过程需要多长时间?包括波浪式的起伏兴奋。是几周吗?是几个月吗?
这真的取决于。我可以,所以我不能确切谈论5.5的具体内容,但它取决于管道的哪个部分是训练模型的不同部分。我们真的有不同的子团队,包括预训练,你有中间训练阶段,你有后训练,通常越接近产品,后训练是最后一个,迭代周期越快。如果你更上游,迭代周期越慢。所以可能从几个月到几天不等。
5.5在代理编码、计算机使用、知识工作和早期科学研究方面特别出色。这在内部是如何运作的?不同的人专注于这些不同的部分吗?你们如何达到这个结果?
是的。我们确实有不同的团队致力于特定的用例,并推动这些用例。我的团队具体来说,是那个将这些垂直改进整合到最终模型中的团队。你可以把它看作是一个既做平滑函数的团队。所以你有所有这些改进,但你需要确保模型不会感觉太尖锐,不会感觉在不同的垂直领域有所不同。
还有一些团队在处理所有横向改进。这就是我的团队在做的事情。有很多事情是横向的,比如指令遵循、函数调用,或者思考模型应该在不同问题上思考多少。这些非常横向,影响所有这些用例。所以我们有这些更垂直的团队和这些更横向的团队,两者对模型改进都非常重要。好的事情是这些东西可以正交改进。
所以你可能有很多不同的团队在某些垂直领域工作,也许对于一个模型,在最后一次运行中只有一半的团队做出了整合,基本上改进了这些能力,也许对于下一个模型,将是另一半。所以从高层次来看就是这样。我要说的是,因为你也问了我们对这个模型真正自豪的事情之一,我会说两件事。第一件事是模型的效率。我们真的,真的提高了模型的效率,大多数任务基本上可以以两倍的速度执行。
太好了。另一件我之前已经提到过的事情,但是有点像公司的这种一致性,确保每个人都朝着相同的目标努力。这真的需要整个公司朝着一个北极星努力,在特定时间线内构建一个好的模型。所以对这一切的发生我非常自豪。
好的。然后说到效率,你如何优化它?我们谈论的是每token效率。我们也谈论服务模型的延迟吗?什么是AI研究,什么是工程?
所以这就是我说的整个公司,这就是它的意思,它真的来自各个方面。它必须来自推理优化。它必须来自模型在其思考时间中更高效。所以基本上,你思考的每个token。你应该看的通常图表是x轴,你思考的token数量,y轴是性能。
所以这是我们看的这些测试时间扩展曲线。研究基本上试图将这条曲线向左移动,所以少思考,达到相同或更正确的水平。然后推理也处理这个x轴,但将其从token数量转换为实际延迟。最终人们关心的是x轴上的延迟,y轴上的性能,这是所有东西汇聚的地方,这就是5.5真正发生的事情。所以,是的,这就是为什么我总是说我对这个公司非常自豪。
好的。太好了。让我们谈谈你一分钟。你在后训练前沿团队。那个你描述为横向的团队。
那个团队通常做什么?
是的。我会说有三件事。所以广义地说,我们在后训练组织,我的团队是后训练前沿团队。所以我的团队做三件事。第一件事是我们决定什么进入最终运行。
所以就像我们之前谈到的,有很多垂直领域,有人需要决定什么可以进入,什么不能,还要为人们提供科学实验,让他们迭代一些能够代表最终运行的东西。所以这是我的团队做的第一件事。我的团队做的第二件事是将所有东西整合在一起,实际进行大运行。
这需要大量的GPU,所以需要大量的基础设施工作,但也需要大量的ML工作,将所有东西整合在一起,确保它们协同工作。然后我的团队做的第三件事是对模型的横向改进。基本上,是一些这些垂直团队通常不会太关注的事情。例如,思考时间,就像我之前说的。模型应该在某些答案上思考多少?或者指令遵循,函数调用,像记忆这样的事情,以及对模型的真正跨栈改进。所以这就是前沿推进团队所做的,我正在领导那个团队。
好的。太好了。然后,你加入OpenAI的旅程是什么?
哦,这是一个很长的故事,但我会尽量简短。基本上,我在瑞士做了生物医学工程本科。然后我在加拿大做交换生,我了解了word2vec。所以我不知道你是否听说过这个算法,但它基本上是获取单词,这些像离散的的东西,并将其放入向量空间。
所以基本上把它放在一个你可以把它看作一个平面的地方,在那里更相似的单词会更接近彼此。所以它把这些离散的单词带入某种连续的语义有意义的连续空间。我绝对被那个算法震惊了。那是我决定我想从事自然语言处理和理解语言的时候。当时我非常错误,但我认为英语NLP基本上已经解决,或者说接近解决。
那是在2017年。那是在Transformers开始的时候,实际上是在Transformers之前。所以我非常错误,但我决定我想研究研究不足的语言。基本上,我想在数据不多的语言上改进NLP。所以我去了新加坡为Grab工作,我基本上为他们构建自然语言处理管道,使用高棉语、马来语、泰语、越南语以及所有这些不同语言。
然后我跳过了一点。我在不同国家做了更多学术类型的工作,然后在斯坦福大学做了我的博士。之后,我在创业公司有一小段时间,然后,去了OpenAI。
是的。我记得在你的博客或页面上看到一个给量化公司的便条,不要联系你,因为你对他们不感兴趣。
是的。我一直认为对我来说思考我在世界上拥有的积极影响,或者至少我试图拥有的积极影响,是非常重要的。是的。所以这就是那个想法的原因。
是的。正如我们刚才开始录制之前说的,人们可能已经在GPT 5视频公告中看到了你,你做了一个非常有趣的演示,展示了如何即时构建一个应用程序来教你的伴侣法语。所以,人们应该去看看那个。
没错。那个那个很有趣。那个很有趣。GPT 5当时没那么可靠,我...