AI 资讯

返回首页播客摘要节目时长 · 59:40

5月22日周五 · 12:50

第87期：Gemini联合负责人谈世界模型、RL下一个领域及持续学习

Original title · Ep 87: Gemini Co-Lead on World Models, RL's Next Domains & Continual Learning

主持人1 | 00:00 - 00:28 Oriol Vinyals是与Noam Shazir和Jeff Dean共同担任Gemini的联合负责人。他在AI领域有着非凡的职业生涯，在过去十年中开创了许多深度学习的突破。…

播客中文摘要全文翻译

立即收听查看时间线打开逐字稿

TL;DR

这期讲了什么

本期节目中，谷歌Gemini联合负责人Oriol Vinyals深入探讨了世界模型、多模态学习的未来及AI发展方向。他解释了谷歌如何独特地专注于能够同时理解视觉和语言信息的世界模型。Vinyals概述了从视频和图像中纯粹提取知识（无需文本标注）所面临的主要挑战，并讨论了世界模型如何通过精确模拟和预测来革新机器人领域。他还反思了测试模型是否真正理解重力等物理原理的评估方法。

本期你会听到

谷歌的世界模型通过联合理解视频、图像和语言来实现差异化，而非仅专注于代码生成
视频和图像的「GPT时刻」——不依赖文本直接从视觉数据训练——尚未完全实现，尽管已取得重大进展
世界模型通过模拟为机器人应用带来希望，尽管在抓取物体等任务的精确度方面仍面临挑战
评估模型中的物理理解仍是开放的研究问题，因为语言知识可能会干扰纯粹的视觉评估

对话时间线

00:00→ 00:28Speaker 1
Oriol Vinyals is the co lead of Gemini alongside Noam Shazir and Jeff Dean.
12:23→ 12:37Speaker 2
But it's promising, and at some level, maybe not at the precise motor control, but at t…
25:04→ 25:54Speaker 2
I think many many of us call this kind of a form of continual learning, but I think the…
37:04→ 37:06Speaker 1
Do you have a go to way to, like, test that?
49:02→ 49:43Speaker 2
If I look inward to machine learning, there is that's that's kind of the point.
59:23→ 59:40Speaker 1
It's a nights and weekends project, in addition to my day job as an investor at Redpoin…

对话逐字稿

中文逐字稿

00:00→ 00:28主持人1

Oriol Vinyals是与Noam Shazir和Jeff Dean共同担任Gemini的联合负责人。他在AI领域有着非凡的职业生涯，在过去十年中开创了许多深度学习的突破。与他在Google IO之后坐下来交谈非常有趣。如果你一直在关注Google IO，他们基本上发布了一系列跨多个AI领域的产品。所以Oriol和我谈到了所有这些。我们讨论了多模态模型进一步发展需要什么，以及是什么让这些世界模型真正可用。主持人1 | 00:29 - 00:55 我们讨论了记忆的重要性，以及记忆的进步在未来几年将如何推动推理能力的发展，以及Oriol认为前进的道路是什么。我们还谈到了当前脚手架技术的发展状况，人们在构建什么，以及Oriol认为什么会持续存在。对于创始人和投资者正在思考的所有关键问题，能够将其直接抛给Oriol是非常有趣的。所以我认为大家会非常享受这次对话。废话不多说，他来了。主持人1 | 00:57 - 00:59 Oriol，非常感谢你参加播客。主持人2 | 00:59 - 01:02 是的。很高兴来到这里。谢谢Jacob。主持人1 | 01:02 - 01:36 是的。非常激动能在IO后一天见到你。我知道事情一直很忙，但我一直很期待这次对话，因为你是目前最直接塑造模型前沿的人之一，你在Google的工作。而且你显然在昨天的IO上发布的版本，涵盖了人们在这个领域思考的几乎所有主题，这些产品和模型将走向何方。我认为我们今天的目标是讨论这些公告背后的研究，这些都将走向何方，RL和后训练的的未来道路，以及你对整个领域的看法。主持人1 | 01:36 - 01:57 我想从世界模型开始，因为我认为这是昨天的演示中一个非常令人印象深刻的部分，也是Google与该领域其他大多数公司相当不同的一个地方。所以你显然在昨天发布了Omni中这个令人难以置信的令人印象深刻的世界模型。Demis谈了很多将世界模型视为通向AGI的路径。这很有趣。主持人1 | 01:57 - 02:11 因为看起来其他实验室可能更专注于代码，以及，你知道，获得递归自我改进。所以我想知道这是否是一个公平的特征描述，以及，你知道，为什么你认为你和团队以及谷歌一直在某种程度上独特地专注于这个世界模型领域。主持人2 | 02:11 - 02:55 首先，我认为编码或者自我改进的角度是在一个稍微不同的层面。所以你当然可以相信这些模型可以重新编程和改进自己，这是我目前实际上非常积极地工作的东西。但是然后它们改进的对象，即模型，无论是多模态的更接近还是我们所说的世界模型，甚至如何定义它都有点抽象。从第一天开始，实际上在Gemini计划开始之前，我们就在研究不仅仅是语言，而是，理解视觉世界，并在视觉、视频等的背景下联合建模单词。主持人2 | 02:56 - 03:22 所以我认为那部分，你知道，它一直是Gemini和我们之前研究的核心。我认为也许一种描述方式是，语言，显然，有大量的信息集合，我们写了关于世界的知识，所以这显然得到了很大的回报。我们在某种程度上 distillation，我们写的所有知识以及目前正在写的知识到这些权重中。主持人1 | 03:22 - 03:24 确实很方便，我们把它都放在互联网上。主持人2 | 03:24 - 03:35 是的。完全正确。同时，像，现在有了用户，显然像，有一个飞轮效应。但与此同时，视频和图像中也有很多知识。主持人2 | 03:36 - 04:21 我想说的是，它已经发生了，但是温和地，我认为可能有一个重要时刻是，你将如何提取如果你要观看所有视频和图像你会获得的所有知识，我们当然在我们的训练混合中使用这些。但那些知识是否可能以某种方式为语言组件增加价值和效率？。我认为我们已经看到了从一种到另一种的建设性迁移学习。我们看到了这一点，也看到了泛化。但也许我所说的视频和图像的GPT时刻，我不确定我们是否已经看到了。主持人1 | 04:21 - 04:30 你有没有任何想法，关于视频和图像的这个GPT时刻可能是什么样的，因为你有一种直觉，它还没有达到？主持人2 | 04:30 - 04:46 是的。目前，我们训练所有模态。我们混合它们，并继续改进配方。Omni是看到这种进展的一个好方法，我们不仅输入视频和图像。我们有令人惊叹的长上下文理解等能力。主持人2 | 04:46 - 05:27 但我们现在也能够输出视频，但也可以通过语言以非常自然的方式与它互动，编辑它，组合，你知道，以一种几乎神奇的方式组合模态。这种进展绝对在那里。但也许深度学习的一个深入梦想，而且可能是一个比大型语言模型更早的原始梦想是，嘿。我能否在所有图像数据上训练而可能不需要文本作为一个困难的挑战，但仍然以某种方式从那个模态或模态集合和大量数据中提取所有意义和细微差别？主持人2 | 05:27 - 05:57 对吗？所以我们能否在所有有史以来制作的视频和图像上训练，并达到与语言模型使用语言达到的相同水平的理解，虽然可能有点肤浅，并且在因果关系等方面有一些缺失的环节，例如Demis经常谈论的。对吧？所以那个时刻我看到了吗？可能没有，而且我们很可能拥有最先进或最先进的混合一切的多模态配方之一。主持人2 | 05:57 - 06:05 但这种纯粹的迁移，我认为，这是过去十年多机器学习的核心追求之一。主持人1 | 06:05 - 06:18 我的意思是，就你能谈论的程度而言，我很好奇。你能给我们的听众一些关于这方面的背景吗，比如在这个方面仍然需要解决的关键问题是什么？或者当你想到，像，你知道，你和团队试图进一步推进的这些类型的问题是什么？主持人2 | 06:18 - 06:54 很难描述解决方案空间，但想法是，你知道，你可以想象观察或学习所有视频数据，然后以某种方式推导出，你知道，重力规则，这是经常使用的一个。如果只有图像，你怎么能精确地描述世界是如何运作的？对吧？所以那里的问题是，将语言或这些概念（我们有时称之为）链接到你在图像中看到的东西，没有明确的语言链接是相当棘手的。主持人2 | 06:54 - 07:39 对吧？所以你所做的是试图明确地创建数据集，其中有一些图像、视频和某种语言之间的某种相关性或联系，比如可能是标签或描述等等。但是，当然，你现在可用的数据量要少得多，因为我们还没有明确地描述和转录那里的每一块媒体。所以我认为这是提取那些最纯粹形式的概念的艰巨工作，而不仅仅是我们与单词和我们看到的关联的语言，这将是，非常非常强大的。并且有很多关于离散表示、表征学习的早期研究，我的意思是，这是可能我说的是处于相当研究阶段的事情之一。主持人2 | 07:39 - 07:51 所以这不是我们可能能够扩大规模的东西，但我认为这是可能的事情之一，我不确定是否需要。我的意思是，我们是否同意这是另一个问题，但如果是的话要被解锁，那将是巨大的。主持人1 | 07:51 - 08:10 你提到了这个世界模型这个术语以及它是如何被大量使用的，你知道，显然你Omni被定位为世界模型，我很好奇，你是如何考虑那个分类的，与，你知道，你显然一段时间以来都有非常好的视频模型。对吧？是什么让Omni成为一个世界模型，以及，你知道，它与你一直致力于的下一代视频模型有什么不同？主持人2 | 08:10 - 08:44 我认为世界模型的一个纯粹方面是表征学习。对吧？所以你可以想象我们获取这些模态如视频，它们像是一系列图像甚至只是图像，然后将它们压缩成一组概念以及那些运动、物体等等。这就是所谓的表征学习，它以非常紧凑的方式对世界进行建模，压缩掉可能不相关的部分。主持人2 | 08:44 - 09:28 所以可能那个更经典，但也不完全是我们与Omni互动时我们看到或我们感觉到的意思。对吧？你在那里看到的是更多关于你能够真正改变视频的行为方式，或者你从初始图像得到的各种视频，你要求动画化。你明确地要求所有的运动甚至动作，比如向前移动，你可以看到它被精确地模拟。所以这更像是世界模型本身作为世界的渲染器，你可以通过语言真正改变它。主持人2 | 09:29 - 10:04 然后现在除了作为玩起来很酷的产品之外，当然，我们喜欢生成各种不同的运动或情况等等非常丰富，这也可以有意义地增加可能是一个模拟维度，可以让我们，你知道，使用，比如在行动之前进行预测的事情。当然，这些三维或视频世界模型的明显应用将显然是，你知道，自动驾驶汽车或机器人。主持人1 | 10:04 - 10:33 它似乎与机器人技术非常相关，而且感觉，你知道，每个人仍然试图找出模拟数据之间的正确数据组合，你知道，vs。你知道，各种形式的遥操作数据和自我中心视频数据的形式。但感觉随着这些模拟继续变得更好，你知道，它越来越成为放入数据组合中的引人注目的东西。我很好奇，像，你知道，这项工作是否直接与你所有人正在做的更广泛的机器人工作交叉，以及，你如何考虑将机器人动作附加到这些类型的模型上实际上需要什么？主持人2 | 10:33 - 11:23 这也有一个美丽的联系，因为，当然，如果，如果即使它显然更昂贵或耗时，但，如果我们获得更多从机器人捕获的数据，我们当然在投资，你知道的，那些数据可以进入模型，增强世界模型能力本身。然后另一个方向，你问的可能是，好吧。现在我们可以模拟，我们可以创建这些机器人或，你知道，无论是一维、三维组等等可以在上面训练的各种场景，而不需要物理世界的成本和时间延迟。对吧？所以后者要更好地工作，我的意思是，这仍然是一个非常重要的问题。主持人2 | 11:23 - 12:23 还有各种各样的迁移问题，但这些模型变得越来越强大，显然，有一种拐点，事情开始变得值得做，我们可能会看到机器人技术的加速。是的，你知道，我们确实看到硬件空间有大量投资，所以事情在那里加速和发展。但为了世界模型有用，至少从我有限的知识，但，当然，我，你知道，我能够与这些系统互动并看到它们。甚至抓取模型的精确度，这是一个我们人类认为理所当然的事情，视觉效果，准确的手感，这是我们目前显然甚至没有数据的模态，然后精确的力量，事情将如何移动，它需要非常非常准确。对吧？所以那是存在差距的地方，也许然后一些创造力和研究仍然需要，多年的机器人投资。对吧？主持人2 | 12:23 - 12:37 但这很有希望，而且在某种程度上，可能不是在精确的运动控制层面，而是在规划和粗略层面，我们将开始看到这些模型如何加速我们在机器人探索方面的进展。主持人1 | 12:37 - 12:53 这些模型的一个巨大组成部分是，你知道，通过消费大量视频数据隐式学习物理。所以我认为你提到重力是人们寻找的典型例子。你有没有任何直觉，与这些模型如此接近，比如你认为什么时候这将只是一个在在世界模型中解决的问题？主持人2 | 12:53 - 13:01 是的。这是个好问题。实际上，你让我想到了评估。对吧？比如，如果你训练一个非常好的视频模型，你会怎么评估它？是的。主持人1 | 13:01 - 13:03 你如何在模型中评估物理？主持人2 | 13:03 - 13:22 它这确实是个好问题。对吧？你可以想象问题是一旦你添加语言，突然之间，那种知识就在那里了。所以如果你问关于重力的基本问题，当然，你会通过在网上阅读解释等来回答它们。主持人2 | 13:22 - 14:09 所以你需要以某种方式将重力的概念（可能存在或不存在于世界模型中）连接到然后解码成解释，这会满足你知道，也许最初会是一些基本解释，后来甚至可以推导出公式等等。那就是你会如何建立评估。我不认为，就我所知，我们已经从这个角度考虑过这个问题。肯定有很多关于无监督机器翻译的早期工作，你会在训练中看不到的语言之间进行翻译，你可以对齐表示。所以可能有一些想法是，你得到一个可以说或可以解码的语言模型。主持人2 | 14:09 - 14:30 你得到这些世界模型，它们会创建这种概念级别的理解，两边对齐。你知道，有一些论文。我的意思是，这些是旧论文。我记得的那篇，I think it was Stefan Gauss et al，是2014年的。但然后你可以尝试开始解码那个，并将其转换为评估似乎是一个 trivial step。主持人2 | 14:30 - 14:47 但同样，这些评估需要从应用的角度来看是有意义的……