你作为人工智能教父之一,对当前的发展道路有什么看法?主持人2 | 00:03 - 00:11 五年完全统治世界。取得突破性研究最好的方式就是雇佣最优秀的人,然后别挡他们的路。恕我直言。主持人1 | 00:11 - 00:14 你与另外两人分享了图灵奖。你的观点从何时开始出现分歧?主持人2 | 00:14 - 00:15 在2023年。主持人1 | 00:15 - 00:16 你怎么知道该离开Meta了?听起来你在一段时间内一直在思考这些问题。主持人2 | 00:16 - 00:16 是时候了。主持人1 | 00:16 - 00:19 你在Meta的时候似乎一直在思考其中一些问题。主持人2 | 00:19 - 00:25 这是一个很大的误解,关于我的角色、我与Alex的关系,以及Meta如何运营AI。主持人1 | 00:25 - 00:27 在过去一年里,你改变了什么看法?主持人2 | 00:27 - 00:28 整个关于...的想法。主持人1 | 00:28 - 01:00 杨立昆是人工智能教父之一。他是该领域的一位绝对传奇,是我钦佩已久的人。能邀请他参加《无监督学习》节目真是莫大的荣幸。他一直是LLM的著名怀疑论者,所以我们深入探讨了LLM能做什么、不能做什么、他看到的局限性,以及为什么他最终决定追求不同的架构。我们还谈到了他在Meta的时光,他在FAIR工作时引以为豪的事情,过去几年是如何发展的,以及最终是什么让他决定分拆出来创办自己的公司A MI。主持人1 | 01:00 - 01:26 我认为了解杨对当今AI生态系统中正在发生的一切的看法真的很有趣,在基础研究和推进LLM之间的这种紧张关系,以及这如何在当今许多组织中发生,还有他对整个领域发展方向的想法。他是这一领域的绝对巨擘,当我开始这个播客时,我就希望能邀请到像他这样的嘉宾。所以这对大家来说真的是一种享受。我认为观众们会非常享受我们进行的这场对话。废话不多说,下面是杨。主持人1 | 01:28 - 01:37 杨,这真是太荣幸了。你是人工智能教父之一。我觉得当我几年前开始做这个播客时,我真的希望有一天能邀请到你这样的人。主持人2 | 01:37 - 01:43 你知道,我不喜欢那个称呼,因为我住在新泽西。当你在新泽西被称为教父时,意思不一样。主持人1 | 01:43 - 02:15 非常公平。非常公平。你知道,显然,当你押注神经网络时,每个人都在质疑你,这是传奇性的,我觉得今天你正在做一个类似的押注,在很多方面反对LLM和那种主流的生成式架构,这么多人相信它。你最近创办了一家围绕这个主题的新公司。所以,我们今天对话的目标是让听众获得更多关于我的信息,你在那里做什么,你在FAIR的一些工作,为什么你认为该领域的其他人在这些生成模型的一些方向上指向了错误的方向,然后也听听你对这个领域发展历程的反思,你在Meta的时光以及所有这些。主持人1 | 02:16 - 02:38 对于一个播客节目来说,这是一个相当温和的目标。我想我们从AMI开始会很好,因为这家公司感觉像你最清楚的技术论文声明。你最近推出了这家公司。它专注于世界模型和扩展JEPA架构,你显然在Meta时开创了这个架构。我想知道你能否谈谈那个架构的起源,以及你在多大程度上从人脑及其工作方式中获得了灵感。主持人2 | 02:38 - 03:03 所以首先,我想说LLM本身没有问题。你知道,LLM是我们今天使用的许多非常有用的AI产品的基础,包括我自己。是的,它们对于所做的事情来说很棒。主持人2 | 03:03 - 03:09 好的?我不是说什么是无用的。对吧?我只是说它们不是通往人类水平或类似人类智能甚至动物智能的途径。所以这是我的主张。主持人2 | 03:09 - 03:11 你知道,我帮助构建了一些最早的主要开源模型。主持人2 | 03:12 - 03:25 没错。所以什么是AMI?AMI实际上代表高级机器智能。标题,如果你想要的话,座右铭是:真实世界的AI。主持人2 | 03:26 - 03:43 所以,基本上,很多人都知道的很多AI技术对于语言操作非常好,无论是人类语言还是计算机代码或数学或法律术语,这勉强算是人类语言。主持人1 | 03:43 - 03:45 不幸的是,很多人类语言被用于此。主持人2 | 03:45 - 04:07 确实。可悲的是。你知道,语言在某种程度上是非常特殊的,它特别适合最近如此成功的这类架构,即大型语言模型、GPT风格架构。但是真实世界呢?理解物理世界怎么样?主持人2 | 04:08 - 04:21 现实证明比语言要复杂得多,因为它高维、连续、有噪声、混乱。训练一个系统来理解真实世界要困难得多。主持人2 | 04:21 - 04:52 所以这才是我们真正追求的。这是我大部分职业生涯一直在追求的东西,真的在过去五、六年左右以加速的方式工作,在过去两年取得了重大进展。所以创建一个初创公司围绕它是有意义的,进入高速档,推动它。到去年年底,很明显Meta真的不是正确的选择。所以这就是我离开并创办A MI Labs的原因。主持人1 | 04:52 - 05:20 我认为这是一个有趣的趋势,我们看到到处都有,你知道的趋势,你有很多人在从一些大公司或研究实验室分拆出来,他们对某个特定的研究方向感到兴奋。你在FAIR工作期间有一个有趣的视角,这种存在的紧张关系,在这些公司内部追求尽可能多的不同研究方向与嘿,有东西真的很有效。这是我们将在接下来的六到十二个月出售的东西。专注于那个。主持人1 | 05:20 - 05:23 你知道,我很好奇你对此的想法,以及你在整个行业看到的。主持人2 | 05:23 - 05:32 这是一个奇怪的权衡。真的有两种模式。探索性研究,很多直接的研究方向。对吧?主持人2 | 05:32 - 05:49 有时有些东西似乎有效,你需要进一步推动。它不再是研究了。我的意思是,工作人员在上面工作的人是研究人员,或者至少在媒体中被称为研究人员。但是真的,它越来越成为工程和推动产品。对吧?主持人2 | 05:49 - 06:42 所以这在Meta发生过很多次,因为FAIR开始的事情。这样的事情发生在2020年初,当时你知道,LA MA,它是在FAIR开发的,LA MA一,非常有前途。Meta创建了一个整个组织Gen AI,将其变成真实的东西和一系列产品,并生产你知道 Lama two、Lama three、Lama four,这有点令人失望。因为,你知道,马克·扎克伯格对此感到失望,他重新启动了整个组织,改组了它,聘请了新人员等。但过去一年还发生了另一件事,那就是基本上公司meta意识到他们已经落后了一点。主持人2 | 06:42 - 07:34 所以这使战略重新聚焦于试图赶上行业。可悲的副作用是,很多探索性研究基本上不再被给予高度优先权。我是说,它不关心我正在工作的东西,所有的和世界模型,因为你知道,马克本人和首席技术官Andrew Bosworth,以及公司里的其他一些人真的对这个项目非常感兴趣,真的相信长期影响。但公司的其他人只是,你知道,完全专注于LLM,并向我明确表示Meta真的不是推动那个项目的正确地方。然后我们开始有好的结果,所以很明显,你知道,我们必须进行从研究到实际开发技术的过渡,扩大规模,并从中构建产品。主持人2 | 07:34 - 07:51 我们还意识到大多数应用程序可能是Meta不太感兴趣的东西。我们一直在研究的这类东西的很多应用程序在工业中,比如制造业等。主持人1 | 07:51 - 08:09 很明显,你正在追求世界模型和那个更广泛的世界。我认为还有其他人从更生成式的方法来处理世界模型问题。所以我认为你有Google的人有Genie和视频模型。你有人在机器人方面构建VL A。你有Fei Fei和三维空间模型。主持人1 | 08:09 - 08:22 当你思考让你对JEPA模型感到兴奋的证据体系时,以及你如何比较它们与普通人所做的,你认为我们今天在比较这些架构和方法方面处于什么位置?主持人2 | 08:22 - 08:29 好的。所以一个模型很快变成了一个流行语。是的。现在。在研究和工业中都是如此。主持人2 | 08:29 - 08:45 然后有两个派系,如果你愿意的话。我不会谈论VLA,因为VLA现在显然被视为没有出路。像,它真的不工作。所以VLA是,你知道,视觉语言动作模型。对吧?主持人2 | 08:45 - 09:09 所以,基本上,使用LLM技术训练一个系统来为,比如,控制机器人或类似的东西产生动作。对吧?所以你有视觉输入,语言输入,动作输出,也许语言也输出。这在很大程度上现在被视为失败,不够可靠,需要太多训练数据,你知道,诸如此类的事情。好的。主持人2 | 09:09 - 09:22 然后有世界模型。好的。那么什么是世界模型?在一个非常一般的层面上,世界模型是允许智能体系统预测自己行动后果的东西。好的?主持人2 | 09:23 - 09:41 预测自己行动的后果。从我的角度来看,我无法想象你如何能想到构建一个智能体系统而不让该系统有能力预测其行动的后果。我是说,这是相当重要的。对吧?当我们在世界中行动时,我们有这种能力。主持人2 | 09:42 - 10:05 当我们采取行动而不考虑后果时,我们正在承担巨大的风险。而且很多时候,你知道,其他人认为我们是白痴。我们在国际政治舞台上有很多例子,人们完全无法预测他们行动的后果。所以这是世界模型。这就是它的全部。主持人2 | 10:05 - 10:31 对吧?预测你自己行动后果的能力。如果你有这种能力,那么你就可以计划一系列动作来完成一项任务,你知道,满足一个目标。你通过计划、推理、通过搜索和优化过程来做到这一点。你不这样做,像VLA那样,以自回归方式一个接一个地预测动作。主持人2 | 10:32 - 10:55 你这样做是通过搜索一系列动作,这些动作将完成你为自己设定的任务。所以这个蓝图与你知道LLM目前能做的完全不同。LLM没有能力预测其行动的后果,并且它们没有任何规划能力,因为推理是通过预测下一个token。对吧?它不是通过搜索。主持人2 | 10:55 - 11:29 好的?就在那里,你有这两个特征,我认为对智能行为至关重要,能够预测你行动的后果,第二,通过优化、通过搜索进行规划的能力,找到一系列将产生正确结果的良好动作。然后有第三个特征,你如何预测你行动的后果。好的。所以,你知道,如果我面前有一瓶水,我意识到有些人只是听这个而没有图片。主持人2 | 11:29 - 11:58 所以我面前有一瓶打开的、未加盖的水瓶。如果我推底部,它会在桌子上滑动。如果我推靠近顶部,它可能会翻转。我们无法准确预测瓶子会如何向哪个方向倒下。我们无法准确预测它会如何滑动,你知道,水会如何溢出,你知道,桌子是否倾斜一个方向,水会,你知道,向一个方向流动还是另一个方向。主持人2 | 11:58 - 12:07 我们无法在像素级别预测这一点。所以我们对世界的心理模型在抽象的表征级别上预测。主持人1 | 12:07 - 12:13 所以当你研究这个架构时,其中很多是由人脑启发的?我的意思是,显然,你表达事物的方式正是我们做事的方式。主持人2 | 12:13 - 12:22 对。或者至少由,你知道,认知科学。对吧?无论你是否能将其转化为神经架构和类似的东西,那是有一个很大的差距。好的。主持人2 | 12:22 - 13:19 所以,你知道,认知科学当然是一个有点动机的东西,或者,你知道,心理学家所说的系统二,这是你在某种程度上行为的方式,这种刻意的、反思性的行为,你会想象,预测你的行动后果,并相应地计划,与系统一相反,在系统一中你只是,你知道,反应性地和本能地行动。所以是的,有灵感。但也有大量经验证据表明,你不希望生成像素。好的?我一直在研究通过预测学习世界模型的问题很长一段时间,然后在五年前有一个顿悟,意识到所有成功的学习图像和视频表征的架构都是非生成式架构。主持人2 | 13:19 - 13:46 所有生成式架构基本上都是失败的。对吧?变分自编码器,或者更一般的自编码器,是一种学习输入抽象表征的自然方式。对吧?所以你在神经网络的输入端放一个图像,然后你训练它只是在输出端再现输入,现在用一个大型神经网络。主持人2 | 13:46 - 13:54 现在如果你只是这样做,你的神经网络不会做任何有趣的事情。我们只是学习恒等函数。是的。完全无趣。它不起作用。主持人2 | 13:54 - 14:12 比如,如果你训练一个VAE来学习图像表征,你会得到一些东西,但它真的不是那么好。与稀疏自编码器相同。然后你有另一组技术,它有点派生自叫做去噪自编码器的东西。掩码自编码器是一个版本。BERT是一个版本。
TL;DR
这期讲了什么
图灵奖得主、人工智能先驱杨立昆讨论了他在Meta工作5年后离职的经历,以及他新创立的公司AMI(高级机器智能)。他认为LLM在语言任务上表现出色,但无法实现人类水平智能,转而倡导基于JEPA架构的世界模型。他解释说,世界模型使智能体能够预测行动后果并通过优化和搜索进行规划,这与LLM的下一个token预测方式形成对比。他认为Meta将重心转向追赶竞争对手而非探索性研究,使这里不再适合他的工作方向。他受认知科学启发的研究方法强调非生成式架构在学习抽象表征方面的优势。
本期你会听到
本期你会听到
- 杨立昆于2023年离开Meta,创立AMI Labs,专注于世界模型和JEPA架构,他认为这对于实现人类或动物级智能至关重要。
- 他批评LLM仅限于语言处理,无法预测行动后果或通过优化进行规划——而他认为这些能力对智能行为至关重要。
- VLA(视觉-语言-动作)方法将LLM与机器人结合因可靠性和数据需求问题被认为基本失败。
- 他的研究借鉴认知科学,区分系统1(反应性)和系统2(深思熟虑)思维,非生成式架构在学习抽象表征方面被证明更成功。
对话时间线
对话时间线
- 00:00→ 00:03Speaker 1
You're one of the godfathers of AI.
- 16:39→ 17:01Speaker 2
Grippers that you know?
- 33:03→ 33:28Speaker 2
Right?
- 49:30→ 49:50Speaker 2
And of course, there's many things that can go wrong there.
- 1:06:05→ 1:06:07Speaker 1
Interesting.
- 1:21:50→ 1:21:55Speaker 1
And so please consider doing that, and thank you so much for your support and listening.
对话逐字稿
对话逐字稿
中文逐字稿
00:00→ 00:03主持人1