AI 资讯

返回首页播客摘要节目时长 · 1:05:15

5月14日周四 · 11:30

为什么每个AI Agent都需要自己的电脑 | Ivan Burazin (Daytona)

Original title · Why AWS and Azure Cannot Run Autonomous AI – Ivan Burazin (Daytona)

播客中文摘要全文翻译

TL;DR

这期讲了什么

Daytona首席执行官Ivan Burazin解释了为什么每个AI Agent都需要自己的电脑（沙盒）。他认为，Agent本质上是数字知识工作者，需要自己的机器才能提高生产力。沙盒提供隔离的、有状态的执行环境，让Agent可以安全地安装工具、访问网络、运行脚本和执行复杂任务。Burazin区分了超大规模云服务商的无状态架构（为部署应用程序而构建）与AI Agent所需的有状态特性。Daytona不得不从头构建自己的调度器，而不是使用Kubernetes，因为现有基础设施并非为此设计。他将沙盒的四大用例归纳为：代码/命令执行、浏览器/电脑使用、RL环境基础设施以及评估基准测试。

本期你会听到

沙盒是AI Agent的'可组合计算机'，提供隔离的有状态环境以确保安全和提高效率
Agent需要配备独立账户和访问限制的专属机器，而非共享人类用户的电脑
Daytona从零开始构建自定义调度器，因为AWS等超大规模云服务商采用无状态架构，不适合Agent工作负载
主要用例包括：代码执行、浏览器/电脑使用、RL环境以及评估基准测试

对话时间线

00:00→ 00:18Speaker 1
We are a part of this like super cycle right now and the super cycle does not last fore…
13:07→ 14:01Speaker 1
And so when you think of background agents or long running agents, the most popular, th…
26:37→ 26:59Speaker 1
Although neo clouds are usually for GPU clouds.
39:54→ 40:33Speaker 1
That is the solution to support.
53:31→ 53:54Speaker 1
None of these were made for these like super fast, stay full, long running machines.
1:04:55→ 1:05:15Speaker 2
Hi it's Matt Turk again thanks for listening to this episode of the MAD podcast.

对话逐字稿

中文逐字稿

00:00→ 00:18演讲者1

我们正处于一个超级周期之中，而这个超级周期不会永远持续。所以如果你在这个超级周期中犹豫不决，你就是在失去市场份额。就像我之前问Claude：你能去获取我们银行的数据吗？然后它说：好的，登录并给我访问权限。演讲者1 | 00:18 - 00:36 我说：登录并给你访问权限？不不不，我绝对不会给你访问权限。立刻从根本上来说，这打破了我对整个AI的认知。所以你给它一台自己的机器。当我思考Agent时，我把它们想象成数字知识工作者，而作为知识工作者，你需要一台电脑来完成任何事情。演讲者1 | 00:36 - 00:40 我的观点是，每个Agent至少需要一个沙盒，有时甚至需要更多。演讲者2 | 00:40 - 01:11 Claire Matturk，欢迎来到MAD播客。今天的嘉宾是Ivan Borozin，Daytona的CEO，Daytona是目前Agent基础设施领域最受关注的新兴公司之一。如果你一直在各种AI Agent对话中听到'沙盒'这个词，却不太清楚它到底是什么意思、为什么突然变得重要起来，那么这期节目就是为你准备的。我们从头开始探讨：为什么Agent需要一台电脑，一直到深度的技术细节：为什么Daytona必须放弃Kubernetes并编写自己的调度器，以及为什么全球CPU短缺可能比人们想象的更快到来。演讲者2 | 01:11 - 01:34 Ivan还详细阐述了他眼中完整的Agent技术栈：模型、沙盒、工具、MCP、记忆、编排，以及每个组件的发展方向。在此过程中，Ivan分享了一些关于技术创始人如何做市场推广和分销的非常有趣的经验教训，这是他在十六年开发工具创业过程中积累的。请享受与Ivan的这场对话。嘿Ivan，欢迎你。演讲者1 | 01:34 - 01:35 很高兴来到这里。演讲者2 | 01:35 - 01:44 你说过每个Agent都需要自己的电脑。最简单的方式解释这个想法是什么？演讲者1 | 01:44 - 02:13 嗯，关于Agent，我把它们想象成数字知识工作者，要做任何事情，作为知识工作者，你确实需要一台电脑，或者我应该说做任何复杂的事情。你和我可以对话，我们可以完成一些事情，但我们通常需要一些工具，在我们的世界里，通常是一台电脑来获得更高的生产力，能够做各种事情，所以我想用同样的视角来看待它。对我来说，Agent本质上就是数字知识工作者。演讲者2 | 02:13 - 02:20 好的。所以它需要一台电脑。这就是沙盒的整个概念。作为这次对话的介绍，什么是沙盒？演讲者1 | 02:20 - 02:49 完全正确。所以沙盒虽然这个术语首先来自隔离概念。确保有一个安全的地方让Agent在这种情况下运行和执行操作，但从另一个角度来说，它本质上就是一台电脑——一台完整的电脑，Agent可以在上面安装工具、访问网络、运行脚本、运行代码，无论它需要什么来完成工作。所以最简单的答案是：沙盒本质上是我们为AI Agent提供的可组合计算机。演讲者2 | 02:49 - 02:59 嗯。从某种意义上说，整个OpenClaw和Mac mini的概念是理解沙盒的一个好类比，就像Mac mini就是沙盒？演讲者1 | 02:59 - 03:12 正是如此。所以我认为OpenClaw Mac mini的事情帮助很多人理解了我们实际在做什么。就像：哦，我懂了。现在我明白了。对吧？演讲者1 | 03:12 - 03:17 所以它需要一台电脑。在这种情况下，是一台Mac Mini来做不同的事情。所以是的，这确实大大提高了人们的认知度。演讲者2 | 03:17 - 03:35 是的。因为，再说一次，要深入了解，OpenClaw作为一个框架和系统，帮助Agent在你的电脑上做各种事情。基本上，如果它失控了，你想能够终止它，所以你可以拔掉Mac mini的电源，就像你可以终止一个沙盒一样。是这样吗？演讲者1 | 03:35 - 04:14 某种程度上。所以有几件事我亲自思考过。所以我的OpenClaw运行在一个不是物理Mac mini上，而是一个虚拟Mac mini的沙盒里。之所以我不这样做......人们通常运行这些东西的方式，无论是Claude code还是OpenClaw，都是在他们自己的电脑上，因为它帮助他们整理邮件、搜索文档等等。但有一个很大的安全风险，因为有一次我们在做董事会的演示报告，我问Claude，你能去获取我们银行的数据吗？演讲者1 | 04:15 - 05:03 然后它说：好的，只要登录并给我访问权限。我说：登录并给你访问权限？不不不，我绝对不会给你访问权限。立刻从根本上来说，这打破了我对整个AI的认知。所以你给它一台自己的机器。我个人给了它自己的Daytona账户，给了它自己的电话号码，原因是......我必须给它自己的电话号码，因为它必须用短信验证码登录银行，就像那个特定的银行除了短信验证码没有其他方式，所以它必须像员工一样拥有所有这些东西，就像一个数字员工，能够访问这些系统。所以现在的风险是，既然它有自己的电脑，有自己的账户，这些账户有权限限制，所以它只能查看我们银行的数据，不能动用我们银行的资金，除了我们给它的信用卡，那张卡有每天100美元的消费限额之类的。演讲者1 | 05:03 - 05:16 所以在这种情况下，你唯一真正的风险是，如果它在沙盒里，它会不会把数据泄露到某个地方？这是我们可以以后讨论的事情，但本质上最坏的情况就是这样，正如你所说，如果需要的话，你可以终止整台机器。演讲者2 | 05:16 - 05:25 这里有一个关于有状态和无状态的概念，能给我们解释一下吗？演讲者1 | 05:25 - 06:21 所以当我们和人们谈论我们在做什么时，他们基本上会说：哦，这些东西不已经存在于任何超大规模云服务商那里吗？答案是不是，答案是不是，因为所有那些都是为部署应用程序而构建的，它们是无状态的。比如我们随便选一个你的网站或者任何网络应用，你不会希望它随时改变。假设你是这栋楼里的eBay公司，我只是想到他们。他们是工程师，在那里工作的工程师会说：哦，你有了一个新的更新，一个按钮在这里或那里，你想要状态稳定，你不想让应用程序随时改变，对吧？数据库可能会变化，信息可能会变化，但我们不希望应用程序发生变化，对吧？带着这些考虑，这就是人们构建超大规模云服务商的方式——这是你面对的基本架构，你在上面构建了所有东西。演讲者1 | 06:21 - 06:49 我给人们的最简单的类比是，假设你在制造一辆卡车，对吧？你是一家卡车工厂。就像重量、发动机类型、底盘，所有这些都是为了非常缓慢但安全地运输某种货物而制造的，对吧？另一方面，你可以有一辆跑车，它仍然有四个轮子，有发动机什么的，但它是为不同的事情而制造的。它被设计成跑得很快。演讲者1 | 06:49 - 07:03 所以底盘的制造方式、发动机的设计方式、重量的平衡方式完全不同。所以你可以用两者做很多事情，但它们本质上不是同一回事。作为一家试图同时构建这两种产品的公司，它们是完全独立的平台。演讲者2 | 07:03 - 07:12 所以沙盒在本质上是全新的基本元素。对吗？沙盒有历史吗？在之前存在过吗？演讲者1 | 07:12 - 08:11 所以我认为......我会说那个可能推动了这一趋势的人，虽然他说他做了，另一个人也做了，但有一家叫CodeSandbox的公司，在很久以前，当我们与之竞争的我们的公司CodeAnywhere也在这个领域时，它们都是云端IDE，所以它们称之为CodeSandbox因为我认为这个名字听起来很可爱，就像一个存放代码的盒子，它们实际上是第一批做这个的之一。那里的团队实际上使用了微虚拟机、做快照、分支，所有我们今天使用的技术。所以这大概是......十年前，但那个技术或者它为人类开发者提供的价值还没有体现出来。有一篇关于本地主机终结的文章，人们一直在谈论这个，我已经谈论了二十年。基本上开发者们会说：你想夺走我的本地主机，就像从我冰冷的尸体上踏过去。演讲者1 | 08:11 - 08:25 但现在Agent出现了，本地主机实际上已经不再是你想要的了，出于很多原因。所以我们终于要实现那个了。所以那个关于沙盒的技术和理论最初的想法现在似乎正在实现。演讲者2 | 08:25 - 08:29 沙盒的最大加速因素是Agent，对吧？演讲者1 | 08:29 - 08:40 正是如此。当我们想到Agent，有一件事，即使你在电脑上运行Agent，比如你想那样做，随你吧。去做好了。那里有一堆问题。演讲者1 | 08:40 - 08:46 一个是，比如在你的笔记本电脑上。现在Twitter上有这么一件事，人们举着笔记本电脑不放下。是的。人们这样做是因为他们想让Claude或OpenClaw完成任务。演讲者2 | 08:46 - 08:48 什么什么？这是怎么回事？是的。是的。我看到你发了推文说这件事。演讲者1 | 08:49 - 08:57 哦，那是因为我总是举着我的笔记本电脑。没有它那就是我的风格。但我已经这样做很长时间了。但人们这样做是因为他们想让Claude或OpenClaw完成任务。演讲者2 | 08:58 - 08:58 是的。演讲者1 | 08:58 - 09:08 是的。你如果合上电脑，它就会终止。是的。或者说暂停或停止或什么的。所以问题就像......持续工作不间断的能力，只要你带着笔记本电脑，就不存在。演讲者1 | 09:08 - 09:21 另一件事是你无法实现并发。所以你可以做的事情数量取决于你笔记本电脑的计算能力，那是相当有限的。所以你可能想启动10个、20个、50个、100个或100,000个，无论那个数字是多少。这就很困难了。演讲者1 | 09:21 - 09:45 所以理想情况下，你实际上真的想把它放在某个远程的地方。这样你可以在笔记本电脑上开始，在手机上继续，它是同一台电脑和同一个Agent在做它的事情，对吧？这种转变是，我们现在已经决定，完全可以接受它不再在我们的本地主机上，但同样，它仍然是那个Agent的本地主机，所以对那个Agent来说，它仍然是一台电脑，就像笔记本电脑对我们一样。演讲者2 | 09:45 - 09:50 所有Agent都需要沙盒，还是说只是某个特定类别？演讲者1 | 09:50 - 10:18 我的观点是，每个Agent至少需要一个沙盒，有时甚至需要更多，我们可以讨论这一点。同样，在某些地方你不需要，我用人类来类比Agent大多数情况，再次强调，我们可以不做计算机也能做有成效的工作。所以这就是聊天机器人的原始形态，基本上你只是和一个Agent对话，它进行推理。它只是思考并给你价值。我不知道，很多人用它来做情感支持或其他什么的。演讲者1 | 10:19 - 10:42 大多数情况下，不需要计算机。它有足够的数据来自你和它的来回对话，然后它可以大致理解并给你反馈，但这是一个较小的子集。如果我们想想所有生产力提升最大的领域，医疗保健、金融服务等等，大多数都是通过计算机完成的，所以如果你想让Agent做所有这些事情，那么Agent将需要这些计算机来完成工作。演讲者2 | 10:43 - 10:50 所以如果你做工具调用、编码，像任何这些行动，你需要沙盒，但如果你只是聊天，就不需要。演讲者1 | 10:50 - 12:26 你可能不需要它。是的，所以即使你有聊天，也许我们可以成交，但如果你聊天而它必须搜索网络，它仍然必须打开一个浏览器，或者它必须使用像Parallel或Exa或其他什么的来访问，那将是一个工具调用。所以这取决于用例，但这个世界上非常有趣的一点是，让我们退后一步，我坚信在适当的时候，所有的工具都将是无头。现在它们将在沙盒内部或外部是另一个问题，但所有都将是无头的，这是Agent工作的最有效方式，但大多数知识工作仍然锁定在遗留应用程序中，在Windows内部，对于绝大多数人来说，绝对是绝大多数。所以如果你想要一个Agent今天从头到尾完成一项工作，你实际上必须给它一台电脑。这里有一个例子，就是那个董事会报告，就像问它你能调出这份报告，我们的银行有API，它可以调出来，但它只有API上的支出，它没有，API上没有收入，因为它根本没有暴露，或者通过MCP工具实际上没有暴露，我说然后Agent说哦我无法访问它，我说兄弟，登录下载它好吧我去然后你可以看到它打开一个浏览器，它去登录或什么的，和任何其他数据源一样，如果它可以从无头那里拉取，它就会做无头的，如果不能，那么它就会登录并做那些事情，所以如果我们想今天给它们力量并获得价值，我们必须让它们拥有这些工具。演讲者2 | 12:26 - 12:45 你前几天发了一条很棒的推文，你在那里谈论作为沙盒和Agent提供商看到的实际用例。你想谈谈吗？你有代码执行、电脑使用、浏览器使用和RL环境基础设施。你想解释一下吗？演讲者1 | 12:45 - 13:07 当然。我们基本上......我已经更好地组织了那条推文，现在我们有两个主要的用例或两种类型的客户以不同的用例消费Daytona。一种是研究方面。所以它将是，你知道，RL、评估、基准测试。另一个将是我们所说的后台Agent或长时间运行的Agent。演讲者1 | 13:07 - 14:01 当你想到后台Agent或长时间运行的Agent，最受欢迎的，那些是人类作为最终消费者的。人类与一个应用程序交谈，让我们称之为应用程序层服务，那个服务有一个Agent，然后Agent将调用沙盒。所以事情将会是，你知道，想想Harvey或Perplexity或其他什么，或者Lovely这样的，这些都是后台长时间运行Agent的类型。它们都可以是无头的，所以是代码和命令执行和或计算机浏览器使用。所以取决于它们需要做什么，同样的事情也在研究方面，而在RL和评估等方面，你可以为代码做RL和评估，它基本上只是无头的，比如里面的命令和命令执行，或者你实际上可以教它在现实世界中做事情，然后它确实需要启动一个，你知道，Windows或Mac一个Linux类型的桌面或一个浏览器来通过那个东西。演讲者1 | 14:01 - 14:10 代码执行和浏览器/电脑使用是Agent可以工作的两种方式，然后基本上沙盒消费来做这两件不同的事情是不同的。演讲者2 | 14:10 - 14:36 所以这是一个很棒的，一对一的沙盒概念介绍。