AI 资讯

返回首页播客摘要节目时长 · 26:45

5月8日周五 · 17:05

ElevenLabs联合创始人Mati Staniszewski：语音如何成为万物的交互界面

Original title · ElevenLabs' Mati Staniszewski: How Voice Becomes the Interface for Everything

播客中文摘要全文翻译

TL;DR

这期讲了什么

ElevenLabs联合创始人Mati Staniszewski分享了公司起源——与童年好友Piotr共同创立，灵感来源于波兰糟糕的配音体验。ElevenLabs成立于2022年音频AI仍是小众领域的时期，采取了非常规发展路径——从较小规模起步，通过GitHub远程招聘，并快速实现商业化。公司目前涵盖完整的音频技术栈，包括语音合成、语音转文字、配音、语音代理和音乐生成。重要里程碑包括AI笑声功能和名人配音（麦康奈希、莫迪、泽连斯基）。Mati认为语音代理的情感智能和公民服务、教育等被忽视的应用领域存在重大机会。

本期你会听到

两位波兰童年好友于2022年创立ElevenLabs，灵感来源于波兰外国电影只有单一配音的糟糕体验。
语音代理正从客户支持扩展到创收型销售、咨询业务，以及公民服务（如乌克兰政府热线）。
被忽视的机会包括教育（可互动的24小时导师如费曼）、政府服务的公民支持以及医疗保健可及性。
未来重点包括情感智能——代理能感知并匹配用户情绪，以及音频通用智能——在单一流中结合旁白和歌唱。

对话时间线

00:02→ 00:21Speaker 1
So I love line charts and bar graphs as much as the next guy, probably more.
06:16→ 06:58Speaker 2
So that's kind of what the first three models in the first couple of years.
13:03→ 13:47Speaker 2
You can get education help and some of the lectures delivered to your kids all the way …
19:04→ 19:35Speaker 2
It's kind of the extreme version of that.
25:21→ 26:03Speaker 2
I think there will be continuous advantage that if you actually care about the quality,…
26:45→ 26:45Speaker 1
Thank you, guys.

对话逐字稿

中文逐字稿

00:02→ 00:21Speaker 1

我和大多数人一样喜欢折线图和条形图，甚至更甚。Eleven Labs的故事从人性角度也很吸引人，因为你和一位童年好友共同创立了一家公司。不如让我们回到2022年或更早，从人性角度讲讲Eleven Labs的故事吧。Speaker 2 | 00:22 - 00:46 我是Eleven Labs故事中最幸运的人，因为这家公司始于2022年。但感觉像是十七年前我遇见联合创始人Piotr时就已开始。所有的波兰名字都很复杂，幸运的是对我们来说是这样。我们高中相识，成为最好的朋友，选修同样的课程，然后多年一起经历一切。我们一起旅行、一起学习、一起工作，时间站在我们这边。Speaker 2 | 00:46 - 01:01 我们至今仍是最好的朋友。效果很好。部分创立Eleven Labs的灵感来自我们的出身——我们都来自波兰华沙郊区。波兰有一个很特别的现象。Speaker 2 | 01:01 - 01:28 如果你在波兰观看任何外国电影，所有声音——无论是男声还是女声——都由一个角色配音。可以想象，这是相当糟糕的体验。实际上只有一个声音在叙述一切。配音通常还刻意保持单调，需要你自己去解读内容的情感。我们从小在这种环境中长大，直到今天大多数内容仍在这样做。Speaker 2 | 01:28 - 02:08 这让我们认识到音频领域未来一个明确的方向——每个人都能用相同的情感、相同的语调说任何语言。我们开始深入研究这个问题，发现音频问题存在于许多其他领域——无论是周围内容的旁白、有声书形式的缺失、我们可以阅读的新闻文章，还是语言障碍，以及在未来的机器人时代，语音将成为许多技术的主要交互界面——这是我们想要修复和解决的。Speaker 1 | 02:09 - 02:35 太好了。Eleven Labs构建音频前沿模型。现在有一种模式——构建前沿模型需要数千亿或数十亿美元，然后再想办法。11没有走这条路。能谈谈你们构建公司的方法吗，为什么这没有被复制，2026年这还可能吗？Speaker 2 | 02:36 - 03:00 这与时机有关，因为我们成立于2022年。对于当时在这个领域工作的人来说，那是加密货币和元宇宙的年份。还没有人真正从事AI方面的工作。当然，人们开始研究文本模型、视觉模型，但音频作为一个领域仍被认为是一个大细分市场。Speaker 2 | 03:00 - 03:23 这个领域的研究人员很少。所以对我们来说，选择这个领域有几个好处：一是我们对那个被称为的方向感到兴奋；二是我们觉得周围的人没有意识到这个领域的价值；三是解决它所需的要求非常不同。音频模型较小，不需要像其他领域那样多的算力。Speaker 2 | 03:23 - 03:57 数据需求很大，但虽然有大量音频数据，我们知道让音频真正工作的关键是弄清楚如何转录和标注这些数据，我们知道我们可以做到。最终，这一切都归结到架构方面——我们能否以良好的方式解决那一部分。我联合创始人是我认识的最聪明的人之一，也是一位出色的研究人员，能够召集音频领域最优秀的人才帮助我们。我们当时采取了稍微非传统的方式。我们在伦敦起步。Speaker 2 | 03:57 - 04:20 我们在伦敦和华沙之间有很多人，以完全远程方式创立公司。所以我们想在任何地方招聘最优秀的研究人员。我们采用了经典的GitHub抓取方式，根据他们的作品而不是他们的存在来接触人才。基于这些工作，我们会联系那些人。我们总是分享我们的样本，试图让他们加入团队。Speaker 2 | 04:20 - 04:44 这就是我们汇集第一批人的方式——我们认为他们是音频领域最优秀的研究人员之一。多年以来，他们仍在帮助我们将许多模型投入生产。然后我们推出了产品。我认为我们采取的略微不同的方法是快速实现盈利。努力获得一些收入流，以便为模型工作提供资金。Speaker 2 | 04:44 - 05:17 我们努力保持健康的利润率，这样我们可以继续投资，因为我们假设自己找出那条路并能够独立发展会更好。但随着雄心的增长，我们知道需要训练模型。所以我们当然也从外部筹集了很多资金。展望今天，对我们来说很明显的是，仍然有太多人们没有触及的细分市场，你可以从那里开始，然后一步一步地开拓。Speaker 1 | 05:17 - 05:32 我认为很多客户通过他们的狭隘需求来看待Eleven Labs，对吧？不妨从更宏观的角度来看。Eleven Labs研究的模型套件是什么？你们如何优先排序？如何组织研发等等？Speaker 2 | 05:32 - 05:53 我们从第一个文本转语音模型开始——这个模型终于可以理解所写内容的上下文。基于那种上下文理解，获得正确的情感和语调。所以如果是快乐的句子，你就会得到那种快乐。如果是对话，它可以朗读对话。然后不断添加功能。Speaker 2 | 05:53 - 06:16 这始于打破语言障碍的问题。配音需要解决的问题是转录、理解，然后翻译，最后文本转语音。所以我们首先看到文本转语音。然后我们知道需要添加数据组件，即语音转文本，并以出色的方式转录内容。然后如何将这些模型组合在一起。Speaker 2 | 06:16 - 06:58 这就是最初几年推出的前三个模型。当然，随着时间的推移，这个领域发生了其他事情——许多推理模型开始变得足够快、足够聪明，你可以想象那些交互式体验成为可能。这就是我们开始推出更多实时流媒体模型的时候，跨音频，然后将其组合成对话体验。所以我们有效地添加了整个堆栈、所有轮次接管和编排，以创建语音代理的语音引擎。然后在另一边，当我们意识到情感是我们可以解决的问题时，我们添加了音频中最难的模态——音乐和音乐制作能力。Speaker 2 | 06:58 - 07:13 所以今天，我们涵盖整个音频研究领域，无论是文本转语音、语音转文本、在本地化与配音中组合这些模型、使用语音引擎进行编排，然后能够跨音乐做到这一点。Speaker 1 | 07:14 - 07:24 所有这些有趣的发展工作中，有没有你记得的产品能力的惊人时刻？Speaker 2 | 07:24 - 07:53 有很多，对我们来说标准在不断变化。对我们来说第一个时刻是，我们总是用我的声音作为测试声音，因为我有一种奇怪的口音。第一次是基于一个好的样本复制我的声音时，那对我自己来说是一个惊喜的时刻。然后你总是有这样的时刻——这不像我声音的样子。然后你并排听，它确实就是你声音的样子，不幸的是。Speaker 2 | 07:54 - 08:29 然后第二个时刻是我们第一次让它笑，人们会说好的，这实际上是让整个体验更人性化的东西。笑、停顿、嗯、啊、不完美。所以我们开始让这些呈现出来，这对我们来说是一个时刻，因为我们凭借第一个会笑的AI登上了黑客新闻榜首，这是一个非常自豪的时刻。然后多年来，这种能力不断扩展，你们可能记得2023年、2024年，哈维尔·米莱的演讲在网络上疯传，你可以用其他语言说话。所以它被翻译成英语。第一次你仍然可以在那里听到他的声音。这是那种持续不断的惊喜时刻，这是完全不可能的事情。Speaker 2 | 08:29 - 09:11 然后我们看到这在纳伦德拉·莫迪、泽连斯基总统身上一次又一次地发生，一直到最近，我认为语音表演的巅峰之一——马修·麦康奈希在他的通讯中用西班牙语和葡萄牙语说出这些标志性台词，第一次，他的家人——那些说那种语言的人——能够听到他说那些语言。但对于更新的内容，我们有两个我们很高兴即将推向生产的内容。Speaker 2 | 09:12 - 09:37 我认为第一个是最终在那个交互式体验中解决情感智能。所以在语音代理体验中，它不仅能获得正确的语调和情感，而且能理解对方。所以如果有人压力大，它能理解并传递那种安慰、令人放心的情感。如果有人很兴奋，也许它会匹配那种情绪。如果有人说话慢，它会确保放慢速度。Speaker 2 | 09:38 - 10:13 情感智能是我们最终看到内部解决路径的东西，这将是一个持续的变化，实现可能。然后第二个将适用于那里，但也适用于一般音频空间——音频通用智能，你可以将音频模型组合在一个流中。所以理论上你可以有一个模型先旁白，然后暂停，然后开始用那个连续的声音唱歌。这在今天组合起来极其困难，我认为很快就会成为可能。Speaker 1 | 10:14 - 10:35 关于语音代理，你提到过。看起来至少在客户方面，每个人都在购买语音代理。我认为直觉上会想到客户支持，旧的电话树替代品。语音代理世界实际在发生什么？你认为最有趣、被忽视的机会是什么？创业者和Startup创始人应该关注哪些领域？Speaker 2 | 10:36 - 11:24 当然，客户支持可能是每个人都听说过并且非常清楚的。第二个趋势我们看到的是向创收机会的转变，语音代理可以用于销售，无论是呼入还是呼出销售。它不会取代整个体验，但可以承担并放大部分体验。一个很好的例子是Deliveroo，Deliveroo将使用语音代理联系餐厅获取营业时间。根据他们的营业时间，他们可以更新骑手和司机，当然还有订餐的人，告知他们何时开始工作，一直到呼入销售。我们自己也这样做，所以我们有很好的指标来理解那里正在发生的事情。首先，当然，这样简单得多、快捷得多，而不是填写那个表格。Speaker 2 | 11:24 - 12:08 但在那个呼入销售流程中开始发生的第二件事是，我们获得了更多人们留下的信息，因为他们会说他们带来的用例，但然后在哪里不工作，在哪里工作，他们正在评估的一些其他用例，我们可以结合这些信息，然后之后提供更好的体验。在被忽视的方面，我认为我最喜欢的例子是公民支持、教育和医疗保健将完全改变。在公民支持方面，我们所有人都会从更好的政府渠道中受益，无论是了解如何填写税表——我想你们中许多人在本月早些时候经历了这件事，还是了解出国旅行的政策以及它可能如何影响空间。我们最近看到这在乌克兰政府中部署，他们在这个方面我认为是最先进的政府之一。Speaker 2 | 12:08 - 13:03 我们前往乌克兰与他们的团队合作，他们试图解决的是他们有一个政府应用程序，每个公民都可以访问并获取正在发生的事情的信息。但考虑到战争，考虑到前线以及缺乏那种访问，他们想找出一个新的渠道，让人们能够打电话获取正在发生的事情的信息。所以他们创建了语音代理，你可以打电话获取前线正在发生的事情的信息。你可以获得教育帮助和一些讲座传递给您的孩子，一直到关于保持安全和留在那里的积极互动。在教育方面最后一个例子，这可能是我最喜欢的，因为它改变了——这只是拥有一个全天候24小时可用的出色老师有多不可思议，你可以问他问题，无论是卡尔帕蒂还是理查德·费曼。你可以在耳机里和他们一起学习物理，而你在教那个科目或学习那个科目。这是我们看到在某些地方发生的事情。像Masterclass这样的伟大例子，当然，Masterclass与出色的老师合作提供静态讲座。Speaker 2 | 13:47 - 14:18 但最近，他们推出了互动版本。所以我不确定这对这个观众来说是否是一个好的参考，但我们最近与他们合作，让戈登·拉姆齐可以教你烹饪。所以当你在厨房时，他可以有效地对你喊叫让你做得更好。或者一个更好的例子，克里斯·沃斯在那里，你可以，当然，学习谈判，但你可以通过与克里斯在电话上谈判来学习变得更好，我认为这是一个很棒的主题。Speaker 1 | 14:18 - 14:22 你和Matti进行了多次融资轮谈判吗？我现在明白了。Speaker 2 | 14:22 - 14:25 我认为它有助于你这样说，但我认为事实恰恰相反。Speaker 1 | 14:28 - 14:43 我多问几个问题。我想为……节省时间。