返回首页播客摘要节目时长 · 26:45

5月8日 周五 · 17:05

ElevenLabs联合创始人Mati Staniszewski:语音如何成为万物的交互界面

Original title · ElevenLabs' Mati Staniszewski: How Voice Becomes the Interface for Everything

播客中文摘要全文翻译
TL;DR
这期讲了什么

ElevenLabs联合创始人Mati Staniszewski分享了公司起源——与童年好友Piotr共同创立,灵感来源于波兰糟糕的配音体验。ElevenLabs成立于2022年音频AI仍是小众领域的时期,采取了非常规发展路径——从较小规模起步,通过GitHub远程招聘,并快速实现商业化。公司目前涵盖完整的音频技术栈,包括语音合成、语音转文字、配音、语音代理和音乐生成。重要里程碑包括AI笑声功能和名人配音(麦康奈希、莫迪、泽连斯基)。Mati认为语音代理的情感智能和公民服务、教育等被忽视的应用领域存在重大机会。

本期你会听到
本期你会听到
  • 两位波兰童年好友于2022年创立ElevenLabs,灵感来源于波兰外国电影只有单一配音的糟糕体验。
  • 语音代理正从客户支持扩展到创收型销售、咨询业务,以及公民服务(如乌克兰政府热线)。
  • 被忽视的机会包括教育(可互动的24小时导师如费曼)、政府服务的公民支持以及医疗保健可及性。
  • 未来重点包括情感智能——代理能感知并匹配用户情绪,以及音频通用智能——在单一流中结合旁白和歌唱。
对话逐字稿
对话逐字稿

中文逐字稿

00:0200:21Speaker 1

我和大多数人一样喜欢折线图和条形图,甚至更甚。Eleven Labs的故事从人性角度也很吸引人,因为你和一位童年好友共同创立了一家公司。不如让我们回到2022年或更早,从人性角度讲讲Eleven Labs的故事吧。Speaker 2 | 00:22 - 00:46 我是Eleven Labs故事中最幸运的人,因为这家公司始于2022年。但感觉像是十七年前我遇见联合创始人Piotr时就已开始。所有的波兰名字都很复杂,幸运的是对我们来说是这样。我们高中相识,成为最好的朋友,选修同样的课程,然后多年一起经历一切。我们一起旅行、一起学习、一起工作,时间站在我们这边。Speaker 2 | 00:46 - 01:01 我们至今仍是最好的朋友。效果很好。部分创立Eleven Labs的灵感来自我们的出身——我们都来自波兰华沙郊区。波兰有一个很特别的现象。Speaker 2 | 01:01 - 01:28 如果你在波兰观看任何外国电影,所有声音——无论是男声还是女声——都由一个角色配音。可以想象,这是相当糟糕的体验。实际上只有一个声音在叙述一切。配音通常还刻意保持单调,需要你自己去解读内容的情感。我们从小在这种环境中长大,直到今天大多数内容仍在这样做。Speaker 2 | 01:28 - 02:08 这让我们认识到音频领域未来一个明确的方向——每个人都能用相同的情感、相同的语调说任何语言。我们开始深入研究这个问题,发现音频问题存在于许多其他领域——无论是周围内容的旁白、有声书形式的缺失、我们可以阅读的新闻文章,还是语言障碍,以及在未来的机器人时代,语音将成为许多技术的主要交互界面——这是我们想要修复和解决的。Speaker 1 | 02:09 - 02:35 太好了。Eleven Labs构建音频前沿模型。现在有一种模式——构建前沿模型需要数千亿或数十亿美元,然后再想办法。11没有走这条路。能谈谈你们构建公司的方法吗,为什么这没有被复制,2026年这还可能吗?Speaker 2 | 02:36 - 03:00 这与时机有关,因为我们成立于2022年。对于当时在这个领域工作的人来说,那是加密货币和元宇宙的年份。还没有人真正从事AI方面的工作。当然,人们开始研究文本模型、视觉模型,但音频作为一个领域仍被认为是一个大细分市场。Speaker 2 | 03:00 - 03:23 这个领域的研究人员很少。所以对我们来说,选择这个领域有几个好处:一是我们对那个被称为的方向感到兴奋;二是我们觉得周围的人没有意识到这个领域的价值;三是解决它所需的要求非常不同。音频模型较小,不需要像其他领域那样多的算力。Speaker 2 | 03:23 - 03:57 数据需求很大,但虽然有大量音频数据,我们知道让音频真正工作的关键是弄清楚如何转录和标注这些数据,我们知道我们可以做到。最终,这一切都归结到架构方面——我们能否以良好的方式解决那一部分。我联合创始人是我认识的最聪明的人之一,也是一位出色的研究人员,能够召集音频领域最优秀的人才帮助我们。我们当时采取了稍微非传统的方式。我们在伦敦起步。Speaker 2 | 03:57 - 04:20 我们在伦敦和华沙之间有很多人,以完全远程方式创立公司。所以我们想在任何地方招聘最优秀的研究人员。我们采用了经典的GitHub抓取方式,根据他们的作品而不是他们的存在来接触人才。基于这些工作,我们会联系那些人。我们总是分享我们的样本,试图让他们加入团队。Speaker 2 | 04:20 - 04:44 这就是我们汇集第一批人的方式——我们认为他们是音频领域最优秀的研究人员之一。多年以来,他们仍在帮助我们将许多模型投入生产。然后我们推出了产品。我认为我们采取的略微不同的方法是快速实现盈利。努力获得一些收入流,以便为模型工作提供资金。Speaker 2 | 04:44 - 05:17 我们努力保持健康的利润率,这样我们可以继续投资,因为我们假设自己找出那条路并能够独立发展会更好。但随着雄心的增长,我们知道需要训练模型。所以我们当然也从外部筹集了很多资金。展望今天,对我们来说很明显的是,仍然有太多人们没有触及的细分市场,你可以从那里开始,然后一步一步地开拓。Speaker 1 | 05:17 - 05:32 我认为很多客户通过他们的狭隘需求来看待Eleven Labs,对吧?不妨从更宏观的角度来看。Eleven Labs研究的模型套件是什么?你们如何优先排序?如何组织研发等等?Speaker 2 | 05:32 - 05:53 我们从第一个文本转语音模型开始——这个模型终于可以理解所写内容的上下文。基于那种上下文理解,获得正确的情感和语调。所以如果是快乐的句子,你就会得到那种快乐。如果是对话,它可以朗读对话。然后不断添加功能。Speaker 2 | 05:53 - 06:16 这始于打破语言障碍的问题。配音需要解决的问题是转录、理解,然后翻译,最后文本转语音。所以我们首先看到文本转语音。然后我们知道需要添加数据组件,即语音转文本,并以出色的方式转录内容。然后如何将这些模型组合在一起。Speaker 2 | 06:16 - 06:58 这就是最初几年推出的前三个模型。当然,随着时间的推移,这个领域发生了其他事情——许多推理模型开始变得足够快、足够聪明,你可以想象那些交互式体验成为可能。这就是我们开始推出更多实时流媒体模型的时候,跨音频,然后将其组合成对话体验。所以我们有效地添加了整个堆栈、所有轮次接管和编排,以创建语音代理的语音引擎。然后在另一边,当我们意识到情感是我们可以解决的问题时,我们添加了音频中最难的模态——音乐和音乐制作能力。Speaker 2 | 06:58 - 07:13 所以今天,我们涵盖整个音频研究领域,无论是文本转语音、语音转文本、在本地化与配音中组合这些模型、使用语音引擎进行编排,然后能够跨音乐做到这一点。Speaker 1 | 07:14 - 07:24 所有这些有趣的发展工作中,有没有你记得的产品能力的惊人时刻?Speaker 2 | 07:24 - 07:53 有很多,对我们来说标准在不断变化。对我们来说第一个时刻是,我们总是用我的声音作为测试声音,因为我有一种奇怪的口音。第一次是基于一个好的样本复制我的声音时,那对我自己来说是一个惊喜的时刻。然后你总是有这样的时刻——这不像我声音的样子。然后你并排听,它确实就是你声音的样子,不幸的是。Speaker 2 | 07:54 - 08:29 然后第二个时刻是我们第一次让它笑,人们会说好的,这实际上是让整个体验更人性化的东西。笑、停顿、嗯、啊、不完美。所以我们开始让这些呈现出来,这对我们来说是一个时刻,因为我们凭借第一个会笑的AI登上了黑客新闻榜首,这是一个非常自豪的时刻。然后多年来,这种能力不断扩展,你们可能记得2023年、2024年,哈维尔·米莱的演讲在网络上疯传,你可以用其他语言说话。所以它被翻译成英语。第一次你仍然可以在那里听到他的声音。这是那种持续不断的惊喜时刻,这是完全不可能的事情。Speaker 2 | 08:29 - 09:11 然后我们看到这在纳伦德拉·莫迪、泽连斯基总统身上一次又一次地发生,一直到最近,我认为语音表演的巅峰之一——马修·麦康奈希在他的通讯中用西班牙语和葡萄牙语说出这些标志性台词,第一次,他的家人——那些说那种语言的人——能够听到他说那些语言。但对于更新的内容,我们有两个我们很高兴即将推向生产的内容。Speaker 2 | 09:12 - 09:37 我认为第一个是最终在那个交互式体验中解决情感智能。所以在语音代理体验中,它不仅能获得正确的语调和情感,而且能理解对方。所以如果有人压力大,它能理解并传递那种安慰、令人放心的情感。如果有人很兴奋,也许它会匹配那种情绪。如果有人说话慢,它会确保放慢速度。Speaker 2 | 09:38 - 10:13 情感智能是我们最终看到内部解决路径的东西,这将是一个持续的变化,实现可能。然后第二个将适用于那里,但也适用于一般音频空间——音频通用智能,你可以将音频模型组合在一个流中。所以理论上你可以有一个模型先旁白,然后暂停,然后开始用那个连续的声音唱歌。这在今天组合起来极其困难,我认为很快就会成为可能。Speaker 1 | 10:14 - 10:35 关于语音代理,你提到过。看起来至少在客户方面,每个人都在购买语音代理。我认为直觉上会想到客户支持,旧的电话树替代品。语音代理世界实际在发生什么?你认为最有趣、被忽视的机会是什么?创业者和Startup创始人应该关注哪些领域?Speaker 2 | 10:36 - 11:24 当然,客户支持可能是每个人都听说过并且非常清楚的。第二个趋势我们看到的是向创收机会的转变,语音代理可以用于销售,无论是呼入还是呼出销售。它不会取代整个体验,但可以承担并放大部分体验。一个很好的例子是Deliveroo,Deliveroo将使用语音代理联系餐厅获取营业时间。根据他们的营业时间,他们可以更新骑手和司机,当然还有订餐的人,告知他们何时开始工作,一直到呼入销售。我们自己也这样做,所以我们有很好的指标来理解那里正在发生的事情。首先,当然,这样简单得多、快捷得多,而不是填写那个表格。Speaker 2 | 11:24 - 12:08 但在那个呼入销售流程中开始发生的第二件事是,我们获得了更多人们留下的信息,因为他们会说他们带来的用例,但然后在哪里不工作,在哪里工作,他们正在评估的一些其他用例,我们可以结合这些信息,然后之后提供更好的体验。在被忽视的方面,我认为我最喜欢的例子是公民支持、教育和医疗保健将完全改变。在公民支持方面,我们所有人都会从更好的政府渠道中受益,无论是了解如何填写税表——我想你们中许多人在本月早些时候经历了这件事,还是了解出国旅行的政策以及它可能如何影响空间。我们最近看到这在乌克兰政府中部署,他们在这个方面我认为是最先进的政府之一。Speaker 2 | 12:08 - 13:03 我们前往乌克兰与他们的团队合作,他们试图解决的是他们有一个政府应用程序,每个公民都可以访问并获取正在发生的事情的信息。但考虑到战争,考虑到前线以及缺乏那种访问,他们想找出一个新的渠道,让人们能够打电话获取正在发生的事情的信息。所以他们创建了语音代理,你可以打电话获取前线正在发生的事情的信息。你可以获得教育帮助和一些讲座传递给您的孩子,一直到关于保持安全和留在那里的积极互动。在教育方面最后一个例子,这可能是我最喜欢的,因为它改变了——这只是拥有一个全天候24小时可用的出色老师有多不可思议,你可以问他问题,无论是卡尔帕蒂还是理查德·费曼。你可以在耳机里和他们一起学习物理,而你在教那个科目或学习那个科目。这是我们看到在某些地方发生的事情。像Masterclass这样的伟大例子,当然,Masterclass与出色的老师合作提供静态讲座。Speaker 2 | 13:47 - 14:18 但最近,他们推出了互动版本。所以我不确定这对这个观众来说是否是一个好的参考,但我们最近与他们合作,让戈登·拉姆齐可以教你烹饪。所以当你在厨房时,他可以有效地对你喊叫让你做得更好。或者一个更好的例子,克里斯·沃斯在那里,你可以,当然,学习谈判,但你可以通过与克里斯在电话上谈判来学习变得更好,我认为这是一个很棒的主题。Speaker 1 | 14:18 - 14:22 你和Matti进行了多次融资轮谈判吗?我现在明白了。Speaker 2 | 14:22 - 14:25 我认为它有助于你这样说,但我认为事实恰恰相反。Speaker 1 | 14:28 - 14:43 我多问几个问题。我想为……节省时间。