AI 资讯

返回首页播客摘要节目时长 · 34:16

5月13日周三 · 18:55

Suno的Mikey Shulman：现在每个人都能创作音乐

Original title · Suno's Mikey Shulman: Everyone Can Make Music Now

播客中文摘要全文翻译

TL;DR

这期讲了什么

Suno创始人兼CEO Mikey Shulman分享了他从物理学博士到构建领先AI音乐平台的不寻常旅程。Suno让任何人都能创作音乐，90%的日活跃用户会主动创作内容，主要是为了娱乐而非商业目的。核心突破在于将音乐建模为原始声波，而非教导模型12音阶或乐器等音乐概念，这反而赋予了模型更大的创作自由。Shulman强调，音乐生成不同于大语言模型——它不是一个规模问题——因为没有基准测试或标准答案，人类偏好数据对于将模型与创意品味对齐至关重要。

本期你会听到

Suno的核心创新：将音频建模为原始声波，而非教授音乐结构，从而实现了前所未有的创作自由和流派融合
与大语言模型不同，由于缺乏基准测试，音乐生成从研究和偏好数据中获益更多，而非单纯扩展计算规模
平台擅长公式化流派如乡村和流行音乐，而实验性流派的输出质量差异更大
人类偏好数据创造了良性循环，既推动了研究突破，也促进了产品改进

对话时间线

00:00→ 00:25Speaker 1
Before Suno, basically everybody was a consumer of music.
07:14→ 07:38Speaker 1
If you tell the model there are 12 tones, it will only ever produce those 12 tones.
14:24→ 14:29Speaker 2
That's what it is.
21:33→ 21:50Speaker 1
And, like, yeah, I think this is fantastic.
28:38→ 29:17Speaker 1
But in hindsight, it's not just that we were able to do something hard, it's that the h…
34:14→ 34:16Speaker 1
Thank you so much.

对话逐字稿

中文逐字稿

00:00→ 00:25Speaker 1

在Suno出现之前，基本上所有人都是音乐的消费者。你知道，地球上有80亿人，但制作音乐的人非常少，其余的人只是消费音乐。Suno的疯狂之处在于，在任何一天，90%的用户都会创作内容。很难理解的是，你在创作之后通常不会把它带到其他地方去做些什么。人们创作音乐是为了乐趣、享受和作为创意所带来的满足感。Speaker 1 | 00:25 - 00:30 所以创作本身就是有趣的部分。这才是真正的重大变革。Speaker 2 | 00:47 - 01:06 我很高兴欢迎Mikey Shulman。Mikey是Suno的创始人和CEO，Suno正在构建一个音乐公司或创意娱乐平台，也是我见过的AI领域最具创新性的消费级应用之一。我非常兴奋想问你关于你的旅程以及Suno的未来发展。感谢你今天加入我们。Speaker 1 | 01:06 - 01:08 谢谢你邀请我。我很兴奋。Speaker 2 | 01:09 - 01:25 好的，我想从你的背景开始，因为这非常出乎意料。你在哈佛大学获得了物理学博士，我认为研究的是量子计算和固态自旋，然后成为了世界上最大的AI音乐公司的创始人。什么洞察连接了这两件事？Speaker 1 | 01:27 - 02:01 我不知道我是怎么做到的，说实话在简历上，我完全没有理由去创办一家消费娱乐公司，但很多人从物理学转到了AI领域，就像三十年前很多人从物理学转向量化交易一样。坦白说，我只是一个还不错的物理学家，而且有很多比我更好的物理学家，包括我的一个联合创始人。我认为我主要学到的是，在两个通常不会结合的领域的交汇处做事，在所有领域都是一个巨大的机会。可以是音乐和科技。可以是量子力学和低温微波工程，或者任何你想做的其他事情。Speaker 1 | 02:01 - 02:07 Speaker 2 | 02:09 - 02:29 你和我在Suno的早期就建立了联系。我们共同的朋友Harrison Chase是最早的Suno Discord用户之一，他在你的Discord上做歌玩得太开心了。也许可以讲讲Suno的早期故事。你们一开始就想做一家音乐公司吗？Speaker 1 | 02:31 - 03:06 最初，我们认为这太难了，这是因为需要回溯时间。这是在ChatGPT出现之前的时代。我们做了一些粗略的计算。我们知道我们热爱音频，但粗略计算告诉我们，实际上制作好音乐、生成好音乐，在计算量、模型大小和能力方面，可能还需要几个数量级的进步。这是因为音乐声音总的来说非常难以处理，它不像文本那样是离散的比特。Speaker 1 | 03:06 - 03:21 所以我们实际上开始建立一家围绕使用相同技术来理解音频的公司，而不是生成音频。非常幸运的是，很早我们就有了正确的突破，我们意识到，哦，我们实际上可以制作音乐了。Speaker 2 | 03:21 - 03:24 你的数学还不错，你当时的口算哪里出错了？Speaker 1 | 03:24 - 03:48 数学是对的，我们只是有了一些突破，表明实际上你不需要那么多计算量。你可以进行正确的技术突破，如果你想理解的话，基本上就是非常高效地压缩音频。这比我们预期的要好得多。所以这是一个非常愉快的犯错时刻。不是所有的错误都这么令人愉快。Speaker 1 | 03:48 - 03:54 明确地说，在开始的时候，音乐很糟糕，但我们仍然坚持着。Speaker 2 | 03:55 - 03:59 他觉得很好。他是我们最初的10个用户之一。Speaker 1 | 04:00 - 04:31 当然，在我们把它放到Discord之前，音乐非常糟糕。在我们把它放到Discord之前，我们可以制作大约12秒半的片段，而且这些片段不总是会唱你要求它们唱的内容，但我们做这件事玩得很开心，我们认为其他人可能也会玩得很开心，所以我们借鉴了Midjourney的做法，我们说，放一个Discord机器人出去看看真的很简单，看看人们会不会喜欢它。我们把它放了出去，很多人都非常喜欢它。这对我们来说是一个非常确认性的时刻。Speaker 1 | 04:31 - 04:48 很多人都告诉我们不要创办音乐公司。这不是最容易做的生意。语音技术非常大，有很多很棒的商业用例来构建语音技术。但当你在深夜玩这个东西而你不想睡觉的时候，这是这是一个非常好的信号，表明这就是你应该做的事情。Speaker 1 | 04:48 - 04:50 所以我们就做了。Speaker 2 | 04:50 - 04:52 我喜欢这个。你是音乐家吗？Speaker 1 | 04:52 - 05:03 我是。我几乎每天都演奏。我从小弹很多钢琴，后来在12岁左右开始弹低音提琴，而且弹得越来越多。Speaker 2 | 05:04 - 05:06 好的。所以是个人爱好。很棒。Speaker 1 | 05:07 - 05:19 你知道，修正主义的历史是这样的，而且是真的，我们以前在上一家公司有即兴演奏会，在我一个联合创始人的地下室里。这是真的。我们在那里玩得很开心。这不是我们创办公司的原因。再说一次，我们认为做这件事太难了。Speaker 1 | 05:19 - 05:20 只是因为好玩。Speaker 2 | 05:20 - 05:21 是在Kensho吗？Speaker 1 | 05:21 - 05:24 在Kensho。是的。我在那里遇到了出色的Harrison Chase。Speaker 2 | 05:24 - 05:33 Kensho黑手党是非凡的。有Harrison，有Daniel Nadler，Sam Whitmore，还有你。嗯，你们很多人。Speaker 1 | 05:33 - 05:50 我们很多人。我只是把这归功于Daniel。Daniel是，我认为关于人才密度能为公司做什么的最好的案例。有很多非传统背景的人。非常年轻，但他很擅长发现人才，也非常擅长说服他们加入。Speaker 2 | 05:50 - 06:01 我喜欢这个。好的。给我们讲讲当有人输入“关于公路旅行的欢快90年代嘻哈曲目”时会发生什么。你收到提示后会发生什么？Speaker 2 | 06:01 - 06:06 现代模型在做什么才能把看起来很特别的东西传回给用户？Speaker 1 | 06:07 - 06:35 在某种程度上，这实际上相当简单。像这样的提示，你必须弄清楚这首歌的歌词是什么，我们使用各种大语言模型来做到这一点，制作歌词，而线索是公路旅行，所以这个公路旅行应该关于什么？它可能会弄错，因为你给了我们不够的信息，但事实上这没关系，你可以迭代。然后你说90年代嘻哈，我们试图将其扩展为模型能够真正理解的一组线索。流派是什么？Speaker 1 | 06:35 - 06:46 这种音乐的风格是什么？然后你把所有这些东西放在一起。你有很多歌词。你有很多风格。我们有模型，经过训练可以接收所有这些信息并产生声音。Speaker 1 | 06:46 - 07:14 这里令人惊奇的是，模型不知道有歌声和乐器。它不知道有什么样的乐器。非常早的时候，我们就很明显地发现，我们给模型的音乐知识越多，它就会在错误的方向上受到更多的限制。所以我们实际上把一切都建模为声音，这就是它如此困难的原因，但最终这就是使这些东西如此强大的原因。所以具体来说，在西方音乐中，有12个音。Speaker 1 | 07:14 - 07:38 如果你告诉模型有12个音，它将永远只能产生这12个音。你将永远受到限制。如果你告诉模型有200种乐器，这些就是你永远能够发出的唯一声音，你将永远得不到使用Suno的下一个Skrillex。对我们来说，一切都是关于扔掉我们关于音乐的所有知识，让我们从头开始做这件事。就像，它只是一个声波。Speaker 1 | 07:38 - 07:55 它只是以每秒48,000次采样，它是一个连续的，你知道，32位浮点数，让我们弄清楚如何建模。而这正是我们早期需要做出的许多突破之一。但一旦我们做到了，现在你唯一受到的限制就是你的想象力所能描述的。Speaker 2 | 07:56 - 08:14 太酷了。你是否发现我们基本上只是重新发现了现有的音乐流派和12个音符？当你试图从头学习音乐时，你是否独立地看到了同样的行为出现？或者你是否看到了不同的能力出现？Speaker 1 | 08:15 - 08:25 不。令人惊奇的是，现在我们看到新的东西出现，你永远不会想到。大多数时候，这看起来像混合通常不应该结合的流派。Speaker 2 | 08:26 - 08:26 嗯嗯。Speaker 1 | 08:26 - 08:52 所以你会得到，我不知道，trap和西塔琴的结合，或者乡村音乐和808鼓的结合，或者不管是什么。同样，这真的是在赋权人们做他们脑海中的事情，而且以一种如果没有这种技术就不可能或者非常非常困难的方式。我们看到微分音音乐。看到人们制作的所有疯狂的东西真的很受启发。是的。Speaker 1 | 08:52 - 08:58 他们中的很多听起来像你知道的流派，很多听起来完全陌生、奇怪和可爱。Speaker 2 | 08:59 - 09:06 太棒了。真的很酷。你是否发现你的模型在某些流派上表现更好，在某些流派上表现更差？Speaker 1 | 09:06 - 09:26 确实。我们是，我的意思是，我尽量不说音乐的好坏，你知道，它采样良好，就像完整的位深度或完整的采样率。但如果你可以进行这种概括的话。我们非常擅长乡村音乐。我们非常擅长流行音乐。Speaker 1 | 09:27 - 09:58 我认为你脑海中可以有的一个卡通是，有些流派比其他流派更有公式化一些，所以也许我们更擅长这些。但我有一点偷偷怀疑，对于那些流派，这既是提高地板也是提高天花板。而对于我们不太擅长的东西，我们没有提高地板，所以我们制作了很多糟糕的音乐。但我们也提高了天花板。如果你愿意走足够长的时间，你会发现惊人的东西。Speaker 2 | 09:58 - 10:06 太酷了。Suno V5看起来在质量上是一个真正的飞跃。这样的飞跃需要什么？Speaker 1 | 10:07 - 10:56 你知道，真的很难预测飞跃何时发生，因为无论是在研究投入方面，还是实际上在你的测试说模型更好的程度方面，它真的是非线性的。所以举个例子，我们可以测量一个模型比另一个模型更受欢迎多少，你可能会得出它受欢迎程度高10%或15%。然后你可以拿两个不同的模型，一个受欢迎程度高10%或15%，但在用户端 uptake，即我们的用户实际上有多喜欢它和使用它，或者当你发布它时产品增长了多少，不一定与偏好信号有多大关联。这是因为音乐是混乱的，还有很多其他因素参与其中。但退一步说，我们有一个相当激进的研究路线图。Speaker 1 | 10:56 - 11:22 从某种意义上说，我们总是在做这件事，你知道，就像我们知道v6和v7是什么。在某种程度上，有很多事情你希望你的模型做，有许多你想做的改进，这几乎是一个任意的截止日期，说好的。这是分界线。这是什么我们要叫v5.5，在那之后的一切将进入下一个模型。几乎只是为了保持我们发布东西的稳定节奏。Speaker 1 | 11:22 - 11:33 因为你最不想看到的是我们两年不发布东西，然后我们试图制作，你知道，拯救人类的音乐模型。那将在两年后出来，而在那之前我们什么都做不了。Speaker 2 | 11:33 - 11:47 是的，当然。这些改进中有多少你认为只是扩展的函数，扩展计算，扩展数据，然后获得大量人类偏好数据反馈？你们有多少是在做更新的研究？Speaker 1 | 11:48 - 12:14 音乐真的不是一个规模问题。由于各种原因，模型相当小。我认为人们经常错误地将在大语言模型领域所知的东西，即模型是巨大的，扩展帮助很大，应用到音乐领域。而我认为我脑海中的卡通是，在大语言模型领域，有所有这些基准测试。你可以争论哪些是有缺陷的，哪些是好的，但这些基准测试存在。Speaker 1 | 12:15 - 12:33 扩展实际上是攀登阶梯和在这些基准测试上不断做得更好的相当有效的方式。在音乐领域，没有正确答案。没有基准测试。所以扩展在某种程度上帮助较小。这在很多方面是一个更混乱的问题，使模型与创意人类品味对齐。Speaker 1 | 12:33 - 12:36 你我不会在每首歌上都达成一致。你我甚至不会在Speaker 2 | 12:36 - 12:39 我会 deference 你说什么。你有你系统。不用 Speaker 1 | 12:39 - 13:08 我的意思是，我认为你不想那样做。但所以，模型不是那么大，实际上让我们可以更快地让你获得音乐，这被证明对良好的用户体验非常重要。所以我认为很多这些归结为研究和偏好数据。我们收集偏好数据，让我们可以将模型与用户喜欢的东西对齐。一个非常被低估的事情是，这些偏好数据实际上让我们能够做多少研究。Speaker 1 | 13:08 - 13:23 比如，我们拥有的偏好数据规模，我们甚至无法开发我们正在使用的技术。所以产品本身由于人们使用它而变得越来越好，这里确实有一些良性循环。Speaker 2 | 13:23 - 13:36 有趣。我猜你可以比文本模型更强地使用人类偏好数据，因为它们都担心坏人，对吧？对你来说，我想这挑战要小得多。Speaker 1 | 13:36 - 13:46 100%。100%。所以我认为，是的，我们的理解它、进行研究、然后将其强化学习回模型的能力带来了巨大的优势。Speaker 2 | 13:46 - 14:00 太棒了。好的。我想换个话题，谈谈音乐作为一种消费现象。你在开始时提到了消费者创意娱乐平台。我想深入了解这意味着什么。Speaker 2 | 14:00 - 14:24 也许从音乐作为一种文化社会现象开始，比如，我喜欢这首歌。我把它发给我的朋友。你知道，这是一种稀缺资源。我们因为喜欢那首歌而产生联系，你知道，制作混音带，一起听等等。