音乐创作,也需要新的 AI 生产力。
作者|甘德
编辑|郑玄
网易云音乐上,一支叫 The Velvet Sundown 的乐队,没有头像,没有介绍,关注人数不到 100 人,但这支乐队的一首《dust on the wind》却有着很高的讨论度:有听众在说这首歌的旋律走向有点过时,更挑剔的耳朵觉得这首歌的人声和混音一眼难尽,但也有人觉得听感相当不错。最热的一条评论像是这番热闹场景的一个注脚——
「前排围观 Spotify 最火的 AI 乐队。」
单曲《dust on the Wind》播放量迅速突破百万,成绩亮眼。但 The Velvet Sundown 乐队的歌曲产量、甚至专辑封面、社交媒体都给人一种不真实的感觉,专业音频检测工具 Ircam Amplify 对其歌曲进行分析,结果显示 13 首音轨中有 10 首被判定为「100% AI 生成」,并锁定其背后制作工具为 Suno V4。著名的音乐网站 Deezer 直接在专辑页标注「AI 生成」警示。
乐队最终扛不住压力,悄然更新 Spotify 简介,承认其为「人类创意引导、AI 技术支持作曲与视觉的合成项目」,并自称为「介于人类与机器之间的存在」。
实锤一出,舆论哗然。争议之中,也有人看到了事情的另一面。
「当听众分不清AI和人类作品却仍然为之着迷时,AI 音乐的拐点就到了。」电音制作人 David Guetta 曾经的观点在这场风波中频频得到回响。
The Velvet Sundown 在 Spotify 上的爆火和被质疑,是今年生成式 AI 与音乐领域产生交集的一个标志性事件。
大模型在这两年里的迅速发展,似乎也把音乐行业推向了一个生产力变革的关键阶段,中文 AI 音乐当然也在等待着一个关键玩家。
在 The Velvet Sundown 的网易云评论里,也有听众留言「相当不错,中文歌也需要这样的 AI」。
——并非没有。比如听听这首。
如果这首音乐作品放在你的每日歌单里,它并不会显得很特别。因为这听起来就是一首配器、编曲和人声都还算不错,融合了爵士和放克元素的普通流行歌。但就是因为它太像一首由音乐人创作出的流行乐,当得知这首歌是 100% 由 AI 制作的(The Velvet Sundown 一直强调的也只是 AI「参与」),作为一个自我感觉算是挑剔的普通听众,我肃然起敬。
或许我们正处在这个拐点附近了。这首《回眸》背后的原创歌手、演奏团队、混音师,是 MiniMax 自研的音乐模型 MiniMax Music 1.5。
01
强大的 MiniMax Music 1.5
MiniMax Music 1.5 最突出的特点是,它能支持一首 4 分钟时长的完整歌曲生成。
与此前多数 AI 音乐生成产品,生成的音乐时长往往局限在 90 秒以内,MiniMax Music 1.5 将生成歌曲的长度拉长到了 4 分钟。这意味着 MiniMax Music 1.5 能够独立完成具备「引入-主歌-副歌-桥-结尾」完整结构的音乐作品,而这一点,MiniMax Music 1.5 在输入框中写成了 guideline。
基于模型强大的语义理解能力,MiniMax Music 1.5 展现出了出色的曲风宏观控制、人声建模以及乐器拓展能力,来帮助创作者刻画自己的音乐表现方式。
歌曲风格的宏观控制在音乐特征面板中分成「风格」、「情绪」和「场景」三个维度来进行刻画。
风格(style)中提供了 16 种曲风选择,分别是:流行, 民谣, R&B, 嘻哈, 都市, 摇滚, 爵士, 电子, 古典, 迪斯科, 雷鬼, 布鲁斯, 乡村, 实验, 世界, 民族
情绪(Mood)中包含 11 个选项,可精准定义歌曲情感,如放松、浪漫或是充满激情,甚至更细腻的渴望、受启发等微妙的情绪。
场景(Scenario)是一个颇具创意的功能,用户可选择音乐适用的具体场景,如「雨夜」、「海边落日」、「深夜酒吧」或「孤独漫步」。系统会据此调整混响、节奏和乐器编排,营造沉浸式氛围感。一共提供了 10 种场景。
这意味着在音乐特征中一共有 1760(16*11*10)种组合方式,比如我尝试了一下「布鲁斯」、「放松」和「独自漫步」的搭配。可以感觉的出 MiniMax Music 1.5 将三个维度的音乐特征融合的非常自然,整首歌不同部分的过渡也显得一气呵成。
在人声方面,MiniMax Music 1.5 产品的官方介绍中表示,MiniMax Music 1.5 对人声唱腔发音技巧进行了建模,几乎每一次生成的音乐都带着不同的音色和唱腔。在我多次的音乐生成体验中,随着歌词和音乐风格的变化,人声也会适时的变化来与音乐风格适配,比如下面这首《Gravity》中流行爵士的男声:
或者这首偏向民谣男嗓的《长街》:
除此之外,此次 MiniMax Music 1.5 极大地丰富了可生成的乐器音色,甚至可以加入很多中国小众乐器的声音元素。
在音乐生成的控制力提升之外,MiniMax Music 1.5 在音乐性上也有了大幅度提升。这主要体现在三个方面:
人声自然度
编曲层次感
结构动态化
它十分了解一首入耳的好音乐是在追求什么,比如在人声自然度上的打磨。
生成不同声线、唱腔的基础上,MiniMax Music 1.5 的人声生成已经接近真实的自然度。下面这首《星光 all night》中和声和主人声都清晰动人。模型显然对人声唱腔、发音技巧进行了深度建模,生成的 vocal 不仅有清晰准确的咬字,还带有真实的气声、颤音等细节,远胜此前 AI 生成歌曲中常见的「机械电声」。
编曲的层次感上,MiniMax Music 1.5 对乐器建模的的细粒度,形成了清晰的乐器层次,丰富的演奏技巧能够被诠释出来。也包括歌曲进程中动态变化的表现,歌曲在不同段落(如 Verse 和 Chorus)之间有明显编排差异,乐器的入场与退出有序,而非简单循环。
结构的动态则是音乐动人的灵魂。一首歌曲的框架通常由前奏(Intro)、主歌(Verse)、副歌(Chorus)、桥段(Bridge)和尾奏(Outro)等部分构成。出色的结构设计能够使情绪张力层层推进,令人沉浸其中。以往的自动生成音乐中,不同段落之间往往缺乏清晰过渡,听感连贯却缺少变化。而 MiniMax Music 1.5 实现了真正意义上的段落区分:Intro 与 Verse 分明,Chorus 爆发力强,Outro 收尾流畅自然,最终营造出如叙事般丰富而有层次的听觉体验。
比如下面这首,丰富的结构编排让整首歌非常有画面感。
在功能设置上,MiniMax Music 1.5 设置了简单模式(Simple)和高级模式(Advanced)两种模式,简单模式通过自然语言实现「一句话生全曲」,高级模式可通过插入歌词段落编辑来丰富全曲结构,让生成更加细腻精巧。
在高级模式的输入框中,MiniMax Music 1.5 在浅色的 guideline 中标出了引入、主歌、副歌、桥、结尾这五个结构,你可以按照提示把自己的歌词分成五个部分填写进去。歌词的上下文长度达到了 3000 个 tokens,也就是 1500 个汉字。一首《洛神赋》才不到一千字,这个上下文长度的长限远远超过了平均一首歌的字数,哪怕你想写一首林子祥的《十分十二寸》。
整个音乐的创作过程,只需要一篇结构合适的歌词和一些很轻盈的点击操作,这实在是非常轻松有趣的过程,特别是对于我这种从未接触过音乐创作的人来说,简直爱不释手。
02
一个更好用的「库乐队」
创作出好音乐一定并不轻松,但音乐创作应该也可以从一个轻松的事情开始。
近日,AI 音乐生成公司 Suno AI 的首席执行官米奇·舒尔曼在一次播客访谈中提出,多数人并不享受创作音乐的过程,反而认为这是一项耗时且繁琐的任务。他指出,音乐创作需要大量时间和练习,掌握乐器或软件的门槛让许多人感到沮丧。
米奇·舒尔曼的言论显然因为有他自己的动机,也自然收获骂声一片。一位 X 平台用户骂得挺狠:「技术公司在艺术领域似乎总是陷入自己的叙事中。」还有人说舒尔曼根本不了解音乐创作,同时缺乏足够的反思精神。
但某种程度,米奇·舒尔曼讲的确实不无道理。我——一个只听歌但不懂乐理知识的人——听到的第一反应,是一些很痛苦的经历,关于手机里那个无用却又不甘心删掉的库乐队。
我对库乐队的感情如此复杂。
我几乎点过了所有的乐器,每一个都动一榔头西一棒槌的试过,就说吉他吧,六根琴弦倒是清晰可见,但我根本不知道手指该虚拟地「按」在何处。胡乱拖动那些看上去很专业的和弦图表,结果只是一连串沉闷的「噗噗」声,像在拨弄一根根湿漉漉的橡皮筋。我甚至找到了弦乐选项,试图制造点恢弘气氛,手指在屏幕上胡乱揉动,结果制造出的是一种介于锯木头和蚊子哭诉之间的诡异声响。
更不要说那些效果器旋钮。「混响」、「延迟」、「失真」……每个词我都认识,但旋转它们时发生的变化却神秘如炼金术。
最终它没有降低音乐制作的门槛,只是本就擅长器乐的音乐人有了一个随时可以简单录制 demo 的工具。
所以当我听到 Suno AI 的 CEO 这样的狂妄言论,甚至觉得有几分道理。而当我进一步试了试 Music 1.5,我发现它天马行空的创作能力和音乐质量,甚至已经可以对标 Suno 4。
我摘了几句让子弹飞的台词输入 MiniMax Music 1.5,但是生成的时候忘记选择风格选了自动。台词是这样的:
「我就是想站着,把钱挣了。」 「我来鹅城只办三件事:公平!公平!还是他妈的公平!」 「其实你和钱对于我都不重要,重要的是『没有你』对我很重要。」 「如果你活着,早晚都会死;如果你死了,你就永远活着。」 「一个土匪的名字叫牧之,人们更愿意相信他叫麻子,人们特别愿意相信,他的脸上应该长着麻子。」
这台词野性十足,神奇的是,MiniMax Music 1.5 自动选择了非常硬核的说唱曲风。并且由于我提供的台词非常短,模型在后半段生成了一段略微失真风格的 loop 来持续整首歌氛围感的塑造。这种对歌词的理解和情绪递进的把握已经处理得非常微妙。
于是我有了一个更得寸进尺的想法,给它一段《罗密欧与朱丽叶》里阳台上的一段剧本。
这个片段以极致的诗意与炽热的倾慕,描绘了罗密欧对朱丽叶的瞬间痴迷与灵魂悸动。罗密欧在夜色中窥见朱丽叶,将她比作夺目的「太阳」与「最灿烂的星」,甚至愿化作她手上的手套亲近她。他既渴望得到回应,又怯于唐突惊扰,展现了他内心的热烈与克制。
没想到,MiniMax Music 1.5 真的体会到了这个片段背后那种近乎神圣的崇拜与青春的纯粹激情,和一些内心纠结和犹豫混合的底色,然后选择了「r&b」、「浪漫」和「私人感」三个特征来表现这种情绪。
David Guetta 的那句话不断在脑中回响,也许 AI 音乐的拐点真的到了。
03
或许 AI 音乐的拐点真的到了
再迟钝的听众,也会感觉到从去年开始,AI 生成技术正在越来越频繁的出现在主流音乐的视野里。
今年 4 月音乐平台 Deezer 新增上传内容中,AI 生成的音乐占比已高达 18%,争议和抨击当然是首先出现的。但另一种逐渐共存的姿态也出现了。
几天前瑞典音乐版权组织 STIM 推出了一项新许可证。该许可证允许人工智能公司合法使用受版权保护的歌曲来训练其模型。同时,该机制确保词曲作者和作曲家能够因此获得报酬。此举旨在应对生成式 AI 在创意产业中的广泛应用,及其引发的版权诉讼。
就在 STIM 的这项新许可证推出前一个星期,来自英国的音乐创作者 imoliver 与独立唱片公司 Hallwood Media 签下合约,成为业界首位与唱片公司签约的「AI 音乐人」。imoliver 本职是一名视觉设计师,完全没有任何音乐背景,他甚至不太会唱歌。
这让人想到此前非常出圈的「AI 孙燕姿」。
两年前「AI 孙燕姿」背后的创作者尝试把人声这个音乐呈现中最独特的环节交给 AI,但这其中仍然有非常高的技术甚至模型部署门槛。两年后,随着各个维度的门槛降低,整个音乐创作过程都开始走向 AI 化了。
音乐产业中的各个细分领域正在出现越来越多 AI 的生产工具甚至音乐人,而在一个把音乐作为要素的更广泛的市场上,MiniMax Music 1.5 的出现意味着一个完全没有版权风险的音乐素材库。
值得一提的是,MiniMax Music 1.5 有了 Suno 所不具备的 API 能力,这意味着它的创作能力有更多的灵活性往其他音乐生产和消费的场景流通。
为影视、游戏、短视频快速生成主题曲或 BGM;
为企业品牌生成专属音频内容;
为家人、朋友庆祝时定制专属歌曲;
而且我没想到用 MiniMax Music 1.5 生成音乐可以这么便宜。
Suno v3.5 的单价大概是 0.3 元,Suno v4.5 的价格则是它上一代产品的两倍。而效果媲美 Suno 的 MiniMax Music 1.5 单价仅为 Suno 的一半不到。这意味着 MiniMax Music 1.5 在保证高质量音乐产出的同时,进一步降低了其作为一种工具的使用门槛,也让音乐创作过程有了更多的调整和试错空间。
AI 能力融入音乐创作过程,并不意味着创作者交出了对于音乐的主导权。这一点,音乐创作和 coding 反而有些相似之处。
代码也可以被看作是一个非常高门槛的创作语言,但 coding 正在经历一个从曾经代码全部手写,到现在不再成为实现业务所必须跨越的一种技术门槛。任何人在理清了业务逻辑之后,都完全可以把 coding 部分让给 AI 来完成。与理性的代码语言相比,音乐无疑是一种更感性的表达媒介。用 prompt 语言来进行音乐创作之后,也同样是一种门槛降低,让更多人可以跨过乐器和乐理的障碍。两者实际上正沿着相似的轨迹演进。
回想几十年前合成器的诞生,随后电子琴和库乐队以及各种采样工具的出现,再到近年来算法与芯片取代琴弦、被嵌入吉他箱体——音乐创作的历史,本来就是一部对于音乐创作本身的解构史。
AI 生成音乐与当下音乐生产工业之间的摩擦和灵感在很长一段时间内都会持续发生。但可以确定的是,音乐创作怎样用好 AI 生成能力,是未来所有音乐创作者的命题,不是困境。
而现在目前市面上最好的音乐 AI 工具,已经摆在眼前了。
*头图视觉中国
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
你如何看待 MiniMax Music 1.5?
马斯克:利用 Neuralink 未来可达全身机械化。
点赞关注极客公园视频号,