论AI作曲
起因
起因其实很简单。抖音音乐博主刘同学的音乐理论日记给我发了这样一篇文章。原文在此。
正好想起传播学的在读博士问过我对机器学习技术在音乐创作中应用的看法。我就单独写一篇博客,聊聊技术与艺术结合的问题。
情感的机械化——基于概率论的新式创作
首先我试图从哲学的视角给出一定的讨论。
黑格尔曾说,“艺术是绝对理念的感性呈现”。就目前的机器而言,并不足以产生理念。机器基于从前作曲家的作品,生产出的也是基于“下一个音符哪个概率更大”的计算结果。因此无法从情感上复刻一个作曲家。
但机器胜在效率至上。机器可以短时间生产大量的旋律片段,并进行拼接。
就如阿多诺的“文化工业”理论一样,这是有可能成为对艺术的异化,乃至淘汰以人为中心的创作思想,转变为纯粹服务于市场和文化符号的所有物。我们已经知道,现代互联网快速传播的情况下,越是快速、越是反复播放的旋律越得到市场的认可。而基于理念和思想的创作正在消亡。
回到中国人的传统思想。道家认为,“天上皆知美之为美,斯恶矣;皆知善之为善,斯不善矣。夫唯弗居;是以不去。”强调了音乐有美丑对比之说。以“道”法自然。认为自然的音便是好的音。强调音乐的修身养性的作用。这与机械化的基于数据的创作相违背。
再如柏拉图的观点,“艺术是超验世界的摹本”(或者说,是对理念世界的摹本的摹本)。从某种角度看,来自数学分析的创作,是否能理解为“超验世界的摹本”呢?我想应该不是的。数是测量我们所在的、真实世界的工具。而理念世界仅仅存在于理念。是一个看不见也摸不着的世界。
机械的情感化——对情感计算的另一种尝试
之后,我希望从技术层面给出一定的讨论。尤其是技术发展史方面的讨论。希望能够查缺补漏。
从《自然辩证法原理》可以知道,任何一类新技术的出现,都经历了从混乱到有序,再从有序解构,最后重构的过程。
而基于神经网络的机器学习算法,有着诸多的实现方法。这里为了能让文科生或艺术生读懂,我就将各类技术路线简要阐述。我想计科专业的各位应该可以秒懂我在说什么。
对于音乐作品的再创作,既有Transformer架构的讨论,也有GAN架构的讨论。
对不懂人工智能的朋友们介绍一下。Transformer会有类似于人的注意力集中的机制,并且在训练时有一定的自主学习能力。因此在学习效率上更有优势。但缺点在于无论是训练还是推理一个结果,都会消耗较大的算力。相比之下,GAN就只是对风格的拙劣模仿。GAN技术可以模仿一个人说话,也可以模仿某类创作风格。但GAN需要有人监督其学习过程。稍不小心就会过拟合(太像某个人以至于让人感觉他在很刻意地模仿,很容易穿帮)。此外,GAN对数据来源要求也较高。
无论是Transformer还是GAN,他们都缺失了一个很重要的参数:即情感。
诚然,音乐作品本身便是情感的外显。但音乐作为情感艺术,也有着“千人千面”的理解。我想除非有作曲家亲自指出“是什么样的情感”的问题,否则很难解决如何判定情感的问题。
如果能将创作作品的脑电波或荷尔蒙水平通过医学手段采集,并让机器学习与作品片段的关联性,我想这可以解决很多问题。但这些古典主义作曲家——说句难听的,已经是陈年的老黄历了。我们应该还没有技术对一个死人采集其颅内的激素或活动水平。
当然,也许有一天会有出色的跨专业科学家——也许是音乐美学与计算机科学双修的科学家,能够提出更好的解决方案。但就目前我阅读过的论文而言,连直接抒情的文本都无法被LLM(大语言模型,比如ChatGPT或DeepSeek)完全所掌握。试图让机器学习算法去理解抽象化的音乐中的情感是一种奢求。
情感化的机械——另一类创作模式
站在音乐专业的角度思考,机器学习技术的引入大大降低了音乐创作的门槛。我可以只做一个剪辑家,将机器生成的乐段拼接。我即为AI模型的“判断器”,负责剔除“生成器”的错误。并且作为主体的人天生不需要担心过拟合。人的大脑本身就是个精密的神经网络系统。
但这样的创作模式也使人担忧。如果长久以来,当后人翻开西方音乐史,想要从中寻找音乐本初的含义时,却找到了含有AI生成的内容。我很难想象这样一个画面。就像是被AI完成的莫扎特的《安魂曲》,也许学生会疑惑:“最后的那一段,为什么在理论上分析像是莫扎特,但听起来却不太像是莫扎特?”
我曾尝试过用Suno寻找灵感。Suno的编曲能力使我惊喜,但其作曲能力令人堪忧。在Suno的每一部创作,我都听不到主题的再现或重复。只有Suno所生成的风格相近但主旨不同的、无穷无尽的新主题,就像是斐波那契数列的递归。哪怕机器学习的是较为严谨的古典主义时期的作品,我想也难免会出现这样的情况。Suno的音乐,就像是将一大堆音符洒在五线谱的沙盘上,看似美丽但实则没有本质的联系。
其他的,我想那篇公众号文章已经说的很多。我已经脱离音乐较久,也就不方便讨论了。
总结
我个人而言暂时对此类应用感到悲观。就目前技术发展的水平而言,不足以让机器理解音乐。但我认可博主将机器作为工具,人工介入选择合适的片段的做法。
但我想向各位正在阅读的音乐人提醒:总有一天,会出现带有情感理解学习能力的机器。也许在很久的将来,但请注意,各位在人世间行走的经历是独一无二且塑造个性的部分,也是绝对领先于AI的部分。从马克思的唯物主义的观点解释,就现阶段的机器而言,他还无法参与社会实践,自然无法创造出属于社会的艺术。但也不要因此掉以轻心,在许多时候,音乐为市场服务,而非艺术本身。
就如蒸汽革命时珍妮机的发明那样,消灭了传统手工主导的纺织业不假,却也创造了一批工程师的岗位。汽车消灭了马车夫的职业,却也创造了无数的工程师与工人岗位。从经济的角度来看,市场是千变万化的,但万变不离其宗。人类向来是驾驭工具,而不是被工具驾驭。因此,还是要抱有不断学习的心。