继在图像(Dall-E、Stable Diffusion)或文本(Chat GPT)领域取得成功后,AI 正在通过 Google 的 MusicLM 展示其在音乐领域的创造力。但谷歌仍然保持谨慎态度,不向公众提供任何对其工具的访问权限。害怕打开潘多拉魔盒?
图片,然后是文字和对话,今天是音乐! AI模型的演示层出不穷,变得越来越复杂,今天最受关注的是Google的MusicLM模型。与它的姐妹 Dall-E 和图像稳定扩散一样,人工智能基于文本形式的请求为您创作音乐。如果说过去已经设计过这样的模型,那么这里的“高保真”质量在渲染方面就实现了飞跃。还有可信度和多样性。在这个专门针对 MusicLM 的页面上,Google 搜索者会分享许多带有相关查询的音乐片段。除了风格的多样性之外,有必要强调要求的性质:短曲、长曲、按流派划分(故事模式),甚至是受名画描述启发而对已知曲调或作品进行变奏。
通过花一点时间聆听其中几个“创作”,一些观察结果似乎是显而易见的。一方面,某些作品,尤其是电子作品,显然处于人类制作的水平。那么,如果AI仍然有能力在钢琴上制作“面包”(参见“文本和旋律调节», 专栏 « 美丽的你好 –嗡嗡声»,“钢琴独奏”行),声音的构建和生成(特别是在音色方面)取得了巨大进步。如果模型不拘泥于某种语言,那么这个例子“慢节奏、贝斯和鼓主导的雷鬼歌曲。持续的电吉他。带有铃声的高音手鼓。声音轻松有一种悠闲的感觉,很有表现力。» 在章节 «从丰富的字幕生成音频» 令人印象深刻。通过长篇大论、非常精确的描述,人工智能能够创作出一首真实、可信的歌曲,其中有人类的演唱。我们认为,这个例子说明了为什么与我们已经提到的人工智能不同,目前不可能与该人工智能“玩耍”的原因之一。
音乐市场潜在的地震?
绘画领域的艺术家正在崛起,Dall-E 和 Stable Diffusion 等人工智能设计师实际上已经在仍然在世的艺术家的整个创作上训练了他们宝贵的算法。所有这一切都是为了让像你和我这样的人能够用两句话再现一位艺术家的风格,这位艺术家有时不仅花费一生完善他的艺术,而且完善他的视觉身份。这场可能导致严厉的法律修正的运动,以及抄袭、作弊和其他学术“修补”的例子呈爆炸式增长的 Chat-GPT 的例子,一个强大的音频工具的到来足以迫使谷歌保留一个(非常)冷静的头脑。
另请阅读: 这个免费的人工智能只有一个目标:破解受版权保护的图像(2023 年 1 月)
因为音乐领域的可能性范围和潜在的滥用与图像领域一样巨大。除了创造声音身份、音乐背景、背景音乐等的市场的削弱(甚至破坏)之外。抄袭或“强烈灵感”可能会引发一位或多位知名艺术家的愤怒,这种风险可能很高。如果 OpenAI 准备通过 Dall-E 和 Chat-GPT 来“扰乱市场”以吸引投资者(如微软),那么像谷歌这样的庞然大物就肩负着更多的责任和压力。研究论文中清楚地理解和解释了责任“Music LM:从文本生成音乐”(英文文章):«我们强烈强调未来需要开展更多工作来解决与音乐生成相关的风险——我们现阶段不打算发布任何模型»。简而言之:谷歌不想打开潘多拉魔盒。只有较小的参与者且风险较小“ 公司的 ”买得起...
另请阅读:“它没有什么革命性的”:法国人工智能先驱 Yann LeCun 对 ChatGPT 不感兴趣(2023 年 1 月)
从逻辑上讲,有人会这么做!随着谷歌等公司的大量出版物,许多音乐模型现在成为深入研究的主题。如果威胁对音乐生态系统很重要,那么承诺对世界其他地区也同样重要。无论是公司创造独特、免版税的电话等待音乐的能力,还是为独立视频游戏快速轻松地生成声音和音乐的能力,等等。人工智能显然最终将撼动音乐创作市场。问题是法律框架是否能够管理它的到来,或者它是否会像新的浪潮一样发挥作用。在一个已经看到很多的部分。
来源 : 边缘