谷歌研究人员制造出新的人工智能 可将文本变成长达几分钟的音乐片段

来源:网界网 | 2023-01-28 23:34:38

  网界网1月28日消息,谷歌研究人员制造出新的人工智能,它可以从文本提示中生成长达几分钟的音乐片段,甚至可以将吹口哨或哼唱的旋律转

  网界网1月28日消息,谷歌研究人员制造出新的人工智能,它可以从文本提示中生成长达几分钟的音乐片段,甚至可以将吹口哨或哼唱的旋律转换成其他乐器,类似于DALL-E这样的系统如何从书面提示中生成图像。该模型名为MusicLM,虽然你不能自己玩,但该公司已经上传了一系列使用该模型制作的样本。

  这些片段听起来像是从一段长的描述中创作出来的真实歌曲,这些描述规定了一种流派、氛围,甚至是特定的乐器,还有从一两个词(如“旋律techno”)中产生的五分钟长的片段。在“故事模式”的演示中,模型基本上被赋予了一个脚本,可以在提示之间转换。

  演示网站上还展示了该模型在被要求生成10秒的大提琴或马拉卡斯等乐器片段、8秒的特定类型的片段、适合越狱的音乐,甚至初级钢琴演奏者与高级钢琴演奏者的声音。它还包括对“未来俱乐部”和“手风琴死亡金属”等短语的解释。

  MusicLM甚至可以模拟人类的声音,虽然它似乎能正确地调整声音的音调和整体声音,但它们的质量肯定是不好的。

  谷歌发布了一篇研究论文,对此进行详细解释:

  人工智能生成的音乐有着悠久的历史,可以追溯到几十年前;有一些系统被誉为创作流行歌曲、比90年代的人类更好地模仿巴赫,以及伴随现场表演。最近的一个版本使用AI图像生成引擎StableDiffusion将文本提示转换为声谱图,然后将其转换为音乐。这篇论文说,MusicLM在“质量和对字幕的坚持”方面,以及它可以接收音频和复制旋律这一事实上,可以优于其他系统。

  最后一部分也许是研究人员最酷的演示之一。该网站允许您播放输入音频,在那里有人哼哼或吹口哨,然后让您听到模型如何将其作为电子合成器、弦乐四重奏、吉他独奏等进行再现。

  与其他进军这类人工智能的尝试一样,谷歌对MusicLM的态度明显比其他同行对类似技术的态度更为谨慎。该论文总结道,“我们目前没有发布模型的计划”,并列举了“潜在的盗用创意内容”(即抄袭)和潜在的文化挪用或虚假陈述的风险。

  这项技术总是有可能在某个时候出现在谷歌的一个有趣的音乐实验中,但目前,唯一能够利用这项研究的人是其他构建音乐AI系统的人。谷歌表示,它将公开发布一个包含约5500个音乐文本对的数据集,这将有助于培训和评估其他音乐AI。

相关阅读

每日精选