这个AI能用Lady Gaga曲风续写贝多芬,网友们纷纷玩得不亦乐乎
编者按:OpenAI 前几日溘然在 Twitch 睁开直播。此前,OpenAI 的每次 DOTA2 直播都是在这里举办的,但这次的内容不再是电子游戏了,而是直播 AI 创作的曲子。OpenAI CTO Greg Brockman 都奚落说:「六个月前我也想不到我们会把直播频道的分类从 DOTA2 换成音乐和演出」。 直播的主角是 OpenAI 新缔造的作曲 AI「MuseNet」,它可以创作差异气魄威风凛凛的、时长达 4 分钟的乐曲,气魄威风凛凛可以按照差异的作曲者变革(巴赫、贝多芬、Oscar Peterson、Frank Sinatra、Bon Jovi)、差异的气魄威风凛凛变革(Jazz、Albeniz、影戏配乐、村子、印度宝莱坞、迪士尼),并且乐曲中可以行使 10 种差异的乐器。「MuseNet」行使的是和前段时刻 OpenAI 的文本天生模子 GPT-2 相同的大局限 Transformer 模子,并且为了加强它的长序列建模手段,「MuseNet」一ü用了雷锋网 AI 科技评述方才先容过的稀少留意力技能。继前次用 GPT-2 天生靠近人类水准的随笔之后,OpenAI 俨然已经成为了长序列建模的小妙手。 进修音乐事实是一件有难度的使命,差异的乐器有差异的音色,差异的曲风也有各自的微布局。以是 OpenAI 的做法是让模子进修并猜测 MIDI (音符、节制参数等构成的数字音频信号,可以用 MIDI 播放器播放),而不是进修原始音频波形;同时 OpenAI 也为模子计划了对应作曲者和乐器的 token,简化数据参数。 在稀少 Transformer 的从头计较以及优化过的焦点辅佐下,MuseNet 被计划为一个 72 层、具有 24 个留意力头的收集,它可以在 4096 个元素长度的内容长举办完备的留意力操纵。正由于它可以或许处理赏罚的序列足够长,以是它可以记着曲子中的长段布局,完成段落的一再以及变革。 为了让模子更好地节制乐曲主体内容的布局,OpenAI 为模子计划了多种差异的嵌入。除了正常的位置嵌入之外,他们特殊让模子进修一个嵌入,用它来追踪每个样本中已经颠末的时刻。这样,全部同时响起的音符城市具有同样的时刻嵌入。他们还为和弦中的每个音符增进了一个嵌入(这种做法相同于相对留意力,当模子必要天生第四个音符的时辰它会提供第三个音符作为参考,也就让模子更轻易进修)。最后,他们还增进了两种差异的布局嵌入,它们的配合浸染是汇报模子某一段音乐在更大的曲目范畴内的位置;个中,第一个嵌入会把大段音乐分为128个部门,第二个嵌入会从127到0倒数,暗示间隔末了尚有多远。 模子的结果是惊人的,不只当天的 Twitch 直播中演示的差异气魄威风凛凛的曲目辨识度高、旋律天然,并且 OpenAI 在先容博客中展示的混搭天生功效(从某首知名乐曲中取一个末节作为开头,然后让模子以其他的气魄威风凛凛续写,模子会给出四种功效),以及好奇的网友们操作 OpenAI 提供的试验器材天生的乐曲都让各人无比信服。我们保举各人到 MuseNet 的官方先容页面亲身实行混搭续写器材以及听听已有的天生乐曲。
OpenAI 还按照嵌入的进修功效建造了差异作曲者之间的相似度相关图,也和我们一般的认知很是符合。 在 OpenAI 的研究职员们看来,音乐天生使命的难度介于文本和图像之间,它具有和文原形同的机动的序列布局(好比图像中可以牢靠地参照前 N 个元素,而文本和音乐中的这个数字巨细是不牢靠的)。他们网络了实习数据集并实行了差异的实习能力。 这项研究其实是活跃风趣,OpenAI 也但愿各人多多参加勾当,多多接头和反馈,也辅佐他们选定这项研究的下一步方针。果真参加的时刻一向一连到 5 月 12 日,各人快到 openai.com/blog/musenet/ 玩玩听听看吧! 本文转自雷锋网,如需转载请至雷锋网官网申请授权。 【编辑保举】
点赞 0 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |