AI終於攻破音樂:新歌金曲都能高仿,還會唱Rap

2020-12-09 手機鳳凰網

連走調的部分都和人類很像

——

文｜杜晨編輯｜Vicky Xiao

註：本作品著作權歸PingWest品玩/矽星人獨家所有，授權深圳市騰訊計算機系統有限公司獨家享有信息網絡傳播權，任何第三方未經授權，不得轉載

基於機器學習技術的人工智慧，在最近十年已經變得非常先進，在計算機圖像識別領域，現在已經廣泛應用在自動駕駛、機器人、手機拍照濾鏡等眾多領域；語音識別技術也有很大的突破，人工智慧現在已經可以準確「聽懂」世界上每一種主流語言，甚至包括中國流行的方言。

更為強大的生成式神經網絡模型，近幾年非常熱門。利用到 DeepFake 技術中，可以讓換臉視頻以假亂真；谷歌前年發布的 Duplex 技術，生成的機器人語音可以代替客服接聽電話，效果令人震驚。

最近，人工智慧再一次實現重大突破：

OpenAI 開發的一個全新的神經網絡，不僅能夠生成流行風格的音樂，「編」出的曲子風格還可以和現實中的音樂人實現「高仿」。

OpenAI 給它取名叫 Jukebox，中文就是點唱機，大概意思是點什麼唱什麼，沒有難不倒它的……

只要你給這個神經網絡提供音樂的類型 (genre)、參考的歌手和歌詞作為輸入，它就能自動生成對應的音樂。

而且它還有多種工作模式。

1）跨界合作：把歌手A的歌詞和B的風格/唱腔混搭在一起，生成一首「跨界合作」單曲；

2）歌曲補完：把一首歌的前12秒輸入進去，Jukebox 可以自動補完這首歌，而且風格竟然和原版歌曲還挺像；

3）自造歌曲：藉助 OpenAI 此前開發的文字生成模型，Jukebox 能把生成的歌詞插到給定的風格、歌手身上，生成一首全新歌曲。

有這麼厲害麼？不聽不知道，一聽嚇一跳。

先來感受下第一首歌，用埃米納姆 Lose Yourself 的歌詞，配上了坎爺 Kanye West 的曲風和唱腔。

這兩位從未合作過的殿堂級說唱巨星，終於在人工智慧的幫助下「你中有我，我中有你」了：風格混搭再來演示一下歌曲補完的效果。 OpenAI 的研究人員餵了一段火星哥 Bruno Mars 的金曲 Uptown Funk，從視頻12秒之後的都是 Jukebox 自己生成補完的。

感覺神經網絡跟「哈利路亞」這句較上勁了：最後，再讓我們來看一下 OpenAI 的「人工智慧套娃」： 用 GPT-2 生成模型發明的歌詞，再扔到 Jukebox 裡，讓它自己編出一首歌。

這首歌借用的是水果姐 Katy Perry 的風格。 據聽過的網友表示，這首歌貌似還混了一點A妹 Ariana Grande 和 Radiohead 的風格金曲：微信文章只能放三條視頻，不過 OpenAI 還有成百上千條 Jukebox 生成的樣歌，你可以到 https://jukebox.openai.com/ 網站上面試聽。

比如這首四分之一 Frank Sinatra + 四分之三 Alan Jackson 演唱的流行+鄉村風格 City of Stars……真是聞所未聞的混搭風格。

Jukebox 實現了哪些突破？

截至 Jukebox 之前，已知的基於機器學習的音樂生成技術，已經能夠整合多種樂器的音色，生成複雜的音樂。

但是有一件事一直以來困擾著研究者：用人工智慧無法生成音樂中重現人聲，捕捉不同人的不同的音色和聲音動態和表達風格。

研究者們試過一些手段，比如在符號層面生成再用音頻渲染，或者採用風格遷移的方式，但是效果都不好。

OpenAI 決定採用直接在原始音頻層級（音頻文件的數字浮點層面）上開展工作。但是如果用 44.1kHz率，就意味著每秒鐘有4.41萬次採樣，計算量太大。所以他們決定採用 VQ-VAE (vector quantization variational autoencoder)，一種可以用於圖像、音頻和語言的，編碼-解碼式的生成模型。

OpenAI 的實現邏輯，簡單來說就是先把原始音頻編碼成數據，訓練，然後再用解碼器重建成音頻。

也正是通過這種方式，Jukebox 在更高工作效率和歌曲擬真程度基礎上，還能生成多變的、以假亂真的人聲。

論文中的流程圖：

更容易理解的示意圖：

首先需要一個壓縮的過程，用卷積神經網絡 (CNN) 作為一個編碼器模型，將原始 44.1kHz 採樣率的音頻數據壓縮到每秒鐘344個採樣，作為訓練素材。

在壓縮的步驟中，OpenAI 使用的就是 VQ-VAE 模型，並且加上了三個層級，分別壓縮8倍、32倍和128倍，倍數越高壓縮掉的細節越多，但是仍能夠保留素材本身的音調、音色等關鍵信息。

到了生成的步驟，用訓練好的神經網絡模型 (transormer) 生成新的音頻，再用 transformer 和 CNN 進行上採樣 (upsample) 和解碼。

生成的過程中同樣進行了三次上採樣，最高一層生成基礎旋律和歌唱，中間和底層則為歌曲增加更多的音色細節，顯著提高最終生成歌曲的音質。

當生成步驟的模型訓練完成後，你可以簡單理解為，OpenAI 的研究人員已經獲得了不同的音樂類型、歌手和歌詞所對應的「代碼」。接下來，前面壓縮的部分就不再需要了，只需要輸入對應的代碼，生成模型就可以開始解碼並自動生成一首類型、歌手和歌詞對應的新歌。

Jukebox 訓練細節

在訓練數據方面，OpenAI 製作了一個超過120萬首歌（其中60萬首英文歌）的資料庫，配上歌詞網站抓取了對應的歌詞和元數據。

然後，按照前面提到的流程，對原始的音頻數據進行下採樣，還混合了左右聲道來生成單聲道的音頻。

研究者訓練 transformer 去預測壓縮後的音頻數據點 (audio token)，再把對應的元數據（比如歌曲類型和歌手）一起加入。這樣在後續的生成步驟中，他們就可以更換不同的歌手和類型，讓同一段原始數據可以生成千變萬化的不同歌曲。

在無監督學習的前提下，transformer 能夠獲得將風格近似的歌手自動歸類的能力。以下就是模型自己學習出來的分類結果：

接下來，更難的挑戰來了：如何把歌詞數據加入到訓練過程裡。

網上找到的歌詞，往往跟歌曲對應的不是很好，比如歌曲裡重複的段落在歌詞裡沒有重複，比如同一首歌被多人演唱過，所以歌詞不能直接拿來用。

訓練過程中還發現，歌詞處理對於嘻哈音樂是最困難的（可能是因為重複的實在太多了……）

所以研究者又加上了新的基於神經網絡的工具：Spleeter，可以從歌曲中提取人聲進行語音識別；NUS AutoLyricsAlign，把歌詞和歌曲進行對齊；注意力機制，讓解碼出來的音樂，隨著播放的進度，注意歌詞編碼的位置變化：

這個注意力機制值得稍微展開一講。上圖中的橫軸是音樂進度，縱軸是歌詞進度，可以看到這條線大部分時候是實的，偶爾會有模糊的地方，就是歌曲到哪裡不知道該唱什麼了……

這種意外在 OpenAI 提供的樣歌裡經常出現，比如你可以回去聽一下埃米納姆和坎爺的那首 Lose Yourself，會發現到後半部分歌詞就完全亂了，完全真不知道它想唱什麼。然後有時能重新找到歌詞，有些再也找不回來。

下圖更明顯：閃過橙色的位置就是當前模型對歌詞的注意力所在的區域，能看到可以看到歌詞先是順著走了一小段，然後就跑到九霄雲外了，像是喝醉了一樣……

（是不是有點像照著歌詞本學一首新歌時找不到北的感覺？）

Jukebox 的局限和展望

Jukebox 在生成的音樂素質、連貫性、樣歌長度和可調節自由度等方面，都足以代表人工智慧音樂生成的頂端水平。不過 OpenAI 指出，它還有很多不足的方面，和人類創造的音樂還差很遠。

1）在流行的音樂種類下無法復現人類常見的歌曲結構，比如副歌的重複等等；

2）壓縮和上採樣的過程會帶來明顯的噪音——不過這一點網友似乎沒有太多意見，有些人反而覺得有種矽膠和電臺時代的迷人音質；

3）讓一首歌到達能聽的程度，生成所需的時間在9個小時左右，所以暫時沒辦法把它開發成一個產品去使用；

4）目前主要聚焦於英語歌曲，不過未來團隊也希望能夠訓練更多語種。

雖然已經發布了 Jukebox，OpenAI 仍在持續進行改進。比如，他們正在測試在壓縮過程中引入 MIDI 文件調節，從而提高生成樣歌的音樂性 (musicality)，並且已經取得了初步成功。這有助於在未來讓更多音樂人可以利用 Jukebox 背後的技術。

其它 AI 生成音樂技術

自動音樂生成其實已經不是一項很新的技術了。即使在人工智慧的方向上，也已經有很多前序的研究，其中有不少也啟發了 Jukebox。

已知最早的利用計算機算法生成音樂的案例是在1960年，由俄羅斯科學家 R. Zaripov 在烏拉爾一號計算機上實現的。

1997年，UC Santa Cruz 教授 David Cope 開發的軟體 EMI，在一次音樂領域的圖靈測試中順利通過了考驗：它生成的一首作品因為和巴赫的風格實在太像，一度被聽眾以為是遺失的作品。

反而同場競技的音樂教授 Steve Larson 自己寫的一首曲子被認為像是計算機寫的……

David Cope

OpenAI 在去年就曾發布過一個早期版本的人工智慧音樂生成模型 MuseNet。它可以結合最多10種不同樂器的音色，生成古典、搖滾、鄉村等多種不同風格，長達4分鐘的樂曲（不包含歌唱）。

MuseNet 和 Jukebox 類似，也利用了 OpenAI 在 GPT-2 生成模型上的研究。理論上，GPT-2 背後的技術是預測下一個 token，此前我們感受過它寫詩和編假新聞的能力，當然它同樣也可以把 token 從文字換成音樂。

研究人員先是給了 Adele 的 Someone like You 幾個音節的前奏，在其中一條生成的結果中，MuseNet 預測出的隨後幾個音節和原歌幾乎一模一樣，不過再往後就跑偏了……不過仍堪稱非常令人驚訝的結果。

商業視頻需要音樂伴奏，不過尋找最適合一條視頻的音樂往往不是件容易的事情，找到了之後還要尋找授權，難上加難。Aiva 就是專門解決這個問題的。

這是一家由計算機科學家和音樂人組成的公司，他們開發的同名人工智慧 Aiva 能夠根據用戶指定的風格需要，生成全新、不需要擔心版權的歌曲。

它能夠駕馭的曲風包括電影背景音、電子樂、流行、古典、交響、爵士、中國風、海盜歌等等。包括英偉達、沃達豐、TED 等知名公司和機構都在使用。

AI終於攻破音樂:新歌金曲都能高仿,還會唱Rap

相關焦點

RAP新歌放出,搭配街舞食用效果更佳!

曹格「一天」攻破汪小敏心房對唱情歌濃情比翼

麥克瘋北京演唱會金曲新歌連連唱專輯火熱上線

30秒唱288英文單詞!天賜的聲音王力宏rap絕技徵服酷我音樂歌迷

「十大金曲」一首沒聽過,當今流行音樂式微了,還是更繁榮了?

《中國新說唱》2019最新金曲上線強者「神仙打架」

林俊傑首唱新歌寒冬添暖意!北方漢子羽泉如何改編粵語金曲?

蔡徐坤斬獲華語金曲獎,卻唱首英文歌,網友喊話周杰倫:快點寫歌

《歌手2019》總決賽劉歡問鼎歌王,吳青峰唱哭觀眾QQ音樂獲近百萬贊

2012廣州新音樂十大金曲出爐東山少爺新歌奪金

蘇打綠時隔三年重新結集推出新歌

蔡徐坤官宣新歌,憑藉英文歌拿下華語金曲獎,周杰倫汪峰表情各異

終於等到了!吳若希哭訴唱了多年都是電視歌終於有一首自己的歌

周杰倫發布新歌曲風讓人不知所措,新單曲「mojito」QQ音樂崩潰

《我們的歌》小鬼終於不唱rap了,卻成了站在舞臺中央的伴唱!

周杰倫新歌《Mojito》上線銷量突破250萬張來當貝酷狗音樂一鍵...

超級大咖齊聚「KKBOX風雲榜」飆唱熱門金曲

金曲歌后艾怡良樂人+LIVE內地首唱致不想忘記的名字們

「臺灣音樂風雲榜」華晨宇強勢三連冠,庾澄慶蕭敬騰新歌衝亞軍!

《金曲撈》:撈金曲永遠在路上

AI終於攻破音樂:新歌金曲都能高仿,還會唱Rap

相關焦點

RAP新歌放出,搭配街舞食用效果更佳!

曹格「一天」攻破汪小敏心房 對唱情歌濃情比翼

麥克瘋北京演唱會金曲新歌連連唱 專輯火熱上線

30秒唱288英文單詞!天賜的聲音王力宏rap絕技徵服酷我音樂歌迷

「十大金曲」一首沒聽過,當今流行音樂式微了,還是更繁榮了?

《中國新說唱》2019最新金曲上線 強者「神仙打架」

林俊傑首唱新歌寒冬添暖意!北方漢子羽泉如何改編粵語金曲?

蔡徐坤斬獲華語金曲獎,卻唱首英文歌,網友喊話周杰倫:快點寫歌

《歌手2019》總決賽劉歡問鼎歌王,吳青峰唱哭觀眾QQ音樂獲近百萬贊

2012廣州新音樂十大金曲出爐 東山少爺新歌奪金

蘇打綠時隔三年重新結集 推出新歌

蔡徐坤官宣新歌,憑藉英文歌拿下華語金曲獎,周杰倫汪峰表情各異

終於等到了!吳若希哭訴唱了多年都是電視歌 終於有一首自己的歌

周杰倫發布新歌 曲風讓人不知所措,新單曲「mojito」QQ音樂崩潰

《我們的歌》小鬼終於不唱rap了,卻成了站在舞臺中央的伴唱!

周杰倫新歌《Mojito》上線 銷量突破250萬張 來當貝酷狗音樂一鍵...

超級大咖齊聚「KKBOX風雲榜」飆唱熱門金曲

金曲歌后艾怡良樂人+LIVE內地首唱 致不想忘記的名字們

「臺灣音樂風雲榜」華晨宇強勢三連冠,庾澄慶蕭敬騰新歌衝亞軍!

《金曲撈》:撈金曲永遠在路上

曹格「一天」攻破汪小敏心房對唱情歌濃情比翼

麥克瘋北京演唱會金曲新歌連連唱專輯火熱上線

《中國新說唱》2019最新金曲上線強者「神仙打架」

2012廣州新音樂十大金曲出爐東山少爺新歌奪金

蘇打綠時隔三年重新結集推出新歌

終於等到了!吳若希哭訴唱了多年都是電視歌終於有一首自己的歌

周杰倫發布新歌曲風讓人不知所措,新單曲「mojito」QQ音樂崩潰

周杰倫新歌《Mojito》上線銷量突破250萬張來當貝酷狗音樂一鍵...

金曲歌后艾怡良樂人+LIVE內地首唱致不想忘記的名字們