連走調的部分都和人類很像
——
文|杜晨 編輯|Vicky Xiao
註:本作品著作權歸PingWest品玩/矽星人獨家所有,授權深圳市騰訊計算機系統有限公司獨家享有信息網絡傳播權,任何第三方未經授權,不得轉載
基於機器學習技術的人工智慧,在最近十年已經變得非常先進,在計算機圖像識別領域,現在已經廣泛應用在自動駕駛、機器人、手機拍照濾鏡等眾多領域;語音識別技術也有很大的突破,人工智慧現在已經可以準確「聽懂」世界上每一種主流語言,甚至包括中國流行的方言。
更為強大的生成式神經網絡模型,近幾年非常熱門。利用到 DeepFake 技術中,可以讓換臉視頻以假亂真;谷歌前年發布的 Duplex 技術,生成的機器人語音可以代替客服接聽電話,效果令人震驚。
最近,人工智慧再一次實現重大突破:
OpenAI 開發的一個全新的神經網絡,不僅能夠生成流行風格的音樂,「編」出的曲子風格還可以和現實中的音樂人實現「高仿」。
OpenAI 給它取名叫 Jukebox,中文就是點唱機,大概意思是點什麼唱什麼,沒有難不倒它的……
只要你給這個神經網絡提供音樂的類型 (genre)、參考的歌手和歌詞作為輸入,它就能自動生成對應的音樂。
而且它還有多種工作模式。
1)跨界合作:把歌手A的歌詞和B的風格/唱腔混搭在一起,生成一首「跨界合作」單曲;
2)歌曲補完:把一首歌的前12秒輸入進去,Jukebox 可以自動補完這首歌,而且風格竟然和原版歌曲還挺像;
3)自造歌曲:藉助 OpenAI 此前開發的文字生成模型,Jukebox 能把生成的歌詞插到給定的風格、歌手身上,生成一首全新歌曲。
有這麼厲害麼?不聽不知道,一聽嚇一跳。
先來感受下第一首歌,用埃米納姆 Lose Yourself 的歌詞,配上了坎爺 Kanye West 的曲風和唱腔。
這兩位從未合作過的殿堂級說唱巨星,終於在人工智慧的幫助下「你中有我,我中有你」了:風格混搭再來演示一下歌曲補完的效果。 OpenAI 的研究人員餵了一段火星哥 Bruno Mars 的金曲 Uptown Funk,從視頻12秒之後的都是 Jukebox 自己生成補完的。
感覺神經網絡跟「哈利路亞」這句較上勁了: 最後,再讓我們來看一下 OpenAI 的「人工智慧套娃」: 用 GPT-2 生成模型發明的歌詞,再扔到 Jukebox 裡,讓它自己編出一首歌。
這首歌借用的是水果姐 Katy Perry 的風格。 據聽過的網友表示,這首歌貌似還混了一點A妹 Ariana Grande 和 Radiohead 的風格金曲:微信文章只能放三條視頻,不過 OpenAI 還有成百上千條 Jukebox 生成的樣歌,你可以到 https://jukebox.openai.com/ 網站上面試聽。
比如這首四分之一 Frank Sinatra + 四分之三 Alan Jackson 演唱的流行+鄉村風格 City of Stars……真是聞所未聞的混搭風格。
Jukebox 實現了哪些突破?
截至 Jukebox 之前,已知的基於機器學習的音樂生成技術,已經能夠整合多種樂器的音色,生成複雜的音樂。
但是有一件事一直以來困擾著研究者:用人工智慧無法生成音樂中重現人聲,捕捉不同人的不同的音色和聲音動態和表達風格。
研究者們試過一些手段,比如在符號層面生成再用音頻渲染,或者採用風格遷移的方式,但是效果都不好。
OpenAI 決定採用直接在原始音頻層級(音頻文件的數字浮點層面)上開展工作。 但是如果用 44.1kHz率,就意味著每秒鐘有4.41萬次採樣,計算量太大。所以他們決定採用 VQ-VAE (vector quantization variational autoencoder),一種可以用於圖像、音頻和語言的,編碼-解碼式的生成模型。
OpenAI 的實現邏輯,簡單來說就是先把原始音頻編碼成數據,訓練,然後再用解碼器重建成音頻。
也正是通過這種方式,Jukebox 在更高工作效率和歌曲擬真程度基礎上,還能生成多變的、以假亂真的人聲。
論文中的流程圖:
更容易理解的示意圖:
首先需要一個壓縮的過程,用卷積神經網絡 (CNN) 作為一個編碼器模型,將原始 44.1kHz 採樣率的音頻數據壓縮到每秒鐘344個採樣,作為訓練素材。
在壓縮的步驟中,OpenAI 使用的就是 VQ-VAE 模型,並且加上了三個層級,分別壓縮8倍、32倍和128倍,倍數越高壓縮掉的細節越多,但是仍能夠保留素材本身的音調、音色等關鍵信息。
到了生成的步驟, 用訓練好的神經網絡模型 (transormer) 生成新的音頻,再用 transformer 和 CNN 進行上採樣 (upsample) 和解碼。
生成的過程中同樣進行了三次上採樣,最高一層生成基礎旋律和歌唱,中間和底層則為歌曲增加更多的音色細節,顯著提高最終生成歌曲的音質。
當生成步驟的模型訓練完成後,你可以簡單理解為,OpenAI 的研究人員已經獲得了不同的音樂類型、歌手和歌詞所對應的「代碼」。接下來,前面壓縮的部分就不再需要了,只需要輸入對應的代碼,生成模型就可以開始解碼並自動生成一首類型、歌手和歌詞對應的新歌。
Jukebox 訓練細節
在訓練數據方面,OpenAI 製作了一個超過120萬首歌(其中60萬首英文歌)的資料庫,配上歌詞網站抓取了對應的歌詞和元數據。
然後,按照前面提到的流程,對原始的音頻數據進行下採樣,還混合了左右聲道來生成單聲道的音頻。
研究者訓練 transformer 去預測壓縮後的音頻數據點 (audio token),再把對應的元數據(比如歌曲類型和歌手)一起加入。這樣在後續的生成步驟中,他們就可以更換不同的歌手和類型,讓同一段原始數據可以生成千變萬化的不同歌曲。
在無監督學習的前提下,transformer 能夠獲得將風格近似的歌手自動歸類的能力。以下就是模型自己學習出來的分類結果:
接下來,更難的挑戰來了:如何把歌詞數據加入到訓練過程裡。
網上找到的歌詞,往往跟歌曲對應的不是很好,比如歌曲裡重複的段落在歌詞裡沒有重複,比如同一首歌被多人演唱過,所以歌詞不能直接拿來用。
訓練過程中還發現,歌詞處理對於嘻哈音樂是最困難的(可能是因為重複的實在太多了……)
所以研究者又加上了新的基於神經網絡的工具:Spleeter,可以從歌曲中提取人聲進行語音識別;NUS AutoLyricsAlign,把歌詞和歌曲進行對齊;注意力機制,讓解碼出來的音樂,隨著播放的進度,注意歌詞編碼的位置變化:
這個注意力機制值得稍微展開一講。上圖中的橫軸是音樂進度,縱軸是歌詞進度,可以看到這條線大部分時候是實的,偶爾會有模糊的地方,就是歌曲到哪裡不知道該唱什麼了……
這種意外在 OpenAI 提供的樣歌裡經常出現,比如你可以回去聽一下埃米納姆和坎爺的那首 Lose Yourself,會發現到後半部分歌詞就完全亂了,完全真不知道它想唱什麼。然後有時能重新找到歌詞,有些再也找不回來。
下圖更明顯:閃過橙色的位置就是當前模型對歌詞的注意力所在的區域,能看到可以看到歌詞先是順著走了一小段,然後就跑到九霄雲外了,像是喝醉了一樣……
(是不是有點像照著歌詞本學一首新歌時找不到北的感覺?)
Jukebox 的局限和展望
Jukebox 在生成的音樂素質、連貫性、樣歌長度和可調節自由度等方面,都足以代表人工智慧音樂生成的頂端水平。不過 OpenAI 指出,它還有很多不足的方面,和人類創造的音樂還差很遠。
1)在流行的音樂種類下無法復現人類常見的歌曲結構,比如副歌的重複等等;
2)壓縮和上採樣的過程會帶來明顯的噪音——不過這一點網友似乎沒有太多意見,有些人反而覺得有種矽膠和電臺時代的迷人音質;
3)讓一首歌到達能聽的程度,生成所需的時間在9個小時左右,所以暫時沒辦法把它開發成一個產品去使用;
4)目前主要聚焦於英語歌曲,不過未來團隊也希望能夠訓練更多語種。
雖然已經發布了 Jukebox,OpenAI 仍在持續進行改進。比如,他們正在測試在壓縮過程中引入 MIDI 文件調節,從而提高生成樣歌的音樂性 (musicality),並且已經取得了初步成功。這有助於在未來讓更多音樂人可以利用 Jukebox 背後的技術。
其它 AI 生成音樂技術
自動音樂生成其實已經不是一項很新的技術了。即使在人工智慧的方向上,也已經有很多前序的研究,其中有不少也啟發了 Jukebox。
已知最早的利用計算機算法生成音樂的案例是在1960年,由俄羅斯科學家 R. Zaripov 在烏拉爾一號計算機上實現的。
1997年,UC Santa Cruz 教授 David Cope 開發的軟體 EMI,在一次音樂領域的圖靈測試中順利通過了考驗:它生成的一首作品因為和巴赫的風格實在太像,一度被聽眾以為是遺失的作品。
反而同場競技的音樂教授 Steve Larson 自己寫的一首曲子被認為像是計算機寫的……
David Cope
OpenAI 在去年就曾發布過一個早期版本的人工智慧音樂生成模型 MuseNet。它可以結合最多10種不同樂器的音色,生成古典、搖滾、鄉村等多種不同風格,長達4分鐘的樂曲(不包含歌唱)。
MuseNet 和 Jukebox 類似,也利用了 OpenAI 在 GPT-2 生成模型上的研究。理論上,GPT-2 背後的技術是預測下一個 token,此前我們感受過它寫詩和編假新聞的能力,當然它同樣也可以把 token 從文字換成音樂。
研究人員先是給了 Adele 的 Someone like You 幾個音節的前奏,在其中一條生成的結果中,MuseNet 預測出的隨後幾個音節和原歌幾乎一模一樣,不過再往後就跑偏了……不過仍堪稱非常令人驚訝的結果。
商業視頻需要音樂伴奏,不過尋找最適合一條視頻的音樂往往不是件容易的事情,找到了之後還要尋找授權,難上加難。Aiva 就是專門解決這個問題的。
這是一家由計算機科學家和音樂人組成的公司,他們開發的同名人工智慧 Aiva 能夠根據用戶指定的風格需要,生成全新、不需要擔心版權的歌曲。
它能夠駕馭的曲風包括電影背景音、電子樂、流行、古典、交響、爵士、中國風、海盜歌等等。包括英偉達、沃達豐、TED 等知名公司和機構都在使用。