AI終於攻破音樂:新歌金曲都能高仿,還會唱Rap

2020-12-09 手機鳳凰網

連走調的部分都和人類很像

——

文|杜晨 編輯|Vicky Xiao

註:本作品著作權歸PingWest品玩/矽星人獨家所有,授權深圳市騰訊計算機系統有限公司獨家享有信息網絡傳播權,任何第三方未經授權,不得轉載

基於機器學習技術的人工智慧,在最近十年已經變得非常先進,在計算機圖像識別領域,現在已經廣泛應用在自動駕駛、機器人、手機拍照濾鏡等眾多領域;語音識別技術也有很大的突破,人工智慧現在已經可以準確「聽懂」世界上每一種主流語言,甚至包括中國流行的方言。

更為強大的生成式神經網絡模型,近幾年非常熱門。利用到 DeepFake 技術中,可以讓換臉視頻以假亂真;谷歌前年發布的 Duplex 技術,生成的機器人語音可以代替客服接聽電話,效果令人震驚。

最近,人工智慧再一次實現重大突破:

OpenAI 開發的一個全新的神經網絡,不僅能夠生成流行風格的音樂,「編」出的曲子風格還可以和現實中的音樂人實現「高仿」。

OpenAI 給它取名叫 Jukebox,中文就是點唱機,大概意思是點什麼唱什麼,沒有難不倒它的……

只要你給這個神經網絡提供音樂的類型 (genre)、參考的歌手和歌詞作為輸入,它就能自動生成對應的音樂。

而且它還有多種工作模式。

1)跨界合作:把歌手A的歌詞和B的風格/唱腔混搭在一起,生成一首「跨界合作」單曲;

2)歌曲補完:把一首歌的前12秒輸入進去,Jukebox 可以自動補完這首歌,而且風格竟然和原版歌曲還挺像;

3)自造歌曲:藉助 OpenAI 此前開發的文字生成模型,Jukebox 能把生成的歌詞插到給定的風格、歌手身上,生成一首全新歌曲。

有這麼厲害麼?不聽不知道,一聽嚇一跳。

先來感受下第一首歌,用埃米納姆 Lose Yourself 的歌詞,配上了坎爺 Kanye West 的曲風和唱腔。

這兩位從未合作過的殿堂級說唱巨星,終於在人工智慧的幫助下「你中有我,我中有你」了:風格混搭再來演示一下歌曲補完的效果。    OpenAI 的研究人員餵了一段火星哥 Bruno Mars 的金曲 Uptown Funk,從視頻12秒之後的都是 Jukebox 自己生成補完的。

感覺神經網絡跟「哈利路亞」這句較上勁了:    最後,再讓我們來看一下 OpenAI 的「人工智慧套娃」:    用 GPT-2 生成模型發明的歌詞,再扔到 Jukebox 裡,讓它自己編出一首歌。

這首歌借用的是水果姐 Katy Perry 的風格。    據聽過的網友表示,這首歌貌似還混了一點A妹 Ariana Grande 和 Radiohead 的風格金曲:微信文章只能放三條視頻,不過 OpenAI 還有成百上千條 Jukebox 生成的樣歌,你可以到 https://jukebox.openai.com/ 網站上面試聽。

比如這首四分之一 Frank Sinatra + 四分之三 Alan Jackson 演唱的流行+鄉村風格 City of Stars……真是聞所未聞的混搭風格。

Jukebox 實現了哪些突破?

截至 Jukebox 之前,已知的基於機器學習的音樂生成技術,已經能夠整合多種樂器的音色,生成複雜的音樂。

但是有一件事一直以來困擾著研究者:用人工智慧無法生成音樂中重現人聲,捕捉不同人的不同的音色和聲音動態和表達風格。

研究者們試過一些手段,比如在符號層面生成再用音頻渲染,或者採用風格遷移的方式,但是效果都不好。

OpenAI 決定採用直接在原始音頻層級(音頻文件的數字浮點層面)上開展工作。 但是如果用 44.1kHz率,就意味著每秒鐘有4.41萬次採樣,計算量太大。所以他們決定採用 VQ-VAE (vector quantization variational autoencoder),一種可以用於圖像、音頻和語言的,編碼-解碼式的生成模型。

OpenAI 的實現邏輯,簡單來說就是先把原始音頻編碼成數據,訓練,然後再用解碼器重建成音頻。

也正是通過這種方式,Jukebox 在更高工作效率和歌曲擬真程度基礎上,還能生成多變的、以假亂真的人聲。

論文中的流程圖:

更容易理解的示意圖:

首先需要一個壓縮的過程,用卷積神經網絡 (CNN) 作為一個編碼器模型,將原始 44.1kHz 採樣率的音頻數據壓縮到每秒鐘344個採樣,作為訓練素材。

在壓縮的步驟中,OpenAI 使用的就是 VQ-VAE 模型,並且加上了三個層級,分別壓縮8倍、32倍和128倍,倍數越高壓縮掉的細節越多,但是仍能夠保留素材本身的音調、音色等關鍵信息。

到了生成的步驟, 用訓練好的神經網絡模型 (transormer) 生成新的音頻,再用 transformer 和 CNN 進行上採樣 (upsample) 和解碼。

生成的過程中同樣進行了三次上採樣,最高一層生成基礎旋律和歌唱,中間和底層則為歌曲增加更多的音色細節,顯著提高最終生成歌曲的音質。

當生成步驟的模型訓練完成後,你可以簡單理解為,OpenAI 的研究人員已經獲得了不同的音樂類型、歌手和歌詞所對應的「代碼」。接下來,前面壓縮的部分就不再需要了,只需要輸入對應的代碼,生成模型就可以開始解碼並自動生成一首類型、歌手和歌詞對應的新歌。

Jukebox 訓練細節

在訓練數據方面,OpenAI 製作了一個超過120萬首歌(其中60萬首英文歌)的資料庫,配上歌詞網站抓取了對應的歌詞和元數據。

然後,按照前面提到的流程,對原始的音頻數據進行下採樣,還混合了左右聲道來生成單聲道的音頻。

研究者訓練 transformer 去預測壓縮後的音頻數據點 (audio token),再把對應的元數據(比如歌曲類型和歌手)一起加入。這樣在後續的生成步驟中,他們就可以更換不同的歌手和類型,讓同一段原始數據可以生成千變萬化的不同歌曲。

在無監督學習的前提下,transformer 能夠獲得將風格近似的歌手自動歸類的能力。以下就是模型自己學習出來的分類結果:

接下來,更難的挑戰來了:如何把歌詞數據加入到訓練過程裡。

網上找到的歌詞,往往跟歌曲對應的不是很好,比如歌曲裡重複的段落在歌詞裡沒有重複,比如同一首歌被多人演唱過,所以歌詞不能直接拿來用。

訓練過程中還發現,歌詞處理對於嘻哈音樂是最困難的(可能是因為重複的實在太多了……)

所以研究者又加上了新的基於神經網絡的工具:Spleeter,可以從歌曲中提取人聲進行語音識別;NUS AutoLyricsAlign,把歌詞和歌曲進行對齊;注意力機制,讓解碼出來的音樂,隨著播放的進度,注意歌詞編碼的位置變化:

這個注意力機制值得稍微展開一講。上圖中的橫軸是音樂進度,縱軸是歌詞進度,可以看到這條線大部分時候是實的,偶爾會有模糊的地方,就是歌曲到哪裡不知道該唱什麼了……

這種意外在 OpenAI 提供的樣歌裡經常出現,比如你可以回去聽一下埃米納姆和坎爺的那首 Lose Yourself,會發現到後半部分歌詞就完全亂了,完全真不知道它想唱什麼。然後有時能重新找到歌詞,有些再也找不回來。

下圖更明顯:閃過橙色的位置就是當前模型對歌詞的注意力所在的區域,能看到可以看到歌詞先是順著走了一小段,然後就跑到九霄雲外了,像是喝醉了一樣……

(是不是有點像照著歌詞本學一首新歌時找不到北的感覺?)

Jukebox 的局限和展望

Jukebox 在生成的音樂素質、連貫性、樣歌長度和可調節自由度等方面,都足以代表人工智慧音樂生成的頂端水平。不過 OpenAI 指出,它還有很多不足的方面,和人類創造的音樂還差很遠。

1)在流行的音樂種類下無法復現人類常見的歌曲結構,比如副歌的重複等等;

2)壓縮和上採樣的過程會帶來明顯的噪音——不過這一點網友似乎沒有太多意見,有些人反而覺得有種矽膠和電臺時代的迷人音質;

3)讓一首歌到達能聽的程度,生成所需的時間在9個小時左右,所以暫時沒辦法把它開發成一個產品去使用;

4)目前主要聚焦於英語歌曲,不過未來團隊也希望能夠訓練更多語種。

雖然已經發布了 Jukebox,OpenAI 仍在持續進行改進。比如,他們正在測試在壓縮過程中引入 MIDI 文件調節,從而提高生成樣歌的音樂性 (musicality),並且已經取得了初步成功。這有助於在未來讓更多音樂人可以利用 Jukebox 背後的技術。

其它 AI 生成音樂技術

自動音樂生成其實已經不是一項很新的技術了。即使在人工智慧的方向上,也已經有很多前序的研究,其中有不少也啟發了 Jukebox。

已知最早的利用計算機算法生成音樂的案例是在1960年,由俄羅斯科學家 R. Zaripov 在烏拉爾一號計算機上實現的。

1997年,UC Santa Cruz 教授 David Cope 開發的軟體 EMI,在一次音樂領域的圖靈測試中順利通過了考驗:它生成的一首作品因為和巴赫的風格實在太像,一度被聽眾以為是遺失的作品。

反而同場競技的音樂教授 Steve Larson 自己寫的一首曲子被認為像是計算機寫的……

David Cope

OpenAI 在去年就曾發布過一個早期版本的人工智慧音樂生成模型 MuseNet。它可以結合最多10種不同樂器的音色,生成古典、搖滾、鄉村等多種不同風格,長達4分鐘的樂曲(不包含歌唱)。

MuseNet 和 Jukebox 類似,也利用了 OpenAI 在 GPT-2 生成模型上的研究。理論上,GPT-2 背後的技術是預測下一個 token,此前我們感受過它寫詩和編假新聞的能力,當然它同樣也可以把 token 從文字換成音樂。

研究人員先是給了 Adele 的 Someone like You 幾個音節的前奏,在其中一條生成的結果中,MuseNet 預測出的隨後幾個音節和原歌幾乎一模一樣,不過再往後就跑偏了……不過仍堪稱非常令人驚訝的結果。

商業視頻需要音樂伴奏,不過尋找最適合一條視頻的音樂往往不是件容易的事情,找到了之後還要尋找授權,難上加難。Aiva 就是專門解決這個問題的。

這是一家由計算機科學家和音樂人組成的公司,他們開發的同名人工智慧 Aiva 能夠根據用戶指定的風格需要,生成全新、不需要擔心版權的歌曲。

它能夠駕馭的曲風包括電影背景音、電子樂、流行、古典、交響、爵士、中國風、海盜歌等等。包括英偉達、沃達豐、TED 等知名公司和機構都在使用。

相關焦點

  • RAP新歌放出,搭配街舞食用效果更佳!
    就是街舞》更是燃爆全網,這位通告漫天飛的大忙人最近又放出了自己的新歌《HATER》。昨日,黃子韜在個人微博上正式放出了最新單曲《HATER》,而這首中文rap新歌也是2018年以來韜韜的第二首原創大作,這樣的速度可謂高產!
  • 曹格「一天」攻破汪小敏心房 對唱情歌濃情比翼
    由於和種子音樂的好交情及邀約,曹格再次以創作玩轉穿越,親自譜寫、製作最新戀人互動式情歌,並將其視為《梁山伯與茱麗葉》進階版的—《One Day》,要與「春晚最美女神」之稱的汪小敏,濃情比翼《一天》的合唱情緣。
  • 麥克瘋北京演唱會金曲新歌連連唱 專輯火熱上線
    近日,亞洲頂級人聲樂團麥克瘋Micappella攜帶新專輯《MICappella Reloaded》火熱來襲,不同於《那些年的小幸運》、《王妃》等之前紅遍網絡的翻唱,這次的新專輯以原創為主,曲風上也多了一些rap
  • 30秒唱288英文單詞!天賜的聲音王力宏rap絕技徵服酷我音樂歌迷
    4月25晚《天賜的聲音》第九期節目高品質正版音源酷我音樂傾情上線,吳青峰、動力火車、品冠、阿肆、那吾克熱、高進、高嘉朗悉數亮相傾情獻唱,王力宏更與那吾克熱合作《飄向北方》展開精彩絕倫說唱battle,酷我音樂好評爆裂再奪當期節目歌曲榜頭名,王力宏也憑藉《飄向北方》蟬聯天賜舞臺推薦金曲。
  • 「十大金曲」一首沒聽過,當今流行音樂式微了,還是更繁榮了?
    上榜金曲讓不少市民直言「不知道」到了年底,又是各類媒體、公眾號音樂回顧盤點的時刻,然而和羅玥一樣「十大金曲一首也沒聽過」的人還不少,有些市民甚至表示「早就不知道現在流行音樂在唱什麼」。遙想當年,從「四大天王」到陳奕迅、周杰倫,乃至「廣場舞」至愛的鳳凰傳奇,每年的熱門流行歌曲大家不僅耳熟能詳,且很多人幾乎都能哼唱幾段。這樣的變化在不同的人看來原因截然不同:有人認為這說明流行音樂的沒落,難再產生獲得廣泛認同的真正「金曲」,但也有人認為這說明音樂普及更加廣泛、資源更加豐富,大眾的喜好產生了分流。
  • 《中國新說唱》2019最新金曲上線 強者「神仙打架」
    製作人合作表演金曲再現吳亦凡「破曉」表達豁達心態今晚,眾人氣rapper將與製作人合作表演,競逐全國八強名額。日前,節目官方微博驚喜劇透吳亦凡在合作表演中,上演其全新單曲《破曉》,同時吳亦凡還大送福利,自曝新歌歌詞版MV,其歌詞盡顯從容心境,深情表達孤獨之心。其中所表達的人生態度,被網友評為繼《大碗寬面》之後再現豁達心境。
  • 林俊傑首唱新歌寒冬添暖意!北方漢子羽泉如何改編粵語金曲?
    不覺2017年僅剩三天,浙江衛視vivo《夢想的聲音2》本周五也將播出今年最後一期節目,《夢聲2》的導師團成員在此前的每一集都通過音樂釋放出源源不斷的超能量,到了辭舊迎新的新年特輯節目,他們首次齊上陣,勇攀唱功高峰
  • 蔡徐坤斬獲華語金曲獎,卻唱首英文歌,網友喊話周杰倫:快點寫歌
    蔡徐坤斬獲華語金曲獎,卻唱一首英文歌,網友喊話周杰倫:快點寫歌!華語歌壇人才輩出,這麼久以來也有不少經典歌曲流傳下來。而作為華語歌壇重要獎項的金曲獎,自然也成為了判斷歌手水平的標杆。近日,2019愛奇藝尖叫之夜華人歌曲音樂盛典華語金曲獎得主誕生,他就是蔡徐坤。蔡徐坤近些日子來的熱度一直保持高位,一些關於他的話題也層出不窮。如今獲得了金曲獎,想必又將泛起一陣波瀾!
  • 《歌手2019》總決賽劉歡問鼎歌王,吳青峰唱哭觀眾QQ音樂獲近百萬贊
    不少歌手還會錄製視頻號召粉絲前往QQ音樂人氣金曲榜聽歌點讚,所以不管是歌手還是樂迷粉絲都非常看重《歌手2019》QQ音樂最佳人氣金曲花落誰家。最終,摩登兄弟劉宇寧的《動物世界》以3981.7萬的支持量榮登榜首,拿下《歌手2019》QQ音樂最佳人氣金曲!
  • 2012廣州新音樂十大金曲出爐 東山少爺新歌奪金
    啟動的首場活動即為廣州市民帶來一場廣州流行樂壇精彩絕倫的年度大戲:廣州新音樂十大金曲排行榜2012年度頒獎音樂會。在2012年12月2日頒出第三季度十首金曲後,廣州新音樂十大金曲排行榜旋即進入年度評選階段並且在12月18日完成年度十大金曲以及各專業獎項的評選。
  • 蘇打綠時隔三年重新結集 推出新歌
    原標題:蘇打綠時隔三年重新結集 推出新歌:這是一首屬於任何需要鼓勵的人的歌 經過3年休團,蘇打綠終於再聚首全新出發:3年後的第一首全新單曲《Tomorrow will be fine》,選在2月24日正式發表。而在此前一晚吳青峰的臺北小巨蛋演唱會上,蘇打綠6人重新合體為歌迷奉上經典與新歌,也成了當晚的「大彩蛋」。
  • 蔡徐坤官宣新歌,憑藉英文歌拿下華語金曲獎,周杰倫汪峰表情各異
    蔡徐坤今日,蔡徐坤工作室蔡徐坤在社交媒體上官宣了新歌《蒙著眼》的創作,用音樂來回應所謂的爭議。「有一段rap的部分完全是宣洩發洩的,表達了自己其實覺得是不公平的。蔡徐坤官宣新歌事實上,蔡徐坤曾在《青春芒果夜》中獻唱《蒙著眼》,與《young》一樣,《蒙著眼》唱出了蔡徐坤內心的想法,這段時間以來,蔡徐坤已經遭到了很多網絡語言暴力,面對網絡上的爭議
  • 終於等到了!吳若希哭訴唱了多年都是電視歌 終於有一首自己的歌
    吳若希Jinny今日(3日)又再開IG Live宣傳自己的新歌《這位蠢才》,而今次IG Live的內容是Jinny接受商臺節目《叱吒樂壇》訪問,透過視頻與聽眾分享新歌《這位蠢才》的製作和心情。但原本與主持人謝茜嘉傾得興起,豈料一提到「非劇集歌」時,她卻突然爆喊,聲淚俱下:「其實這個機會我都爭取了好多年,所以我好珍惜這次的機會,我不知道下一次是什麼時候......其實是真的很感動!我派歌之後就收到好多朋發訊息給我,說我唱歌真的好好聽,多謝你。還跟我說這兩年都沒怎麼聽我唱歌,因為好多時都是電視劇的主題曲或片尾曲,Jinny再度泣不成聲,同時亦希望大家可以見到自己的努力和付出。
  • 周杰倫發布新歌 曲風讓人不知所措,新單曲「mojito」QQ音樂崩潰
    大家好,我是小二黑,周杰倫終於出新歌了,接下來一起來了解一下哦。等了這麼久,周杰倫終於再推新單曲,看來華語樂壇又要動蕩了,用音樂環遊世界的他,這次帶領大家來到充滿音樂,舞蹈的迷幻之城「古巴」全曲主旋律用的是拉丁舞曲,用恰恰鋪底加入了一點點的桑巴,最狠的是rap部分竟然用了兩個唱調。
  • 《我們的歌》小鬼終於不唱rap了,卻成了站在舞臺中央的伴唱!
    《我們的歌》團戰第二輪依然是「縱橫四海」對陣「綺幻旅晨中國風」,要說本期節目有什麼看點的話,那就是小鬼還要繼續唱rap嗎?由於小鬼在《我們的歌》中一直在唱rap,而且不論唱得是什麼歌,都得加入一段rap。
  • 周杰倫新歌《Mojito》上線 銷量突破250萬張 來當貝酷狗音樂一鍵...
    6月12日零點,周杰倫新歌《Mojito》在QQ音樂正式上線,歌曲MV也同步出爐。歌曲上線後,一度造成系統崩潰,上線1小時,平臺銷售即突破百萬張,截至到10點,四個音樂平臺累積總銷售量超過250萬張。更有網友留言說:「這麼多年了一點長進都沒有,還是宇宙第一。」但不得不承認,這並不是一句多麼誇張的話。《Mojito》是一首古巴風味的異域情歌,周董親自作曲,邀請黃俊郎作詞,歌名的意思是莫吉託雞尾酒。歌曲節奏輕快,讓人忍不住跟著音樂起舞,很適合夏天聽。在這個炎熱的夏日,你確定不來一杯Mojito嗎?
  • 超級大咖齊聚「KKBOX風雲榜」飆唱熱門金曲
    華語音樂年度盛事KKBOX風雲榜,將於1月20日於高雄巨蛋舉辦!新專輯《C’mon in~》再獲得空前好成績,K歌之神實力魅力大發威,不是第一次在風雲榜舞臺表演的他,非常注重今年在高雄的演出,特別邀請多年的音樂夥伴,金曲獎製作人Jim Lee(李振權)做為Eason這次風雲榜演出的音樂總監,這次除了將有新作品登場外,也有歷年金曲串燒!▲陳奕迅將帶來歷年金曲串燒。
  • 金曲歌后艾怡良樂人+LIVE內地首唱 致不想忘記的名字們
    金曲歌后艾怡良樂人+LIVE內地首唱 致不想忘記的名字們 時間:2019-08-09 15:46:37 作者:王佳 來源:中國網
  • 「臺灣音樂風雲榜」華晨宇強勢三連冠,庾澄慶蕭敬騰新歌衝亞軍!
    本周亞軍歌曲是由兩大金曲歌王庾澄慶與蕭敬騰聯手演繹的「音樂超氣派」,這首充滿復古味的迪斯科曲風,由金曲作詞人李焯雄填詞,以「音樂跨世代 不唱不快 管你是什麼門派 好聽我就來」貫穿整出音樂劇的核心精神,並將古書中有關音樂的記載節錄下來,配上哈林音樂風潮代表之一的饒舌,呈現古今交融的復古流行風情。
  • 《金曲撈》:撈金曲永遠在路上
    原標題:《金曲撈》:撈金曲永遠在路上   在所有的節目類型中,音樂節目是相對保險、永不過時的,然而模式和形態卻最難出新。翻翻近年來我們看過的音樂綜藝,要麼選秀,承諾素人一唱成名;要麼歌手競技,讓成名的歌手回爐再造;要麼將二者勾兌,衍生出演員跨界KTV。