聽微軟小冰唱粵語歌會是一種怎樣的體驗?
想必你一定聽過最近大火的"AI女團",7月10日,微軟小冰攜手小米小愛、B站冷鳶、百度小度首次集體亮相世界人工智慧大會,以一首AI歌曲《智聯家園》正式「出道」。
AI女團的首場演唱會可謂驚豔全場。從整首歌的歌詞、卡點、節奏來看,這首《智聯家園》演唱得不亞於專業音樂團隊。如果只聽音樂,恐怕很難分辨出這是AI生成的歌聲。
我們知道,歌聲不同於正常人的語音,高低音轉換,BGM的配合,有著更複雜的模式和節奏,這對於AI來說並不是一件容易的事兒。
不過,最近一個研究團隊,卻此基礎上挑戰了更高階的AI技術——生成多種語言風格的AI系統。據了解,這個團隊成員正是來自浙江大學和微軟研究院的六名研究員,他們研發出了一款名為DeepSinger的AI模型,可以演唱中文、英文,甚至粵語歌曲。
目前這項研究論文《DeepSinger.Singing Voice Synthesis with Data Mined Frome the Web》已經發表在了預印論文庫arXiv上。
中文、英文、粵語,教什麼會什麼的AI
具體來說,DeepSinger是一款音樂歌聲合成系統(Singing voice synthesis ),該系統利用專門設計的組件可以從嘈雜的歌唱數據中捕獲歌手的音色,從而生成多種語言風格的演唱聲音。
論文中,研究人員用中文、英文、粵語三種語言進行了試驗,並用訓練後得出的不同音色演唱了這首《Far Away Of Home》。可以先點擊下方連結,聽一下演唱效果:
點擊連結收聽:https://venturebeat.com/2020/07/13/microsofts-ai-generates-voices-that-sing-in-chinese-and-english/
研究人員稱,對於影視從業者來說,DeepSinger會是一個非常實用的工具。當他們完成某些語音類錄製工作後,如果發現錄製錯誤,可以用AI輔助語音的合成和修復,而無需再次返工。不過,這款工具也存在一些弊端。就像換臉軟體Deepfake可以合成不存在的人像一樣,這款DeepSinger同樣可以假冒歌手偽造音樂。
而且,目前關於AI音樂版權糾紛的現象已經開始出現了。兩個月前,一家唱片公司Roc Nation便提出了反對AI模的版權聲明。其原因是,Youtobe博主Vocal Synthesis使用AI技術複製了旗下藝人Zay-Z的兩個音樂作品,最終這起案件已刪除仿製作品,而道歉聲明而結束。
AI多語言歌聲合成原理
在機器學習領域,從文本到語音(TTS)的轉換有著廣泛的使用場景,一直是研究的重點領域。如上文所說,歌曲的韻律和環境比語音更具複雜性,因此,SVS相比於TTS的研究也更有挑戰性。
研究人員介紹,此次生成多種語言風格的歌聲合成系統DeepSinger,採用了一種含多個數據挖掘和數據建模步驟的研究路徑,優化了現有研究的很多困境。這個路徑可以分為以下五個步驟:
數據檢索(Data crawling)負責從音樂網站抓取頂級歌手多種語言的流行音樂;這裡抓取的是中、英、粵三種語言的歌曲,時長一般為1-5分鐘。此階段,需要對數據集進行初級的過濾和清洗。唱歌和伴奏分離(Singing and accompaniment separation):採用開源音樂分離工具Spleeter,從伴奏中提取歌聲,然後將音頻逐個拆分為句子;歌詞和歌唱對齊(Lyrics-to-singing alignment):自動提取歌詞中每個音素的持續時間(從粗粒度的句子級別到細粒度的音素級別)。數據篩選(Data filtration):對歌詞與演唱未對齊的歌聲進行再處理。這裡採用分離獎勵(Splitting Reward)作為過濾標準,過濾掉分離獎勵低於閾值的數據。演唱模型(Singing modeling):通過數據爬取,分離,對齊和過濾之後,基於FastSpeech對唱歌數據進行建模。該模型將歌詞,時長,音高信息以及參考音頻作為輸入來生成歌聲。點擊連結:https://speechresearch.github.io/deepsinger/可收聽不同階段,AI生成歌聲音頻。從最終的測試結果可以看出,未經訓練的音頻和經過DeepSinger模型的音頻,在音調、振幅、持續時長上基本吻合;(GT表示真實音頻波形圖,DeepSinger表示經過模型訓練後的音頻波形圖)
論文中表明,通過歌詞,持續時間,音調信息、參考音頻等指標的驗證,DeepSinger在合成音調準確度和「聲音自然度」方面表現出了不錯的性能。從數據來看,中英粵語三首歌曲的音高、音準都超過了85%。而且,在一項20人的用戶實驗中,DeepSinger生成的歌曲與原始培訓音頻之間的平均差距僅為0.34-0.76。
另外,更值得注意的是,經過數據檢索和初級篩選,Singing所使用數據集僅包含89位歌手演唱的92個小時的歌曲。
我們知道,在機器學習中數據集的質量和數量是關鍵,但也正是在這兩個方面往往存在難點。而在本次試驗中僅使用了一個小樣本即達到不錯的性能表現。另外,歌曲和歌詞的自動對齊模型在很大程度上也減少了數據標標註帶來的失誤和成本。
不過,研究人員表示,接下來他們計劃使用基於WaveNet模型等更為複雜的AI技術,在DeepSinger中訓練各種子模型,以提高語音質量。WaveNet是Googel研發的一款語音驅動模型。
https://venturebeat.com/2020/07/13/microsofts-ai-generates-voices-that-sing-in-chinese-and-english/
https://arxiv.org/pdf/2007.04590.pdf
https://venturebeat.com/2020/04/30/openais-jukebox-ai-produces-music-in-any-style-from-scratch-complete-with-lyrics(雷鋒網雷鋒網雷鋒網)