AI唱歌不僅中英文無壓力,還會粵語!微軟聯手浙大研發出DeepSinger

2021-01-10 雷鋒網

聽微軟小冰唱粵語歌會是一種怎樣的體驗?

想必你一定聽過最近大火的"AI女團",7月10日,微軟小冰攜手小米小愛、B站冷鳶、百度小度首次集體亮相世界人工智慧大會,以一首AI歌曲《智聯家園》正式「出道」。

AI女團的首場演唱會可謂驚豔全場。從整首歌的歌詞、卡點、節奏來看,這首《智聯家園》演唱得不亞於專業音樂團隊。如果只聽音樂,恐怕很難分辨出這是AI生成的歌聲。

我們知道,歌聲不同於正常人的語音,高低音轉換,BGM的配合,有著更複雜的模式和節奏,這對於AI來說並不是一件容易的事兒。

不過,最近一個研究團隊,卻此基礎上挑戰了更高階的AI技術——生成多種語言風格的AI系統。據了解,這個團隊成員正是來自浙江大學和微軟研究院的六名研究員,他們研發出了一款名為DeepSinger的AI模型,可以演唱中文、英文,甚至粵語歌曲。

目前這項研究論文《DeepSinger.Singing Voice Synthesis with Data Mined Frome the Web》已經發表在了預印論文庫arXiv上。

中文、英文、粵語,教什麼會什麼的AI

具體來說,DeepSinger是一款音樂歌聲合成系統(Singing voice synthesis ),該系統利用專門設計的組件可以從嘈雜的歌唱數據中捕獲歌手的音色,從而生成多種語言風格的演唱聲音。

論文中,研究人員用中文、英文、粵語三種語言進行了試驗,並用訓練後得出的不同音色演唱了這首《Far Away Of Home》。可以先點擊下方連結,聽一下演唱效果:

點擊連結收聽:https://venturebeat.com/2020/07/13/microsofts-ai-generates-voices-that-sing-in-chinese-and-english/

研究人員稱,對於影視從業者來說,DeepSinger會是一個非常實用的工具。當他們完成某些語音類錄製工作後,如果發現錄製錯誤,可以用AI輔助語音的合成和修復,而無需再次返工。不過,這款工具也存在一些弊端。就像換臉軟體Deepfake可以合成不存在的人像一樣,這款DeepSinger同樣可以假冒歌手偽造音樂。

而且,目前關於AI音樂版權糾紛的現象已經開始出現了。兩個月前,一家唱片公司Roc Nation便提出了反對AI模的版權聲明。其原因是,Youtobe博主Vocal Synthesis使用AI技術複製了旗下藝人Zay-Z的兩個音樂作品,最終這起案件已刪除仿製作品,而道歉聲明而結束。

AI多語言歌聲合成原理

在機器學習領域,從文本到語音(TTS)的轉換有著廣泛的使用場景,一直是研究的重點領域。如上文所說,歌曲的韻律和環境比語音更具複雜性,因此,SVS相比於TTS的研究也更有挑戰性。

研究人員介紹,此次生成多種語言風格的歌聲合成系統DeepSinger,採用了一種含多個數據挖掘和數據建模步驟的研究路徑,優化了現有研究的很多困境。這個路徑可以分為以下五個步驟:

數據檢索(Data crawling)負責從音樂網站抓取頂級歌手多種語言的流行音樂;這裡抓取的是中、英、粵三種語言的歌曲,時長一般為1-5分鐘。此階段,需要對數據集進行初級的過濾和清洗。唱歌和伴奏分離(Singing and accompaniment separation):採用開源音樂分離工具Spleeter,從伴奏中提取歌聲,然後將音頻逐個拆分為句子;歌詞和歌唱對齊(Lyrics-to-singing alignment):自動提取歌詞中每個音素的持續時間(從粗粒度的句子級別到細粒度的音素級別)。數據篩選(Data filtration):對歌詞與演唱未對齊的歌聲進行再處理。這裡採用分離獎勵(Splitting Reward)作為過濾標準,過濾掉分離獎勵低於閾值的數據。演唱模型(Singing modeling):通過數據爬取,分離,對齊和過濾之後,基於FastSpeech對唱歌數據進行建模。該模型將歌詞,時長,音高信息以及參考音頻作為輸入來生成歌聲。點擊連結:https://speechresearch.github.io/deepsinger/可收聽不同階段,AI生成歌聲音頻。從最終的測試結果可以看出,未經訓練的音頻和經過DeepSinger模型的音頻,在音調、振幅、持續時長上基本吻合;(GT表示真實音頻波形圖,DeepSinger表示經過模型訓練後的音頻波形圖)

論文中表明,通過歌詞,持續時間,音調信息、參考音頻等指標的驗證,DeepSinger在合成音調準確度和「聲音自然度」方面表現出了不錯的性能。從數據來看,中英粵語三首歌曲的音高、音準都超過了85%。而且,在一項20人的用戶實驗中,DeepSinger生成的歌曲與原始培訓音頻之間的平均差距僅為0.34-0.76。

另外,更值得注意的是,經過數據檢索和初級篩選,Singing所使用數據集僅包含89位歌手演唱的92個小時的歌曲。

我們知道,在機器學習中數據集的質量和數量是關鍵,但也正是在這兩個方面往往存在難點。而在本次試驗中僅使用了一個小樣本即達到不錯的性能表現。另外,歌曲和歌詞的自動對齊模型在很大程度上也減少了數據標標註帶來的失誤和成本。

不過,研究人員表示,接下來他們計劃使用基於WaveNet模型等更為複雜的AI技術,在DeepSinger中訓練各種子模型,以提高語音質量。WaveNet是Googel研發的一款語音驅動模型。

https://venturebeat.com/2020/07/13/microsofts-ai-generates-voices-that-sing-in-chinese-and-english/

https://arxiv.org/pdf/2007.04590.pdf

https://venturebeat.com/2020/04/30/openais-jukebox-ai-produces-music-in-any-style-from-scratch-complete-with-lyrics(雷鋒網雷鋒網雷鋒網)

相關焦點

  • 百度微軟谷歌正聯手AI2 將共同研發學術搜索工具
    【環球科技綜合報導】據美國科技新聞網站GeekWire 6月20日消息,微軟、谷歌、百度正聯手AI2一同研發學術搜索工具。AI2的全稱是艾倫人工智慧研究所,由微軟聯合創始人保羅艾倫於2014年出資成立,致力於進行人工智慧和計算機科學研究,其總部位於西雅圖。
  • 微軟小冰的星辰大海:會對話,唱歌,比喻,還有想像……
    IT之家11月24日消息 11月21日,微軟小冰團隊在北京微軟大廈舉辦了Research Workshop活動,科學家團隊帶來了小冰2019年度最新科研進展及其應用,及對業內技術研發趨勢的展望。IT之家被邀請參加,在這個微軟大廈中的會議廳中,筆者再一次感受到了小冰產品背後的技術原理和對人工智慧獨特理解的高追求目標。
  • 美圖秀秀聯手微軟小冰,推出史上最強人工智慧賀卡
    近日,美圖秀秀聯手人工智慧微軟小冰,共同推出了人工智慧聖誕賀卡,兩個逆天黑科技就這樣相遇,滿滿心意不需太費力就能一鍵定製。影像生成技術(MTgeneration)核心是基於MTlab自主研發搭建的生成網絡Draw Net,通過深度學習技術對大量圖像數據進行精準分析與學習,不斷增強機器人的繪畫能力。針對不同需求的圖像處理的任務,構建出不同應用場景的圖像生成模型,經過模型處理,當用戶輸入自己的圖片,Andy便可直接畫出相應的插畫像。
  • 中英文字幕:深靜脈血栓(Deep Vein Thrombosis ,DVT)
    Deep Vein Thrombosis (DVT)深靜脈血栓Overview(概述)This condition is a blood clot that forms in a vein deepPeople with a family history of deep vein thrombosis, smokers, and people who are over age 60 are also at an increased risk.  深靜脈血栓形成的原因包括各種因素造成正常血液循環受限制以及引起血液異常凝結。在長時間的限制活動時容易發生這種病症。
  • 微軟AI 翻譯重大突破:近人類語言中譯英
    微軟研究團隊發布消息,他們已經研發出首個可將中文翻譯成英文的人工智慧翻譯系統,該系統完成的中譯英文章與語句,具有與人類自然語言相一致的準確性和協調性。
  • 「燒錢機器」DeepMind持續多年虧損後,仍無商業...
    但在這些光環產品的背後,DeepMind卻始終未探索出一條可行商業化路徑,長期大量研發投入,使其一直處於連年虧損的狀態。DeepMind聯合創始人胡馬延謝赫(Humayun Sheikh)曾表示,「如果不是谷歌以6億美元的價格收購, DeepMind人工智慧實驗室可能已經破產。」
  • 『燒錢機器』DeepMind持續多年虧損後,仍無商業...
    但在這些光環產品的背後,DeepMind卻始終未探索出一條可行商業化路徑,長期大量研發投入,使其一直處於連年虧損的狀態。DeepMind聯合創始人胡馬延•謝赫(Humayun Sheikh)曾表示,「如果不是谷歌以6億美元的價格收購, DeepMind人工智慧實驗室可能已經破產。」
  • 浙大皮衛星研發20年:填補中國空白 明年再發射20顆
    浙大提供2010年9月22日,「皮星一號A」星發射成功後在太空拍攝的地球畫面。浙大提供中新網杭州8月11日電 題:浙大皮衛星研發20年:填補中國空白 明年再發射20顆作者:謝盼盼 童笑雨「想像一下,將來颱風軌跡以分秒的速度更新,打開APP,就能調遣皮衛星為你服務。無論山村還是更偏遠的地區,流暢通信不再是夢。」
  • NVIDIA出品:AI視頻通話神器,不僅高清,流暢無噪音,還能給你換張臉...
    Maxine:高清、流暢無噪音疫情雖然已經趨於平緩,辦公模式也回到了線下,但視頻通話也成為了一種常用的辦公方式。大量用戶同時使用雲視頻服務時,會對帶寬帶來很大壓力,因此用戶經常出現掉線、卡頓等現象。對此,NVIDIA高級產品總監安德魯·佩奇(Andrew page)稱,他們的解決方案是將帶寬問題變成計算問題,因為相比於增加帶寬,增加計算更為容易。
  • 吳恩達deeplearning.ai五項課程完整筆記了解一下?
    自吳恩達發布 deeplearning.ai 課程以來,很多學習者陸續完成了所有專項課程並精心製作了課程筆記,在此過程中機器之心也一直在為讀者推薦優質的筆記。上個月,deep learning.ai 第五課發布,該系列課程最終結課。Mahmoud Badry 在 GitHub 上開源了五項課程的完整筆記,介紹了包括序列模型在內的詳細知識點。
  • 好未來:AI智能批改中英文作文為老師「減負」
    不過,這份生動詳細的批改反饋並不普通,它是利用好未來自主研發的「中英文作文批改解決方案」完成的。近日,好未來推出「中英文作文批改解決方案」,通過AI驅動實現智能化中英文作文批改,幫助老師減少大量繁雜重複的閱卷工作,讓批改反饋更高效,寫作教學更個性化。未來,該方案將基於智慧教育國家新一代人工智慧開放創新平臺面向行業開放。
  • 微軟這次搶先Google,要在廣東和香港大漲真愛粉
    根據微軟官網介紹,微軟翻譯基於平行語料庫,且應用了機器學習技術和應用統計學,翻譯「利用單詞的整個語境,而非單個單詞來為整句提供最佳的譯文。」 因此,愛範兒(微信號 ifanr)將為原來翻譯不正確的詞語提供了語境,再試一次:在本次測試中,微軟翻譯在語境中對「靚爆鏡」、「無陰功「、「錫曬距」和「心淡」的理解都基本正確。可見語境對於提高理解還是有幫助的。
  • 微軟模擬飛行2020:AI自動巡航
    視頻:微軟模擬飛行:自動巡航_嗶哩嗶哩 (゜-゜)つロ 乾杯~-bilibilihttps://www.bilibili.com/video/BV1ai4y1M79C前幾天安裝微軟模擬飛行2020,飛行訓練了好長時間,發現開飛機確實不是一件簡單的事。
  • 浙大AI要為杭州亞運會寫歌?AI+藝術,潛力無窮
    AI不僅在科技方面應用前景廣闊,在藝術領域也可大顯身手。6月23日,杭州亞運會音樂作品徵集第一階段面向全球正式啟動。消息一發出,不僅各路音樂人躍躍欲試,AI也不甘其後。浙江大學的老師學生也研究出了一個會作曲的AI程序,也想來投稿。「餘音」其人這個會編曲的AI有一個頗具文藝氣息的名字「餘音」。
  • 二軍大、清華、浙大聯手發《Immunity》文章
    首頁 » 二軍大、清華、浙大聯手發《Immunity》文章 二軍大、清華、浙大聯手發《Immunity》文章 來源:生物通 2006-12-25 09:20
  • 微軟 Win10 開始菜單中英文分組導航終合併
    IT之家12月20日消息 今天微軟推送了最新的Windows 10 RS4快速預覽版17063系統更新,在該版本中微軟針對Edge瀏覽器、Cortana、Windows Shell等新增了不少更新,包括時間軸和Sets標籤功能。另外在最新的Win10系統中,微軟終於合併了此前「備受抱怨」的開始菜單中英文分組方式。
  • 2021浙大MPA複試或將恢復無領導小組面?面試維度有哪些?
    往年浙大MPA複試面試一貫採取無領導小組討論面試形式,2020屆由於疫情防控形勢改為線上視頻個人面試,今年浙大MPA複試究竟是小組面還是個人面還要取決於複試招生是否能夠恢復開放現場。2021屆一旦恢復現場複試,浙大MPA複試考生就要提前做好無領導小組討論面試的準備,在面試基礎上可能還會增設專業英語和政治理論筆試答題環節。從複試分值比重層面來看,無領導小組面試佔到60%,政治理論筆試30%和專業英語10%,提前熟悉無領導小組面試形式和考核內容並做好組面應對策略,是當下MPA考生務必引起高度重視的複試準備工作!
  • AI會話能力超越人類!CoQA挑戰賽微軟創新紀錄
    此次,微軟亞研院NLP團隊和微軟Redmond語音對話團隊聯手組成黃金搭檔參賽。在CoQA挑戰賽歷史上,他們是唯一一個在模型性能方面達到人類水平的團隊!他們於2019年3月29日提交的集合系統得分對應域內、域外和整體F1分別為89.9 / 88.0 / 89.4,而同一組會話問題和答案的人類表現則分別為89.4 / 87.4 / 88.8。
  • ai在真實的精確度上其實還有待檢驗
    人工智慧的社會影響被無限放大了,外國中東非洲等地區的法律對deepfake為了保護隱私,基本上都無法立案查處。在國內,deepfake泛濫已經達到上升到了一種民事侵權的高度,刑事上則只要查到是人工製作的,就處以非法侵入他人住宅,拘留5天以下的刑事處罰。
  • 微軟語音 AI 技術與微軟聽聽文檔小程序實踐|AI ProCon 2019
    演講者 | 趙晟、張鵬整理 | 伍杏玲【CSDN 編者按】9 月 7 日,在CSDN主辦的「AI ProCon 2019」上,微軟(亞洲)網際網路工程院人工智慧語音團隊首席研發總監趙晟、微軟(亞洲)網際網路工程院 Office 365資深產品經理,Office 小程序負責人張鵬共同發表《微軟語音AI與微軟聽聽小程序實踐