少女歌手小冰養成記:會作詞作曲演唱的人工智慧的誕生

2021-02-06 雷鋒網

▲點擊上方雷鋒網關注

文 | 李詩

來自雷鋒網（leiphone-sz）的報導

微軟的對話式人工智慧微軟小冰會唱歌，已經不是新鮮事了。雷鋒網了解到，今年，小冰升級了演唱水平，且開始向作詞、作曲、演唱全面發展。

5月16日，小冰發布了一首新歌「我知我新」，宣布「演唱深度學習模型完成第四次重大升級」，「今天起，人工智慧首次開始接近人類歌手水平。」

話不多說，先上歌。

小冰演唱這首歌的聲音還是一如既往地甜，歌曲風格也沿襲了輕鬆活潑的「18歲少女」人設。據了解，小冰不僅獨立演唱了「我知我新」，歌詞也是她一個人寫出來的。小冰也已經掌握了作曲的能力，她其實在往作詞作曲演唱全能音樂人發展，只是這次作曲不是小冰完成。

說到虛擬歌姬，雷鋒網編輯最先想到的是初音未來和洛天依，她們目前已經有數量不少的演唱歌曲，微軟小冰演唱的技術和她們又啥不同？

據公開資料介紹，初音未來用的是語音合成引擎VOCALOID，需要把聲優錄製好音頻材料放進去，製作成音樂合成軟體。創作者只需將歌詞輸入軟體，加上背景音樂就可以製作出虛擬歌姬演唱的歌曲。

認真聽初音未來、洛天依等虛擬歌姬演唱的歌曲會發現，歌曲的每個字的連貫性並不好，咬字比較生硬。相比之下，採用人工智慧生成模型的小冰的演唱要連貫和自然很多。

但是，微軟（亞洲）網際網路工程院首席語音科學家欒劍告訴雷鋒網，訓練小冰的唱功是個痛苦的過程。

欒劍播放了一首第一代版本的少女歌手小冰唱的歌，效果有點出人意料，可以說是五音不全，常常跑調，讓人不由得想起上次去KTV時從隔壁包間傳來的歌聲。

第一代版本的歌聲雖然不理想，但是卻很自然，每個片段都有豐富的細節，這讓小冰團隊感到驚喜。

到了第二代版本，小冰唱歌的音準問題已經基本解決，但是在音質（唱功）方面，還需要改進。

然後是第三代……據說當時第三代的演唱成本出來時，小冰團隊去跟音樂人小柯交流，小柯突然告訴他們，「這個聲音很好，但很單薄，因為它在聲音之下沒有氣息。」當時在訓練小冰第三代模型時，訓練數據裡是有大量氣息的：換氣的聲音、一個聲音起來之前的氣息、結束的氣息，但是他們把這些當成雜質，過濾掉了。

「我知我新」這首歌採用第四次迭代版本的小冰DNN模型，這個模型的主要的功能是讓演唱儘可能自然和接近人類演唱的風格。小冰在拿到曲譜後，會分析出節奏、音符長短，如果完全按照曲譜的話，演唱會非常機械。DNN模型能讓小冰學習大量人類歌手的唱法後，形成自己的演唱風格。

在網易雲音樂的評論區，有人評論說，「小冰唱歌已經會換氣了，跟真人差不多。如果第一次聽，我都以為是真人。」

據介紹，第四次迭代版本有三大更新：首先，加入換氣聲自動合成能力，歌聲與氣息融合，聽起來更自然更有感染力。其次，第四次迭代本在在深度學習建模中增加控制的方式，字與字、音符與音符之間的過渡更加連貫順暢。最後，通過進一步優化的深度神經網絡結構，以及大幅度補充的訓練數據，使小冰並行學習來自不同人類歌手的演唱風格，進一步脫離手工參數輸入，自行完成演繹。

小冰迭代了上萬次才達到現在的水平，但是對於AI來說其實花費的時間並不長。欒劍用了一個笑傲江湖裡的典故，「笑傲江湖裡有劍宗和氣宗，初音未來這樣的虛擬歌姬用的技術像劍宗，短時間的修行就能出不錯的效果。但是用軟體合成的歌曲很難在流暢性、自然度等方面有提升。小冰現在走的這條路，更像氣宗，基礎打得比較牢固，想像的空間會很大。

除了唱功的進步之外，「我知我新」裡小冰的作詞能力也有了明顯的進步。

我們再來看一遍歌詞。

他們都順應潮流/他們問為什麼改變/青春灼灼花樣翩翩/卻不向前/當世界還在變遷/若時間無垠/若探索無邊/認知就不再有極限/我在我主場/世界就任我去狂想/我知我新/未知的世界那麼驚豔/哪怕有傷/滿手泥濘還眼神發光/當我身處困境/也要像跑在叢林/急風驟雨的前路/人潮洶湧的江湖/我問我答我聽我想/不懼怕來日方長/不跟隨的一個我/是倔強的鯨和自在的鳥/不妥協的一個我/是沙漠的舟和獨特的島/很有趣的一個我/是山川的海和海底的草/很好奇的一個我/晝夜四季輪轉
現在我知我新

聽一遍歌，很容易就會察覺到，這首歌的歌詞很押韻，唱起來有節奏感。通讀一遍的話，會發現整體是有主題的，整體意向和意境統一，每一個小節也有不錯的邏輯銜接。在現在口水歌盛行的當下，這首歌的歌詞，可圈可點。

微軟（亞洲）網際網路工程院人工智慧創造事業部副總經理袁晶告訴雷鋒網，「在訓練的時候，模型上我們會做一些優化，針對曲調的韻律，針對節奏，會有一些優化，這首詞生成出來，是完全百分之百AI的作品，沒有做過什麼改動。」

據介紹，「我知我新」採用了與小冰創作詩歌相同的生成模型——基於LSTM的seq2seq模型，但是訓練數據從詩歌換成了歌詞，小冰利用深度神經網絡學習超過1000萬行的歌詞語料，並在此基礎上訓練，再通過多感官誘發創作靈感，生成歌詞。

「我知我新」是小冰為知乎「新知青年大會」創作的主題曲，主題為「新知」。在創作的過程中，小冰「觀看」了知乎 2018 全新品牌視頻，閱讀了海量的知乎站內問答，以及知乎用戶公開的各類實時想法。基於這些知乎站內的圖片、視頻、問答內容與想法內容，誘發小冰的歌詞生成。

最後，團隊從小冰創作的多個作品中，挑選了這一首熱情年輕具有動感的演繹風格，從而完成這一首《我知我新》。

此前，小冰可以根據一張圖片來創作詩歌。例如：

這種誘發創作其實和人類創作的模式很類似，一個人在熟讀唐詩三百首之後，再看到一個意境，腦海中會不由自主湧現出詩句。現在，除了圖片以外，小冰也可以根據長文本、圖片、音頻、視頻等多種媒體形式來進行創作。

雖說了解了小冰創作歌詞的過程，但是小冰是如何把握歌詞的主題和意義的呢？

袁晶以上圖創造詩歌的過程為例，他解釋到，「這張圖片是我們給她的刺激，裡面包含了淺水、星星、太陽這些元素，她能直接用文字表達出這些元素，然後她自己也會發散到別的意象。比如『她嫁了人間許多顏色』，這個意象是圖片裡沒有的。有了這些之後，其實一首詩歌的整體性就有了。其實詩詞、歌詞都不需要完整的邏輯，人會通過腦補把意象串聯起來。如果讓小冰去寫散文，去做純自然語言理解，現在還是很困難。」

現在，學界和業界都在積極推動自然語言理解和生成等技術，一些機器人已經具備寫作簡單的體育新聞、天氣預報等文體。雷鋒網了解到，小冰也已經可以寫八卦新聞、也是錢江晚報的「記者」。

聊完演唱和作詞，最後補充說下小冰的作曲能力。

與演唱及作詞不同的是，作曲模型並非微軟小冰獨有，而是也有同行業者正在進行。

據介紹，微軟小冰的作曲模型在行業中最大的區別在於，「我們把音樂專業領域的Domain Knowledge也融入了模型構建中。其中，主要包括旋律的和弦進行(chord progression)和節奏型特徵(rhythm pattern)。這對於提高生成歌曲的旋律性有顯著的作用。簡單來說，這樣生成的旋律聽起來更加悅耳，更加適於演唱，並容易被聽眾記憶。

在音樂情感方面，目前已可以通過對生成旋律情感的要求來選擇和弦的進行，從而可以生成歌曲的不同情感，主要分兩大類：歡快、向上的，使用常用的大調和弦行進；傷感、憂傷的，使用常用的小調和弦行進。每個大類下還有若干小類。在音樂旋律方面，微軟小冰將旋律轉化成一個類似文本數據的結構化時間序列，進而採用RNN/LSTM等Seq2Seq模型進行編碼解碼，生成新的序列（即旋律）。這一過程與歌詞的生成過程相配合。當歌詞生成之後，小冰通過算法得到相應的音節candidate，採用訓練好的作曲模型生成對應的旋律。」

以上作曲模型，與演唱、歌詞等三個模型共同構成了小冰的端到端歌曲生成能力，是一個完整的人工智慧音樂人內容創造框架。

微軟小冰的路線跟大多數的對話式人工智慧有些不一樣。

當其他人在忙著學會怎麼播放歌曲、播報天氣、預定餐廳的時候，小冰已經開始學會關心人類，也開始埋頭創作。

在微軟2018人工智慧大會上，微軟（亞洲）網際網路工程研究院副院長李笛曾經分享到，現在多數用戶跟語音助手交互的時間其實不超過5秒，一般就是讓語音助手去執行一項命令，這樣的語音助手其實只是像語音化了的遙控器。但是，小冰的團隊希望語音助手能做更多的事，比如走到比較後端，去提供內容。

在文字創作這一部分，小冰一開始學寫詩，現在已經迭代出了創作歌詞的模型。在聲音創作方面，小冰除了唱歌以外，還會創作有聲讀物。

就在幾天前的六一兒童節，微軟有聲讀物「小冰姐姐的童話工廠」上線，父母可以設置故事的傾向，是偏教育性還是偏娛樂性，還可以設定故事主人公的名字，把孩子設為主角。20秒的時間內，小冰就能完成通話故事創作、朗讀、配樂一系列過程，生成10分鐘左右的有聲童話故事。

此前，小冰已經出了一本詩集《陽光失了玻璃窗》，小冰寫詩的功能已經全面開放，正在籌備的第二本詩集將是與人合作完成，小冰能很快速生成一些原始詩歌內容，創作者可以進行修改和完善，最後的成果屬於創作者，因為小冰已經完全放棄其創作的內容的版權。

袁晶介紹到，人與人工智慧聯合創造是微軟一直在努力的一個方向。AI進入內容生產領域，並不是要替代人類，而是成為人類的助手，不僅僅是在一般的領域，創作領域其實也是可以做到的。其實每個人都有創作的欲望，只不過有些人有藝術的天分，成為了畫家、音樂人、作家，而有些人沒有這樣的能力。AI就可以幫助每個普通人，讓他們都有創作一些個性化的內容的能力。

雷鋒網誠招編輯、運營、兼職、外翻等崗位

詳情點擊招聘啟事

關注雷鋒網（leiphone-sz）回復 2 加讀者群交個朋友

少女歌手小冰養成記:會作詞作曲演唱的人工智慧的誕生

相關焦點

馬伯騫攜小冰框架AI何暢演唱Burberry系列單曲，小冰參與作詞作曲

小冰框架新成員何暢出道!演唱Burberry新系列推廣單曲小冰參與...

著名音樂人彭程與人工智慧小冰共同創作WAIC主題曲《智聯家園》

上海音樂學院人工智慧「畢業生」微軟小冰:為2020WAIC作主題曲並演唱

微軟發布人工智慧演唱V5版,小冰籤約艾回發布DEMO曲《最高新記憶》

虛擬偶像首次成團演唱人工智慧大會主題曲

地表最強人工智慧歌姬:小冰獻聲《假面騎士》大電影

少女時代泰妍妹妹夏妍7日出道！以人工智慧作曲歌曲與大眾見面

微軟小冰框架演唱模型V5版發布:首次使用充沛中氣演唱

B站泠鳶等4位虛擬歌手借世界人工智慧大會「組團出道」,既能作曲又...

小冰發布上海大劇院主題曲被授予「榮譽音樂製作人」

小冰發布上海大劇院主題曲被授予「榮譽音樂製作人」

一場特殊的生日會 AI小冰走心《我是未來》

全球首支人工智慧作曲合唱歌曲發布

嶽陽樓記作詞:漁魚作曲: 王志敏演唱: 蘇瑋

世界人工智慧大會雲端峰會主題曲作曲「人」:上海音樂學院榮譽畢業...

出售新歌《愛相隨》,作詞:如夢晨曦,作曲:李金,歌手曹春梅演唱

人工智慧並不是萬能的——訪小冰公司CEO李笛

小冰X Studio 歌手 1.0 軟體正式發布:完全免費

少女歌手小冰養成記:會作詞作曲演唱的人工智慧的誕生

相關焦點

馬伯騫攜小冰框架AI何暢演唱Burberry系列單曲，小冰參與作詞作曲

小冰框架新成員何暢出道!演唱Burberry新系列推廣單曲 小冰參與...

著名音樂人彭程與人工智慧小冰共同創作WAIC主題曲《智聯家園》

上海音樂學院人工智慧「畢業生」微軟小冰:為2020WAIC作主題曲並演唱

微軟發布人工智慧演唱V5版,小冰籤約艾回發布DEMO曲《最高新記憶》

虛擬偶像首次成團 演唱人工智慧大會主題曲

地表最強人工智慧歌姬:小冰獻聲《假面騎士》大電影

少女時代泰妍妹妹夏妍7日出道！以人工智慧作曲歌曲與大眾見面

微軟小冰框架演唱模型V5版發布:首次使用充沛中氣演唱

B站泠鳶等4位虛擬歌手借世界人工智慧大會「組團出道」,既能作曲又...

小冰發布上海大劇院主題曲 被授予「榮譽音樂製作人」

小冰發布上海大劇院主題曲 被授予「榮譽音樂製作人」

一場特殊的生日會 AI小冰走心《我是未來》

全球首支人工智慧作曲合唱歌曲發布

嶽陽樓記 作詞:漁 魚 作曲: 王志敏 演唱: 蘇 瑋

世界人工智慧大會雲端峰會主題曲作曲「人」:上海音樂學院榮譽畢業...

出售新歌《愛相隨》,作詞:如夢晨曦,作曲:李金,歌手曹春梅演唱

人工智慧並不是萬能的——訪小冰公司CEO李笛

小冰X Studio 歌手 1.0 軟體正式發布:完全免費

小冰框架新成員何暢出道!演唱Burberry新系列推廣單曲小冰參與...

虛擬偶像首次成團演唱人工智慧大會主題曲

小冰發布上海大劇院主題曲被授予「榮譽音樂製作人」

小冰發布上海大劇院主題曲被授予「榮譽音樂製作人」

嶽陽樓記作詞:漁魚作曲: 王志敏演唱: 蘇瑋