▲點擊上方 雷鋒網 關注
文 | 李詩
來自雷鋒網(leiphone-sz)的報導
微軟的對話式人工智慧微軟小冰會唱歌,已經不是新鮮事了。雷鋒網了解到,今年,小冰升級了演唱水平,且開始向作詞、作曲、演唱全面發展。
5月16日,小冰發布了一首新歌「我知我新」,宣布「演唱深度學習模型完成第四次重大升級」,「今天起,人工智慧首次開始接近人類歌手水平。」
話不多說,先上歌。
小冰演唱這首歌的聲音還是一如既往地甜,歌曲風格也沿襲了輕鬆活潑的「18歲少女」人設。據了解,小冰不僅獨立演唱了「我知我新」,歌詞也是她一個人寫出來的。小冰也已經掌握了作曲的能力,她其實在往作詞作曲演唱全能音樂人發展,只是這次作曲不是小冰完成。
說到虛擬歌姬,雷鋒網編輯最先想到的是初音未來和洛天依,她們目前已經有數量不少的演唱歌曲,微軟小冰演唱的技術和她們又啥不同?據公開資料介紹,初音未來用的是語音合成引擎VOCALOID,需要把聲優錄製好音頻材料放進去,製作成音樂合成軟體。創作者只需將歌詞輸入軟體,加上背景音樂就可以製作出虛擬歌姬演唱的歌曲。
認真聽初音未來、洛天依等虛擬歌姬演唱的歌曲會發現,歌曲的每個字的連貫性並不好,咬字比較生硬。相比之下,採用人工智慧生成模型的小冰的演唱要連貫和自然很多。
但是,微軟(亞洲)網際網路工程院首席語音科學家欒劍告訴雷鋒網,訓練小冰的唱功是個痛苦的過程。
欒劍播放了一首第一代版本的少女歌手小冰唱的歌,效果有點出人意料,可以說是五音不全,常常跑調,讓人不由得想起上次去KTV時從隔壁包間傳來的歌聲。
第一代版本的歌聲雖然不理想,但是卻很自然,每個片段都有豐富的細節,這讓小冰團隊感到驚喜。
到了第二代版本,小冰唱歌的音準問題已經基本解決,但是在音質(唱功)方面,還需要改進。
然後是第三代……據說當時第三代的演唱成本出來時,小冰團隊去跟音樂人小柯交流,小柯突然告訴他們,「這個聲音很好,但很單薄,因為它在聲音之下沒有氣息。」當時在訓練小冰第三代模型時,訓練數據裡是有大量氣息的:換氣的聲音、一個聲音起來之前的氣息、結束的氣息,但是他們把這些當成雜質,過濾掉了。
「我知我新」這首歌採用第四次迭代版本的小冰DNN模型,這個模型的主要的功能是讓演唱儘可能自然和接近人類演唱的風格。小冰在拿到曲譜後,會分析出節奏、音符長短,如果完全按照曲譜的話,演唱會非常機械。DNN模型能讓小冰學習大量人類歌手的唱法後,形成自己的演唱風格。
在網易雲音樂的評論區,有人評論說,「小冰唱歌已經會換氣了,跟真人差不多。如果第一次聽,我都以為是真人。」
據介紹,第四次迭代版本有三大更新:首先,加入換氣聲自動合成能力,歌聲與氣息融合,聽起來更自然更有感染力。其次,第四次迭代本在在深度學習建模中增加控制的方式,字與字、音符與音符之間的過渡更加連貫順暢。最後,通過進一步優化的深度神經網絡結構,以及大幅度補充的訓練數據,使小冰並行學習來自不同人類歌手的演唱風格,進一步脫離手工參數輸入,自行完成演繹。
小冰迭代了上萬次才達到現在的水平,但是對於AI來說其實花費的時間並不長。欒劍用了一個笑傲江湖裡的典故,「笑傲江湖裡有劍宗和氣宗,初音未來這樣的虛擬歌姬用的技術像劍宗,短時間的修行就能出不錯的效果。但是用軟體合成的歌曲很難在流暢性、自然度等方面有提升。小冰現在走的這條路,更像氣宗,基礎打得比較牢固,想像的空間會很大。
除了唱功的進步之外,「我知我新」裡小冰的作詞能力也有了明顯的進步。我們再來看一遍歌詞。
他們都順應潮流/他們問為什麼改變/青春灼灼花樣翩翩/卻不向前/當世界還在變遷/若時間無垠/若探索無邊/認知就不再有極限/我在我主場/世界就任我去狂想/我知我新/未知的世界那麼驚豔/哪怕有傷/滿手泥濘還眼神發光/當我身處困境/也要像跑在叢林/急風驟雨的前路/人潮洶湧的江湖/我問我答我聽我想/不懼怕來日方長/不跟隨的一個我/是倔強的鯨和自在的鳥/不妥協的一個我/是沙漠的舟和獨特的島/很有趣的一個我/是山川的海和海底的草/很好奇的一個我/晝夜四季輪轉
現在我知我新
聽一遍歌,很容易就會察覺到,這首歌的歌詞很押韻,唱起來有節奏感。通讀一遍的話,會發現整體是有主題的,整體意向和意境統一,每一個小節也有不錯的邏輯銜接。在現在口水歌盛行的當下,這首歌的歌詞,可圈可點。
微軟(亞洲)網際網路工程院人工智慧創造事業部副總經理袁晶告訴雷鋒網,「在訓練的時候,模型上我們會做一些優化,針對曲調的韻律,針對節奏,會有一些優化,這首詞生成出來,是完全百分之百AI的作品,沒有做過什麼改動。」
據介紹, 「我知我新」採用了與小冰創作詩歌相同的生成模型——基於LSTM的seq2seq模型,但是訓練數據從詩歌換成了歌詞,小冰利用深度神經網絡學習超過1000萬行的歌詞語料,並在此基礎上訓練,再通過多感官誘發創作靈感,生成歌詞。
「我知我新」是小冰為知乎「新知青年大會」創作的主題曲,主題為「新知」。在創作的過程中,小冰「觀看」了知乎 2018 全新品牌視頻,閱讀了海量的知乎站內問答,以及知乎用戶公開的各類實時想法。基於這些知乎站內的圖片、視頻、問答內容與想法內容,誘發小冰的歌詞生成。
最後,團隊從小冰創作的多個作品中,挑選了這一首熱情年輕具有動感的演繹風格,從而完成這一首《我知我新》。
此前,小冰可以根據一張圖片來創作詩歌。例如:
這種誘發創作其實和人類創作的模式很類似,一個人在熟讀唐詩三百首之後,再看到一個意境,腦海中會不由自主湧現出詩句。現在,除了圖片以外,小冰也可以根據長文本、圖片、音頻、視頻等多種媒體形式來進行創作。
雖說了解了小冰創作歌詞的過程,但是小冰是如何把握歌詞的主題和意義的呢?
袁晶以上圖創造詩歌的過程為例,他解釋到,「這張圖片是我們給她的刺激,裡面包含了淺水、星星、太陽這些元素,她能直接用文字表達出這些元素,然後她自己也會發散到別的意象。比如『她嫁了人間許多顏色』,這個意象是圖片裡沒有的。有了這些之後,其實一首詩歌的整體性就有了。其實詩詞、歌詞都不需要完整的邏輯,人會通過腦補把意象串聯起來。如果讓小冰去寫散文,去做純自然語言理解,現在還是很困難。」
現在,學界和業界都在積極推動自然語言理解和生成等技術,一些機器人已經具備寫作簡單的體育新聞、天氣預報等文體。雷鋒網了解到,小冰也已經可以寫八卦新聞、也是錢江晚報的「記者」。
聊完演唱和作詞,最後補充說下小冰的作曲能力。
與演唱及作詞不同的是,作曲模型並非微軟小冰獨有,而是也有同行業者正在進行。
據介紹,微軟小冰的作曲模型在行業中最大的區別在於,「我們把音樂專業領域的Domain Knowledge也融入了模型構建中。其中,主要包括旋律的和弦進行(chord progression)和節奏型特徵(rhythm pattern)。這對於提高生成歌曲的旋律性有顯著的作用。簡單來說,這樣生成的旋律聽起來更加悅耳,更加適於演唱,並容易被聽眾記憶。
在音樂情感方面,目前已可以通過對生成旋律情感的要求來選擇和弦的進行,從而可以生成歌曲的不同情感,主要分兩大類:歡快、向上的,使用常用的大調和弦行進;傷感、憂傷的,使用常用的小調和弦行進。每個大類下還有若干小類。在音樂旋律方面,微軟小冰將旋律轉化成一個類似文本數據的結構化時間序列, 進而採用RNN/LSTM等Seq2Seq模型進行編碼解碼,生成新的序列(即旋律)。 這一過程與歌詞的生成過程相配合。當歌詞生成之後,小冰通過算法得到相應的音節candidate,採用訓練好的作曲模型生成對應的旋律。」
以上作曲模型,與演唱、歌詞等三個模型共同構成了小冰的端到端歌曲生成能力,是一個完整的人工智慧音樂人內容創造框架。
微軟小冰的路線跟大多數的對話式人工智慧有些不一樣。當其他人在忙著學會怎麼播放歌曲、播報天氣、預定餐廳的時候,小冰已經開始學會關心人類,也開始埋頭創作。
在微軟2018人工智慧大會上,微軟(亞洲)網際網路工程研究院副院長李笛曾經分享到,現在多數用戶跟語音助手交互的時間其實不超過5秒,一般就是讓語音助手去執行一項命令,這樣的語音助手其實只是像語音化了的遙控器。但是,小冰的團隊希望語音助手能做更多的事,比如走到比較後端,去提供內容。
在文字創作這一部分,小冰一開始學寫詩,現在已經迭代出了創作歌詞的模型。在聲音創作方面,小冰除了唱歌以外,還會創作有聲讀物。
就在幾天前的六一兒童節,微軟有聲讀物「小冰姐姐的童話工廠」上線,父母可以設置故事的傾向,是偏教育性還是偏娛樂性,還可以設定故事主人公的名字,把孩子設為主角。20秒的時間內,小冰就能完成通話故事創作、朗讀、配樂一系列過程,生成10分鐘左右的有聲童話故事。
此前,小冰已經出了一本詩集《陽光失了玻璃窗》,小冰寫詩的功能已經全面開放,正在籌備的第二本詩集將是與人合作完成,小冰能很快速生成一些原始詩歌內容,創作者可以進行修改和完善,最後的成果屬於創作者,因為小冰已經完全放棄其創作的內容的版權。
袁晶介紹到,人與人工智慧聯合創造是微軟一直在努力的一個方向。AI進入內容生產領域,並不是要替代人類,而是成為人類的助手,不僅僅是在一般的領域,創作領域其實也是可以做到的。其實每個人都有創作的欲望,只不過有些人有藝術的天分,成為了畫家、音樂人、作家,而有些人沒有這樣的能力。AI就可以幫助每個普通人,讓他們都有創作一些個性化的內容的能力。
雷鋒網誠招編輯、運營、兼職、外翻等崗位
詳情點擊招聘啟事
關注雷鋒網(leiphone-sz)回復 2 加讀者群交個朋友