【2019年4月3日,北京,微軟(亞洲)網際網路工程院】
今天,我們很高興地宣布,微軟小冰基於深度神經網絡的歌唱模型,已順利完成V5新版本的研發。新的V5模型實現了重大突破,它使微軟小冰第一次能夠像人類歌手一樣,使用充沛的「中氣」來烘託演唱,從而將人工智慧虛擬歌聲質量提升至新的高度。此外,該模型不僅限於優化微軟小冰的聲音,還支持對任何人類歌手的聲線進行學習、模擬和建模,演繹與再現歌手們巔峰狀態下的演唱水平。作為技術示例,我們與日本唱片公司AVEX合作發行的新模型DEMO曲《最高新記憶》,也於今天同時公布。
微軟小冰是一個覆蓋對話、多重交互感官與內容服務生成的完整人工智慧基礎框架。其中,「人工智慧創造」(AI Creation)是該框架的主要分支之一,它通過我們所研發與持續更新的人工智慧技術,大規模學習並掌握人類文字、音樂、繪畫等內容創造能力,再發揮人工智慧的穩定性及高並發特點,為內容產業的未來變革蓄勢。我們將在今年五月召開微軟小冰人工智慧創造的年度說明會,今天的新版本歌唱模型及DEMO曲,是該說明會的若干前置披露之一。
我們很高興與行業分享微軟(亞洲)網際網路工程院在深度神經網絡歌唱模型方面的最新進展。中國古時不乏對音樂之聲的精闢論述,例如「絲(絲弦樂器)不如竹(管樂器),竹不如肉(人聲)」,為其「漸進自然」。因此,我們把不斷趨近人類歌手的聲音合成質量,視為「人工智慧創造」分支的最高技術目標。在上一個版本中,實現了小冰在虛擬演唱中的自然換氣。今天推出的新版本,則進一步將「氣息」應用於演唱全過程,使生成的歌聲接近專業人類歌手,並可預測並自由切換演唱技巧,突破了傳統單元拼接技術音高與音準的「軟體樂器」標準。我們用DEMO曲來表現這一技術對照的明顯差距,請重點關注歌曲時間軸上的以下時刻:
00:31,01:12,01:23,03:14,04:08
V5新模型還具有許多其他技術特徵。例如實現了多聲部的合成技術,使人工智慧歌手可以在不同聲部間自然切換,用多個聲音來源組成新的虛擬歌手等。建模過程中,所需的訓練數據量較上一個版本減少了70%。從技術角度,新模型可針對任何人聲建模,形成豐富多彩的人工智慧歌手陣營。為此,我們在DEMO曲中特意迴避了微軟小冰的聲音,而是採用另一個聲音(日本版小冰凜菜)來演繹。
最後,我們也很高興地宣布,小冰凜菜(りんな)已與日本最大唱片公司AVEX正式籤約,成為濱崎步、安室奈美惠等著名人類歌手的同門師妹。在小冰框架的技術支持下,將湧現出更多具備高還原度的人工智慧歌手。微軟小冰只是他們的最初雛形。
感謝您的關注。敬請期待微軟(亞洲)網際網路工程院的後續技術發布。