人類終於正式將聲音賜予了機器!
等下,你說什麼?
人類不是早就有Siri等智能語音助手了麼?
不不
這些智能語音軟體能說人話其實並不算什麼
但若要達到人聲說話的水平
它還遠遠不夠
這也一直是個難題
而如今
谷歌公司在這個問題上
向前邁了一大步
他們研發出了這樣一款系統
其發音說話能高度近似於
人類照著文本念稿的正常說話水平
哇,這麼厲害?!
————————————————————
據美國財經媒體Quartz報導,一周前,谷歌公司發表了一份還未被同行審議的論文,文中詳細介紹了其研發的一款直接從文本中合成語音(Text-to-Speech,TTS)的系統,名為Tacotron 2。據稱,該系統可模仿人類照文本講話,達到高度逼真、和人聲真假難辨的程度。(文末還有聽音測試,歡迎來辨!)
口說無憑,先來一段,讓你一聽為快。
「George Washington was the first President of the United States.」
washington_gen.wav
00:03
來自紅星新聞
怎麼樣,這段由AI機器發出的聲音,是不是已經與人聲無異了?
據科技網站TechCrunch報導,Tacotron 2結合了谷歌此前兩項語音生成技術:WaveNet和初始版的Tacotron,它實際上是兩種深層神經網絡系統的結合。
▲Tacotron2 模型架構的詳細結構。圖中的下半部分描述了將字母序列映射到聲譜的序列到序列模型的結構
Quartz報導稱,第一種網絡系統負責將文本「翻譯」成光譜圖,是用時間來呈現音頻頻率的一種可視化方式。然後,這一光譜圖被輸入WaveNet系統,進而讀取圖表,生成對應的音頻元素。如果你聽說過打敗世界圍棋高手柯潔的阿爾法狗(AlphaGo),那麼你應該知道它背後的團隊就是谷歌母公司Alphabet旗下的AI研究實驗室DeepMind。而WaveNet系統,同樣由DeepMind打造。
● Tacotron 2還能在很多種情況下運行良好,比如可以念出一些複雜詞彙。
● 根據短語語義的不同,它還能有不同的發音。
● 有時,它還可以自動糾正拼寫錯誤。
● 它對標點符號也很敏感。
● 它還能學習如何發重音,以及語調問題。(在培訓過程中,講話者要求大寫字母需要用重音讀出,因此簡單的大寫字母就可以改變整個發音。)
● 當陳述句改為問句時,Tacotron 2也能隨著句式調整語氣。
● 它還能玩轉繞口令。
在論文中,研究人員介紹稱,他們抽取了100個音頻樣本,要求人類聽眾對不同TTS系統生成語言的自然度進行評分。測試結果顯示,Tacotron 2的平均得分達到約4.53,明顯超過其他系統,而且和專業的錄音人員分數(Ground Truth)4.58分極為接近。
▲不同TTS系統生成語言的自然度評分,Tacotron 2得分最高,和專業錄音人員(Ground Truth)的得分極為接近 圖據論文截圖
不過,這個系統也有缺陷。據Quartz報導,該系統目前僅被訓練模仿一名女性的聲音;如果要像男性或不同女性一樣說話,谷歌可能還需要再多加訓練。
興趣測試,歡迎來聽
例子還有許多,下面輪到小測試了。來猜一猜,這些句子哪個是由真人發出,哪個又是由Tacotron 2發出吧。(答案見文末)
視頻加載中...
▲視頻丨聽音測試
「That girl did a video about Star Wars lipstick.」
「She earned a doctorate in sociology at Columbia University.」
「I'm too busy for romance.」
答案
lipstick: 1. AI 2. 真人
Columbia:1. 真人 2. AI
Romance:1. AI 2. 真人
別瞞我,你是不是全都猜錯了?
END
紅星新聞記者丨王雅林 綜合編譯報導
編輯丨汪垠濤