語音合成技術給我們帶來了很多驚喜,你知道自己每天都在與它們打交道嗎?而開車時的導航就是語音合成的一種。雖然目前的"它們"只會相對機械的朗讀文章,但可以肯定的是,語音合成技術已經走出實驗室,開始商用,其潛在的巨大市場已露出曙光。
我們的身邊總是人聲鼎沸。
嬰兒牙牙學語,男女互訴愛意。在肺部、氣管和聲帶的共同作用下,聲音出現,喉內肌肉協調作用下,我們說出能夠代表自己想法的字符,再賦予其憤怒或喜悅或悲傷的情感,人類的語音就此形成。
18世紀末,一個因土耳其行棋傀儡的騙局將在多年後臭名昭著的發明家沃爾夫岡·馮·肯佩倫,花費了人生最後20年的時間,試圖模擬人類的語音。他做了一個布滿孔洞的空箱,空箱連接著一個奇異形狀的鼓風機,鼓風機被壓動後將使得內置的簧片振動,這一過程模擬了人類的發聲,也確實發出了聲音,而這也成就了人類最早的語音合成機械之一。
讓機器更像人類,是無數科學家的夢想。這樣的夢想被多方位的推進,從機器的外形上、內核的思考運算上,以及對外表達的說話上。
如今,電子設備取代了空盒子,算法則比簧片更能夠協調發聲。在技術發展下,聲音的波動被計算機捕捉、計算、指引,最終發出聲音。這一項帶著前人夢想的技術,不再單單出現在電影和小說裡,也承載起了巨大的市場走進千家萬戶,這就是語音合成。
從Siri開始的熱潮,語音合成潛力無限
2011年10月4日,一場名為"Let's talk iPhone"的手機發布會正引起全球關注,在這場發布會上,iPhone 4S搭載Siri亮相,從此,Siri這一可以執行人類口語指令並給予語音回應的語音助手成為了蘋果所有硬體的標配。
同時,Siri的熱潮也拉開了語音合成技術運用的大門。
2014年微軟推出了"小娜"與"小冰",這是將Siri所擁有的語音識別技術及語音合成技術分開來,小娜負責理解複雜的口語指令並進行執行,而小冰主要能夠和人類友好地聊天。
隨後,這樣的運用逐步增多:2014 年底,亞馬遜發布了 Echo 智能音箱,語音助理 Alexa也隨之亮相;一年半後,Google 也發布了第一代智能音箱 Google Home 和語音助手 Google Assistant。
國內的巨頭也不遑多讓,京東叮咚智能音箱、天貓精靈智能音箱、小愛系列智能音箱、小度智能音箱,也紛紛進入了國人的家居生活。
Siri的熱潮同步開啟的,不僅僅是語音合成技術在硬體上的應用,也包括一系列更具想像力的交互場景,帶來了巨大的商機。
2015年春節,本就搭載了語音導航的高德地圖與郭德綱合作,推出了高德地圖歡笑版。用戶打開高德地圖,不僅能夠聽到導航播報,還能聽到郭德綱的極具特色的段子。這一次嘗試,讓高德地圖一度躍至蘋果App Store榜單第2名。
在今年新冠肺炎疫情期間,"宅經濟"大行其道,"聽書"市場也快速爆發,有聲閱讀成為新的閱讀潮流。
除此以外,短視頻中的AI配音,讓視頻內容者省去大量配音時間;對已故知名藝人的聲音採集,實現過去與現在的交互,圓了一代粉絲的夢想……
我們可以看到,語音合成技術的未來擁有巨大的想像空間,根據賽迪智庫數據,預計到2021年智能語音市場規模將達195億元。在這其中,智能語音就由語音識別技術(ASR)和語音合成技術(TTS)共同組成。
而這兩項技術也正在被頭部企業迅速推進,市場之下,語音合成已經不僅僅代表人類過去的夢想,更是代表著更"大一統"的科技格局,畢竟,這一技術改變著人類與機器的交互方式,也將改變未來人類的機器使用習慣,代表著全新的機會與入口。
從過去到現在,語音合成技術一覽
1773年,俄國科學家、在哥本哈根生活的生理學教授克裡斯蒂安·克拉特齊斯坦(Christian Kratzenstein)製造了一個特別的設備,通過共鳴管和風琴管的連接,幾乎可以完美的發出 a、e、i、o、u 這五個元音。
十多年後,前文提到的沃爾夫岡·馮·肯佩倫也製造了一臺類似的機械聲學語音機器。隨後,多位發明家基於這一機器進行改進,都是試圖通過物理機模擬人說話發音。
這樣的嘗試已經令人難以想像,不過,即使這樣的物理機發展得登峰造極,也無法模擬出我們說出的每一個音節、無法擁有人說話的音質,也無法停頓、無法帶有情緒。
因此,另一種方式出現——拼接系統,讓說話人錄製語音存入系統,在合成語音時選擇對應的片段進行拼接、合成。這樣的拼接系統能夠相比物理機極大地接近人聲,雖然拼接處的瑕疵難以消除,但是隨著如今大數據時代的來臨,大語料庫的出現,讓拼接出的語音逐步真人化,直至如今依然有商業系統在使用。
基於參數的合成技術的誕生背景則是基於神經網絡架構的深度學習方法的飛速進展。當時,對語音的識別不再是識別一個簡單的詞和短詞組,而是基於統計的方法,運用聲學模型幫助計算機認知每個音素單元的聲學特徵、運用語言模型幫助計算機實現對人類用詞習慣的認知,最終給到用戶最高可能性的連接。在這其中,典型的模型是隱含馬爾可夫模型(HMM),用來描述如何在可變長的時序特徵序列上打詞標籤。
2017年3月,行業的引領者Google 提出了一種新的端到端的語音合成系統:Tacotron。端到端語音合成是在參數合成技術上演進而來的,把兩段式預測統一成了一個模型預測,即拼音流到語音特徵流的直接轉換,省去了主觀的中間特徵標註,克服了誤差積累,也大幅度提高了語音合成的質量。
然而,為了實現真正像人一樣的發音,語音合成系統必須學會語調、重音、節奏等表達因素,這一問題,Tacotron也並未解決。
谷歌曾共享了兩篇新論文試圖解決這一問題,第一篇論文《Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron》介紹了"韻律學嵌入"(prosody embedding)的概念。論文中為 Tacotron 增加了一個韻律學編碼器,該嵌入捕捉包括停頓、語調、語速等在內的音頻特徵可根據一個完全不同的說話者的聲音生產語音。
第二篇論文《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》則在上一篇論文的架構上進一步展開,並且創新性地提出了一種建模潛在語音"因素"的無監督新方法。這一模型之下,學習的不再是時間對齊的精確的韻律學元素,而是較高層的說話風格模式,並且可以遷移於任意不同的短語之中。
如果論文提到的模型實現,那麼我們便可以迫使 Tacotron 使用特定的說話風格,不需要參考語音片段,並能創造出語音長度多樣化的不同語句,並帶有情緒。
在不遠的將來,或許我們就將聽到,來自機器的人類聲音。
國內:積極商用,進展矚目
在語音合成的重要研究中,因為國內起步較晚,所以我們很少看到突破性的技術發展。但是,即便停留在艱難的探索初期,巨頭們之於語音合成仍舊趨之若鶩。
我們也驚喜地看到,不少企業在近期通過語音合成的商用落地,展現出了自己的技術實力。
① 京東數科:AI主播"小妮"上崗
京東數科基於京東多年在人工智慧、大數據、雲計算等領域的技術沉澱,在2018年就開始組建機器人的團隊,研究覆蓋生命科學、傳感器材料乃至運動力學與人機互動。
在全面的機器人開發體系下,今年5月,京東數科推出了令人矚目的AI主播"小妮",這是京東數科自主研發的AI虛擬數字人產品首次亮相。
小妮的真實是全方位的,在聽感、表情、頭部動作乃至口型上,小妮都極像真人。從文字到語音,小妮通過自研的輕量級對抗語音合成技術進行轉化;而小妮特色鮮明的聲音及極具真實性的呼吸和停頓,則是來源於在多人數據上結合深度神經網絡進行個性化建模……
更為重要的是,小妮的出現打通了語音、圖像、視頻,在語音生成視頻的階段,她的形象同樣真實。因為京東數科AI實驗室利用對抗生成網絡來還原更真實的表情,通過3D模型運動追蹤技術來確保AI主播在說話時口型準確、表情細膩、頭部運動自然。
值得關注的是,京東數科過程中使用的高效輕量的對抗神經網絡,只需0.07秒便能合成1秒音頻,合成時延達到了業界水平的1/3,大幅提升了合成速度,並且讓多場景實時語音合成成為可能。
而除了主播領域以外,AI虛擬數字人還可以用智能客服及招聘領域。在未來,我們可以預見到,AI虛擬數字人在其他高重複性場景的更多運用可能性。而伴隨著京東數科全面的機器人體系研發技術的進展,或許也將出現超乎我們想像的AI運用。
② 科大訊飛:為多家企業提供底層技術支持
作為國內最受關注的智能語音和人工智慧企業之一,科大訊飛在語音合成領域的進展和運用也一直走在行業前沿。
早在之前,科大訊飛就推出了訊飛錄音筆、智能滑鼠、阿爾法蛋等涉及語音交互的產品。今年,來自科大訊飛地一款彩色墨水屏閱讀器正式面世,一方面,閱讀器可以進行常見的新聞播報、語音讀書,滿足用戶的基礎要求;另一方面,閱讀器結內置了神秘AI主播,可以對話用戶、助力用戶解決問題。同時,科大訊飛也為多家企業提供底層技術支撐,覆蓋智慧型手機、智能汽車等多個領域。
③ 騰訊云:語音累計音色種類達24種
而對於擁有國內最大流量池——微信、QQ的騰訊而言,這家企業則選擇為內容創業者提供服務。
今年9月,騰訊雲語音合成團隊正式開放面向全量用戶的合成音頻平臺,該平臺能夠幫助用戶在零門檻的情況下實現語音合成技術的運用,用戶只需要直語音合成控制臺上生成和下載文本對應的音頻文件即可。該功能的側重點是幫助內容創作者在公眾號、短視頻、小視頻等內容上更簡單、快捷地插入對應所需的音頻文件。同時,騰訊雲還發布了全新地11種音色,其中甚至包括粵語這樣的方言在內,目前累計音色種類達24種。
④ 百度:百度大腦開放全棧語音引擎能力
作為將AI作為戰略進行投入的百度,在語音合成上的推進也不容小覷。
去年,已經開放三年的百度發布了語音引擎。這是一套非常全面的系統,覆蓋內容非常廣泛,包括硬體模組、開發板以及語音交互場景解決方案等。在這其中,百度也專門圍繞語音合成的成功進行了發布,推出了6個在線語音合成精品音庫和5個離線語音合成精品音庫。
未來語音合成將更接近人類的語言
立足現在,我們不禁暢想,未來的語音合成將是什麼樣,又將出現在哪些地方?
在技術上,毫無疑問,未來的語音合成將更接近人類的語言。一個理想的語音合成系統由三部分組成:文本分析、韻律生成和合成語音,而在這三方面,行業的發展都還有待提高。
在這其中,韻律生成是行業面臨的共同問題,如何可以讓語音合成更像人類?更具表達力?作為聲學模型,還有大量個性化、情感化的變化因素需要學習。而值得一提的是,語音合成技術的複雜度也需要降低,從而實現更廣度地運用。我們也相信,隨著大量語料的有效使用,這一切問題也都將解決,未來,語音合成必將更加"傳神"。
而隨之而來的,我們的生活也將被改變。
一方面,在科技帶來革新的同時,傳統也將受到衝擊。在上文中,小妮被運用與客服以及招聘的部分環節,那麼很明顯,在不遠的未來,具有重複性的語音性質的工作將受到巨大影響。
而另一方面,更為智能的未來也將到來,在將來,人與機器的交互方式或許將被徹底改變,到那時,全新的商業機會也將藏於其中。
為了迎接這一時代,巨頭趨之若鶩,而普通人也同樣該砥礪前行。