一文看懂語音合成:真能跟Siri戀愛?模擬人類語言暗藏哪些商機

2021-01-15 京東數科

語音合成技術給我們帶來了很多驚喜,你知道自己每天都在與它們打交道嗎?而開車時的導航就是語音合成的一種。雖然目前的"它們"只會相對機械的朗讀文章,但可以肯定的是,語音合成技術已經走出實驗室,開始商用,其潛在的巨大市場已露出曙光。

我們的身邊總是人聲鼎沸。

嬰兒牙牙學語,男女互訴愛意。在肺部、氣管和聲帶的共同作用下,聲音出現,喉內肌肉協調作用下,我們說出能夠代表自己想法的字符,再賦予其憤怒或喜悅或悲傷的情感,人類的語音就此形成。

18世紀末,一個因土耳其行棋傀儡的騙局將在多年後臭名昭著的發明家沃爾夫岡·馮·肯佩倫,花費了人生最後20年的時間,試圖模擬人類的語音。他做了一個布滿孔洞的空箱,空箱連接著一個奇異形狀的鼓風機,鼓風機被壓動後將使得內置的簧片振動,這一過程模擬了人類的發聲,也確實發出了聲音,而這也成就了人類最早的語音合成機械之一。

讓機器更像人類,是無數科學家的夢想。這樣的夢想被多方位的推進,從機器的外形上、內核的思考運算上,以及對外表達的說話上。

如今,電子設備取代了空盒子,算法則比簧片更能夠協調發聲。在技術發展下,聲音的波動被計算機捕捉、計算、指引,最終發出聲音。這一項帶著前人夢想的技術,不再單單出現在電影和小說裡,也承載起了巨大的市場走進千家萬戶,這就是語音合成。

從Siri開始的熱潮,語音合成潛力無限

2011年10月4日,一場名為"Let's talk iPhone"的手機發布會正引起全球關注,在這場發布會上,iPhone 4S搭載Siri亮相,從此,Siri這一可以執行人類口語指令並給予語音回應的語音助手成為了蘋果所有硬體的標配。

同時,Siri的熱潮也拉開了語音合成技術運用的大門。

2014年微軟推出了"小娜"與"小冰",這是將Siri所擁有的語音識別技術及語音合成技術分開來,小娜負責理解複雜的口語指令並進行執行,而小冰主要能夠和人類友好地聊天。

隨後,這樣的運用逐步增多:2014 年底,亞馬遜發布了 Echo 智能音箱,語音助理 Alexa也隨之亮相;一年半後,Google 也發布了第一代智能音箱 Google Home 和語音助手 Google Assistant。

國內的巨頭也不遑多讓,京東叮咚智能音箱、天貓精靈智能音箱、小愛系列智能音箱、小度智能音箱,也紛紛進入了國人的家居生活。

Siri的熱潮同步開啟的,不僅僅是語音合成技術在硬體上的應用,也包括一系列更具想像力的交互場景,帶來了巨大的商機。

2015年春節,本就搭載了語音導航的高德地圖與郭德綱合作,推出了高德地圖歡笑版。用戶打開高德地圖,不僅能夠聽到導航播報,還能聽到郭德綱的極具特色的段子。這一次嘗試,讓高德地圖一度躍至蘋果App Store榜單第2名。

在今年新冠肺炎疫情期間,"宅經濟"大行其道,"聽書"市場也快速爆發,有聲閱讀成為新的閱讀潮流。

除此以外,短視頻中的AI配音,讓視頻內容者省去大量配音時間;對已故知名藝人的聲音採集,實現過去與現在的交互,圓了一代粉絲的夢想……

我們可以看到,語音合成技術的未來擁有巨大的想像空間,根據賽迪智庫數據,預計到2021年智能語音市場規模將達195億元。在這其中,智能語音就由語音識別技術(ASR)和語音合成技術(TTS)共同組成。

而這兩項技術也正在被頭部企業迅速推進,市場之下,語音合成已經不僅僅代表人類過去的夢想,更是代表著更"大一統"的科技格局,畢竟,這一技術改變著人類與機器的交互方式,也將改變未來人類的機器使用習慣,代表著全新的機會與入口。

從過去到現在,語音合成技術一覽

1773年,俄國科學家、在哥本哈根生活的生理學教授克裡斯蒂安·克拉特齊斯坦(Christian Kratzenstein)製造了一個特別的設備,通過共鳴管和風琴管的連接,幾乎可以完美的發出 a、e、i、o、u 這五個元音。

十多年後,前文提到的沃爾夫岡·馮·肯佩倫也製造了一臺類似的機械聲學語音機器。隨後,多位發明家基於這一機器進行改進,都是試圖通過物理機模擬人說話發音。

這樣的嘗試已經令人難以想像,不過,即使這樣的物理機發展得登峰造極,也無法模擬出我們說出的每一個音節、無法擁有人說話的音質,也無法停頓、無法帶有情緒。

因此,另一種方式出現——拼接系統,讓說話人錄製語音存入系統,在合成語音時選擇對應的片段進行拼接、合成。這樣的拼接系統能夠相比物理機極大地接近人聲,雖然拼接處的瑕疵難以消除,但是隨著如今大數據時代的來臨,大語料庫的出現,讓拼接出的語音逐步真人化,直至如今依然有商業系統在使用。

基於參數的合成技術的誕生背景則是基於神經網絡架構的深度學習方法的飛速進展。當時,對語音的識別不再是識別一個簡單的詞和短詞組,而是基於統計的方法,運用聲學模型幫助計算機認知每個音素單元的聲學特徵、運用語言模型幫助計算機實現對人類用詞習慣的認知,最終給到用戶最高可能性的連接。在這其中,典型的模型是隱含馬爾可夫模型(HMM),用來描述如何在可變長的時序特徵序列上打詞標籤。

2017年3月,行業的引領者Google 提出了一種新的端到端的語音合成系統:Tacotron。端到端語音合成是在參數合成技術上演進而來的,把兩段式預測統一成了一個模型預測,即拼音流到語音特徵流的直接轉換,省去了主觀的中間特徵標註,克服了誤差積累,也大幅度提高了語音合成的質量。

然而,為了實現真正像人一樣的發音,語音合成系統必須學會語調、重音、節奏等表達因素,這一問題,Tacotron也並未解決。

谷歌曾共享了兩篇新論文試圖解決這一問題,第一篇論文《Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron》介紹了"韻律學嵌入"(prosody embedding)的概念。論文中為 Tacotron 增加了一個韻律學編碼器,該嵌入捕捉包括停頓、語調、語速等在內的音頻特徵可根據一個完全不同的說話者的聲音生產語音。

第二篇論文《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》則在上一篇論文的架構上進一步展開,並且創新性地提出了一種建模潛在語音"因素"的無監督新方法。這一模型之下,學習的不再是時間對齊的精確的韻律學元素,而是較高層的說話風格模式,並且可以遷移於任意不同的短語之中。

如果論文提到的模型實現,那麼我們便可以迫使 Tacotron 使用特定的說話風格,不需要參考語音片段,並能創造出語音長度多樣化的不同語句,並帶有情緒。

在不遠的將來,或許我們就將聽到,來自機器的人類聲音。

國內:積極商用,進展矚目

在語音合成的重要研究中,因為國內起步較晚,所以我們很少看到突破性的技術發展。但是,即便停留在艱難的探索初期,巨頭們之於語音合成仍舊趨之若鶩。

我們也驚喜地看到,不少企業在近期通過語音合成的商用落地,展現出了自己的技術實力。

① 京東數科:AI主播"小妮"上崗

京東數科基於京東多年在人工智慧、大數據、雲計算等領域的技術沉澱,在2018年就開始組建機器人的團隊,研究覆蓋生命科學、傳感器材料乃至運動力學與人機互動。

在全面的機器人開發體系下,今年5月,京東數科推出了令人矚目的AI主播"小妮",這是京東數科自主研發的AI虛擬數字人產品首次亮相。

小妮的真實是全方位的,在聽感、表情、頭部動作乃至口型上,小妮都極像真人。從文字到語音,小妮通過自研的輕量級對抗語音合成技術進行轉化;而小妮特色鮮明的聲音及極具真實性的呼吸和停頓,則是來源於在多人數據上結合深度神經網絡進行個性化建模……

更為重要的是,小妮的出現打通了語音、圖像、視頻,在語音生成視頻的階段,她的形象同樣真實。因為京東數科AI實驗室利用對抗生成網絡來還原更真實的表情,通過3D模型運動追蹤技術來確保AI主播在說話時口型準確、表情細膩、頭部運動自然。

值得關注的是,京東數科過程中使用的高效輕量的對抗神經網絡,只需0.07秒便能合成1秒音頻,合成時延達到了業界水平的1/3,大幅提升了合成速度,並且讓多場景實時語音合成成為可能。

而除了主播領域以外,AI虛擬數字人還可以用智能客服及招聘領域。在未來,我們可以預見到,AI虛擬數字人在其他高重複性場景的更多運用可能性。而伴隨著京東數科全面的機器人體系研發技術的進展,或許也將出現超乎我們想像的AI運用。

② 科大訊飛:為多家企業提供底層技術支持

作為國內最受關注的智能語音和人工智慧企業之一,科大訊飛在語音合成領域的進展和運用也一直走在行業前沿。

早在之前,科大訊飛就推出了訊飛錄音筆、智能滑鼠、阿爾法蛋等涉及語音交互的產品。今年,來自科大訊飛地一款彩色墨水屏閱讀器正式面世,一方面,閱讀器可以進行常見的新聞播報、語音讀書,滿足用戶的基礎要求;另一方面,閱讀器結內置了神秘AI主播,可以對話用戶、助力用戶解決問題。同時,科大訊飛也為多家企業提供底層技術支撐,覆蓋智慧型手機、智能汽車等多個領域。

③ 騰訊云:語音累計音色種類達24種

而對於擁有國內最大流量池——微信、QQ的騰訊而言,這家企業則選擇為內容創業者提供服務。

今年9月,騰訊雲語音合成團隊正式開放面向全量用戶的合成音頻平臺,該平臺能夠幫助用戶在零門檻的情況下實現語音合成技術的運用,用戶只需要直語音合成控制臺上生成和下載文本對應的音頻文件即可。該功能的側重點是幫助內容創作者在公眾號、短視頻、小視頻等內容上更簡單、快捷地插入對應所需的音頻文件。同時,騰訊雲還發布了全新地11種音色,其中甚至包括粵語這樣的方言在內,目前累計音色種類達24種。

④ 百度:百度大腦開放全棧語音引擎能力

作為將AI作為戰略進行投入的百度,在語音合成上的推進也不容小覷。

去年,已經開放三年的百度發布了語音引擎。這是一套非常全面的系統,覆蓋內容非常廣泛,包括硬體模組、開發板以及語音交互場景解決方案等。在這其中,百度也專門圍繞語音合成的成功進行了發布,推出了6個在線語音合成精品音庫和5個離線語音合成精品音庫。

未來語音合成將更接近人類的語言

立足現在,我們不禁暢想,未來的語音合成將是什麼樣,又將出現在哪些地方?

在技術上,毫無疑問,未來的語音合成將更接近人類的語言。一個理想的語音合成系統由三部分組成:文本分析、韻律生成和合成語音,而在這三方面,行業的發展都還有待提高。

在這其中,韻律生成是行業面臨的共同問題,如何可以讓語音合成更像人類?更具表達力?作為聲學模型,還有大量個性化、情感化的變化因素需要學習。而值得一提的是,語音合成技術的複雜度也需要降低,從而實現更廣度地運用。我們也相信,隨著大量語料的有效使用,這一切問題也都將解決,未來,語音合成必將更加"傳神"。

而隨之而來的,我們的生活也將被改變。

一方面,在科技帶來革新的同時,傳統也將受到衝擊。在上文中,小妮被運用與客服以及招聘的部分環節,那麼很明顯,在不遠的未來,具有重複性的語音性質的工作將受到巨大影響。

而另一方面,更為智能的未來也將到來,在將來,人與機器的交互方式或許將被徹底改變,到那時,全新的商業機會也將藏於其中。

為了迎接這一時代,巨頭趨之若鶩,而普通人也同樣該砥礪前行。

相關焦點

  • 科普丨一文看懂語音識別的技術原理
    簡要給大家介紹一下語音怎麼變文字的吧。希望這個介紹能讓所有同學看懂。首先,我們知道聲音實際上是一種波。常見的mp3、wmv等格式都是壓縮格式,必須轉成非壓縮的純波形文件來處理,比如Windows PCM文件,也就是俗稱的wav文件。wav文件裡存儲的除了一個文件頭以外,就是聲音波形的一個個點了。
  • CSSML(中文語音合成標記語言)的發展與應用
    CSSML(中文語音合成標記語言)的發展與應用2003/12/17  近年來,隨著中文語音技術的迅速發展和應用的逐步深入,語音產業的廣闊市場及其所凸現的強大的產業帶動效應已經初步顯示出來會上確定了由科大訊飛牽頭制定語音標準。  CSSML(Chinese Speech Synthesis Markup Language),即中文語音合成標記語言,正是在上述背景下由科大訊飛起草,經歷數次中文語音技術標準研討會討論後形成的。  CSSML標記語言針對中文合成領域內的特殊要求,對W3C定義的SSML規範中的標記進行擴展,並與SSML完全兼容。
  • 一文看懂語音技術商業化邏輯:對品牌意味著什麼
    不斷接近並跨過這一認知門檻成了當前語音產業繁榮的最大因素。人類識別口語詞彙的準確率約95%,並能使用語境來糾正錯誤。對於大多數用戶來說,任何具有較低識別準確率的自動化系統都會讓他們失望,因此這在商業上並不可行。機器學習在意圖推導方面的相關發展(後文另作解釋),這也是產業繁榮的一個巨大貢獻因素。
  • 語音交互:從語音喚醒(KWS)聊起
    編輯導語:隨著手機的逐漸智能化,越來越多的手機只要聽到指令就會幫助主人完成一些任務,這就是語音喚醒功能。本文作者圍繞語音喚醒功能,從其應用有哪些、工作原理是什麼、怎樣訓練一個喚醒模型、如何測試等方面展開了詳細地討論。
  • 基於C語言的設計流優化語音識別晶片結構設計
    據預測,市場對語音控制應用設備的需求將急劇增長,其推動力來自電話機市場。電話機將更多地採用語音命令進行控制。其他應用領域包括玩具和手持設備如計算器、語音控制的安全系統、家用電器及車載設備(立體聲、視窗、環境控制、車燈和導航控制)。本文從可復用和優化晶片空間的角度出發介紹語音識別晶片結構設計的種種考慮,其思路有利於開發一系列其它語音識別晶片。
  • AI產品經理需要了解的語音交互評價指標
    本文主要從5大方面具體介紹了現在行業內對語音交互系統的常見評價指標,分別是語音識別、自然語言處理、語音合成一、語音識別ASR語音識別(Automatic Speech Recognition),一般簡稱ASR,是將聲音轉化為文字的過程,相當於人類的耳朵。
  • MRCP協議學習筆記-語音合成標記語言(SSML)-2
    通過第二部分的介紹,結合第一部分的知識,筆者會給讀者提供一個非常完整的語音合成標記語言(SSML)的介紹。現在,我們將對第二部分的細節進行逐一介紹。  1、首先,讓我們簡單說明一下為什麼要對標記語言進行控制設置。演講是一門藝術。我們看到很多名人在觀眾面前侃侃而談。我們經常看的TED節目就是非常出色的演講節目,TED節目中的演講內容也給我們留下來深刻的印象。
  • 語音合成方法概述與總結
    音素因襲是包含發音與語言相關的向量序列。預測時長後使用時長擴展音素信息為多個描述幀,對應預測倒譜幀。時長模型決定韻律,倒頻譜決定音色和音調,兩這對合成質量有決定性作用音素信息序列和幀序列都是一系列配對向量。
  • 百度大腦AI加持語言教育,智能語音糾正口語發音、指導朗讀背誦
    (用戶可在校園故事場景中與虛擬人物英語交流)2017年冬天,全新超現實VR、AR戀愛口語手遊《戀愛口令》首部試玩版上線。隨著現代社會的發展,人們對英語學習的需求日益增長。而對於國內情況來說,能夠開口交流是英語學習中最重要的部分之一。因此,對於銀月網絡來說,能發揮其「沉浸式遊戲」的手段讓用戶在一個真實場景中練習口語,成為開發此款軟體的目的。而為實現在英語互動中,更準確的識別用戶所講,銀月網絡接入了百度大腦語音識別和語音合成技術,讓識別準確率提升至97%,大大提高了人與設備對話的體驗,這也讓用戶在英語口語練習上更科學,更準確,更專業。
  • 百度大腦論壇如期而至,語音、視覺、語言與知識技術成熱點
    她表示,自然語言處理、知識圖譜等技術都屬於認知層面的技術,這些技術讓機器學會如何運用人類的語言和知識,進而能夠在此基礎上進行思維。隨後,她詳細介紹了百度最近開源的 ERNIE 模型,該模型不僅在學術界的一些任務上表現出眾,也有非常強大的應用能力,在智能問答、CTR 預估、文本潤色、對話理解等百度產品中表現出色。
  • 一文知道人工智慧的分支
    打開APP 一文知道人工智慧的分支 科技世界雜談 發表於 2021-01-17 10:35:26   人工智慧是計算機識別,推理和行動的實踐方法
  • 人工智慧機器人語音助手系統或將讓強人工智慧提前出現
    在現階段,作為人工智慧初階段的人工智慧機器人語音助手語言處理程序,是一個綜合性的人工智慧,因為人類的語言複雜非常,比如中國文字「東西」這個詞就有很多種意思,如果語言處理程序能理解80%以上的自然語言,強人工智慧拐點將出現,強人工智慧或將提前出現。  人工智慧機器人語音助手系統不同於阿法狗這種只會下圍棋的單一功能人工智慧,其綜合性決定了它一旦突破,將讓人工智慧突飛猛進的發展。
  • 中文語音合成最高水平,百度語音技術打造全球首款地圖語音定製產品
    因此,語音合成效果變得更加逼真、豐富,用戶體驗也得到了提升。Meitron技術能夠實現個性化的聲音跟共有聲音空間信息的完美分離和完美重合再現,是個性化語音合成成功的關鍵。在今年的5月份,基於百度大腦的這一語音技術合成了一位已故老排長的聲音,讓消逝的聲音重現世間,抗戰老兵們在分別64年後首次實現了「重逢」。
  • 一文看懂數字孿生—概述
    學術界的定義:數字孿生是以數位化方式創建物理實體的虛擬實體,藉助歷史數據、實時數據以及算法模型等,模擬、驗證、預測、控制物理實體全生命周期過程的技術手段 。從根本上講,數字孿生可以定義為有助於優化業務績效的物理對象或過程的歷史和當前行為的不斷發展的數字資料。數字孿生模型基於跨一系列維度的大規模,累積,實時,真實世界的數據測量 。
  • 華裔教授AI解碼腦電波,大腦所想直接合成文本或語音
    從大腦「讀取」人的意圖說話似乎是一件毫不費力的事,但實際上說話卻是人類執行的最複雜的活動之一。十多年前,科學家首次從大腦信號中解碼語言,但是一直以來,語言解碼的準確性和速度遠遠低於自然語言交流。但是,還需要開展進一步的研究來更加完整地調查這個系統的功能,將解碼範圍擴展到研究所限語言之外。腦機接口+AI 合成語音直接通過解碼大腦活動信號來合成文本或語音,不只是一項科幻般的「讀心術」,更是一種頗有前景的治療方案。控制光標進行單詞拼寫,只是離散字母的連續串聯,而解碼語言則是一種高效的通信形式。
  • 真· 人工模擬火箭發射!網友:終於看懂了……
    火箭發射的畫面不少人都見過但你見過「人工模擬火箭發射」嗎最近,@中國航天科技集團就給網友露了一手真·人工模擬火箭發射視頻中工作人員出鏡扮演火箭各個部位形象展現了火箭發射的全過程>1首先,10秒倒計時開始倒計時結束點火火箭起飛2接著,助推器分離一級火箭關機一二級火箭分離3然後,拋整流罩二級火箭關機、分離4接下來三級火箭一次關機二次點火、二次關機5
  • 人類首次人工合成真核生物染色體
    由美、英、法等多國研究人員組成的科研小組,在3月28日出版的《科學》雜誌上報告說,他們合成出了人工真核生物染色體,並成功在釀酒酵母中發揮功能。這是人類首次合成出真核細胞的染色體,也是人類邁向人工合成生命體的重要一步,未來還能大幅提高抗瘧藥、柴油等產品的產量。
  • 國內智能語音行業分析報告
    語音識別、圖像識別和機器人視覺、生物識別等目前最火熱的領域,主要解決的是感知智能的需求,就是使得人工智慧能夠感知周圍的世界,能夠「聽見」或者「看到」。自然語言理解、智能會話、智能決策、人機互動等技術更加側重的是認知智能的領域,解決「聽懂」、「看懂」,並且根據學習到的知識對人類的要求或者周圍的環境做出反應的能力。
  • 中文和英文,哪個更加適合運用在人工智慧的語音識別技術上?
    人類文化距離人工智慧資訊時代基本上只差一些技術上的完善了,在人們對於以後的生活學習環境裡,可能處處都會充斥著人工智慧,正如我們可以看到的科幻電影那般,人們的生活方式將會非常便利,且充滿中國科技感。如今,我們一般可以接觸到的人工智慧無疑是幾乎所有智慧型手機都附帶的語音功能。
  • 語音合成在語音助手中的應用及擴展
    1.語音合成方法簡介從整個語音合成研究的發展歷史來看,早期的機械式語音合成器反應了人們對語音產生機理了解的比較粗略,現代語音合成的方法基本上都是採用一種語音模型來合成語音。總的說來,近期語音合成的方法可以歸結為四種:1)物理機理語音合成;2)源-濾波器語音合成;3)基於單元挑選與波形拼接技術的語音合成;4)可訓練的語音合成;其中現在大家常採用的合成方法為基于波形拼接技術的語音合成和可訓練的語音合成兩種。本文涉及的內容為語音合成的後端,語音合成的前端也是文本處理的一部分,主要包括文本正則化、分詞、詞性標註、多音字消崎及韻律預測等,這裡不做具體介紹。