賈磊暢談AI語音技術的現在、過去和未來

2020-12-22 東方財富網

在國內，談到智能語音技術，肯定繞不開一個人，那就是現任百度語音首席架構師賈磊，他是智能語音界舉足輕重的AI大牛，於2010年加入百度，組建了百度語音團隊，主導研發了百度語音識別和語音合成等一系列百度自有智慧財產權的語音核心技術。2016年短暫創業後又回歸百度，主持研發了小度智能音箱的遠場語音交互系統、小度車載語音交互、百度鴻鵠語音晶片、百度智能語音呼叫中心系統等一系列百度語音類產品並將相關技術推向中國社會，他還於2015年獲得了全國勞模稱號(網際網路業首位全國勞動模範)。

作為 AI 落地的一個關鍵組成部分，智能語音交互技術這一路是如何發展起來並日趨成熟的？在2020魔幻的一年，智能語音技術的最新發展是什麼？伴隨著5G、AI算力等技術的快速發展，未來智能語音技術又將在哪些方向進行突破和創新？本文將分為上下兩部分，結合賈磊的從業經歷，從個人側和技術側詳談智能語音技術的過去、現在和未來，肯定能讓你收穫頗多。另外，賈磊也將於2021年1月8-9日QCon北京站上帶來智能語音的更多精彩分享，歡迎大家現場面基，共同探討、交流。

(上)

作為最早關注智能語音的業界大咖之一，賈磊是在什麼契機下選擇走上智能語音之路的？他對語音交互認知的本源是如何理解的？短暫創業經歷又給他帶來了哪些收穫？接下來，本文上篇將你深入認識一下賈磊，全面了解下大牛成長記。

興趣驅動，開啟近20年的智能語音技術追求之旅

賈磊選擇語音是興趣驅動的。賈磊碩士畢業後，考入中科院自動化所攻讀博士學學位。他最初的研發方向是圖像處理，廣泛涉獵了模式識別各學科方方面面的知識，也綜合比較了圖像、語音和NLP等學科的學科差異等。這時候逐漸開始對語音技術產生了濃厚的興趣，很好奇人是怎麼發出聲音、感知聲音、並且理解聲音內容的。當時IBM的ViaVoice軟體也是風靡世界，人們依靠聲音來實現人機互動的夢想的實現就擺在眼前，語音產業化應用的明天一片大好。這時候正巧賈磊中科院自動化所的第一任導師因為工作調動問題，允許他們調換專業，最終他根據個人興趣發展，申請從圖像處理方向轉到語音識別的技術方向上。從那時候開始，賈磊就開始了他近20年的語音技術追求之旅。

短暫創業讓賈磊明白了夥伴間的「可依賴」關係

賈磊曾在2016年有過一段短暫的創業經歷，談及創業帶給他的最大收穫，賈磊坦言，創業使他懂得了創業夥伴之間需要的是「可依賴」，而不是簡單的「可信賴」。大家因為信賴走到一起，「信賴」只是彼此結緣的開始。創業夥伴們之間需要維護的是一種可依賴關係，這種關係需要長期存在，是一個過程。創業過程中，經常捨死忘生，人力物力財力都有限，大家各自需要 120% 的投入解決眼前的問題。大家需要把後背交給對方，無條件的信任對方。大家背靠背的去戰鬥，背靠背的一起拼。每個人都拼死守住自己前方的戰場，把自己的後背託付給一起創業的夥伴和兄弟。一個人敗了，其實也是大家都敗了，再說誰的責任已經毫無意義。創業會讓人更加認識到團隊協作的價值和團隊的作用。除了對創業夥伴之間的關係理解外，創業帶給賈磊最大的衝擊是對資本的敬畏。之前一直在大公司打工做技術，從來沒有意識到資本對於技術發展的可持續是如此的重要。經過創業之後，他深刻的理解到，技術要想有進步，不單單是技術人員的個人努力，更重要的是技術人員所屬平臺的持續長期投入。這些投入不單單是技術人員的工資、實驗以及各種研發要件的投入，更為具體的是技術應用場景的投入，後者的投入更為巨大。因此創業之後再回到百度，賈磊更加感恩，百度的長期不計回報的投入，才讓語音技術這個小草，在百度內能夠長成參天大樹。賈磊個人也從語音技術的普通專業技術人才，變成語音行業的技術領軍人物。

如何理解語音交互認知本源

創業回到百度後，賈磊從之前側重語音算法技術創新，變成算法創新和產業拓展兼顧。也許是認識到了資本對於技術的推動作用，賈磊要求團隊成員都要有成本意識和營收意識(當然技術團隊的營收都是概念上的，而不都是絕對實際的營業流水)，都要具備業務整體推進能力，而不是單體算法創新。這也是他們投入做百度鴻鵠晶片的一個背景。講這些乍一聽，好像和人類認知沒有關係，但是真正的把技術應用到實際的應用過程，賈磊越來越發現，人類的認知過程，不是一個簡單的學科劃分過程。不是說學語音的就只解決語音的認知，很多時候認知是視覺、聽覺、理解一體化的一個過程，比如任何人交流中的肢體語言，就對人的意圖理解起到舉足輕重的作用，再比如語義理解過程和語音識別過程，在具體的產業應用中，是密不可分的。學科劃分有邊界，但是人的認知本源可能是一體的。解決語音交互的問題，不能單單從語音技術出發，要放在產業應用中，語音、圖像和NLP一體化的規劃和解決問題。

時間就像海綿裡的水，努力擠才能平衡工作和家庭

賈磊曾在2015年榮獲全國勞模稱號(網際網路業首位全國勞動模範)，可以想見工作強度非常大，關於怎樣平衡工作和家庭，他認為網際網路的工作強度都很大，網際網路工作的朋友們都犧牲了很多自己的生活休息時間。「我個人而言和從事網際網路行業的夥伴們一樣，都是全身心的投入工作，家庭生活感覺確實參與的少一些。陪孩子的時間也比較少，有時候工作忙了，早晨一大早出來，晚上很晚回去，回去後孩子也早就睡了。早晚兩頭都見不到孩子，非常想她。每次見到孩子衝著我笑的小臉，我都覺得很自責。如果不是很忙的話，我都儘量早晨早一點起來。陪她吃早飯，送她上學。上學路上，我會教她看紅綠燈、走斑馬線以及避讓綠燈時候右轉的車輛。之後，我趕緊開車奔向公司，正好能趕上大清早開始工作。我覺得時間就像海綿裡面的水，只要你使勁擠，總是能擠出來的。不要錯過陪伴孩子長大的時間，他們長大的很快，一晃就不再需要我們的陪伴了。」

(下)

上篇我們聊到了賈磊老師與智能語音技術的情結，下篇我們將著重從技術側和你聊聊智能語音的過去、現在和未來，乾貨滿滿。

智能語音行業發展歷程解析

IBM ViaVoice 時代的語音技術

語音行業在2000年左右，迎來了第一個產業高潮，也就是IBM的ViaVoice 語音錄入軟體。當時人們把這個軟體安裝到PC機器上，就可以在計算機前面朗讀報紙或者新聞內容，或者錄入一些簡單的日常用語，識別率也還不錯。於是工業界有了一次大規模連續語音識別的產業化應用的熱潮。當時，ViaVoice時代的語音技術還是以HMM建模和混合高斯系統 (GMM) 為聲學建模核心的建模技術，語言模型採用的是基於 Ngram 的統計語言模型。因為 PC 上的內存限制，語言模型體積也只有幾十 M。另外，當時可以獲得的文本語料也是有限的，所以語言模型能覆蓋的內容範圍很小，當時主要集中在新聞報紙和日常用語領域。因為 HMM 系統和混合高斯系統建模能力有限，這時的連續語音聲學訓練語料庫也就只有數百小時。這個時候的語音識別系統對說話方式和口音的要求也很嚴格，說話方式必須是朗讀方式，口音也要求必須是標準普通話，否則，識別率迅速下降。很快的，人們發現 ViaVoice 難以滿足人們在 PC 上把聲音轉成文字的產業需要。慢慢地，ViaVoice 的產業熱情就逐漸降溫了。

早期Windows上的ViaVoice軟體

在2003年賈磊畢業的時候，基本上人們對於語音輸入的產業期望已經很低了，各大公司都降低了語音技術的投入和預期。賈磊剛畢業就立刻迎來了語音技術的第一個低潮期，當時很多做語音專業的學生都轉換方向，不少人做語音也是選擇留校，而不是工業屆。當時國內各大公司比較多見的語音需求是手機上的數字和人名撥號系統、以及車載語音導航等嵌入式產品研發，技術也大都集中在設備端側的單通道語音識別或者是語音合成。技術上講，這些應用都是嵌入式孤立詞語音識別系統，其特點是只能識別特定的指令詞和句式。之後的幾年，除了零星的嵌入式設備應用外，語音技術在工業界的拓展乏陳可新，語音產業持續低迷。

語音技術的產業應用迎來第二波高潮

痛苦的日子總算沒有太長。在2007年，微軟公司收購語音識別技術企業Tellme Networks，並開始組建自己的語音團隊，語音技術的產業應用又重新回到大公司的關注熱點中。很快，谷歌於2008年在美國發布了英文語音搜索服務Voice Search，並應用於Android、諾基亞S60、黑莓、iPhone 等多個系列的手機。之後，谷歌又在 2009 年發布了中文語音搜索，語音的產業應用迎來了新一波高潮。這一波熱潮的核心特點是以網際網路需求和實現為基礎，此時模型處在雲端，所以體積可以更大。例如語言模型，由於位於雲端，語言模型體積可以達到上G，這是之前2000年左右的ViaVoice 語音系統所不可能達到的(2000年的比較好的PC計算機內存才256M，那是語言模型位於終端，也只有幾十M)。語言模型位於雲端後，熱詞新詞的信息更新也更加及時，同時大的模型體積意味著對支持的語言領域更加廣泛。同時，技術上雖然聲學模型仍然是以 HMM 框架 GMM 建模為主體，但是可以採用更多更大的訓練語料。數千小時乃至上萬小時的聲學訓練語料庫已經開始進入工業界。因此從 2000 年到 2010 年左右的十年期間，雖然語音識別的核心算法技術仍然是 HMM、GMM 和 Ngram 統計語言模型，但是因為網際網路技術的引入，可以採用雲端體積更大的聲學模型和語言模型，訓練這些模型的語料庫也顯著增加，最終導致語音交互的用戶體驗得到很大提升，語音技術的雲端應用逐漸開始流行。

深度學習首次應用語音識別的系統框圖

2011年，微軟的鄧力和俞棟兩位學者通力合作，把深度學習技術應用於工業級的大詞彙量連續語音識別實驗，獲得相對於傳統基線系統 23% 的顯著提升，這標誌著語音識別技術最先迎來深度學習革命。深度學習應用於語音識別，最初的整體建模框架仍然是 HMM，但是聲學輸出分布 GMM 模型被替換成了深度學習 DNN 模型。這時候的語音識別系統是一種 HMM 和 DNN 混合 (hybrid) 的語音識別系統。隨著深度學習技術在語音技術中越來越深入的應用，從 DNN 到 CNN，再到 CNN+LSTM，語音識別系統的字錯誤率以每年 10%- 15% 的相對錯誤率降低。再後來伴隨著 CTC 技術的引入，更大粒度的建模單元(WordPiece 模型，音節和字)開始逐漸越來越多的被採用，應用於語音識別幾十年的 HMM 框架逐漸被淘汰。

語音識別技術進入端到端時代

從 2015 年開始到 2020 年這段時間，注意力建模技術的研究，又讓語音識別技術開始進入端到端的時代。2019 年之前，Attention(注意力) 技術早已經廣泛應用於 NLP、圖像等商業產品領域。但是語音識別領域，從 2015 年開始，實驗室內就廣泛進行了基於 Attention 的聲學建模技術，也獲得了廣泛的成功。國際上通常用於語音識別的注意力模型有兩種，一種是谷歌的以 LSTM 為基礎的 LAS(listening attention and spelling) 模型。另外一種是基於 self attention 的 transformer 模型。這兩種注意力模型在實驗室的各種實驗中，都能夠顯著提升語音識別系統的識別率，同時實現了一套深度學習模型，語音語言一體化的端到端建模。雖然注意力模型在實驗室範圍內獲得巨大成功，但是應用於工業界的實際在線語音交互產品，還存在一系列的技術障礙。核心難題就是在線需要識別系統需要流式解碼，而注意力模型需要拿到整段語音才能進行解碼，會造成用戶無法接受的識別延遲問題。所以注意力模型直到 2019 年初，都沒有在工業在線語音交互中使用注意力模型做語音識別的成功案例。2019年1月，百度發布率先發布了基於流式置信度建模技術的語音輸入法產品，首次提出流式多級截斷的注意力模型 (SMLTA)，這是國際上注意力模型在在線語音識別領域的大規模工業應用的首個成功案例。之後，流式注意力模型在學術界也開始進入廣泛的研究。最近，語音識別應用中的逐漸集中到流式的 self-attention 建模，包括流式的 transformer 等。人類對於語音識別的核心技術提升的腳步從來沒有停止過。

基於注意力機制的語音識別端到端建模的通用框架

2015-2020年期間，智能音箱產業在中國乃至世界範圍內，都得到巨大的發展和普及。在智能音箱使用場景下，目標聲源距離拾音器較遠，致使目標信號衰減嚴重，加之環境嘈雜幹擾信號眾多，最終導致信噪比較低，語音識別性能較差。為了提升遠場語音識別準確率，一般會使用麥克風陣列作為拾音器，然後利用數位訊號處理領域的多通道語音信號處理技術，增強目標信號，最終產生一路清晰信號，送給後面的語音識別系統進行語音識別。這時候數字處理信號系統和語音識別系統相互級聯是主流的遠場語音識別技術，這種級聯技術也成為第一代智能音箱遠場語音交互技術的主流技術。隨後，語音學術界開始進行一系列的技術創新，從數位訊號處理到語音識別一體化的端到端建模成為熱點。這是一種創新的遠場語音交互技術，一套深度學習模型打穿數位訊號處理和語音識別兩個領域。國際上，Google 最先試圖解決這個問題。谷歌的解決方案採用的深度學習模型結構，來自於類似於 filtering and sum 的數位訊號處理思想，模型底部的結構設計，模擬了數位訊號處理的多路麥克處理過程。在此之上，模型仍然是採用傳統的近場語音識別的深度學習模型。該模型直接建立了從遠場語音多路信號到識別文字之間的端到端的進行。百度團隊針對遠場語音識別的特殊需求，也提出了自己的基於複數 CNN 的遠場端到端建模方案，並大規模應用於工業產品。

語音技術從之前的雲端競爭開始逐漸向端側晶片延伸

2020年左右的AI晶片的發展，也對語音交互行業產生了巨大的推動作用。在AI技術快速普及的今天，算力已經成為推動 AI 行業發展的根本核心力量。2011年微軟的科學家能夠把深度學習應用於語音識別工業界，除了科學家的勤奮工作之外，更重要的背後的推手是GPU。沒有 GPU 的算力支持，就不可能一個月完成數千小時的 DNN 模型訓練。從2011年至今，英偉達的股價已經從十幾美金，暴漲了幾十倍。這一點充分證明了 AI 算力的價值，在語音識別行業，遠場識別的興起催生了 AI 語音晶片的發展。一顆晶片完成端側信號處理和喚醒成為一個明顯的市場需求。在智能音箱領域，這種 AI 語音晶片能夠顯著降低音箱的成本，並且提供更高精度的喚醒和識別能力。在汽車車載導航領域，AI 語音晶片可以保證主晶片的負載安全，提升駕駛安全。各大語音公司都開始推出自己的語音晶片，語音技術從之前的雲端競爭又開始逐漸的向端側晶片延伸。

2020 年百度語音技術成果盤點

智能語音交互系統是人工智慧產業鏈的關鍵環節，面對未來智能語音產業鏈的新需求，百度研發了新一代適合大規模工業化部署的全新端到端語音交互系統，實現了語音交互全鏈路協同處理，軟硬體一體優化，信號語音一體化建模，語音語言一體建模，語音語義一體交互，語音圖像多模態融合，全深度學習的語音識別、語音喚醒以及千人千面個性化語音合成等，其中重大技術創新如下。

1。 Attention(注意力) 技術早已經廣泛應用於 NLP、圖像等商業產品領域，但是語音識別領域，從 2015 年開始，實驗室內就廣泛進行了基於 Attention 的聲學建模技術，也獲得了廣泛的成功，但是在語音識別最廣泛使用的語音交互領域，Attention 機制一直沒辦法應用於工業產品。核心原因是語音識別的流式服務要求：語音必須分片傳輸到伺服器上，解碼過程也必須是分片解碼，用戶話音剛落，語音識別結果就要完成，這時候人的說話過程、語音分片上傳過程和語音識別的解碼過程三者都是並行的。這樣用戶話音一落，就可以拿到識別結果，用戶的絕對等待時間最短，用戶體驗最佳。傳統注意力建模技術必須拿到全局語音之後，才開始做注意力特徵抽取，然後再解碼，這樣一來解碼器過程的耗時就不能和語音識別的解碼過程同步起來，用戶等待時間就會很長，不滿足語音交互的實時性要求。

SMLTA: 百度流式多級截斷注意力模型(2019年1月發布)

2019年1月，百度語音團隊提出了流式多級的截斷注意力模型 SMLTA。該方案採用 CTC 模型和 SMLTA 模型相結合的辦法，利用 CTC 的 peak 對連續語音流進行截斷，然後在截斷的語音流上做截斷的注意力模型。這是全世界範圍內，第一次基於 Attention(注意力技術) 的在線語音識別服務的大規模上線。該技術顯著提升了線上語音交互的語音識別的準確率，同時實現了語音語言的一體化建模，為雲端語音識別技術的全面端側晶片化打下了基礎。2020 年，SMLTA 技術全面應用於百度語音識別全線產品：語音輸入法、語音搜索、地圖語音交互、智能音箱、汽車導航、智能呼叫中心、會議在線翻譯等產品上，都能看到 SMLTA 技術對語音交互性能的持續提升。

2。近些年隨著 5G 的萬物互聯概念的普及，中國社會對智能設備的遠場語音交互需求日益增加。在遠場環境下，目標聲源距離拾音器較遠，致使目標信號衰減嚴重，加之環境嘈雜幹擾信號眾多，最終導致信噪比較低，語音識別性能較差。為了提升遠場語音識別準確率，一般會使用麥克風陣列作為拾音器，然後利用數位訊號處理領域的多通道語音信號處理技術，增強目標信號，最終產生一路清晰信號，送給後面的語音識別系統進行語音識別。這時候數字處理信號系統和語音識別系統是級聯方式，數位訊號處理系統是以信號的清晰度為優化目標，語音識別聲學建模是以雲識別率為建模目標，兩個系統優化目標不統一，錯誤也會級聯放大，最終的交互體驗相比於近場識別差很多。國際上，Google 試圖採用端到端建模技術解決這個問題，一套模型解決遠場麥克陣列信號處理和語音識別聲學建模問題。谷歌的解決方案採用的深度學習模型結構，借鑑了數位訊號處理領域的類似於 filtering and sum 的數位訊號處理思想，模型結構設計模擬經典數位訊號處理過程。這種借鑑使得深度學習進行端到端建模更容易收斂，但是後期我們通過實驗證明，這種借鑑嚴重影響了深度學習技術在該方向上的發揮和延伸，限制了深度學習模型的模型結構的演變，制約了技術的創新和發展。

基於複數 CNN 的語音增強和語音識別一體化的端到端建模

百度語音團隊研發出完全不依賴於任何先驗假設的信號、語音一體化的適合遠場語音交互的深度學習建模技術。該深度學習模型以複數 CNN 為核心，利用複數 CNN 網絡挖掘生理信號本質特徵的特點，採用複數 CNN、複數全連接層以及 CNN 等多層網絡，直接對原始的多通道語音信號進行多尺度多層次的信息抽取，期間充分挖掘頻帶之間的關聯耦合信息。在保留原始特徵相位信息的前提下，同時實現了前端聲源定位、波束形成和增強特徵提取。該模型底部 CNN 抽象出來的特徵，直接送入百度獨有的端到端的流式多級的截斷注意力模型中，從而實現了從原始多路麥克信號到識別目標文字的端到端一體化建模。整個網絡的優化準則完全依賴於語音識別網絡的優化準則來做，完全以識別率提升為目標來做模型參數調優。目前該方法已經被集成到百度最新發布的百度鴻鵠晶片中。

百度鴻鵠晶片結構圖

2020 年，百度在智能音箱、車載導航和智能電視控制方面，落地了百度鴻鵠語音晶片。研發了以遠場語音交互為核心的鴻鵠晶片解決方案，一顆晶片解決遠場陣列信號處理和語音喚醒的問題，打造了雲端芯一體化的語音交互解決方案。百度鴻鵠語音晶片設計，變革傳統晶片設計方法，推出 AI 算法即軟體定義晶片的全新設計思路。百度鴻鵠晶片採用雙核 Hifi4 架構自定義指令集，2M 以上超大內存，臺積電 40nm 工藝，在此硬體規格上，100mw 左右平均工作功耗，即可同時支持遠場語音交互核心的陣列信號處理和語音喚醒能力，滿足車規可靠性標準。同時，百度鴻鵠晶片為遠場語音交互算法量身定製了晶片架構，完全契合 AI 算法需求的核內內存結構設計、分級的內存加載策略、依據 AI 算法調教的 Cache 設計和靈活的雙核通信機制，最終實現了深度學習計算過程和數據加載的高度並行。百度鴻鵠晶片是中國行業內唯一一顆能夠承載全部遠場陣列信號處理和智能音箱喚醒技術的語音晶片，也已經完成了業內首個支持電視熄屏喚醒的 AI 晶片解決方案並實現工業產品落地。

百度鴻鵠晶片之後，賈磊團隊又將整個語音交互的複雜算法、邏輯和數據模型耦合的語音交互技術，利用百度全新研發的端到端語音建模技術，抽象成多個單純的深度學習計算過程，從而可以幾乎在性能無損的情況下將整個語音識別過程從雲端搬到客戶端。基於以上思路的百度鴻鵠晶片二代也正在緊鑼密鼓的研發中，一顆晶片解決遠場語音識別和合成問題將不再遙遠。5G 時代的雲端定義語音交互功能，端側執行語音交互功能，雲端一體的語音交互，很快會成為現實。

百度智能語音全景圖

在語音技術的產業化過程中，賈磊認為核心關鍵的要素是技術創新要把握產業需求，而不是閉門造車。比如百度的語音語言一體化的流式多級截斷的注意力建模技術 (SMLTA)，核心就是針對性的解決注意力(Attention)建模技術不能進行流式識別的問題，後者是在線語音識別技術必須的關鍵要求。再比如百度研發鴻鵠晶片，核心就是解決一顆晶片集成遠場信號處理和遠場喚醒，從而提升智能音箱的遠場交互體驗，降低智能音箱的成本。「文以載道」，技術提升的首要目標是產品體驗提升，而非純粹的學術創新。管理上要集中優勢兵力優先解決技術工業應用時的痛點問題，要基於用戶感知體驗提升去迭代技術，而非單純的技術指標提升。

端到端語音交互的技術挑戰和難點

賈磊認為最大的挑戰是對跨學科端到端的模擬數據的生成和大規模工業訓練的深度學習訓練平臺的把握。端到端建模，目前越來越傾向於跨學科的端到端建模，這時候首先需要解決跨學科的數據模擬問題。每一個學科，都有一個學科假設的學科邊界。之前幾十年的研究成果，都是在學科邊界的假設範圍內進行的，所積累的各種訓練數據，也是基於學科邊界假設的。一旦學科邊界被打破，每個學科的假設都不成立了，訓練數據往往需要重新積累。所以，通常需要用模擬的方法產生跨學科的端到端的訓練數據。如何模擬跨學科的場景數據，是端到端建模的第一個難題。端到端建模的第二個難題，是如何應對數據倍增時候的深度學習訓練，這些問題，對通常的語音團隊，會成為一個很大的挑戰。比如在做信號和聲學一體化建模的時候，要在近場語音識別建模的訓練數據量上，疊加一個遠場信號的聲場模擬。這樣的話，模擬的數據量會有一個成倍的增加。考慮到大規模工業訓練的要求，上面提到的模擬數據的生成，還通常需要在 GPU 上進行。同時，數據成倍增加後，還要在 GPU 上進行高速有效的訓練。這裡面對深度學習訓練平臺的把握是至關重要的，否則跨學科端到端建模時候的訓練數據模擬和訓練速度優化中任何一個問題，都會是壓垮端到端建模的最後一根稻草。

解決上述問題的核心是要有對深度學習算法技術和工程技術都要有深刻的理解，對深度框架有全面的把握。有能力修改深度學習框架的內核，解決 GPU 上的訓練加速、內存優化問題和算法調優的問題。如果只是泛泛的理解國外開源框架的算法技術，只是跑腳本訓練模型，那麼再遇到上述訓練數據模擬和訓練速度優化的時候，就無從下手，最終難以解決跨學科的端到端建模問題。

AI 發展是否進入瓶頸期？如何破局 AI 落地難？

賈磊認為，人工智慧近10年的發展是伴隨著 GPU 算力、數據增加和深度學習算法創新的發展而發展的。目前訓練數據的增加和深度學習算法的創新速度確實是變慢了，但是AI算力這個維度，還有很大的增長潛力。無論是雲端的GPU伺服器，還是端側的AI晶片，都有很大的增長空間。2018 年，OpenAI 的研究人員發布了一份分析報告顯示，從2012年到2018年，在最大規模的人工智慧訓練中使用的算力增長了30多萬倍，3.5 個月的時間就翻一番，遠遠超過了摩爾定律的速度。未來5年，GPU的算力將達到CPU算力的1000倍。這些都將對語音交互產生巨大的推動作用。比如端側 AI 晶片的發展，很快將使得端側晶片具備完成和現在雲端服務一樣的語音交互能力，在一些場合比如汽車智能座艙等領域，語音交互的主體都將是由端上晶片在不需要聯網情況下獨立完成，大大提升了汽車行駛過程中的語音交互的可靠性和流暢性。

GPU 算力增長趨勢圖

賈磊認為智能語音交互技術落地作為 AI 落地的一個關鍵組成部分，破局的關鍵點是從簡單的識別和合成的能力提升，到更加場景化聚焦發展、更加綜合性發展。之前我們提到的 AI 能力提升，都是單體的 AI 技術，比如語音識別技術、語音合成技術等單體技術的學科發展。但是綜合語音、視覺、NLP 和知識圖譜等 AI 綜合能力，在特定場景下的 AI 體驗打磨，將使得 AI 技術從「舊時王謝堂前燕，飛入尋常百姓家」，這是以語音交互為代表 AI 能力破局的關鍵。語音交互的發展也不單單是單一的從語音這個維度進行發展，而是在具體場景下，綜合視覺、語義、對話、通訊等技術在內的綜合性技術。在這一發展過程中，場景化數據的積累和用戶反饋的收集將成為成敗的關鍵。賈磊認為語音交互的算法能力，針對特定的個人和特定的場景，做充分的打磨，應該是能夠滿足特定需要的。「打磨」的過程，需要我們更清楚的理解用戶的場景，同時反饋個性化場景化數據。未來語音交互的成熟，一定是伴隨著個性化和場景化的聚焦而實現的。

談談新冠疫情給 AI 行業帶來的影響

賈磊認為，類似新冠疫情這樣的事件，確實是對人類社會的生產和生活產生了巨大的影響。新冠疫情將使得非接觸生產和生活成為社會生活的必要組織部分。為非接觸生產和生活服務的一些語音交互技術，也會得到持續的發展。比如音視頻通訊技術，在疫情時代就得到了很大的發展，伴隨音視頻通訊的在線翻譯需求就會繼續增加。在線會議內容的實時識別和翻譯系統、音視頻通訊的內容分析和挖掘等也都會蓬勃發展。這些都對語音技術的發展提出了更高的需求。全社會應對疫情，很多也是靠科技手段，語音技術在這個過程中，也起到了很大的作用，比如語音自動外呼業務，對於落實人員狀態，溝通緊急信息，都起到了不可缺少的作用。

智能語音未來發展趨勢展望

在談及智能語音未來發展時，賈磊認為，基於 AI 語音晶片的端側語音交互、多模態語音交互以及個性化語音交互是他個人比較看中的語音交互的發展方向。以上3個領域是他覺得很有希望的語音技術發展方向。百度語音團隊會發展端側 AI 語音晶片，端側執行語音交互，雲端定義語音交互，沿著視覺語音一體化和語音語義一體化的發展方向發展多模態交互技術。針對語音交互的環境噪音和個體口音差異，發展個性化語音識別、個性化語音合成和情感語音合成等個性化相關的語音交互技術，讓語音技術不但可靠流暢還同時具備親情和溫暖。(一鳴)

（文章來源：中華網）

賈磊暢談AI語音技術的現在、過去和未來

相關焦點

百度賈磊暢談AI語音技術的現在、過去和未來

網際網路首位全國勞模賈磊:從業20年,談談我眼中語音技術的過去...

百度語音首席架構師賈磊:讓語音技術可靠流暢,具備親情和溫暖

全媒派 | WhatsApp推出閱後一周焚,Snap或深耕AI語音

實時語音轉錄服務初創公司Otter.ai疫情期間使用量激增五倍

假面騎士零一劇場版採用AI技術,未來你可以擁有AI語音的伊茲

假面騎士零一劇場版採用AI技術,未來你可以擁有一個AI語音的伊茲

語音AI革命十年,不忍看,不敢看!_詳細解讀_最新資訊_熱點事件_36氪

語音識別技術簡史

AI浪潮下,語音識別建模技術的演進 | 雷鋒網公開課

達摩院公布語音AI新進展:逼近真人的語音交互體驗

支持「免喚醒」,TCL V8全場景AI電視成未來語音交互引領者!

91Reading接入百度大腦語音技術,朗讀功能使用量已超越閱讀

三叉戟的過去、現在與未來

如何讓AI發音更像真人?平安語音技術讓聲音更有溫度

蘋果iPhone 12重啟的MagSafe是什麼技術?聊聊它的過去、現在和未來

並沒有什麼沒有過去,現在和未來

百度新聞獨家推出「人性化語音播報」

瑞芯微CES2020多場景AI技術,解鎖未來智慧生活