百度語音識別技術突破 巨頭崛起

2020-12-11 TechWeb

語音識別行業正面臨新一輪的洗牌。

早在兩年前,大家的普遍認識是語音識別領域將會催生出巨頭公司。所以當蘋果、Google、百度、三星和微軟提出要收購當時全球語音領域的老大Nuance的時候,Nuance CEO Paul Ricci一口回絕。

但隨之不久,蘋果、Google和微軟都選擇了擺脫Nuance的依賴,自建團隊開發語音業務。在那之後,Nuance的市場份額節節下跌,2014年還高達60%的市場份額,一年時間縮水一半只剩31.1%(Source:Research and Markets)。相比之下,Google語音識別的市場份額增長明顯。

在英語領域,我們看到的趨勢是作為搜索巨頭的Google逐漸佔據行業的主導權。那對於中文領域的市場,是否會重現在英語領域語音識別發生的歷史呢?當百度重兵布局語音領域,是否會成為中國語音識別領域標準的制定者,佔據行業主導權呢?

我們從多個角度分析。

1.語音識別新架構:用做圖像的方法做語音

近些年來,我們發現在圖像領域有一個明顯的發展趨勢:越來越深的卷積神經網絡層級(CNN),從最初的8層,到19層、22層、乃至152層的網絡結構。而隨著網絡結構的加深,ImageNet競賽的錯誤率也從2012年的16.4%逐步下降到3.57%。

ImageNet競賽中,越來越深的CNN不斷刷新著其性能

那麼,深度學習在圖像領域的進展,是否能夠在語音識別上有所突破呢?

通常情況下,語音識別是基於時頻分析後的語音譜完成的。如果將卷積神經網絡的思想應用在語音識別的聲學建模上,我們就可以把時頻譜當作一張圖像來處理。而由於卷積神經網絡的局部連接和權重共享的特點,它具有很好的平移不變性,所以可以將它應用在語音識別中,而且還能克服語音信號本身的多樣性(說話人自身、以及說話人間、環境等)。

Deep CNN語音識別的建模過程

但這裡遇到一個問題,雖然在ImageNet競賽中得到廣泛關注的Deep CNN結構能夠顯著提高性能,但由於無法實現實時的計算,其很難在產品模型中得到實際的應用。

一個解決方案是借鑑Residual連接的思想,訓練一個數十層的包含Residual連接的 Deep CNN,以用於工業產品中。

百度對此做了對比實驗,最終發現Deep CNN架構不僅能夠顯著提升HMM語音識別系統的性能,而且也能提升CTC語音識別系統的性能。在此同時,百度也嘗試了將LSTM或GRU的循環隱層和CNN結合,這是相對較好的選擇。

這也推導出了百度發布的新型語音識別架構:Deep CNN + LSTM + CTC。

模型結構採用:Deep CNN + Deep LSTM。

建模方式:基於CTC的端對端建模。

通過創新的架構,百度大幅提升了語音識別產品的性能,相對於工業界現有的CLDNN 結構,錯誤率相對降低了10%以上。

2.新架構推動語音大規模產業化

從歷史來看,產品和系統真正的大規模使用和推廣,一般都來自於基礎性的變革和突破。

對於語音識別來說,真正能夠實現大規模使用的系統,一定要滿足:在不同場景、方言下的穩定性,大規模的訓練能力,極短的訓練時間,大大降低的機器耗費。這好比 Android 一樣,穩定、支持海量應用和場景開發、開發時間短、開發成本低。

而Deep CNN和LSTM、CTC結合的架構,在以下幾個方面有顯著的優勢:

1)更強的通用性。使用一個單獨的算法完成從任務輸入端到輸出端的所有過程。

2)大規模訓練的能力。能夠在約10萬小時的精準標註語音數據中完成訓練。

3)大大降低服務成本。以CTC為例,它能夠讓語音識別解碼的計算量降下來,光這部分成本就能降低近1倍。

4)適合工業界。據百度Deep Speech中文研發負責人李先剛介紹,百度不僅能達到近十萬級的數據規模,而且能夠支持高性能計算,這可以讓優秀的模型直接移植到產品線中。

5)性能更優秀。以往語音系統將訓練過程拆解,人為幹預多,但效果不一定好。端對端模型減少了人為幹預,直接從輸入端到輸出端,一般性能會更好。

6)層數越深,效果越好。引入了深層CNN的概念,語音識別的性能得到顯著的提升,正如李先剛博士所言:『The Deeper , The Better』。

李先剛博士特意提到了百度語音的研發側重點。與學術研究不同,百度語音聚焦於技術的實際應用,技術難度和實現程度更高。針對語音識別產品而言,首先要具備在大規模語音資料庫上體現性能提升,其次就是具有適合語音在線識別產品運行的模型。

正是基於以上這些優勢,讓百度語音識別真正成為大規模產業化的基礎,帶來真正的人機互動變革。

3.語音識別以量取勝的同時,也以質取勝

語音識別技術經歷了長達60年的發展。2006年Hinton提出了深度置信網絡,掀起了深度學習的熱潮。2009年,Hinton以及他的學生D. Mohamed將深度神經網絡應用於語音的聲學建模,在小詞彙量連續語音識別資料庫TIMIT上獲得成功。從2010年開始,微軟的俞棟、鄧力等學者首先嘗試將深度學習技術引入到語音識別,隨後逐漸成為了主流。

而在以深度學習的發展脈絡下,語音識別的準確率和通用性,本質就在於:

數據量的多少,這很大程度來自於搜索量、使用量的規模;

算法的優劣,頂級人才在這方面有極其重要的作用;

計算能力的水平,尤其是在大規模產業化和成本因素下,FPGA等專業硬體的發展水平也非常重要。

而在這三方面的比拼中,巨頭公司將會佔據極大的優勢,因為它們擁有最多的數據,最頂級的人才以及最強大的計算能力水平。所以當Google開放語音識別API 後,在英語語音識別的市場中,Google將比Nuance有更大的優勢。

而在中文市場中,百度也將扮演著和Google在英語市場相似的角色。

4.傳統專利池受到挑戰,競爭回歸技術

語音識別的模型算法每年都有很大的變化。就以百度自己的語音識別技術來說,2013 年語音識別技術主要還是基於美爾子帶CNN模型,2014年發展出了Sequence Discriminative Training(區分度模型),2015年初發展出基於LSTM –HMM的語音識別,年底發展出基於LSTM-CTC的端對端語音識別系統,而現在把Deep CNN模型和 LSTM、CTC結合了起來。

百度語音識別技術每年迭代算法模型

在快速發展的技術下,很多公司選擇了採取組建智慧財產權產業聯盟的方法。2015年 11月,百度開放了上百項智能語音專利,和海爾、京東、中興通訊、中國普天等 20 多家單位組建了智能語音智慧財產權產業聯盟。

這種開放式創新和開放式智慧財產權許可的結合,也許會成為智能語音未來的產業核心模式。這也意味著傳統語音的專利池,在快速發展、迭代的語音技術下,在更開放的語音聯盟下,會失去過去的保護作用。

所以智能語音的未來發展,關鍵還是在於核心技術的突破,這也就來到了數據、算法和計算能力的比拼,這方面百度會有很大優勢。

5.人工智慧技術生態的重要作用

當Google發布了語音開放API,其對Nuance的打擊是致命的。這不僅僅是因為Google在產品、技術上的優勢,而且也來自於Google強大的人工智慧技術生態,例如以TensorFlow為代表的深度學習引擎,因為大量的一線工作人員使用,其對語音識別領域的開發選擇有強大的影響力。

當語音技術逐漸往大規模產業化發展時,公司的技術生態會非常重要。對於百度來說,9月份開源的PaddlePaddle,1月份開源的Warp-CTC,都對產業界有深遠的影響。

基於上面的分析,我們認為語音識別將進入大規模產業化的時代。而在核心技術和能力的比拼下,語音識別也將進入巨頭崛起,傳統語音公司稍顯沒落的時代。

相關焦點

  • 百度語音的「一小步」,可能是語音技術「登月計劃」的一大步
    在技術領域,某些影響深遠的技術研發往往被稱為「登月計劃」。本周,百度在語音領域的「一小步」,也實現了人類語音「登月」的一大步。在百度輸入法發布會上,百度公布了語音領域的四項重大技術突破。更重要的是,這不僅是業界第一次提出了流式多級的截斷注意力模型 SMLTA,也在全球範圍內,實現了基於注意力模型的在線語音識別服務的首次規模化應用。百度已成功將這種注意力模型部署上線到語音輸入法全線產品,服務中國數億用戶,也因此,此次技術突破不再僅僅是一個實驗室技術的展現,而是成為一個個普通用戶都可以享受的技術紅利。2.
  • 百度發布國內首款AI輸入法 語音技術實現世界級突破
    同時,百度宣布,其語音技術取得一項對全球學術界和工業界都具備重大意義的技術突破,流式截斷的多層注意力建模(SMLTA)將在線語音識別精度提升了15%,並在世界範圍內首次實現了基於Attention技術的在線語音識別服務大規模上線應用
  • 百度展現車聯網黑科技 語音技術解放雙手
    而這正是百度語音技術「黑科技」的用武之地:百度車聯網研發及產品之所以能夠在國內處於領先位置,除了百度豐富的大數據資源、以及與車生活相關的諸多強勢應用外,其在語音技術、尤其是中文語音識別領域獨領風騷,才是其取得成功的關鍵。
  • 語音識別巨頭Nuance的救贖之法
    隨著人工智慧技術的不斷突破,AI也更多的應用於人類生活。在談人工智慧的時候,一定不能不談語音識別,在近幾年來,藉助機器學習領域深度學習研究的發展,以及大數據語料的積累,語音識別技術得到突飛猛進的發展。實際上,在全球,有超過80%的語音識別都用過Nuance識別引擎技術,它曾為蘋果、亞馬遜、三星、諾基亞等科技巨頭提供過語音技術解決方案,支持世界上50種語言,擁有近20億的用戶。
  • 語音識別技術簡史
    在線語音識別率上,該模型比百度上一代 Deep Peak2 模型提升相對 15% 的性能。開源語音識別 Kaldi 是業界語音識別框架的基石。Kaldi 的作者 Daniel Povey 一直推崇的是 Chain 模型。
  • 百度的語音識別技術或將超越谷歌和蘋果
    但是,現在他終於忍不住披露了更出色的語音識別技術,這是智慧型手機時代引人關注的關鍵領域。 具體來說,Deep Speech在車內或人群中等嘈雜環境下比其他語音識別系統的表現更出色。當然,關鍵是讓語音識別技術在現實世界中真正發揮作用。
  • 語音識別技術的發展及難點分析
    同時,語音識別在研究思路上也發生了重大變化,由傳統的基於標準模板匹配的技術思路開始轉向基於統計模型的技術思路。此外,業內有專家再次提出了將神經網絡技術引入語音識別問題的技術思路。 上世紀90年代以後,在語音識別的系統框架方面並沒有什麼重大突破。但是,在語音識別技術的應用及產品化方面出現了很大的進展。
  • 中文語音合成最高水平,百度語音技術打造全球首款地圖語音定製產品
    現場,百度語音首席架構師賈磊揭秘了這背後的技術:「百度地圖語音定製功能基於百度獨創的風格遷移技術Meitron模型,其特點主要體現在音色轉換、多情感朗讀和韻律遷移三個方面,從而讓語音合成的門檻大大降低,相信百度語音技術在AI時代擁有無限可能。」
  • 懂AI更懂你 百度輸入法突破世界級語音技術限制給輸入「加速」
    優秀的語音輸入,首要任務就是識別準確,在這方面百度輸入法相當有發言權。百度語音技術早在2019年年初便取得了一項對全球學術界和工業界都具備重大意義的突破——流式截斷的多層注意力建模(SMLTA),將在線語音識別精度提升了15%,超越行業最優競品15%,充分保證了用戶語音輸入的精準度與識別速度。其次,優秀的語音輸入還要照顧到不同用戶群體的需求。
  • 百度語音識別上線新版本 長語音轉寫告別時間限制
    但是,大部分公司提供的語音識別功能有時間限制,類似會議錄音、長語句等長語音識別成了難題,雖然市面上存在一些長語音識別技術支持方,但開發者需要為此支付大筆的技術接入費用,徒增業務成本。對於用戶,受「60秒」限制的語音識別功能往往無法滿足他們在生活、工作中的需求,這不僅影響他們使用語音識別功能的「興致」,同時會導致用戶對一些搭載了語音識別功能的產品「敬而遠之」。
  • 專訪|百度語音識別技術負責人李先剛:如何利用Deep CNN大幅提升...
    2016-11-04 趙雲峰 機器之心機器之心原創作者:趙雲峰技術顧問:趙巍、Yuxi Li近日,百度將 Deep CNN 應用於語音識別研究,使用了 VGGNet ,以及包含 Residual 連接的深層 CNN 等結構,並將 LSTM 和 CTC 的端對端語音識別技術相結合,使得識別錯誤率相對下降了 10% (原錯誤率的 90%)以上。
  • 手機百度5.5技術解讀:人工智慧+圖像識別打造的拍照搜索
    手機百度5.5技術解讀:人工智慧+圖像識別打造的拍照搜索 以往以文字搜索、語音搜索為主要搜索方式的移動搜索,如今伴隨著手機百度5.5拍照搜索版的推出,進入了圖像搜索的全新時代
  • 百度語音舉辦技術沙龍:將建語音平臺生態
    隨著語音識別技術日臻成熟,我們在日常使用各種智能設備時已經越來越多地可以藉助於語音識別技術來簡化我們的操作。近日,在語音識別技術領域深耕多年的百度舉辦以「智能語音技術,簡化你我日常生活」為主題的技術沙龍,來自百度開發者中心的語音專家分享了百度在智能語音上的相關成果和進展。
  • AI技術發威,百度輸入法日均語音輸入請求量超越搜狗
    熟悉輸入法發展歷史的都知道,搜狗輸入法可以在微軟等巨頭均有輸入法時脫穎而出,正是因為與搜索大數據結合,進而給用戶更加精準的候選詞條和句子,大幅提升了搜索效率,搜索成了輸入法的幕後功臣。因此,作為最大中文搜尋引擎的百度,做起輸入法自然是得心應手,事實上,百度輸入法推出以後就成為主流輸入法應用。
  • 百度、微軟的漢語英語識別準確率已分別超越人類
    時隔一年,百度、微軟兩大人工智慧科技巨頭先後分別在漢語、英語語音識別研究方面取得了超越人類的成果,引發業界轟動。近年來,隨著數據量的豐富和計算能力的提升,語音識別行業迅速崛起。據 TechCrunch 統計,僅美國至少就有 26 家公司在開發語音識別技術。美國眾多企業在技術上多年的積累使之佔據了絕對的行業優勢,但中國網際網路企業百度近年來在語音識別技術上持續發力,在漢語語音識別方面取得了領先世界的成績,已成為該研究領域當之無愧的領頭羊。
  • 百度語音識別功能以及優勢
    百度語音識別是採用國際領先的流式端到端語音語言一體化建模算法,將語音快速準確識別為文字,支持手機應用語音交互、語音內容分析、機器人對話等多個場景。百度雲語音識別功能優勢:一、技術領先採用領先國際的流式端到端語音語言一體化建模方法,融合百度自然語言處理技術,近場中文普通話識別準確率達98%二、自助訓練專屬模型
  • 百度推出AI輸入法8.0 一分鐘能識別426字語音
    一、語音識別技術突破據百度語音技術總監高亮說,新版本的百度輸入法使用了最新技術突破「Deep Peak 2」模型,該技術全稱為「基於LSTM(Long Short-Term Memory,長短期記憶網絡)和CTC( Connectionist temporal classification,聯結主義時間分類器)的上下文無關音素組合建模
  • 能語音何必費力打字?日均語音請求量突破10億次的百度輸入法玩轉...
    對此,有的同學便想起了百度輸入法的語音輸入功能,開始用"長文本語音"和"語音速記"輔助記筆記,更輕鬆地記錄網課中的滿滿乾貨。百度在智能語音領域有著全面的技術布局,在語音識別技術上更是深耕多年。近日,百度輸入法公布,自1月25日春節假期以來,百度輸入法日均語音請求量已破10億次大關,再創行業歷史新高。
  • 中信證券:智能語音是快速崛起的人工智慧入口
    2017年全球智能語音市場規模突破100億美元(+30%),國內市場突破100億元(+70%)。智能音箱在全球範圍內快速普及,預計2018年保有量將接近1億臺。智能語音作為AI平臺性技術,向下實現AI底層運算能力調用,向上和應用場景融合,和計算機視覺等類似,是AI重要入口。
  • 語音識別準確率行業第一,中英、方言混輸百度輸入法都沒在怕的!
    這時候就該「動口不凍手」的語音輸入來「大展拳腳」了,打開百度輸入法語音輸入,分分鐘就能幫你搞定各種輸入需求。最近,艾媒諮詢發布《中國第三方手機輸入法市場年度專題研究報告》(以下簡稱《報告》),指出了百度輸入法2019年在語音輸入領域的重大突破。