語音識別新範式:完全的「端到端」模型,優勢在哪裡?

2020-12-12 站長之家

「自然科學的發展除了按常規科學一點一滴地積累之外,還必然要出現『科學革命』。」託馬斯·庫恩在其發表於 1962 年的經典著作《科學革命的結構》中提出的「範式轉換」一詞,如今已成為大家耳熟能詳的技術用語。

大的「範式轉換」存在於基礎科學領域,小的「範式轉化」也存在於幾乎每個細分的技術領域。

語音識別新範式

以自然語言處理的子領域「語音識別」為例,從 2012 年引入深度學習技術開始,語音識別的研究熱點經歷了三個階段:

2011 年前後,基於 DNN+HMM(深度神經網絡+隱馬爾科夫模型)的語音識別 

2014 年前後,基於 LSTM+CTC(長短時記憶網絡+連接時序分類)的不完全端到端語音識別 

2017 年前後,基於 Transformer(自注意力機制)的完全端到端語音識別

如果說 2011 年深度學習的引入,是語音識別領域上一次範式轉換的起點,那麼從 2017 年開始,基於注意力機制和 Transformer 新型神經網絡結構的語音識別研究,無疑標誌著語音識別的新範式正在形成。

傳統的語音識別主要框架包括:聲學模型和語言模型。2011 年前後引入深度神經網絡(DNN),主要目標是改進傳統語音識別框架中的聲學模型算法。 2014 年前後引入LSTM+CTC的方案,理論上實現了端到端,但因為效果不好,實際使用中仍然會加上語言模型。

而 2017 年之後基於自注意力機制的完全端到端模型,才真正突破了「傳統框架」的限制,去除所有中間步驟和獨立子任務,充分利用深層神經網絡和並行計算的優勢,取得最優結果。在 2019 年秋天的語音領域頂會 Interspeech 上,基於自注意力機制和Transformer神經網絡結構的算法,幾乎出現在了所有語音識別相關的研究中。

基於Transformer的完全端到端模型主要優勢有三個:

第一,Transformer採用的自注意力機制是一種通過其上下文來理解當前詞的創新方法,語義特徵的提取能力更強。在實際應用中,這個特性意味著對於句子中的同音字或詞,新的算法能根據它周圍的詞和前後的句子來判斷究竟應該是哪個(比如洗澡和洗棗),從而得到更準確的結果。 

第二,解決了傳統的語音識別方案中各部分任務獨立,無法聯合優化的問題。單一神經網絡的框架變得更簡單,隨著模型層數更深,訓練數據越大,準確率越高。因此企業可以使用更大量的專有數據集來訓練模型,得到相應場景下更準確的識別結果。 

第三,新的神經網絡結構可以更好地利用和適應新的硬體(比如GPU)並行計算能力,運算速度更快。這意味著轉寫同樣時長的語音,基於新網絡結構的算法模型可以在更短的時間內完成,也更能滿足實時轉寫的需求。

Transformer-XL進一步釋放注意力模型的優勢

Transformer-XL神經網絡結構是由循環智能聯合創始人楊植麟博士(共同第一作者),與Google AI、卡內基梅隆大學共同推出。在全部 5 個單詞和字符級語言建模標準數據集取得 state of the art 結果:WikiText-103 、enwik8、text8、One Billion Word和Penn Treebank。

從名字也可以看出來,Transformer-XL通過引入循環機制和相對位置編碼,主要解決了超長輸入的問題。Transformer-XL對長序列建模能力更強,而語音識別的一個重要基礎就是對長序列進行建模。序列越長可以考慮的上下文音頻信息越豐富,識別越準確。也就是說,即使超長的句子,也能得出更加準確的結果。

在面向企業的商用場景下,語音識別系統的準確率,主要取決於算法模型的先進程度以及特定領域訓練數據的規模。2019 年,在循環智能聯合創始人、CTO張宇韜博士帶領的工程團隊努力下,循環智能已經將最前沿的Transformer-XL技術成果落地到實際應用中。經過一年多的積累,循環智能目前在金融、教育和網際網路服務領域經過了幾十萬小時的數據訓練。

在一家市值百億美金網際網路服務公司的實際測試中,循環智能針對電話錄音的自動語音識別(ASR)效果超過國內公認的語音巨頭和網際網路巨頭。

從學術前沿到商業落地

雖然學術的前沿、頂尖研究人員的重心已經轉到基於 Transformer 的研究,那些曾經輝煌的神經網絡結構,很難再取得技術突破,也不符合技術發展的方向。但是,很多從事自動語音識別(ASR)業務的公司,依然不得不固守「傳統」的神經網絡結構。

原因有二。首先,通常將前沿學術成果落地到商業場景,本身就需要很長時間;其次對於普通公司而言,採用前沿學術成果意味著需要從一項熟悉的舊技術組合切換到另一套,甚至意味著人員的更新迭代,需要的時間更長。

工程能力世界頂級的 Google,從學術前沿的成果到大規模商業落地,大概花了兩年多的時間,終於成功將基於Transformer的算法引入其核心搜索產品中:

2017 年 6 月,「Attention is all you need」論文發表 ,Google 在這篇論文中介紹了 Transformer,一種基於自注意力機制(self-attention mechanism)的全新神經網絡結構。短短兩年多時間,該論文在 Google 學術中的引用量達 5956 次,毫無疑問是近幾年自然語言理解領域影響力最大的論文之一。 2018 年 6 月,Google 發布了基於 Transformer 的 BERT 模型,被稱為近幾年 NLP 領域最具裡程碑意義的進展。 

2019 年 10 月,Google 在官方博客中宣布,已經將這項技術應用於搜索中,增強了對用戶搜索意圖的理解。

新算法模型帶來的效果提升非常顯著。過去一直以來,當我們向 Google 的搜索框中輸入一個完整句子的時候,Google 的做法是用句子中的關鍵詞去匹配相應的搜索結果,並不關心句子的實際含義。正因為如此,早年的「搜索高手」都知道一些搜索技巧,比如搜尋引擎會自動忽略句子或短語中的「的」、「是」等虛詞,所以他們通常不會輸入一個自然句子,而是自己拆成關鍵詞組合,這樣對機器更加友好,也更有可能得到更好的答案。而現在,Google 搜尋引擎對於長句子的理解更加深入,更懂用戶想搜索什麼,因此就能匹配更好的結果。

Google 搜索「可以幫人取藥嗎」的結果對比,新算法更準確地理解了用戶的搜索意圖,是想問能否幫人取處方藥。

對於循環智能而言,商業落地的規模要比 Google 全球搜索的規模小很多,我們在三個月之內完成了基於原創Transformer-XL算法模型的完全「端到端」語音識別引擎部署,針對銷售、客服電話錄音場景的語音識別準確率同樣得到大幅提升。

依靠在金融、教育和網際網路服務等領域不斷積累行業訓練數據,循環智能持續優化算法模型的準確率,贏得了很多大家耳熟能詳的上市公司和標杆企業的青睞,包括眾安保險、玖富、VIPKID、新東方在線、 58 同城、獵聘等。

免責聲明:「站長之家」的傳媒資訊頁面文章、圖片、音頻、視頻等稿件均為自媒體人、第三方機構發布或轉載。如稿件涉及版權等問題,請與我們聯繫刪除或處理。稿件內容僅為傳遞更多信息之目的,不代表本網觀點,亦不代表本網站贊同其觀點或證實其內容的真實性,更不對您的投資構成建議。我們不鼓勵任何形式的投資行為、購買使用行為。

相關焦點

  • 帶你讀論文 | 端到端語音識別模型
    隨著端到端神經網絡在機器翻譯、語音生成等方面的進展,端到端的語音識別也達到了和傳統方法可比的性能。不同於傳統方法將語音識別任務分解為多個子任務(詞彙模型,聲學模型和語言模型),端到端的語音識別模型基於梅爾語譜作為輸入,能夠直接產生對應的自然語言文本,大大簡化了模型的訓練過程,從而越來越受到學術界和產業界的關注。
  • 序列轉換模型三合一!谷歌提出首個端到端的直接語音翻譯模型
    雷鋒網 AI 科技評論按:不同語言之間的語音到語音轉換早已不是什麼新鮮事了,任務拆分簡單直接,只需要把「源語言的語音識別模型(語音轉文本)」、「文本到文本翻譯模型」、「目標語言的語音生成模型(文本轉語音)」這三個模型串聯使用就可以。
  • 百度ICML論文:端對端中英文語音識別
    簡介幾十年來手工設計領域積累的知識已經進入最先進的自動語音識別(ASR)等的管道。一個簡單但有效的替代解決方案是訓練出端對端語音自動識別模式,使用深度學習的方法用一個模型來代替大多數模式。如同Hannun et al., 2014a and Graves & Jaitly, 2014b在他們的論文所提及一樣。
  • 谷歌語音識別端到端系統單詞錯誤率降至5.6%,較傳統模型提升16%
    提升語音識別的端到端模型在谷歌各式各樣的語音搜索應用中,都是基於傳統的自動語音識別(Automatic speech recognition, ASR)系統實現的。在過去的幾年裡,開發端到端(End-to-end)的系統越來越受到學者們的歡迎,而這些端到端系統試圖將這些獨立的組件作為一個單一系統進行聯合訓練。雖然在文獻[2, 3]中這些端到端模型已經展示出了頗為驚豔的結果,但是這種端到端的方法是否可以被提升到趕上甚至超越最先進的傳統方法卻還仍然是一個未知數。
  • 語音翻譯也能端到端?深度學習這條路有戲!
    不過,受語音和語言複雜性的影響,截止到目前為止,這些問題並沒有被真正解決。在剛剛結束的2018年國際口語機器翻譯評測比賽(International Workshop on Spoken Language Translation,IWSLT)中,科大訊飛團隊在端到端模型(End-to-End Model)的評測比賽中,以顯著優勢奪得第一名。
  • 重建「巴別塔」:谷歌推出全新端到端語音翻譯系統
    要將一個外國人說的話翻譯成本國文字,通常需要兩種機器學習模型:語音識別和文本翻譯。最近,谷歌提出的 Translatotron 模型創造性地實現了單一模型端到端(End-to-End)的直接語音翻譯。不僅如此,它還可以保留說話人的聲音特徵輸出語音,實現最直接的翻譯。
  • DeepMind端到端對抗語音合成
    因此,如果不能解釋 GNN 模型,就不能完全信任它們並在某些應用程式域中使用它們。在這項研究中,來自德克薩斯 A&M 大學(TAMU)和密西根州立大學的研究者提出了一種新的方法,稱為 XGNN,在模型級別上解釋 GNN。特別地,他們提出通過訓練圖生成器來解釋 GNN,使生成的圖模式最大化模型的某種預測。
  • 百度Deep Voice作者與Bengio團隊切磋五大技術細節,端到端的語音...
    本系統完全依賴深度神經網絡搭建而成,最大的優勢在於能夠滿足實時轉換的要求。在以前,音頻合成的速度往往非常慢,需要花費數分鐘到數小時不等的時間才能轉換幾秒的內容,而現在,百度研究院已經能實現實時合成,在同樣的 CPU 與 GPU 上,系統比起谷歌 DeepMind 在去年 9 月發布的原始音頻波形深度生成模型 WaveNet 要快上 400 倍。
  • 百度語音識別功能以及優勢
    百度語音識別是採用國際領先的流式端到端語音語言一體化建模算法,將語音快速準確識別為文字,支持手機應用語音交互、語音內容分析、機器人對話等多個場景。百度雲語音識別功能優勢:一、技術領先採用領先國際的流式端到端語音語言一體化建模方法,融合百度自然語言處理技術,近場中文普通話識別準確率達98%二、自助訓練專屬模型
  • 谷歌AI推出端到端純語音翻譯技術,有望成為未來的「機器同傳」
    ,第二段是標準的人類英語翻譯,而第三段則是AI合成的英語翻譯,來自於谷歌 AI 最新的語音翻譯模型 Translatotron。該模型是一個基於注意力機制(Attention)的端到端語音翻譯神經網絡。
  • Bengio等人提出 Char2Wav:實現端到端的語音合成
    選自arXiv機器之心編譯參與:吳攀、李亞洲近日,來自印度理工學院坎普爾分校、INRS-EMT、加拿大高等研究院(CIFAR)的研究者在 arXiv 上發布了一篇 workshop track 論文,介紹他們在端到端語音合成上的研究成果 Char2Wav。據介紹,該模型可以直接根據文本生成高質量的音頻。
  • TalkTyper:簡單方便的Web端語音識別工具
    TalkTyper隨著語音識別技術日趨成熟。語音輸入功能在移動應用端並不陌生,除了蘋果的Siri還有Dragon Dictation、SayHi、Iris、Evi 等。支持中文識別今天酷站就給大家推薦一個完全免費的網頁版語音識別工具TalkTyper。
  • 百度語音識別新算法準確率提升超30%,鴻鵠晶片彰顯AI落地新打法
    在發布會上,百度語音識別新算法和百度鴻鵠晶片的最新進展最引人注目。它們無疑是對進化和賦能兩詞最好的註解。完全端到端,深度學習再次顛覆語音識別在論壇上,百度語音首席架構師賈磊介紹了百度近一段時間的語音技術突破。
  • 端到端聲源分離研究:現狀、進展和未來
    羅藝老師首先介紹了端到端音源分離的定義。從名稱來看,端到端的含義是模型輸入源波形後直接輸出目標波形,不需要進行傅立葉變換將時域信號轉換至頻域;音源分離的含義是將混合語音中的兩個或多個聲源分離出來。,羅藝老師以「WSJ0-2mix」數據集為例,並以在語音分離任務中使用十分廣泛的SI-SDR為指標,為我們展示了目前端到端音源分離研究的進展。
  • 端到端聲源分離研究:現狀、進展和未來
    羅藝老師首先介紹了端到端音源分離的定義。從名稱來看,端到端的含義是模型輸入源波形後直接輸出目標波形,不需要進行傅立葉變換將時域信號轉換至頻域;音源分離的含義是將混合語音中的兩個或多個聲源分離出來。最先被提出的方法為TasNet模型,該模型使用Encoder提取語音二維特徵,隨後通過Separation估計說話人mask,最後通過Decoder實現二維特徵到語音波形的轉換從而得到分離語音。
  • CRNN:端到端不定長文字識別算法
    crnn  官方lua實現https://github.com/meijieru/crnn.pytorch  https://github.com/bai-shang/crnn_ctc_ocr_tf❞這是2015年就發表的一篇基於深度學習的OCR文章,且不用文字切割、可以處理任意長度的端到端文字識別方法
  • 語音識別現狀與工程師必備技能
    ,在安靜環境、標準口音、常見詞彙上的語音識別率已經超過95%,完全達到了可用狀態,這也是當前語音識別比較火熱的原因。隨著技術的發展,現在口音、方言、噪聲等場景下的語音識別也達到了可用狀態,但是對於強噪聲、超遠場、強幹擾、多語種、大詞彙等場景下的語音識別還需要很大的提升。當然,多人語音識別和離線語音識別也是當前需要重點解決的問題。 學術界探討了很多語音識別的技術趨勢,有兩個思路是非常值得關注的,一個是就是端到端的語音識別系統,另外一個就是G.E.
  • 基於元學習和人機協同的端到端對話模型
    2019: 基於 Few-shot learning 的對話意圖識別【5】Dialog Studio - 新一代智能對話開發平臺【6】對話用戶模擬器最新進展【7】小蜜團隊萬字長文:對話管理模型最新研究進展【8】[ACL 2020: 基於元學習和人機協同的端到端對話模型
  • 百度語音識別技術突破 巨頭崛起
    1.語音識別新架構:用做圖像的方法做語音近些年來,我們發現在圖像領域有一個明顯的發展趨勢:越來越深的卷積神經網絡層級(CNN),從最初的8層,到19層、22層、乃至152層的網絡結構。而隨著網絡結構的加深,ImageNet競賽的錯誤率也從2012年的16.4%逐步下降到3.57%。
  • 基於深度學習OCR技術:端到端不定長文字識別CRNN算法詳解
    但是此法已經有點過時了,現在更流行的是基於深度學習的端到端的文字識別,即我們不需要顯式加入文字切割這個環節,而是將文字識別轉化為序列學習問題.雖然輸入的圖像尺度不同,文本長度不同,但是經過DCNN和RNN後,在輸出階段經過一定的翻譯後,就可以對整個文本圖像進行識別,也就是說,文字的切割也被融入到深度學習中去了。