語音識別新範式:完全的「端到端」模型,優勢在哪裡?

2021-01-08 CSDN技術社區

「自然科學的發展除了按常規科學一點一滴地積累之外，還必然要出現『科學革命』。」託馬斯·庫恩在其發表於 1962 年的經典著作《科學革命的結構》中提出的「範式轉換」一詞，如今已成為大家耳熟能詳的技術用語。

大的「範式轉換」存在於基礎科學領域，小的「範式轉化」也存在於幾乎每個細分的技術領域。

語音識別新範式

以自然語言處理的子領域「語音識別」為例，從 2012 年引入深度學習技術開始，語音識別的研究熱點經歷了三個階段：

2011年前後，基於 DNN+HMM（深度神經網絡+隱馬爾科夫模型）的語音識別

2014年前後，基於 LSTM+CTC（長短時記憶網絡+連接時序分類）的不完全端到端語音識別

2017年前後，基於 Transformer（自注意力機制）的完全端到端語音識別

如果說 2011 年深度學習的引入，是語音識別領域上一次範式轉換的起點，那麼從 2017 年開始，基於注意力機制和 Transformer 新型神經網絡結構的語音識別研究，無疑標誌著語音識別的新範式正在形成。

傳統的語音識別主要框架包括：聲學模型和語言模型。2011 年前後引入深度神經網絡（DNN），主要目標是改進傳統語音識別框架中的聲學模型算法。2014年前後引入LSTM+CTC的方案，理論上實現了端到端，但因為效果不好，實際使用中仍然會加上語言模型。

而 2017 年之後基於自注意力機制的完全端到端模型，才真正突破了「傳統框架」的限制，去除所有中間步驟和獨立子任務，充分利用深層神經網絡和並行計算的優勢，取得最優結果。在 2019 年秋天的語音領域頂會 Interspeech 上，基於自注意力機制和Transformer神經網絡結構的算法，幾乎出現在了所有語音識別相關的研究中。

基於Transformer的完全端到端模型主要優勢有三個：

第一，Transformer採用的自注意力機制是一種通過其上下文來理解當前詞的創新方法，語義特徵的提取能力更強。在實際應用中，這個特性意味著對於句子中的同音字或詞，新的算法能根據它周圍的詞和前後的句子來判斷究竟應該是哪個（比如洗澡和洗棗），從而得到更準確的結果。

第二，解決了傳統的語音識別方案中各部分任務獨立，無法聯合優化的問題。單一神經網絡的框架變得更簡單，隨著模型層數更深，訓練數據越大，準確率越高。因此企業可以使用更大量的專有數據集來訓練模型，得到相應場景下更準確的識別結果。

第三，新的神經網絡結構可以更好地利用和適應新的硬體（比如GPU）並行計算能力，運算速度更快。這意味著轉寫同樣時長的語音，基於新網絡結構的算法模型可以在更短的時間內完成，也更能滿足實時轉寫的需求。

Transformer-XL進一步釋放注意力模型的優勢

Transformer-XL神經網絡結構是由循環智能聯合創始人楊植麟博士（共同第一作者），與Google AI、卡內基梅隆大學共同推出。在全部 5 個單詞和字符級語言建模標準數據集取得 state of the art 結果：WikiText-103 、enwik8、text8、One Billion Word和Penn Treebank。

從名字也可以看出來，Transformer-XL通過引入循環機制和相對位置編碼，主要解決了超長輸入的問題。Transformer-XL對長序列建模能力更強，而語音識別的一個重要基礎就是對長序列進行建模。序列越長可以考慮的上下文音頻信息越豐富，識別越準確。也就是說，即使超長的句子，也能得出更加準確的結果。

在面向企業的商用場景下，語音識別系統的準確率，主要取決於算法模型的先進程度以及特定領域訓練數據的規模。2019 年，在循環智能聯合創始人、CTO張宇韜博士帶領的工程團隊努力下，循環智能已經將最前沿的Transformer-XL技術成果落地到實際應用中。經過一年多的積累，循環智能目前在金融、教育和網際網路服務領域經過了幾十萬小時的數據訓練。

在一家市值百億美金網際網路服務公司的實際測試中，循環智能針對電話錄音的自動語音識別（ASR）效果超過國內公認的語音巨頭和網際網路巨頭。

從學術前沿到商業落地

雖然學術的前沿、頂尖研究人員的重心已經轉到基於 Transformer 的研究，那些曾經輝煌的神經網絡結構，很難再取得技術突破，也不符合技術發展的方向。但是，很多從事自動語音識別（ASR）業務的公司，依然不得不固守「傳統」的神經網絡結構。

原因有二。首先，通常將前沿學術成果落地到商業場景，本身就需要很長時間；其次對於普通公司而言，採用前沿學術成果意味著需要從一項熟悉的舊技術組合切換到另一套，甚至意味著人員的更新迭代，需要的時間更長。

工程能力世界頂級的 Google，從學術前沿的成果到大規模商業落地，大概花了兩年多的時間，終於成功將基於Transformer的算法引入其核心搜索產品中：

2017 年 6 月，「Attention is all you need」論文發表，Google 在這篇論文中介紹了 Transformer，一種基於自注意力機制（self-attention mechanism）的全新神經網絡結構。短短兩年多時間，該論文在 Google 學術中的引用量達 5956 次，毫無疑問是近幾年自然語言理解領域影響力最大的論文之一。 2018 年 6 月，Google 發布了基於 Transformer 的 BERT 模型，被稱為近幾年 NLP 領域最具裡程碑意義的進展。

2019 年 10 月，Google 在官方博客中宣布，已經將這項技術應用於搜索中，增強了對用戶搜索意圖的理解。

新算法模型帶來的效果提升非常顯著。過去一直以來，當我們向 Google 的搜索框中輸入一個完整句子的時候，Google 的做法是用句子中的關鍵詞去匹配相應的搜索結果，並不關心句子的實際含義。正因為如此，早年的「搜索高手」都知道一些搜索技巧，比如搜尋引擎會自動忽略句子或短語中的「的」、「是」等虛詞，所以他們通常不會輸入一個自然句子，而是自己拆成關鍵詞組合，這樣對機器更加友好，也更有可能得到更好的答案。而現在，Google 搜尋引擎對於長句子的理解更加深入，更懂用戶想搜索什麼，因此就能匹配更好的結果。

Google 搜索「可以幫人取藥嗎」的結果對比，新算法更準確地理解了用戶的搜索意圖，是想問能否幫人取處方藥。

對於循環智能而言，商業落地的規模要比 Google 全球搜索的規模小很多，我們在三個月之內完成了基於原創Transformer-XL算法模型的完全「端到端」語音識別引擎部署，針對銷售、客服電話錄音場景的語音識別準確率同樣得到大幅提升。

依靠在金融、教育和網際網路服務等領域不斷積累行業訓練數據，循環智能持續優化算法模型的準確率，贏得了很多大家耳熟能詳的上市公司和標杆企業的青睞，包括眾安保險、玖富、VIPKID、新東方在線、58同城、獵聘等。

【免責聲明：CSDN本欄目發布信息，目的在於傳播更多信息，豐富網絡文化，稿件僅代表作者個人觀點，與CSDN無關。其原創性以及中文陳述文字和文字內容未經本網證實，對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本網不做任何保證或者承諾，請讀者僅作參考，並請自行核實相關內容。凡註明為其他媒體來源的信息，均為轉載自其他媒體，轉載並不代表本網贊同其觀點，也不代表本網對其真實性負責。您若對該稿件有任何懷疑或質疑，立即與CSDN聯繫，我們將迅速給您回應並做處理。】

相關焦點

百度ICML論文:端對端中英文語音識別

簡介幾十年來手工設計領域積累的知識已經進入最先進的自動語音識別（ASR）等的管道。一個簡單但有效的替代解決方案是訓練出端對端語音自動識別模式，使用深度學習的方法用一個模型來代替大多數模式。如同Hannun et al., 2014a and Graves & Jaitly, 2014b在他們的論文所提及一樣。
語音識別第一課:基於Tensorflow的端到端語音識別技術

全文共6655字，預計學習時長13分鐘本文闡述了如何利用Tensorflow編寫一個基本的端到端自動語音識別（Automatic Speech Recognition，ASR）系統，詳細介紹了最小神經網絡的各個組成部分以及可將音頻轉為可讀文本的前綴束搜索解碼器。
2020開年解讀:NLP新範式凸顯跨任務、跨語言能力,語音處理落地開花

今天,我們將探索自然語言處理(Natural Language Processing,NLP)範式的新發展,以及微軟亞洲研究院在語音識別與合成領域的創新成果。而 SemanticMask 能夠讓端到端語音識別模型學習更好的語義和語言模型,從而降低端到端語音識別模型的錯誤率,進一步改進微軟的語音識別服務質量。
端到端聲源分離研究:現狀、進展和未來

從名稱來看，端到端的含義是模型輸入源波形後直接輸出目標波形，不需要進行傅立葉變換將時域信號轉換至頻域；音源分離的含義是將混合語音中的兩個或多個聲源分離出來。最先被提出的方法為TasNet模型，該模型使用Encoder提取語音二維特徵，隨後通過Separation估計說話人mask，最後通過Decoder實現二維特徵到語音波形的轉換從而得到分離語音。
Facebook 發布 wav2letter 工具包,用於端到端自動語音識別

雷鋒網 AI科技評論消息，日前， Facebook 人工智慧研究院發布 wav2letter 工具包，它是一個簡單高效的端到端自動語音識別(ASR)系統，實現了Wav2Letter: an End-to-End ConvNet-based Speech Recognition System 和Letter-Based Speech Recognition with Gated
語音識別技術簡史

；2015 年以後，由於「端到端」技術興起，語音識別進入了百花齊放時代，語音界都在訓練更深、更複雜的網絡，同時利用端到端技術進一步大幅提升了語音識別的性能，直到 2017 年微軟在 Swichboard 上達到詞錯誤率 5.1%，從而讓語音識別的準確性首次超越了人類，當然這是在一定限定條件下的實驗結果，還不具有普遍代表性。
從不溫不火到炙手可熱:語音識別技術簡史

;2015 年以後，由於「端到端」技術興起，語音識別進入了百花齊放時代，語音界都在訓練更深、更複雜的網絡，同時利用端到端技術進一步大幅提升了語音識別的性能，直到 2017 年微軟在 Swichboard 上達到詞錯誤率 5.1%，從而讓語音識別的準確性首次超越了人類，當然這是在一定限定條件下的實驗結果，還不具有普遍代表性。
應用、算法、晶片,「三位一體」淺析語音識別

雲知聲提供物聯網人工智慧技術，通過與格力等公司合作，把自己的語音識別技術集成到終端家電產品中，另外，雲知聲發布的『Pandora』語音中控方案，能夠大幅縮短產品智能化周期。啟英泰倫結合自己強大的硬體（終端智能語音識別晶片CI1006）及算法（深度學習語音識別引擎）優勢，提供離線與在線的整套語音識別方案，並在物聯網各個領域有廣泛的布局。
語音識別的痛點在哪,從交互到精準識別如何做? | 雷鋒網公開課

語音識別是目前應用最成熟的人機互動方式，從最初大家體驗過的有屏手持設備這種近場的語音識別，如Siri以及各種語音助手，到現在，語音識別的應用已經完成了向智能硬體以及機器人上延伸，不過，新的人機互動對硬體、算法要求更加苛刻，各企業正面臨著巨大的挑戰。
AI浪潮下,語音識別建模技術的演進 | 雷鋒網公開課

因此引入了CTC(Connectionist Temporal Classification)準則，解決了標註序列與特徵序列不等長的問題，通過前向後向算法自動學習語音特徵中的模型邊界，這種準則與用於時序建模的神經網絡(如LSTM)的結合可以直接用於端到端的模型建模，顛覆了語音識別使用接近30年之久的HMM框架。
智能語音識別技術入門系列(上)

而語音作為人類之間自然的交流方式，在這些設備和系統上就成為了更受歡迎的交互方式了。如果有一個語音到語音翻譯系統其實就可以完美消除這個交流壁壘。這樣的話就算語言不通人們也可以自由地進行交流。比如我們現在這裡看到的就是一個典型的語音到語音的翻譯系統，可以看到，語音識別是這個流水過程中的第一環。
智能音箱大戰全面開火,那麼問題來了:如何成為一名全棧語音識別...

噪聲抑制：語音識別不需要完全去除噪聲，相對來說通話系統中則必須完全去除噪聲。這裡說的噪聲一般指環境噪聲，比如空調噪聲，這類噪聲通常不具有空間指向性，能量也不是特別大，不會掩蓋正常的語音，只是影響了語音的清晰度和可懂度。這種方法不適合強噪聲環境下的處理，但是足以應付日常場景的語音交互。混響消除：混響消除的效果很大程度影響了語音識別的效果。
騰訊AI Lab西雅圖實驗室負責人俞棟:語音識別領域的現狀與進展

不滿足這一要求的話，學出來的模型的效果是沒有理論保證的。而真實場景，恰恰是不保證訓練集與測試集滿足同分布假設的情況。在語音識別研究的歷史上，很早就有人意識到了這一問題，並開發出了很多自適應算法，試圖根據場景和環境的變化做自適應。目前來說，自適應算法起到了一定的作用，但是還不能完全解決魯棒性問題。
達摩院語音實驗室負責人鄢志傑:智能語音爆發進入倒計時,2019語音...

，結合傳統語音合成技術與深度學習端到端系統各自的優勢，顯著提升語音合成穩定性及表現力。「在近幾年流行的端到端 (End2End) 技術中，研究人員給出的答案似乎接近於『是』。」達摩院語音實驗室高級算法專家雷鳴告訴新智元。
語音識別全面進入CNN時代 - 專家觀點 - CTI論壇-中國領先的ICT...

去年12月21日，在北京國家會議中心召開的以「AI復始，萬物更新」為主題的年度發布會上，科大訊飛提出了以前饋型序列記憶網絡(FSMN， Feed-forward Sequential Memory Network)為代表的新一代語音識別系統，讓大家眼前一亮[1]。
專注E2E語音識別,騰訊AILab開源語音處理工具包PIKA

機器之心報導作者：魔王、杜偉PyTorch + Kaldi，騰訊 AI Lab 開源輕量級語音處理工具包 PIKA，專注於端到端語音識別任務。Kaldi 是一個開源的語音識別系統，由 Daniel Povey 主導開發，在很多語音識別測試和應用中廣泛使用。
FinTech時代商業銀行智能語音識別技術應用與發展

(3)現代語音識別系統開發應用階段　　近些年，隨著大數據和深度學習技術的發展，深度學習方法逐漸被引入到語音識別系統中，相較於傳統的語音識別技術，識別性能獲得了顯著提升。　　目前，市場上的語音識別系統大多基於深度神經網絡模型進行建模，大幅提升了各種應用場景下語音識別的準確度和可靠性，使語音識別技術進入了新的應用階段。
深度學習預測RNA二級結構,螞蟻金服提出端到端模型E2Efold

本文將介紹一種用於預測 RNA 二級結構的端到端深度學習模型 E2Efold，在結構預測方面具有顯著更優表現，同時大大縮短新冠病毒 RNA 二級結構預測時間，為病毒研究、藥物篩選、疫苗研製等工作提供更多助力。這項成果來自螞蟻金服的研究團隊，目前這篇論文已被 ICLR 2020 接收為 Talk 論文。
基於語音識別的移動電子病歷應用探索

在此背景下，需要將語音識別技術更好地應用於電子病歷信息錄入過程，構建更高質量、更高效率的電子病歷。語音識別基本原理語音識別是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的一種技術，也就是讓機器聽懂人類的語音，把用戶說的詞語逐字轉化為文字，並將此文字正確地顯示出來。
C端手勢識別短期內難以顛覆手柄,B端細分市場將成新沃土

那麼手機如果是在2k多達到了收斂的比較平衡的狀態，我們可以用一個粗略的方式去估算一下VR領域的這個參數會收斂到哪裡。有人說是8k，但是其實估算下來其實8k都還不夠。第二個階段其實是技術不知道需要什麼東西，還在試錯，包括現在出現了一些其他更多的「企圖」成為人機互動新範式的一些技術，比如說眼動追蹤、觸覺反饋，這樣的一些相關功能，它到底能不能引入到虛擬實境當中變成主流的交互手段，我確實是不知道的。

語音識別新範式:完全的「端到端」模型,優勢在哪裡?

相關焦點

百度ICML論文:端對端中英文語音識別

語音識別第一課:基於Tensorflow的端到端語音識別技術

2020開年解讀:NLP新範式凸顯跨任務、跨語言能力,語音處理落地開花

端到端聲源分離研究:現狀、進展和未來

Facebook 發布 wav2letter 工具包,用於端到端自動語音識別

語音識別技術簡史

從不溫不火到炙手可熱:語音識別技術簡史

應用、算法、晶片,「三位一體」淺析語音識別

語音識別的痛點在哪,從交互到精準識別如何做? | 雷鋒網公開課

AI浪潮下,語音識別建模技術的演進 | 雷鋒網公開課

智能語音識別技術入門系列(上)

智能音箱大戰全面開火,那麼問題來了:如何成為一名全棧語音識別...

騰訊AI Lab西雅圖實驗室負責人俞棟:語音識別領域的現狀與進展

達摩院語音實驗室負責人鄢志傑:智能語音爆發進入倒計時,2019語音...

語音識別全面進入CNN時代 - 專家觀點 - CTI論壇-中國領先的ICT...

專注E2E語音識別,騰訊AILab開源語音處理工具包PIKA

FinTech時代商業銀行智能語音識別技術應用與發展

深度學習預測RNA二級結構,螞蟻金服提出端到端模型E2Efold

基於語音識別的移動電子病歷應用探索

C端手勢識別短期內難以顛覆手柄,B端細分市場將成新沃土