「自然科學的發展除了按常規科學一點一滴地積累之外,還必然要出現『科學革命』。」託馬斯·庫恩在其發表於 1962 年的經典著作《科學革命的結構》中提出的「範式轉換」一詞,如今已成為大家耳熟能詳的技術用語。
大的「範式轉換」存在於基礎科學領域,小的「範式轉化」也存在於幾乎每個細分的技術領域。
語音識別新範式
以自然語言處理的子領域「語音識別」為例,從 2012 年引入深度學習技術開始,語音識別的研究熱點經歷了三個階段:
2011年前後,基於 DNN+HMM(深度神經網絡+隱馬爾科夫模型)的語音識別
2014年前後,基於 LSTM+CTC(長短時記憶網絡+連接時序分類)的不完全端到端語音識別
2017年前後,基於 Transformer(自注意力機制)的完全端到端語音識別
如果說 2011 年深度學習的引入,是語音識別領域上一次範式轉換的起點,那麼從 2017 年開始,基於注意力機制和 Transformer 新型神經網絡結構的語音識別研究,無疑標誌著語音識別的新範式正在形成。
傳統的語音識別主要框架包括:聲學模型和語言模型。2011 年前後引入深度神經網絡(DNN),主要目標是改進傳統語音識別框架中的聲學模型算法。2014年前後引入LSTM+CTC的方案,理論上實現了端到端,但因為效果不好,實際使用中仍然會加上語言模型。
而 2017 年之後基於自注意力機制的完全端到端模型,才真正突破了「傳統框架」的限制,去除所有中間步驟和獨立子任務,充分利用深層神經網絡和並行計算的優勢,取得最優結果。在 2019 年秋天的語音領域頂會 Interspeech 上,基於自注意力機制和Transformer神經網絡結構的算法,幾乎出現在了所有語音識別相關的研究中。
基於Transformer的完全端到端模型主要優勢有三個:
第一,Transformer採用的自注意力機制是一種通過其上下文來理解當前詞的創新方法,語義特徵的提取能力更強。在實際應用中,這個特性意味著對於句子中的同音字或詞,新的算法能根據它周圍的詞和前後的句子來判斷究竟應該是哪個(比如洗澡和洗棗),從而得到更準確的結果。
第二,解決了傳統的語音識別方案中各部分任務獨立,無法聯合優化的問題。單一神經網絡的框架變得更簡單,隨著模型層數更深,訓練數據越大,準確率越高。因此企業可以使用更大量的專有數據集來訓練模型,得到相應場景下更準確的識別結果。
第三,新的神經網絡結構可以更好地利用和適應新的硬體(比如GPU)並行計算能力,運算速度更快。這意味著轉寫同樣時長的語音,基於新網絡結構的算法模型可以在更短的時間內完成,也更能滿足實時轉寫的需求。
Transformer-XL進一步釋放注意力模型的優勢
Transformer-XL神經網絡結構是由循環智能聯合創始人楊植麟博士(共同第一作者),與Google AI、卡內基梅隆大學共同推出。在全部 5 個單詞和字符級語言建模標準數據集取得 state of the art 結果:WikiText-103 、enwik8、text8、One Billion Word和Penn Treebank。
從名字也可以看出來,Transformer-XL通過引入循環機制和相對位置編碼,主要解決了超長輸入的問題。Transformer-XL對長序列建模能力更強,而語音識別的一個重要基礎就是對長序列進行建模。序列越長可以考慮的上下文音頻信息越豐富,識別越準確。也就是說,即使超長的句子,也能得出更加準確的結果。
在面向企業的商用場景下,語音識別系統的準確率,主要取決於算法模型的先進程度以及特定領域訓練數據的規模。2019 年,在循環智能聯合創始人、CTO張宇韜博士帶領的工程團隊努力下,循環智能已經將最前沿的Transformer-XL技術成果落地到實際應用中。經過一年多的積累,循環智能目前在金融、教育和網際網路服務領域經過了幾十萬小時的數據訓練。
在一家市值百億美金網際網路服務公司的實際測試中,循環智能針對電話錄音的自動語音識別(ASR)效果超過國內公認的語音巨頭和網際網路巨頭。
從學術前沿到商業落地
雖然學術的前沿、頂尖研究人員的重心已經轉到基於 Transformer 的研究,那些曾經輝煌的神經網絡結構,很難再取得技術突破,也不符合技術發展的方向。但是,很多從事自動語音識別(ASR)業務的公司,依然不得不固守「傳統」的神經網絡結構。
原因有二。首先,通常將前沿學術成果落地到商業場景,本身就需要很長時間;其次對於普通公司而言,採用前沿學術成果意味著需要從一項熟悉的舊技術組合切換到另一套,甚至意味著人員的更新迭代,需要的時間更長。
工程能力世界頂級的 Google,從學術前沿的成果到大規模商業落地,大概花了兩年多的時間,終於成功將基於Transformer的算法引入其核心搜索產品中:
2017 年 6 月,「Attention is all you need」論文發表 ,Google 在這篇論文中介紹了 Transformer,一種基於自注意力機制(self-attention mechanism)的全新神經網絡結構。短短兩年多時間,該論文在 Google 學術中的引用量達 5956 次,毫無疑問是近幾年自然語言理解領域影響力最大的論文之一。 2018 年 6 月,Google 發布了基於 Transformer 的 BERT 模型,被稱為近幾年 NLP 領域最具裡程碑意義的進展。
2019 年 10 月,Google 在官方博客中宣布,已經將這項技術應用於搜索中,增強了對用戶搜索意圖的理解。
新算法模型帶來的效果提升非常顯著。過去一直以來,當我們向 Google 的搜索框中輸入一個完整句子的時候,Google 的做法是用句子中的關鍵詞去匹配相應的搜索結果,並不關心句子的實際含義。正因為如此,早年的「搜索高手」都知道一些搜索技巧,比如搜尋引擎會自動忽略句子或短語中的「的」、「是」等虛詞,所以他們通常不會輸入一個自然句子,而是自己拆成關鍵詞組合,這樣對機器更加友好,也更有可能得到更好的答案。而現在,Google 搜尋引擎對於長句子的理解更加深入,更懂用戶想搜索什麼,因此就能匹配更好的結果。
Google 搜索「可以幫人取藥嗎」的結果對比,新算法更準確地理解了用戶的搜索意圖,是想問能否幫人取處方藥。
對於循環智能而言,商業落地的規模要比 Google 全球搜索的規模小很多,我們在三個月之內完成了基於原創Transformer-XL算法模型的完全「端到端」語音識別引擎部署,針對銷售、客服電話錄音場景的語音識別準確率同樣得到大幅提升。
依靠在金融、教育和網際網路服務等領域不斷積累行業訓練數據,循環智能持續優化算法模型的準確率,贏得了很多大家耳熟能詳的上市公司和標杆企業的青睞,包括眾安保險、玖富、VIPKID、新東方在線、58同城、獵聘等。
【免責聲明:CSDN本欄目發布信息,目的在於傳播更多信息,豐富網絡文化,稿件僅代表作者個人觀點,與CSDN無關。其原創性以及中文陳述文字和文字內容未經本網證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本網不做任何保證或者承諾,請讀者僅作參考,並請自行核實相關內容。凡註明為其他媒體來源的信息,均為轉載自其他媒體,轉載並不代表本網贊同其觀點,也不代表本網對其真實性負責。您若對該稿件有任何懷疑或質疑,立即與CSDN聯繫,我們將迅速給您回應並做處理。】