【技術揭秘】阿里達摩院通用Bi-lingual混合單元工業級語音識別系統

2021-02-20 阿里語音AI
關鍵詞:

語音識別,DFSMN-CTC-sMBR,端到端語音識別,在線中文語音識別,中英文混讀語音識別

導語:

    近年來,隨著深度學習和大數據的集合,基於深度神經網絡的語音識別系統成為主流。各種不同的神經網絡模型和優化函數的使用進一步極大提升了語音識別系統的性能,語音識別開始走向實用化。對於工業級應用的語音識別系統,不僅需要考慮系統的識別率,還需要考慮解碼效率,不同場合的解碼延遲等等。我們提出的DFSMN-CTC-sMBR語音識別系統,很好的兼顧了工業級應用所需要的這些需求。本文我們將解析DFSMN-CTC-sMBR聲學,以為我們針對中文識別和中英文混讀識別進行的一些探索。

正文:背景介紹

語音識別系統包含4個要素:系統框架、聲學模型結構、聲學模型優化準則和訓練數據。2010年之前,主流的語音識別系統採用的是混合高斯模型和隱馬爾可夫模型(GaussianMixture Model-Hidden Markov Model,GMM-HMM)。隨著深度學習的興起,基於深度神經網絡的語音識別系統開始成為主流。其中早期採用的還是基於混合深度神經網絡和隱馬爾可夫(Neural Networks-Hidden Markov Model, NN-HMM)的框架。NN-HMM和GMM-HMM的區別在於,使用了具有更強非線性和長時相關建模能力的神經網絡模型用於語音的聲學特徵進行建模。近年來,端到端的語音識別(End-to-End ASR)受到越來越多的關注。現有的端到端語音識別主要分成兩類:1)基於CTC的端到端語音識別框架;2)基於Attention-Encoder-Decoder的端到端語音識別。對於NN-HMM和End-to-End 語音識別一個很重要的點就是神經網絡模型結構的選擇。最早採用的網絡結構是前饋全連接神經網路(Feedforward Fully-connected Neural Networks, FNN)。FNN實現固定輸入到固定輸出的一對一映射,其存在的缺陷是沒法有效利用語音信號內在的長時相關性信息。一種改進的方案是採用基於長短時記憶單元(Long-Short Term Memory,LSTM)的循環神經網絡(Recurrent Neural Networks,RNN)[1-2]。LSTM-RNN通過隱含層的循環反饋連接,可以將歷史信息存儲在隱含層的節點中,從而可以有效的利用語音信號的長時相關性。進一步的通過使用雙向循環神經網絡(BLSTM),可以有效的利用語音信號歷史以及未來的信息,更有利於語音的聲學建模。基於循環神經網絡的語音聲學模型相比於前饋全連接神經網絡可以獲得顯著的性能提升。但是循環神經網絡相比於前饋全連接神經網絡模型更加複雜,往往包含更多的參數,這會導致模型的訓練以及測試都需要更多的計算資源。另外基於雙向循環神經網絡的語音聲學模型,會面臨很大的時延問題,對於實時的語音識別任務不適用。基於此,一些前饋型的具有長時相關建模能力的網絡結構被提出,並且應用於語音識別,例如TDNN(Time Delay Neural Networks)[3-4],FSMN(FeedforwardSequential Memory Networks)[5], Transformer [6]等。選定了系統框架和模型結構以後,採用不同的優化準則對於識別系統的性能也具有很大影響。交叉熵(Cross-entropy, CE)準則是普遍採用的優化函數。通常基於CE優化的聲學模型可以進一步採用句子級別的區分性優化準則,例如MPE, sMBR進行進一步的優化。LF-MMI[7] 是目前開源工具KALDI裡主流的優化準則。進一步的對於端到端的語音識別,可以採用CTC準則以及其改進的Transducer。訓練數據是構建語音識別系統的另一個要素,不同的語種對應不同的識別系統,不同的訓練數據量對於識別系統的性能也具有顯著的影響。現有的語音識別系統通常是基於單一語種語料訓練的特定語種語音識別系統。隨著目前多語言交互的現象越來越頻繁,如何構建多語種和混合語種語音識別系統開始受到越來越多的關注,這其中中英混讀語音識別是一個熱門研究課題。      我們提出的DFSMN-CTC-sMBR語音識別系統,是在End-to-End框架下,結合DFSMN網絡結構和CTC-sMBR優化函數。本文我們先簡要回顧一下DFSMN模型,然後進一步介紹基於DFSMN-CTC-sMBR中文語音識別和通用中英文語音識別。
DFSMN模型回顧:FSMN,cFSMN,DFSMN

最早提出的前饋序列記憶神經網絡(FeedforwardSequential Memory Networks,FSMN) [5]的模型結構如上圖1 a)所示,其本質上是一個前饋全連接神經網絡,通過在隱層旁添加一些記憶模塊(memory block)來對周邊的上下文信息進行建模,從而使得模型可以對時序信號的長時相關性進行建模。記憶模塊採用上圖1 b)所示的抽頭延遲結構利用一些可以學習的濾波係數將當前時刻的周邊時刻的表達進行加權求和,得到一個輸出。FSMN的提出是受到數位訊號處理中濾波器設計理論的啟發:任何無限響應衝擊(InfiniteImpulse Response, IIR)濾波器可以採用高階的有限衝擊響應(Finite ImpulseResponse, FIR)濾波器進行近似。循環神經網絡的循環反饋連接可以看作一階IIR濾波器,而FSMN的記憶模塊則可以看作是一個高階的FIR濾波器。從而FSMN也可以像RNN一樣有效的對信號的長時相關性進行建模,同時由於FIR濾波器相比於IIR濾波器更加穩定,因而FSMN相比於RNN訓練上會更加簡單和穩定。論文[5]在不同語音識別任務上對比了FSMN和LSTM模型,LSTM不僅在訓練效率上具有明顯優化,同時也可以獲得更優的性能。FSMN相比於FNN,需要將記憶模塊的輸出作為下一個隱含層的額外輸入,這樣就會引入額外的模型參數。隱含層包含的節點越多,則引入的參數越多。進一步的,在論文[8]中,我們結合矩陣低秩分解(Low-rank matrixfactorization)的思路,提出了一種改進的FSMN結構,稱之為cFSMN(Compact FSMN)。如上圖2)是cFSMN的一個結構框圖。對於cFSMN,通過在網絡的隱層後添加一個低維度的線性投影層,並且將記憶模塊添加在這些線性投影層上,從而可以有效的減少模型參數量。論文[9]在cFSMN的基礎上進一步提出了Deep-FSMN(DFSMN)結構。如上圖3),通過在cFSMN的記憶模塊之間添加跳轉連接(skip connection),從而使得低層記憶模塊的輸出會被直接累加到高層記憶模塊裡。這樣在訓練過程中,高層記憶模塊的梯度會直接賦值給低層的記憶模塊,從而可以克服由於網絡的深度造成的梯度消失問題,使得可以穩定的訓練深層的網絡。我們對記憶模塊的表達也進行了一些修改,通過借鑑擴張(dilation)卷積的思路,在記憶模塊中引入一些步幅(stride)因子,具體的計算公式如下:

其中表示第層記憶模塊第t個時刻的輸出。和分別表示歷史和未來時刻的編碼步幅因子,例如則表示對歷史信息進行編碼時每隔一個時刻取一個值作為輸入。這樣在相同的階數的情況下可以看到更遠的歷史,從而可以更加有效的對長時相關性進行建模。

      對於工業級應用的實時語音識別,有幾個要素:1)模型的建模能力;2)系統的實時性;3)系統的解碼效率。DFSMN通過skip connection保證了模型具有很好的深度擴展能力,可以搭建數十層的網絡,從而保證了模型建模能力。對於實時的語音識別系統我們可以通過靈活的設置DFSMN記憶模塊的右看階數來控制模型的時延,在極端情況下,當我們將每個記憶模塊的右看階數都設置為0,則我們可以實現無時延的一個聲學模型。對於一些任務,我們可以忍受一定的時延,我們可以設置小一些的右看階數。同時DFSMN整體是類似於FNN的結構,所以本身具有計算效率相比於循環神經網絡就具有很明顯的優勢。此外我們在論文[9]中提出了將DFSMN和低幀率(Lower Frame Rate, LFR)相結合,提出了LFR-DFSMN聲學模型,可以進一步提升模型的解碼效率。

基於DFSMN-CTC-sMBR的中文識別

圖3 DFSMN-CTC-sMBR結構框圖

     之前提出的FSMN,cFSMN和DFSMN採用的優化函數都是傳統的交叉熵(CE)和句子級的區分性優化準則sMBR。去年我們將DFSMN和CTC (Connectionist TemporalClassification)優化準則相結合,進一步提出了DFSMN-CTC-sMBR聲學模型[10-11]。CTC相比於傳統的CE準則,引入了blank輸出和不確定預測,這樣識別判決的時候不要求每一幀語音都有一個具有聲學含義的輸出,大量的語音幀會被判為blank,只有極少數的幀有聲學含義的輸出。從而使得模型解碼可以很快的進行路徑裁剪,具有很高的解碼效率。學術界主流的和CTC結合的網絡結構都是循環神經網絡(LSTM)或者雙向循環神經網絡(BLSTM)。BLSTM相比於LSTM可以獲得更好的性能,但是不適用於實時語音識別。我們提出的DFSMN-CTC模型由於可以靈活的控制時延,所以可以滿足實時語音識別的需求,同時可以獲得相比於LSTM明顯的性能提升。進一步的CTC優化的DFSMN模型,可以進一步採用區分性準則sMBR進行進一步的優化,在我們的工作中發現可以進一步獲得超過10%的相對性能提升。

圖4中文建模單元體系

將DFSMN-CTC-sMBR用於中文語音識別,一個很重要的點是中文建模單元的選擇。論文[11]中我們詳細研究了不同的聲學建模單元對於中文識別的影響。中文的漢字具有數十萬,常用的大概有5千,這樣採用字作為建模單元的話,沒法採用所有的字,不然會使得網絡輸出層佔用很大的計算量。所以目前業界通常採用的方式是只採用有限的常用字作為建模單元,這樣就使得系統會存在一些OOV問題。我們的研究中提出了兩種基於」字」的建模方案:

這兩種方式都可以有效的解決OOV問題。

我們在一個工業級的兩萬小時中文任務上驗證了不同系統的性能,結果如下表:

基於DFSMN-CTC-sMBR的識別系統相比於DFSMN-CE-sMBR系統可以獲得明顯的性能提升。同時,基於All-character的建模單元方案可以獲得最終的性能。圖5是不同系統的解碼實時率(Real Time Factor,RTF), CTC系統相比於CE系統可以獲得超過3倍的RTF下降。

圖5不同系統的解碼實時率(RTF)

基於DFSMN-CTC-sMBR的通用中英文語音識別

       現有的語音識別系統往往是針對單一語種訓練的,例如中文語音識別系統則很難識別英文。但是對於一些公眾場合的智能交互設備,可能存在不同的用戶會用不同的語言和設備進行交互。中英文混讀是一個常見的現象,例如「給我播放周杰倫的Now You See Me」。所以這就要求我們的識別系統需要能同時識別中文,英文,以及中文混讀。關於通用的中英文識別系統面臨很多難點:1)聲學建模單元如何選擇,以及如何保證聲學得分具有很強的區分性;2)如何有效建模兩個語種;3)如何去處理混讀部分語言模型的得分回退問題。針對這些難點,我們基於之前的工作積累,開創性的提出了如下的通用中英文識別系統構建方案[12]。

具體包含如下步驟:

1)  採用中文和英文語音語料先預訓練得到基於DFSMN-CTC-sMBR的中文識別系統和英文識別系統。其中中文建模單元採用我們提出的」All-character」方案,英文採用wordpiece[13]。

2)  採用中文和英文文本語料分別訓練一個中文和英文語言模型,同時進行插值得到一個混合的語言模型。

3)  利用預訓練的中文聲學模型和英文聲學模型初始化一個Bilingual-AM,然後採用兩個語料重新訓練這個新的Bilingual-AM。

我們的通用中英文語音識別系統相比於最優的中文識別系統和英文識別系統在不需要語種先驗信息的情況下,可以無損識別中文和英文。

結語

結合DFSMN, CTC-sMBR和中文的特徵,我們構建了基於」All-character」的DFSMN-CTC-sMBR端到端中文識別系統。進一步以此為基礎,開創性的構建了一個高精度的通用中英文識別系統。往後我們將探索DFSMN在Attention-Encoder-Decoder框架下的使用,構建更為高效的端到端語音識別系統,

參考文獻[1] Hochreiter S,Schmidhuber J. Long short-term memory[J]. Neural computation, 1997, 9(8):1735-1780.[2] Sak H, Senior A, Beaufays F. Long short-termmemory recurrent neural network architectures for large scale acousticmodeling[C]//Fifteenth annual conference of the international speechcommunication association. 2014.[3] Waibel A,Hanazawa T, Hinton G, et al. Phoneme recognition using time-delay neural networks[J].IEEE transactions on acoustics, speech, and signal processing, 1989, 37(3):328-339.[4] Peddinti V,Povey D, Khudanpur S. A time delay neural network architecture for efficientmodeling of long temporal contexts[C]//Sixteenth Annual Conference of theInternational Speech Communication Association. 2015.[5] Zhang S, Liu C, Jiang H, et al. Feedforwardsequential memory networks: A new structure to learn long-term dependency[J].arXiv preprint arXiv:1512.08301, 2015.[6] Vaswani A,Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neuralinformation processing systems. 2017: 5998-6008.[7] Povey D,Peddinti V, Galvez D, et al. Purely sequence-trained neural networks for ASRbased on lattice-free MMI[C]//Interspeech. 2016: 2751-2755.[8] Zhang S, JiangH, Xiong S, et al. Compact Feedforward Sequential Memory Networks for LargeVocabulary Continuous Speech Recognition[C]//Interspeech. 2016: 3389-3393.[9] Zhang S, Lei M,Yan Z, et al. Deep-FSMN for large vocabulary continuous speechrecognition[C]//2018 IEEE International Conference on Acoustics, Speech andSignal Processing (ICASSP). IEEE, 2018: 5869-5873.[10] Zhang S L, Lei M. Acoustic Modeling with DFSMN-CTC and Joint CTC-CELearning[C]//Interspeech. 2018: 771-775.[11] Zhang S, Lei M, Liu Y, et al. Investigation of Modeling Units forMandarin Speech Recognition Using Dfsmn-ctc-smbr[C]//ICASSP 2019-2019 IEEEInternational Conference on Acoustics, Speech and Signal Processing (ICASSP).IEEE, 2019: 7085-7089.[12] Zhang S, Liu Y, Lei M, et al. TowardsLanguage-Universal Mandarin-English Speech Recognition[J]. Proc. Interspeech2019, 2019: 2170-2174.[13] Zenkel T, Sanabria R, Metze F, et al.Subword and crossword units for CTC acoustic models[J]. arXiv preprintarXiv:1712.06855, 2017.

相關焦點

  • 阿里達摩院發布新一代語音AI晶片技術Ouroboros 有望率先應用於...
    阿里達摩院發布新一代語音AI晶片技術Ouroboros 有望率先應用於天貓精靈 站長之家(ChinaZ.com) 8月21日 消息:據 36 氪消息,今天,阿里巴巴達摩院在美國舊金山發布了新一代自研語音AI晶片技術——Ouroboros。
  • 阿里達摩院發布新一代AI語音FPGA晶片技術「Ouroboros」
    首頁 > 快訊 > 關鍵詞 > 阿里最新資訊 > 正文 阿里達摩院發布新一代AI語音FPGA晶片技術「Ouroboros」
  • 阿里達摩院語音實驗室:聯合CTC和Transformer的自動中文糾錯模型
    本文介紹了阿里巴巴達摩院機器智能-語音實驗室被此大會接收的一篇論文,作者們提出了一種自動糾錯模型,該模型採用 Transformer 作為糾錯器,將前端基於 CTC 的語音識別系統的識別結果作為輸入,可以自動糾正大量的識別錯誤,特別是識別結果中的替換錯誤。INTERSPEECH 是語音科學和技術領域最大、最全面的國際學術會議, 今年的大會將在奧地利第二大城市格拉茨舉辦。
  • 從技術到產品,蘋果Siri深度學習語音合成技術揭秘
    如今,業內主要使用兩種語音合成技術:單元選擇 [1] 和參數合成 [2]。單元選擇語音合成技術在擁有足夠高質量錄音時能夠合成最高質量的語音,也因此成為商業產品中最常用的語音合成技術。另外,參數合成能夠提供高度可理解的、流暢的語音,但整體質量略低。因此,在語料庫較小、低佔用的情況下,通常使用參數合成技術。
  • 給AI裝上「語法識別器」 阿里達摩院新技術拿下NLP頂賽第一名
    北京時間3月3日消息,在全球自然語言處理領域頂級賽事GLUE Benchmark中,阿里巴巴達摩院以平均分90.3分的成績奪冠,刷新自然語言理解技術世界紀錄,與阿里同場競技的還有來自Google、微軟、Facebook、史丹福大學等企業和高校的團隊。
  • 語音識別技術概述
    除了傳統語音識別技術之外,基於深度學習的語音識別技術也逐漸發展起來。本文對廣義的自然語言處理應用領域之一的語音識別進行一次簡單的技術綜述。概述自動語音識別(Automatic Speech Recognition, ASR),也可以簡稱為語音識別。語音識別可以作為一種廣義的自然語言處理技術,是用於人與人、人與機器進行更順暢的交流的技術。
  • 基於聲紋識別的通用語音控制系統設計
    聲音不僅可以傳達指令,還能與聲紋識別的安全系統結合,如果可以把語音控制與安全控制結合起來,系統就變得更自然直接更人性化了。在本設計就是希望通過設計出一個通用的系統為將來的這些應用實現基本的框架。1.2.編寫目的進入21世紀以來,隨著科學技術的突飛進展,語音識別與確認技術也逐漸的走向成熟,基於語音識別技術的對話控制系統受到了越來越多的關注。直接用聲音來發出控制指令,讓機器能「聽懂」你的話,執行相應的命令。
  • 中文語音合成最高水平,百度語音技術打造全球首款地圖語音定製產品
    現場,百度語音首席架構師賈磊揭秘了這背後的技術:「百度地圖語音定製功能基於百度獨創的風格遷移技術Meitron模型,其特點主要體現在音色轉換、多情感朗讀和韻律遷移三個方面,從而讓語音合成的門檻大大降低,相信百度語音技術在AI時代擁有無限可能。」
  • 語音識別技術簡史
    因此 GMM-HMM 框架中,HMM 描述的是語音的短時平穩的動態性,GMM 用來描述 HMM 每一狀態內部的發音特徵。基於 GMM-HMM 框架,研究者提出各種改進方法,如結合上下文信息的動態貝葉斯方法、區分性訓練方法、自適應訓練方法、HMM/NN 混合模型方法等。這些方法都對語音識別研究產生了深遠影響,並為下一代語音識別技術的產生做好了準備。
  • 語音識別技術原理概述!
    聲學信號預處理作為語音識別的前提與基礎,語音信號的預處理過程至關重要。在最終進行模板匹配的時候,是將輸入語音信號的特徵參數同模板庫中的特徵參數進行對比,因此,只有在預處理階段得到能夠表徵語音信號本質特徵的特徵參數,才能夠將這些特徵參數進行匹配進行識別率高的語音識別。
  • 淺談語音識別技術的發展趨勢與應用前景
    (1)語音識別單元的選取。語音識別研究的基礎是選擇語音識別單元。語音識別單元有單詞(句)、音節和音素三種,具體選擇哪一種語音識別單元由具體研究任務的類型決定:   單詞(句)單元在中小詞彙語音識別系統中應用廣泛,但由於模型庫過於龐大,模型匹配算法複雜,實時性不強,所以不適合大詞彙系統;   音節單元主要應用於漢語語音識別,因為漢語是單音節結構的語言,雖然有大約1300個音節,但無調音節共408個,相對較少,所以音節單元在中、大詞彙量的漢語語音識別系統上是可行的
  • 語音識別技術
    這裡涉及到不同的語音算法的識別最小單元是不同的,音素是一個 應用於中大型詞量系統的識別單元,而且訓練起來也比較簡單。首先用戶要輸入他們的語音,然後進行端點檢測,把人說話的部分給檢測出來,之後就是一個信號處理的過程,對信號進行一個非常好的噪音的處理,或者是其他方面的處理。接下來就是提取聲學特徵,進行識別解碼,之後就是置信度判別,由於現在是一個喚醒+識別的系統,那喚醒成功之後需要送到伺服器進行在線解碼,最後獲取到識別結果。
  • 語音識別 2019 指南
    它可用於對某些系統中的用戶進行身份驗證,以及向智能設備(如Google Assistant,Siri或Cortana)提供說明。本質上,它通過存儲人類語音並訓練自動語音識別系統以識別該語音中的詞彙和語音模式來工作。在本文中,我們將介紹一些旨在通過機器和深度學習解決此問題的論文。
  • 解析基於DSP的漢字語音識別系統的實現方式
    語音識別經過四十多年的發展,已經顯示出巨大的應用前景。本文從實現原理入手,介紹語音識別系統的實現方式。本文引用地址:http://www.eepw.com.cn/article/201610/309216.htm概述本漢語語音識別系統是一個非特定人的、孤立音語音識別系統。
  • 超越整句的流式多級Attention:解密百度輸入法背後的語音識別模型
    百度表示,其 AI 探索版的語音輸入用戶體驗提升得益於四項重大突破,分別是在在線語音、離線語音、中英混合語音以及方言四個領域上實現的。簡言之,SMLTA 就是流式多級的截斷注意力模型,是融合了 CTC、LSTM 和 attention 等近年語音識別技術的集大成者。百度表示,SMLTA 是在業界首個截斷模型能超越整句的注意力模型,同時這也是第一次實現了基於 Attention 技術的在線語音識別服務的大規模上線。
  • OC16「海天瑞聲」與「清華大學」中英混合語音識別競賽結果揭曉
    這種語碼混合(Code-mixing)現象,不僅帶來了各國本土語言的微妙演化,也同時為語音識別技術帶來了巨大的挑戰。目前,各大語音識別引擎巨頭,在單一語言的識別率方面,往往能達到90%以上、甚至高達95%的識別準確率。但遇到包含語碼混合現象的語音時,其識別準確率會大幅下降。
  • 達摩院發布業界首款語音合成算法專用AI FPGA晶片設計Ouroboros...
    AI語音FPGA晶片技術Ouroboros。阿里巴巴稱,這是業界首款專用於語音合成算法的 AI FPGA晶片結構設計,能將語音生成算法的計算效率提高百倍以上。根據阿里達摩院掃地僧的說法,用AI語音合成算法WaveNet生成1秒語音,CPU和GPU需要50秒的計算時間,但Ouroboros在FPGA環境下只要 0.3秒。
Ouroboros的一大突破,是用端上定製硬體加速技術替代雲端伺服器,避免了對網絡連接和雲端服務的強依賴性。
  • 阿里達摩院AI抗疫新戰報:已診斷3萬多疑似病例CT影像,準確率96%
    阿里達摩院從前線傳來最新戰報:截止到2月23日,阿里達摩院醫療AI團隊研發的新冠肺炎CT影像識別算法,已對3萬多個臨床疑似病例進行了診斷。實際結果顯示,單個病例影像數據的上傳和分析可在20秒內完成,準確率達到96%。這一最早應用於鄭州「小湯山」的算法,現已在湖北、上海、廣東、江蘇等16個省市的41家醫院上崗。
  • 百度語音的「一小步」,可能是語音技術「登月計劃」的一大步
    接下來,本文將從此次公布的流式多級的截斷注意力模型入手,揭秘這項技術背後的意義,同時結合語音技術賦能百度其他產品線的案例,進一步探討這家公司的 AI 戰略方向。1.賦能:從內到外一年前的百度輸入法升級裡,基於 Deep Peak 2模型的語音模型,大幅提升了不同場景下語音識別的準確率。而一年後,輸入法升級還帶來了離線語音、中英混合輸入、普通話方言混合輸入的升級。這其中,離線語音識別的場景最特殊。
  • 深度學習筆記 | 第16講:語音識別——一份簡短的技術綜述
    神經網絡和深度學習興起以後,循環神經網絡、LSTM、編碼-解碼框架、注意力機制等基於深度學習的聲學模型將此前各項基於傳統聲學模型的識別案例錯誤率降低了一個 level,所以基於深度學習的語音識別技術也正在逐漸成為語音識別領域的核心技術。語音識別發展到如今,無論是基於傳統聲學模型的語音識別系統還是基於深度學習的識別系統,語音識別的各個模塊都是分開優化的。