機器之心專欄
論文作者:Shiliang Zhang、Lei Ming、Zhijie Yan
語音領域頂級學術會議 Interspeech 2019 將於 9 月 15-19 日在奧地利格拉茨開幕。本文介紹了阿里巴巴達摩院機器智能-語音實驗室被此大會接收的一篇論文,作者們提出了一種自動糾錯模型,該模型採用 Transformer 作為糾錯器,將前端基於 CTC 的語音識別系統的識別結果作為輸入,可以自動糾正大量的識別錯誤,特別是識別結果中的替換錯誤。
INTERSPEECH 是語音科學和技術領域最大、最全面的國際學術會議, 今年的大會將在奧地利第二大城市格拉茨舉辦。
在 INTERSPEECH 會議期間,來自全球學術界和產業界的研究人員齊聚一堂,討論語音領域的新技術,包括語音合成、語音識別、語音增強這些細分領,在會議上展示的研究成果代表著語音相關領域的最新研究水平和未來的發展趨勢。
今年也恰逢 INTERSPEECH 20 周年。
在此篇被 Interspeech 接收的論文中,來自阿里巴巴達摩院-機器智能技術團隊的研究者們提出了一種自動糾錯模型(Listener-Decoder-Speller,LDS),該模型採用 Transformer 作為糾錯器,將前端基於 CTC 的語音識別系統的識別結果作為輸入,可以自動糾正大量的識別錯誤,特別是識別結果中的替換錯誤。
論文地址: https://arxiv.org/pdf/1904.10045.pdf
近年來,基於端到端的語音識別系統開始慢慢成為主流,其中兩個具有代表性的框架是:1)CTC(Connectionist Temporal Classification)準則及其變形;2)基於注意力機制的編解碼模型(Attention-Encoder-Decoder)。這兩個框架都將語音識別當作一個序列到序列的映射問題,同時提出不等長輸入序列和輸出序列之間的對齊方法。CTC 通過引入空字符(blank)來進行序列的擴展,Attention-Encoder-Decoder 則採用注意力機制來進行輸入聲學特徵和輸入預測字符之間的對齊關係。
CTC 準則採用了輸出獨立無關假設,即每個時刻的預測樣本之間是無關的。這個假設簡化了模型訓練和測試,但是它也使得基於 CTC 的端到端識別系統成為了一個純聲學模型,通常需要聯合語音模型進行解碼才能獲得理想的識別結果。由於大量同音字的存在,純靠聲學模型往往很難在普通話識別中對文本加以有效的區分,需要聯合語言模型,利用文本的語義信息加以補充。因此,目前基於 CTC 的識別系統,通常會聯合 N-gram 語言模型,採用構建 WFST 的方式進行解碼。儘管如此,由於 N-gram 引入的語音信息是有限的局部文本信息,還是很難有效地發現識別錯誤,特別是同音字替換錯誤。
針對上述問題,本文中提出了一種聯合 CTC 識別系統和 Transformer 糾錯系統的識別框架,稱之為 Listener-Decoder-Speller (LDS)。其結構框架如下圖所示:
圖 1:LDS 識別框架
LDS 的模型主要包含 3 個組成部分:Listener,Decoder,Speller:
1) Listener
Listener 是一個基於 DFSMN-CTC-sMBR 的聲學模型,可以基於輸入的語音信號,預測每個聲學建模單元的後驗概率。在具體實驗中,研究者探索了不同的聲學建模(音節,字符)單元對其性能的影響。DFSMN(Deep Feedforward Sequential Memory Networks)是研究者之前的工作中提出的一種網絡結構,其模型結構如下圖所示:
圖 2: DFSMN 網絡結構
2) Decoder
Decoder 是一個解碼器,可以單獨對 CTC 聲學模型進行解碼,也可以通過聯合語言模型進行解碼,得到識別結果。相對應的解碼方法分別稱之為:Greedy-Search 和 WFST-Beam-Search。值得一提的是,本文中研究者提出採用 N-best 的數據擴展方法,保留 N 條識別結果的候選,用於擴充後端糾錯模型的訓練數據,顯著提升了糾錯模型的性能。
3) Speller
Speller 是基於 Transformer 的糾錯模型,其原理和機器翻譯有異曲同工之處。Speller 的輸入是前端模型 CTC 的解碼結果,預測的是真實的標註。由於 Transformer 具有很強的語義建模能力,可以有效地利用上下文信息,自動糾正識別結果中的很多錯誤,提升識別性能。關於 Speller 的模型框圖如下圖所示:
圖 3: Speller 模型
研究者在一個 2 萬小時中文資料庫上對 LDS 模型進行了實驗驗證。驗證採用 DFSMN-CTC-sMBR 模型聯合 N-gram 語言模型作為基線系統,並在此基礎上通過添加基於 Transformer 的 Speller 構建 LDS。如下圖 4 所示,在全部 13 個不同領域的測試數據集上,添加糾錯模塊可以使得識別系統獲得顯著的性能提升,提升範圍大多在 20 % 以上。通過對識別錯誤類型的統計,研究者進一步發現,通過添加糾錯模型可以極大地降低識別過程中的替換錯誤。
圖 4: 基線識別系統和添加了 Speller 的識別系統在不同測試集上的性能對比
圖5:不同系統的錯誤類型和性能對比
圖 6:識別結果錯誤分析
關於阿里巴巴達摩院機器智能-語音實驗室
阿里巴巴達摩院機器智能-語音實驗室致力於語音識別、語音合成、語音喚醒、聲學設計及信號處理、聲紋識別、音頻事件檢測等下一代人機語音交互基礎理論、關鍵技術和應用系統的研究工作,形成了覆蓋電商、新零售、司法、交通、製造等多個行業的產品和解決方案,為消費者、企業和政府提供高質量的語音交互服務。2019 年,達摩院語音實驗室共 8 篇論文被語音領域頂會 Interspeech 收錄,內容涵蓋語音識別、轉換、語音數據清洗打標、混合語言模型等方面。