阿里達摩院語音實驗室:聯合CTC和Transformer的自動中文糾錯模型

2021-01-10 機器之心Pro

機器之心專欄

論文作者:Shiliang Zhang、Lei Ming、Zhijie Yan

語音領域頂級學術會議 Interspeech 2019 將於 9 月 15-19 日在奧地利格拉茨開幕。本文介紹了阿里巴巴達摩院機器智能-語音實驗室被此大會接收的一篇論文,作者們提出了一種自動糾錯模型,該模型採用 Transformer 作為糾錯器,將前端基於 CTC 的語音識別系統的識別結果作為輸入,可以自動糾正大量的識別錯誤,特別是識別結果中的替換錯誤。

INTERSPEECH 是語音科學和技術領域最大、最全面的國際學術會議, 今年的大會將在奧地利第二大城市格拉茨舉辦。

在 INTERSPEECH 會議期間,來自全球學術界和產業界的研究人員齊聚一堂,討論語音領域的新技術,包括語音合成、語音識別、語音增強這些細分領,在會議上展示的研究成果代表著語音相關領域的最新研究水平和未來的發展趨勢。

今年也恰逢 INTERSPEECH 20 周年。

在此篇被 Interspeech 接收的論文中,來自阿里巴巴達摩院-機器智能技術團隊的研究者們提出了一種自動糾錯模型(Listener-Decoder-Speller,LDS),該模型採用 Transformer 作為糾錯器,將前端基於 CTC 的語音識別系統的識別結果作為輸入,可以自動糾正大量的識別錯誤,特別是識別結果中的替換錯誤。

論文地址: https://arxiv.org/pdf/1904.10045.pdf

近年來,基於端到端的語音識別系統開始慢慢成為主流,其中兩個具有代表性的框架是:1)CTC(Connectionist Temporal Classification)準則及其變形;2)基於注意力機制的編解碼模型(Attention-Encoder-Decoder)。這兩個框架都將語音識別當作一個序列到序列的映射問題,同時提出不等長輸入序列和輸出序列之間的對齊方法。CTC 通過引入空字符(blank)來進行序列的擴展,Attention-Encoder-Decoder 則採用注意力機制來進行輸入聲學特徵和輸入預測字符之間的對齊關係。

CTC 準則採用了輸出獨立無關假設,即每個時刻的預測樣本之間是無關的。這個假設簡化了模型訓練和測試,但是它也使得基於 CTC 的端到端識別系統成為了一個純聲學模型,通常需要聯合語音模型進行解碼才能獲得理想的識別結果。由於大量同音字的存在,純靠聲學模型往往很難在普通話識別中對文本加以有效的區分,需要聯合語言模型,利用文本的語義信息加以補充。因此,目前基於 CTC 的識別系統,通常會聯合 N-gram 語言模型,採用構建 WFST 的方式進行解碼。儘管如此,由於 N-gram 引入的語音信息是有限的局部文本信息,還是很難有效地發現識別錯誤,特別是同音字替換錯誤。

針對上述問題,本文中提出了一種聯合 CTC 識別系統和 Transformer 糾錯系統的識別框架,稱之為 Listener-Decoder-Speller (LDS)。其結構框架如下圖所示:

圖 1:LDS 識別框架

LDS 的模型主要包含 3 個組成部分:Listener,Decoder,Speller:

1) Listener

Listener 是一個基於 DFSMN-CTC-sMBR 的聲學模型,可以基於輸入的語音信號,預測每個聲學建模單元的後驗概率。在具體實驗中,研究者探索了不同的聲學建模(音節,字符)單元對其性能的影響。DFSMN(Deep Feedforward Sequential Memory Networks)是研究者之前的工作中提出的一種網絡結構,其模型結構如下圖所示:

圖 2: DFSMN 網絡結構

2) Decoder

Decoder 是一個解碼器,可以單獨對 CTC 聲學模型進行解碼,也可以通過聯合語言模型進行解碼,得到識別結果。相對應的解碼方法分別稱之為:Greedy-Search 和 WFST-Beam-Search。值得一提的是,本文中研究者提出採用 N-best 的數據擴展方法,保留 N 條識別結果的候選,用於擴充後端糾錯模型的訓練數據,顯著提升了糾錯模型的性能。

3) Speller

Speller 是基於 Transformer 的糾錯模型,其原理和機器翻譯有異曲同工之處。Speller 的輸入是前端模型 CTC 的解碼結果,預測的是真實的標註。由於 Transformer 具有很強的語義建模能力,可以有效地利用上下文信息,自動糾正識別結果中的很多錯誤,提升識別性能。關於 Speller 的模型框圖如下圖所示:

圖 3: Speller 模型

研究者在一個 2 萬小時中文資料庫上對 LDS 模型進行了實驗驗證。驗證採用 DFSMN-CTC-sMBR 模型聯合 N-gram 語言模型作為基線系統,並在此基礎上通過添加基於 Transformer 的 Speller 構建 LDS。如下圖 4 所示,在全部 13 個不同領域的測試數據集上,添加糾錯模塊可以使得識別系統獲得顯著的性能提升,提升範圍大多在 20 % 以上。通過對識別錯誤類型的統計,研究者進一步發現,通過添加糾錯模型可以極大地降低識別過程中的替換錯誤。

圖 4: 基線識別系統和添加了 Speller 的識別系統在不同測試集上的性能對比

圖5:不同系統的錯誤類型和性能對比

圖 6:識別結果錯誤分析

關於阿里巴巴達摩院機器智能-語音實驗室

阿里巴巴達摩院機器智能-語音實驗室致力於語音識別、語音合成、語音喚醒、聲學設計及信號處理、聲紋識別、音頻事件檢測等下一代人機語音交互基礎理論、關鍵技術和應用系統的研究工作,形成了覆蓋電商、新零售、司法、交通、製造等多個行業的產品和解決方案,為消費者、企業和政府提供高質量的語音交互服務。2019 年,達摩院語音實驗室共 8 篇論文被語音領域頂會 Interspeech 收錄,內容涵蓋語音識別、轉換、語音數據清洗打標、混合語言模型等方面。

相關焦點

  • 哈工大訊飛聯合實驗室奪中文語法診斷大賽全球冠軍
    在語病糾錯的武林江湖裡,中文又比英文難得多。最近,一場通過AI檢測中文語病的「中文語法錯誤自動診斷大賽」上,哈工大訊飛聯合實驗室摘得桂冠。第五屆中文語法錯誤自動診斷大賽(Chinese Grammatical Error Diagnosis,簡稱 CGED)剛在澳大利亞墨爾本舉辦。
  • 阿里達摩院全球首個實時翻譯直播上線,今年雙11多語種一鍵開播!
    作為餘杭重大創新載體,阿里巴巴達摩院的AI翻譯技術曾創下多項業界第一。近日,速賣通聯合阿里達摩院推出的全球首個實時翻譯直播上線,它將全面參與今年的天貓雙11全球購物狂歡節。最重要的是:主播不會外語也能向全球直播。   該AI實時翻譯直播可同時進行中文到英、俄、西三種語向的翻譯,中國商家只需用中文一鍵開播,就能同時覆蓋全球英語、西班牙語、俄語區的逾十億人口。
  • 深度神經網絡——中文語音識別
    這個過程主要採用了 3 種技術,即自動語音識別(automatic speech recognition,ASR)、自然語言處理(natural language processing,NLP)和語音合成(speech synthesis,SS)。語音識別技術的目的是讓機器能聽懂人類的語音,是一個典型的交叉學科任務。2.
  • 阿里達摩院官網今日上線,5 大研究領域、14 個實驗室全公開
    ,幫助零售、醫療、司法、交通等行業提升效率,推動經濟、空間技術、自動控制、計算機設計和製造等領域的變革。研究領域包括語音識別、語音合成、聲紋、語音交互等。曾任微軟亞洲研究院語音團隊主管研究員。任小楓 達摩院視覺智能實驗室負責人
  • 阿里達摩院發布新一代AI語音FPGA晶片技術「Ouroboros」
    首頁 > 快訊 > 關鍵詞 > 阿里最新資訊 > 正文 阿里達摩院發布新一代AI語音FPGA晶片技術「Ouroboros」
  • 基於seq2seq模型的中文糾錯任務
    本文首先對中文糾錯任務進行詳細的梳理, 包括錯誤的來源、目前的處理方法、相關的公開競賽、數據源等;第二,由於缺 少大規模公開的數據集,本文涉及顯示人工構造大規模糾錯數據集的算法;第三, 本文將深度學子中的 seq2seq 模型引入,處理中文糾錯任務,在基本的模型基礎 上引入 attention 機制(包括諸多變種)以及多任務學習的理念,嘗試多種組合, 並最終在構造數據集上 GLEU 評分達到了 0.75
  • 7 Papers & Radios | 阿里達摩院自動駕駛新成果;邱錫鵬預訓練模型...
    機器之心機器之心&ArXiv Weekly Radiostation參與:杜偉,楚航,羅若天本周的重要論文有阿里達摩院在自動駕駛領域的新成果,以及復旦大學邱錫鵬教授發表的預訓練模型綜述論文。
  • 基於Transformer增強架構的中文語法糾錯
    論文名稱:基於Transformer增強架構的中文語法糾錯論文作者:王辰成,楊麟兒,王瑩瑩,杜永萍,楊爾弘發表於:第十八屆中國計算語言學大會(CCL 2019)語法糾錯(Grammatical Error Correction, GEC)任務,旨在利用自然語言處理技術,自動識別並糾正非中文母語學習者書寫的文本中所包含的語法錯誤,拼寫錯誤,語序錯誤
  • 中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT模型
    近日,哈工大訊飛聯合實驗室發布了基於全詞覆蓋的中文 BERT 預訓練模型,該模型在多個中文數據集上,取得了當前中文預訓練模型的最佳水平,部分效果甚至超過了原版 BERT、ERNIE等中文預訓練模型。。這一新的模型資源,極大地推動了中文自然語言處理的研究發展,彌補了之前該研究模型在中文自然語言處理上的空缺。
  • 達摩院語音實驗室負責人鄢志傑:智能語音爆發進入倒計時,2019語音...
    新智元專訪達摩院語音實驗室負責人鄢志傑及高級算法專家雷鳴,深度解讀核心技術。鄢志傑認為,智能語音正處於爆發前夜,2019年語音AI將在特定領域通過圖靈測試。來源:達摩院語音實驗室橫向比較業界現有的各項中文語音合成服務的效果後,鄢志傑博士認為,達摩院語音實驗室這次交出了一份滿意的答卷。
  • 阿里達摩院官宣進軍5G:成立XG實驗室,與華為、中興爭鋒?
    扛旗先鋒,正是馬雲寄予厚望的達摩院——成立XG 實驗室,推動下一代網絡通信技術的研究。3月10日,阿里達摩院正式宣布:「正式成立XG實驗室,XG實驗室致力於推動下一代網絡通信技術的研究,現階段主要聚焦5G技術和應用的協同開發。」這意味著阿里將正式進軍5G技術研發,甚至是未來的6G、7G,阿里正式加入通信技術研發行列!
  • 第六屆中文語法錯誤診斷大賽,哈工大訊飛聯合實驗室再獲多項冠軍
    其中,哈工大訊飛聯合實驗室(下文簡稱HFL)團隊獲得綜合排名第一的成績,多項核心指標保持領先。A.I.也能改作文,我們拿下多項冠軍!HFL基於長期以來的技術積累,早在2019年12月1日,便正式發布了「飛鷹智能文本校對系統」飛鷹校對涵蓋文本校對的別字糾錯、語法糾錯、標點糾錯及敏感詞檢測等不同校對模塊,並且可針對不同領域的文本校對需求,為行業客戶提供定製化的解決方案,現已支持通用領域、司法領域和教育領域文本校對服務。
  • 阿里達摩院自動駕駛新成果;邱錫鵬預訓練模型論文綜述
    機器之心&ArXiv Weekly Radiostation 參與:杜偉,楚航,羅若天 本周的重要論文有阿里達摩院在自動駕駛領域的新成果,以及復旦大學邱錫鵬教授發表的預訓練模型綜述論文
  • 智能語音前沿技術——發音檢錯糾錯和語音轉換
    語音技術包含:語音識別、語音合成、聲紋識別、語音評測、語音轉換等,其中發音檢錯糾錯和語音轉換技術近期有了新的突破。 發音檢錯糾錯 英語是當今世界上最為通用的語言,其重要性已為所有人深刻領會。由於英語的強勢地位,目前被超過100個國家作為外語教學的第一外語。
  • 阿里達摩院官網上線 共14個實驗室,覆蓋5大研究領域
    阿里達摩院官網上線 共14個實驗室,覆蓋5大研究領域 圖片版權所屬:站長之家站長之家(ChinaZ.com) 9月29日 消息:9 月 28 日,阿里達摩院官網正式上線,網站主要介紹了達摩院的主要職能及研發方向
  • 阿里達摩院打敗微軟等巨頭 獲WMT機器翻譯大賽5項冠軍
    參考消息網5月24日報導在剛剛結束的WMT2018國際機器翻譯大賽上,阿里巴巴達摩院機器智能-NLP翻譯團隊打敗多個國外巨頭與研究機構,在所有提交的5項比賽中,全數獲得冠軍,成為此次比賽的最大贏家。這5個項目包括英文-中文翻譯、英文-俄羅斯語互譯、英文-土耳其語互譯,達摩院在這幾個項目的自動評測指標BLEU都位居第一。達摩院獲得5個項目自動評測第一名。WMT全稱Workshop on Machine Translation,是國際公認的頂級機器翻譯賽事之一,也是各大科技公司與學術機構展示自身機器翻譯實力的平臺。
  • 阿里達摩院發布新一代語音AI晶片技術Ouroboros 有望率先應用於...
    阿里達摩院發布新一代語音AI晶片技術Ouroboros 有望率先應用於天貓精靈 站長之家(ChinaZ.com) 8月21日 消息:據 36 氪消息,今天,阿里巴巴達摩院在美國舊金山發布了新一代自研語音AI晶片技術——Ouroboros。
  • 加入就得100萬,阿里達摩院是一個怎樣的機構?
    基於此,阿里達摩院孕育而生!達摩院緣起阿里達摩院是什麼?達摩院(這一名字取自金庸小說)是一家致力於探究科技未知,以人類願景為驅動的研究所,是阿里在全球多點設立的科研機構,立足基礎科學、顛覆性技術和應用技術的研究。
  • 日均調用量超13億次,阿里達摩院研發全球首個實時翻譯直播
    近幾年來,直播電商到處開花,但絕大多數都是國內的中文直播。如果想買外國電商主播推薦的商品,語言不通怎麼辦?這一難題已被阿里巴巴(下稱 「阿里」)攻克,阿里速賣通是面向全球海外消費者設立的電商平臺,它和淘寶一樣,也面向所有終端消費者,但區別是速賣通是面向全球 200 多個國家和地區的電商平臺。
  • 前Facebook AI翻譯主管加盟阿里達摩院,致力圖片、視頻、聲音「秒...
    摘要:入職達摩院後,黃非博士將和同事推動AI翻譯在新零售、跨境電商、視頻等領域的實時翻譯應用。文/ 天下網商記者 孫茜茜 日前,前Facebook(臉書)應用機器學習部AI翻譯團隊主管黃非博士入職阿里巴巴達摩院。入職後,他將在達摩院機器智能技術實驗室,和同事推動AI翻譯在新零售、跨境電商、視頻等領域的實時翻譯應用。