乾貨|語音識別框架最新進展——深度全序列卷積神經網絡登場

2021-01-07 雷鋒網

導讀:目前最好的語音識別系統採用雙向長短時記憶網絡(LSTM,LongShort Term Memory),但是,這一系統存在訓練複雜度高、解碼時延高的問題,尤其在工業界的實時識別系統中很難應用。科大訊飛在今年提出了一種全新的語音識別框架——深度全序列卷積神經網絡(DFCNN,Deep Fully Convolutional NeuralNetwork),更適合工業應用。本文是對科大訊飛使用DFCNN應用於語音轉寫技術的詳細解讀,其外還包含了語音轉寫中口語化和篇章級語言模型處理、噪聲和遠場識別和文本處理實時糾錯以及文字後處理等技術的分析。

人工智慧的應用中,語音識別在今年來取得顯著進步,不管是英文、中文或者其他語種,機器的語音識別準確率在不斷上升。其中,語音聽寫技術的發展最為迅速,目前已廣泛在語音輸入、語音搜索、語音助手等產品中得到應用並日臻成熟。但是,語音應用的另一層面,即語音轉寫,目前仍存在一定的難點,由於在產生錄音文件的過程中使用者並沒有預計到該錄音會被用於語音識別,因而與語音聽寫相比,語音轉寫將面臨說話風格、口音、錄音質量等諸多挑戰。

語音轉寫的典型場景包括,記者採訪、電視節目、課堂及交談式會議等等,甚至包括任何人在日常的工作生活中產生的任何錄音文件。 語音轉寫的市場及想像空間是巨大的,想像一下,如果人類可以徵服語音轉寫,電視節目可以自動生動字幕、正式會議可以自動形成記要、記者採訪的錄音可以自動成稿……人的一生中說的話要比我們寫過的字多的多,如果有一個軟體能記錄我們所說過的所有的話並進行高效的管理,這個世界將會多麼的讓人難以置信。

基於DFCNN的聲學建模技術

語音識別的聲學建模主要用於建模語音信號與音素之間的關係,科大訊飛繼去年12月21日提出前饋型序列記憶網絡(FSMN, Feed-forward Sequential Memory Network)作為聲學建模框架後,今年再次推出全新的語音識別框架,即深度全序列卷積神經網絡(DFCNN,Deep Fully Convolutional NeuralNetwork)

目前最好的語音識別系統採用雙向長短時記憶網絡(LSTM,LongShort Term Memory),這種網絡能夠對語音的長時相關性進行建模,從而提高識別正確率。但是雙向LSTM網絡存在訓練複雜度高、解碼時延高的問題,尤其在工業界的實時識別系統中很難應用。因而科大訊飛使用深度全序列卷積神經網絡來克服雙向LSTM的缺陷。

CNN早在2012年就被用於語音識別系統,但始終沒有大的突破。主要的原因是其使用固定長度的幀拼接作為輸入,無法看到足夠長的語音上下文信息;另外一個缺陷將CNN視作一種特徵提取器,因此所用的卷積層數很少,表達能力有限。

針對這些問題,DFCNN使用大量的卷積層直接對整句語音信號進行建模。首先,在輸入端DFCNN直接將語譜圖作為輸入,相比其他以傳統語音特徵作為輸入的語音識別框架相比具有天然的優勢。其次,在模型結構上,借鑑了圖像識別的網絡配置,每個卷積層使用小卷積核,並在多個卷積層之後再加上池化層,通過累積非常多的卷積池化層對,從而可以看到非常長的歷史和未來信息。這兩點保證了DFCNN可以出色的表達語音的長時相關性,相比RNN網絡結構在魯棒性上更加出色,同時可以實現短延時的準在線解碼,從而可用於工業系統中。

(DFCNN 結構圖)

口語化和篇章級語言模型處理技術

語音識別的語言模型主要用於建模音素與字詞之間的對應關係。由於人類的口語為無組織性的自然語言,人們在自由對話時,通常會出現猶豫、回讀、語氣詞等複雜的語言現象,而以文字形式存在的語料通常為書面語,這兩種之間的鴻溝使得針對口語語言的語言模型建模面臨極大的挑戰。

科大訊飛借鑑了語音識別處理噪聲問題採用加噪訓練的思想,即在書面語的基礎上自動引入回讀、倒裝、語氣詞等口語「噪聲」現象,從而可自動生成海量口語語料,解決口語和書面語之間的不匹配問題。首先,收集部分口語文本和書面文本語料對;其次,使用基於Encoder-Decoder的神經網絡框架建模書面語文本與口語文本之間的對應關係,從而實現了口語文本的自動生成。

另外,上下文信息可以較大程度幫助人類對語言的理解,對於機器轉錄也是同樣的道理。因而,科大訊飛在去年12月21提出了篇章級語言模型的方案,該方案根據語音識別的解碼結果自動進行關鍵信息抽取,實時進行語料搜索和後處理,用解碼結果和搜索到的語料形成特定語音相關的語言模型,從而進一步提高語音轉寫的準確率。

(篇章級語言模型流程圖)

噪聲和遠場識別技術

語音識別的應用遠場拾音和噪聲幹擾一直是兩大技術難題。例如在會議的場景下,如果使用錄音筆進行錄音,離錄音筆較遠說話人的語音即為遠場帶混響語音,由於混響會使得不同步的語音相互疊加,帶來了音素的交疊掩蔽效應,從而嚴重影響語音識別效果;同樣,如果錄音環境中存在背景噪聲,語音頻譜會被汙染,其識別效果也會急劇下降。科大訊飛針對該問題使用了單麥克及配合麥克風陣列兩種硬體環境下的降噪、解混響技術,使得遠場、噪聲情況下的語音轉寫也達到了實用門檻。

對採集到的有損失語音,使用混合訓練和基於深度回歸神經網絡降噪解混響結合的方法。即一方面對乾淨的語音進行加噪,並與乾淨語音一起進行混合訓練,從而提高模型對於帶噪語音的魯棒性(編者註:Robust的音譯,即健壯和強壯之意);另一方面,使用基於深度回歸神經網絡進行降噪和解混響,進一步提高帶噪、遠場語音的識別正確率。

僅僅考慮在語音處理過程中的噪音可以說是治標不治本,如何從源頭上解決混響和降噪似乎才是問題的關鍵。面對這一難題,科大訊飛研發人員通過在錄音設備上加上多麥克陣列,利用多麥克陣列進行降噪與解混響。具體地,使用多個麥克風採集多路時頻信號,利用卷積神經網絡學習波束形成,從而在目標信號的方向形成一個拾音波束,並衰減來自其他方向的反射聲。該方法與上述單麥克降噪和解混響的結合,可以進一步顯著的提高帶噪、遠場語音的識別正確率。

文本處理實時糾錯+文字後處理

前面所說的都只是對於語音的處理技術,即將錄音轉錄成文字,但正如上文所述人類的口語為無組織性的自然語言,即使在語音轉寫正確率非常高的情況下,語音轉寫文本的可閱讀性仍存在較大的問題,所以文本後處理的重要性就體現了出來。所謂文本後處理即對口語化的文本進行分句、分段,並對文本內容的流利性進行處理,甚至進行內容的摘要,以利於更好的閱讀與編輯。

分句,即對轉寫文本按語義進行子句劃分,並在子句之間加註標點;分段,即將一篇文本切分成若干個語義段落,每個段落描述的子主題各不相同。

通過提取上下文相關的語義特徵,同時結合語音特徵,來進行子句與段落的劃分;考慮到有標註的語音數據較難獲得,在實際運用中科大訊飛利用兩級級聯雙向長短時記憶網絡建模技術,從而較好的解決了分句與分段問題。

內容順滑,又稱為不流暢檢測,即剔除轉寫結果中的停頓詞、語氣詞、重複詞,使順滑後的文本更易於閱讀。

科大訊飛通過使用泛化特徵並結合雙向長短時記憶網絡建模技術,使得內容順滑的準確率達到了實用階段。

來源:科大訊飛公眾號

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 大話卷積神經網絡CNN,小白也能看懂的深度學習算法教程,全程乾貨...
    這個定義太大了,反而讓人有點不懂,簡答來說,深度學習就是通過多層神經網絡上運用各種機器學習算法學習樣本數據的內在規律和表示層次,從而實現各種任務的算法集合。各種任務都是啥,有:數據挖掘,計算機視覺,語音識別,自然語言處理等。可能有人會問那麼深度學習,機器學習還有人工智慧的關係是怎麼樣的呢?
  • 百度再放「必殺技」 為開發者提供PaddlePaddle最全教程
    有意向成為深度學習教育聯盟的合作夥伴可以在線申請加入百度AI開放平臺生態夥伴計劃。據了解,首期深度學習視頻課程是由深度學習教育聯盟合作夥伴University AI製作完成,並率先推出包含原理、算法和實戰等乾貨內容。University AI以百度PaddlePaddle深度學習框架為基礎,針對普通工程師向算法工程師轉型,全方位打造從入門到進階的人工智慧課程。
  • 深度學習資訊|用於人體動作識別的26層卷積神經網絡
    諸如卷積神經網絡(CNN)之類的深度學習算法已在各種任務上取得了顯著成果,包括那些涉及識別圖像中特定人物或物體的任務。基於視覺的人類動作識別(HAR)是計算機科學家經常嘗試使用深度學習解決的任務,它特別需要識別圖像或視頻中捕獲的人類動作。
  • 圖像識別技術——卷積神經網絡CNN詳解
    前言卷積神經網絡不同於神經網絡,在圖片處理這方面有更好的表現。本文主要對神經網絡和卷積神經網絡做了簡要的對比,著重介紹了卷積神經網絡的層次基礎,同時也簡要介紹了卷積神經網絡參數更新方式和其優缺點,並結合具體實例對卷積神經網絡的工作方式做了介紹。
  • 深度學習模型那麼多,科學研究選哪個?
    標準神經網絡模型和任務關於標準的神經網絡,普遍認為包括用於圖像預測和變換的卷積神經網絡、用於化學領域的圖神經網絡、專長於序列數據的transformer......最基本的深度神經網絡當屬多層感知器,模型設置非常簡單,只有一堆非線性函數組成的全連接層。雖然簡單,但是對付數據可能由一組截然不同的特徵組成的問題很有用,例如表格數據。
  • Hinton、Bengio、LeCun深度學習三巨頭共享
    或是獨立或是協作,Hinton、LeCun 和 Bengio 開發了深度學習領域的概念基礎,並通過實驗驗證了令人驚訝的現象,此外,他們還貢獻了一些工程進展,展示了深度神經網絡的實用優勢。近年來,深度學習方法促進計算機視覺、語音識別、自然語言處理和機器人技術等應用領域取得極大突破。
  • CICC科普欄目|最新Github上各DL框架Star數量大PK : 附各框架性能對比分析
    翻譯:王安陽  編輯:王藝 wangyi@csdn.net很多神經網絡框架已開源多年,支持機器學習和人工智慧的專有解決方案也有很多。多年以來,開發人員在Github上發布了一系列的可以支持圖像、手寫字、視頻、語音識別、自然語言處理、物體檢測的機器學習框架,但並沒有一種框架可以完美地解決你所有的需求。那麼該如何選擇最適合你的開源框架呢?
  • 盤點金融領域裡常用的深度學習模型
    要解決這個問題,如果我們考慮到深度學習在圖像識別、語音識別或情感分析方面所做的研究,我們就會看到這些模型能夠從大規模未標記數據中學習,形成非線性關係的遞歸結構,可以輕鬆予以調整以避免發生過度擬合。如果金融生態圈能夠使用這些網絡進行建模,應用領域就會深遠而廣泛。這些模型可用於定價、投資組合構建、風險管理甚至高頻交易等領域,讓我們來解決這些問題。
  • 金融中的三種深度學習用例及這些模型優劣的證據
    要解決這個問題,如果我們考慮到深度學習在圖像識別、語音識別或情感分析方面所做的研究,我們就會看到這些模型能夠從大規模未標記數據中學習,形成非線性關係的遞歸結構,可以輕鬆予以調整以避免發生過度擬合。卷積神經網絡由一個或多個卷積層和頂端的全連通層(對應經典的神經網絡)組成,同時也包括關聯權重和池化層(pooling layer)。這一結構使得卷積神經網絡能夠利用輸入數據的二維結構。與其他深度學習結構相比,卷積神經網絡在圖像和語音識別方面能夠給出更好的結果。這一模型也可以使用反向傳播算法進行訓練。
  • 卷積神經網絡與Transformer結合,東南大學提出視頻幀合成新架構
    選自arXiv作者:Zhouyong Liu 等機器之心編譯機器之心編輯部研究者表示,這是卷積神經網絡與深度卷積神經網絡(CNN)是功能非常強大的模型,在一些困難的計算機視覺任務上性能也很卓越。儘管卷積神經網絡只要有大量已標記的訓練樣本就能夠執行,但是由於物體的變形與移動、場景照明變化以及視頻序列中攝像頭位置的變化,卷積神經網絡在視頻幀合成方面的表現並不出色。
  • 卷積神經網絡預測模型:提前24個月預測ENSO
    「『阿爾法狗』為什麼厲害」,它的背後是專家利用神經網絡算法,將圍棋高手的比賽記錄輸入計算機,並讓計算機自己與自己進行比賽,在這個過程中不斷學習訓練。既然『阿爾法狗』能夠擊敗世界圍棋冠軍,說明它具有很強的優越性,那麼我們的ENSO預測能否也引入機器學習呢?」羅京佳表示,「『阿爾法狗』用的深度神經網絡與傳統的神經網絡不一樣,它有很強大的自我學習能力。」
  • 一票難求的清華深度學習課!我們「偷」來了全套乾貨【附完整PPT】
    1、臉書AI研究院與卷積神經網絡Facebook人工智慧研究院全稱FAIR(Facebook Artificial Intelligence Research),主要研究AI相關的科學與技術,以及其在各個領域中的應用——如計算機視覺、對話系統、虛擬助手、語音識別、自然語言識別等;據聞是一個學術氛圍較濃的研究院,研究方向相對自由寬鬆,也沒有近期的產品壓力,可以著眼長遠做困難和本質的研究問題
  • 9大主題卷積神經網絡(CNN)的PyTorch實現
    上文聚焦於源碼和論文,對於各種卷積神經網絡模型的實現,本文將介紹它們的 PyTorch 實現,非常有用!語義分割網絡5. 實例分割網絡6. 人臉檢測和識別網絡7. 人體姿態識別網絡8. 注意力機制網絡9. 人像分割網絡下面具體來看一下:1.
  • 華為開發者學院|卷積神經網絡與圖像處理,聽這一節課就夠了
    華為開發者學院特邀國內首本TensorFlow知名書籍作者鄭澤宇老師,帶您了解卷積神經網絡基本原理和基本的卷積神經網絡結構,介紹圖像分類和圖像識別的核心思路和基本算法,在直播間中,您可將當前在學習中遇到的難點和困惑與大咖講師鄭澤宇交流,通過大咖的解讀,帶給你學習的方法與捷徑。
  • 卷積神經網絡的卷積到底是什麼
    打開APP 卷積神經網絡的卷積到底是什麼 人工智慧遇見磐創 發表於 2020-05-05 08:40:00 卷積神經網絡是一種特殊的神經網絡結構,是自動駕駛汽車、人臉識別系統等計算機視覺應用的基礎,其中基本的矩陣乘法運算被卷積運算取代。
  • 百度ICML論文:端對端中英文語音識別
    在這樣的系統中,建立端對端的深度學習,我們可以使用一系列的深度學習技巧:捕捉大的訓練集,訓練較大的模型與高性能計算,並且有條不紊地探索神經網絡的空間工作架構。本文詳細介紹了我們對於語音識別的貢獻,如模型架構,標記的大規模訓練數據集和計算規模。這其中還包括模型架構進行的廣泛調查,並且我們的數據採集管道使我們能夠創建比通常用於訓練語音識別系統更大的數據集。
  • 邁向語音識別領域的 ImageNet 時刻
    本文介紹了作者所在團隊為了實現語音識別領域的「ImageNet 時刻」所做的努力,以及相關研究成果。這些成果只需要比較少的投入和資源就可以應用在實際生產環境,與傳統學術研究相比更接地氣。語音轉文本(STT),也稱為自動語音識別(ASR),這項技術由來已久,並在過去十年中取得了驚人的進步。
  • 人工智慧TensorFlow(十三)讀懂CNN卷積神經網絡
    TensorFlow神經網絡  那什麼是卷積神經網絡呢,這就要我們追溯一下人類識別圖像的原理  人類的視覺原理如下:從原始信號攝入開始(瞳孔攝入像素 Pixels),接著做初步處理(大腦皮層某些細胞發現邊緣和方向
  • Yann LeCun引爆AI社區:1993年文本識別卷積網絡演示視頻,獲上千人...
    提到卷積神經網絡大家可能並不陌生。它是深度學習(Deep Learning)的經典算法之一,自20世紀90年代以來,其在計算機視覺、自然語言處理領域不斷取得驚人的結果。據悉,這則視頻展示了世界上首個用於文本識別的卷積神經網絡,是之後CNN被廣泛應用於計算機視覺、自然語言處理領域的重要開端。