...| 深度學習理論與實戰:提高篇(5)——深度學習在語音識別中的應用

2021-01-08 36氪

編者按:本文節選自《深度學習理論與實戰:提高篇 》一書,原文連結http://fancyerii.github.io/2019/03/14/dl-book/。作者李理,環信人工智慧研發中心vp,有十多年自然語言處理和人工智慧研發經驗,主持研發過多款智能硬體的問答和對話系統,負責環信中文語義分析開放平臺和環信智慧機器人的設計與研發。

以下為正文。

提起深度學習的再次興起,大家首先可能會想到2012年AlexNet在圖像分類上的突破,但是最早深度學習的大規模應用發生在語音識別領域。自從2006年Geoffrey Hinton提出逐層的Pretraining之後,神經網絡再次進入大家的視野。2009年Geoffrey Hinton和Deng Li把DNN用於聲學模型建模,用於替代GMM,同時大家發現在訓練數據足夠的情況下Pretraining是不必要的。使用了DNN後,語音識別的詞錯誤率相對降低了30%。這裡的深度學習還只是用於替代HMM-GMM裡的GMM,再到後來,End-to-End的語音識別系統的出現,從根本上拋棄了複雜的HMM(包括WFST這樣複雜的解碼算法)。

深度學習和HMM的結合

前面介紹了經典的HMM-GMM模型,這是在深度學習流行前最主流的方法。使用深度神經網絡DNN來替代GMM是深度學習在語音識別的重要進展,它使得語音識別效果有了極大的提高。

我們回顧一下,在HMM-GMM模型裡,我們使用GMM來建模狀態的發射概率(|)P(X|q),也就是狀態q下觀察是X的概率,這裡X通常是當前幀的MFCC特徵。我們不能直接用DNN來建模這個發射概率,因為DNN是區分性(discriminative)模型而不是生成(generative)模型,它只能得到概率(|)P(q|X),也就是給定觀察,輸出不同狀態的概率。根據公式:

因為X是已知的,P(X)是個常量,所以我們可以計算:

為了訓練DNN,我們需要更細粒度的標註,比如q是triphone,那麼我們需要知道每一幀特徵X對應的triphone標籤。讓人來標註是不可能的,我們通常先訓練一個HMM-GMM模型,然後通過Force-Alignment得到triphone級別的標籤用於訓練DNN。

用DNN來替代GMM得到的模型通常叫做HMM-DNN混合(hybrid)模型。除了用DNN替代GMM,還可以用DNN來實現特徵提取,把MFCC特徵再加上DNN的特徵作為HMM-GMM的特徵,這種特徵叫做Tandem特徵。DNN相當於GMM有如下優點:

GMM的輸入要求各個維度是不相關的,因為為了簡化,通常加上GMM的協方差矩陣是對角陣。DNN可以學習深層次的特徵,這是深度學習相對於傳統機器學習最大的優勢End-to-End語音識別系統

前面介紹的HMM-DNN模型還是需要使用HMM來建模狀態的時序信息,整個系統還是非常複雜。因此現在也有很多研究放到了End-to-End的語音識別系統,也就是完全拋棄HMM模型。目前End-to-End的系統的效果達到以前最好的系統的水平,比如Google聲稱最新的End-to-End模型,詞錯率降至5.6%,相比傳統的商用方法實現了16\%的相對(不是絕對)詞錯誤率下降。

有兩大類的End-to-End系統,一種是使用seq2seq模型,這是非常自然的想法,因為語音識別的輸入是一個語音波形時序信號,而輸出是詞的序列。這和用於機器翻譯的seq2seq模型基本是類似的,有興趣的讀者可以參考相關論文,如Listen, Attend and Spell, LAS,State-of-the-art Speech Recognition With Sequence-to-Sequence Models,Wav2letter: an end-to-end convnet-based speech recognition system。也可以參考ESPNet、OpenSeq2Seq和Wav2letter++等開源實現。後文我們主要介紹基於CTC模型(損失函數)的End-to-End系統。

相關焦點

  • 潮科技行業入門指南 | 深度學習理論與實戰:提高篇(3)——基於HMM...
    編者按:本文節選自《深度學習理論與實戰:提高篇 》一書,原文連結http://fancyerii.github.io/2019/03/14/dl-book/。作者李理,環信人工智慧研發中心vp,有十多年自然語言處理和人工智慧研發經驗,主持研發過多款智能硬體的問答和對話系統,負責環信中文語義分析開放平臺和環信智慧機器人的設計與研發。以下為正文。
  • 推薦算法系統/人臉識別/深度學習對話機器人高級實戰課
    包含了推薦算法系統實戰、深度學習人臉識別實戰、深度學習對話機器人實戰等高級前沿的精品課程,下面分別介紹下各個實戰項目:1、推薦算法系統實戰首先推薦系統不等於推薦算法,更不等於協同過濾。推薦效果最終要應用到線上平臺去,在App或網站上毫秒級別的快速展示推薦結果,這就需要推薦的在線Web引擎服務來保證高性能的並發訪問。這麼來說,雖然算法是核心,但離不開每個子系統的配合,另外就是不同算法可以嵌入到各個子系統中,算法可以貫穿到每個子系統。從開發人員角色上來講,推薦系統不僅僅只有算法工程師角色的人就能完成整個系統,需要各個角色的工程師相配合才行。
  • 自然語言處理深度學習的7個應用
    原文:7 Applications of Deep Learning for Natural Language Processing作者:Jason Brownlee翻譯:無阻我飛揚摘要:在這篇文章中,作者詳細介紹了自然語言處理深度學習的7種應用,以下是譯文。自然語言處理領域正在從統計方法轉變為神經網絡方法。
  • 三篇論文,縱覽深度學習在表格識別中的最新應用
    原創 Synced 機器之心機器之心分析師網絡作者:仵冀穎編輯:Joni本文從三篇表格識別領域的精選論文出發,深入分析了深度學習在表格識別任務中的應用。本文從近兩年公開發表的文章中,包括國際文檔分析與識別會議(International Conference on Document Analysis and Recognition,ICDAR)和arXiv平臺的論文中精選了三篇,深入分析深度學習在表格識別任務中的應用。
  • 語音識別 AI 挑戰賽上線:用深度學習三種結構,對 50 種環境聲音...
    深度學習與語音識別在目前大多數語音識別應用中,深度學習是較為常見的一種方法。而卷積神經網絡恰好提供了在時間和空間上的平移不變性卷積,將這一思想應用到語音識別的聲學建模中,則可以很好的克服語音信號本身的多樣性。從這一角度來看,CNN 可以視為將整個語音信號分析得到的時頻譜,當作一張圖像來處理,然後再採用圖像中廣泛應用的深層卷積網絡對其進行識別。
  • 語音識別 AI 挑戰賽上線:用深度學習三種結構,對 50 種環境聲音分類!
    這不,難度再次升級的「50 種環境聲音分類」的語音識別挑戰賽,來了!深度學習與語音識別在目前大多數語音識別應用中,深度學習是較為常見的一種方法。CNN 模型我們知道在通常情況下,語音識別都是基於時頻分析後的語音譜完成的,而其中語音時頻譜則具有較強的結構特點。而卷積神經網絡恰好提供了在時間和空間上的平移不變性卷積,將這一思想應用到語音識別的聲學建模中,則可以很好的克服語音信號本身的多樣性。
  • 圖像識別中的深度學習【香港中文大學王曉剛】
    深度學習是近十年來人工智慧領域取得的重要突破。它在語音識別、自然語言處理、計算機視覺、圖像與視頻分析、多媒體等諸多領域的應用取得了巨大成功。現有的深度學習模型屬於神經網絡。神經網絡的起源可追溯到20世紀40年代,曾經在八九十年代流行。神經網絡試圖通過模擬大腦認知的機理解決各種機器學習問題。
  • 深度學習與統計力學(I) :深度學習中的基礎理論問題
    系列預告深度學習統計力學(I) :深度學習中的基礎理論問題深度學習統計力學(IV) :深層網絡的信號傳播和初始化深度學習統計力學(VI) :通過概率模型進行「深度想像」1 介紹深層神經網絡具有多個隱含層[1],在許多領域都取得了顯著的成功,從機器視覺[2]、語音識別[3]、自然語言處理[4]、強化學習[5],到神經科學[6、7]、心理學[8、
  • 最常見的深度學習應用
    深度學習技術在人工智慧領域目前佔有絕對的統治地位,因為相比於傳統的機器學習算法而言,深度學習在某些領域展現出了最接近人類所期望的智能效果,同時也在悄悄的走進我們的生活,例如刷臉支付、語音識別、智能翻譯、汽車上的智能輔助駕駛等等,這讓我們的生活開始慢慢智能化,那具體在哪些方向深度學習表現的最為耀眼吶
  • 深度學習與圖像識別 圖像檢測
    CNN等為什麼對圖像領域更加有效,因為其不但關注了全局特徵,更是利用了圖像識別領域非常重要的局部特徵,應該是將局部特徵抽取的算法融入到了神經網絡中。圖像本身的局部數據存在關聯性,而這種局部關聯性的特徵是其他算法無法提取的。深度學習很重要的是對全局和局部特徵的綜合把握(2)深度學習不是一個黑箱系統。
  • 潮科技行業入門指南 | 深度學習理論與實戰:提高篇(13)——Faster...
    編者按:本文節選自《深度學習理論與實戰:提高篇 》一書,原文連結http://fancyerii.github.io/2019/03/14/dl-book/。trainval_net.py --dataset pascal_voc --net res101 --bs 1 --nw 1 \--lr 0.0004 --lr_decay_step 8 --cuda測試接下來是用測試集合進行測試,作者訓練後得到的mAP在73.5%
  • 基於深度學習的人臉識別技術全解
    這一結果表明:大訓練數據集對於有效提升非受限環境下的人臉識別很重要。然而,以上所有這些經典方法,都難以處理大規模數據集的訓練場景。 2014年:2014 年前後,隨著大數據和深度學習的發展,神經網絡重受矚目,並在圖像分類、手寫體識別、語音識別等應用中獲得了遠超經典方法的結果。
  • 「深度學習」打造「中國腦計劃」
    其實當你長按微信語音並選擇把朋友的語音信息「轉化為文字」時,就是兩者結合的一次完美應用,是「深度學習」的產物。這一方面基於腦科學的發展為模擬、實現和應用神經系統的原理提供了堅實的生物理論基礎,另一方面基於智能算法、大數據和應用模式的成熟為人工智慧突破產業大規模應用提供了良好的環境。
  • 潮科技行業入門指南 | 深度學習理論與實戰:提高篇(4)——基於HMM...
    編者按:本文節選自《深度學習理論與實戰:提高篇 》一書,原文連結http://fancyerii.github.io/2019/03/14/dl-book/。作者李理,環信人工智慧研發中心vp,有十多年自然語言處理和人工智慧研發經驗,主持研發過多款智能硬體的問答和對話系統,負責環信中文語義分析開放平臺和環信智慧機器人的設計與研發。
  • 閒談深度學習在自然語言處理領域的5大關鍵優勢
    在這篇文章中,您將看到深度學習方法應對自然語言處理問題的具體前景。看完這篇文章後,你會知道: 1. 自然語言處理深度學習的承諾。 2. 深度學習從業人員和研究科學家對自然語言處理深度學習的承諾有什麼說法。 3. 自然語言處理的重要深度學習方法和應用。
  • ZLG深度解析:語音識別技術
    語音識別已成為人與機器通過自然語言交互重要方式之一,本文將從語音識別的原理以及語音識別算法的角度出發為大家介紹語音識別的方案及詳細設計過程。語言作為人類的一種基本交流方式,在數千年歷史中得到持續傳承。近年來,語音識別技術的不斷成熟,已廣泛應用於我們的生活當中。語音識別技術是如何讓機器「聽懂」人類語言?
  • 人工智慧深度學習的未來展望
    這些方法在許多方面都帶來了顯著的改善,包括較先進的語音識別、視覺對象識別、對象檢測和許多其它領域,例如藥物發現和基因組學等。深度學習能夠發現大數據中的複雜結構。它是利用BP算法來完成這個發現過程的。BP算法能夠指導機器如何從前一層獲取誤差而改變本層的內部參數,這些內部參數可以用於計算表示。
  • 關於深度學習在各個領域的應用分析
    深度學習網絡作為一個功能多樣的工具,雖然最初僅用於圖像分析,但它已逐漸被應用到各種不同的任務和領域中。高準確性和高處理速度,使得用戶無需成為領域專家即可對大型數據集執行複雜分析。 小編邀請 MathWorks 產品經理 Johanna 分享一些深度學習網絡的使用示例以供參考: 文本分析 在本例中,我們將分析推特數據,了解針對特定詞或短語的情感是積極的還是消極的。情感分析有很多實際的應用,如品牌推廣、競選活動和廣告營銷。 過去(目前仍然)進行情感分析通常使用機器學習。
  • 入門| 獻給新手的深度學習綜述
    機器之心認為,這篇綜述對於剛入門的深度學習新手是一份不錯的參考資料,在形成基本學術界圖景、指導文獻查找等方面都能提供幫助。他們在不同的 NLP 領域中展示了 DL 應用,比較了 DL 模型,並討論了可能的未來趨勢。 Zhang 等人(2017)討論了用於前端和後端語音識別系統的當前最佳深度學習技術。 Zhu 等人(2017)綜述了 DL 遙感技術的最新進展。他們還討論了開源的 DL 框架和其他深度學習的技術細節。
  • 前沿研究丨深度學習在醫學超聲圖像分析中的應用
    文章指出,在醫學超聲圖像分析中,深度學習展示了巨大的應用潛力,簡要介紹了一些流行的深度學習結構,討論了深度學習方法在超聲圖像分析的各種特定任務(如圖像分類、物體檢測與目標分割)中的應用。文章指出了深度學習在醫學超聲圖像分析應用中所面臨的挑戰以及潛在的發展趨勢。