技術貼 | AI-語音處理理論和應用-DNN

2021-02-15 騰科教育

學習目標
   • 了解語音處理的基礎知識及應用
   • 掌握語音處理的基本步驟
   • 掌握語音處理的主要技術
   • 了解語音處理的難點與展望

DNN
   深度神經網絡
      • 深度神經網絡(Deep Neural Network,縮寫DNN)是一個有多個(超過2個)隱藏層的傳統多層感知器(MLP)。

   DNN網絡結構
      • DNN包括了一個輸入層,多個隱藏層和一個輸出層。
      • 層與層之間是全連接的,也就是說,第i層的任意一個神經元一定與第i+1層的任意一個神經元相連。
      • 雖然DNN看起來很複雜,但是從小的局部模型來說,還是和感知機一樣,即一個線性關係z=∑▒〖(wx〗+b)加上一個激活函數σ(z)。
      • 由於DNN隱藏層數多,則我們的線性關係係數w和偏置b的數量也就是很多了。
   DNN前向傳播原理
      • 利用若干權重係數矩陣W和偏置向量b和輸入值x進行一系列線性運算和激活函數運算,從輸入層開始,一層一層向後計算,一直運算到輸出層,得到輸出結果為止。
         • 輸入:總層數L,所有隱藏層和輸出層對應的權重矩陣W,偏置向量b,輸入值x以及激活函數;
         • 輸出:輸出層的輸出y_L:初始化y_1 ,從第2層到第L層,計算y_L;
      
   反向傳播算法
      • 反向傳播算法(即BP算法)適合於多層神經元網絡的一種學習算法,它建立在梯度下降法的基礎上。BP網絡它的信息處理能力來源於簡單非線性函數的多次複合,因此具有很強的函數復現能力。
      • BP算法主要由兩個環節(激勵傳播、權重更新)反覆循環迭代,直到網絡對輸入的響應達到預定的目標範圍為止。
         • 激勵傳播:
            o 前向傳播將訓練輸入送入網絡以獲得激勵響應;
            o 反向傳播將激勵響應同訓練輸入對應的目標輸出求差,從而獲得損失函數
         • 權重更新:
            o 獲取梯度
            o 梯度與學習率相乘
            o 權重更新
   數據預處理
      • 在進行特徵提取之前,都要對原始序列做一系列的預處理,目的是消除因為人類發聲器官本身和由於採集語音信號的設備所帶來的混疊、高次諧波失真、高頻等等因素對語音信號質量的影響,儘可能保證後續語音處理得到的信號更均勻、平滑,為信號參數提取提供優質的參數,提高語音處理質量。
      • 常用方法有,特徵歸一化,標準化,端點檢測,預加重,降噪,分幀。
         • 特徵歸一化:語音識別中的倒譜均值歸一化是在句子內減去MFCC特徵的均值,可以減弱聲學信道扭曲帶來的影響。
         • 特徵標準化:使用全局轉換縮放每維數據,使得最終的特徵向量出於相似的動態範圍內。
   模型初始化
      • 因為DNN是一個高度非線性模型,並且相對於參數來說,訓練準則是非凸函數,所以初始化模型會極大影響最終效果。
      • 初始化方法主要分兩類:
         • 區間初始化:初始化的權重必須使得隱層神經元節點在sigmoid激活函數的線性範圍內活動;權重太大會讓結果趨近於0或者1,導致梯度更小,無法收斂。
         • 隨機初始化:DNN中的隱層神經元都是對稱可互換的,如果所有的模型都有相同的參數,那所有的隱層會輸出相同的結果,導致在DNN底層檢測相同的特徵。
   權重衰減
      • 與傳統機器學習算法相比,DNN網絡有更強的擬合能力,因為其參數更多,但也導致其更更容易過擬合。防止過擬合的最簡單的方法就是添加正則項,比如L2範數,在神經網絡中,這些正則項通常被稱為權重衰減(weight decay)。
      • 當訓練集的大小相對於DNN的參數量較小時,權重衰減法往往是很有效的。因為在語音識別任務重使用的DNN模型往往會有超過百萬的參數,相應係數應該較小,甚至當訓練數據量較大時設置為0。
   Dropout
      • 丟棄法(Dropout)是權重衰減之外另一種流行的防止過擬合。其基本思想是在訓練過程中隨機丟棄每一個隱藏層中一定比例的神經元,這意味著即使在訓練過程中丟棄了部分神經元,剩下的神經元依然需要在每一種隨機組合中有好的表現。

   batch大小選擇
      • 在訓練過程中都需要從訓練樣本的一個批量集合中進行梯度計算,而批塊量大小的選擇同時會影響收斂速度和模型結果。
      • 批量塊選擇的兩種常見情況:
         • 整個訓練集:選擇整個訓練集進行模型訓練是最常見的情形。
         • 隨機訓練集:代表性方法就是隨機梯度下降(SGD),每次只需要用一個樣本進行梯度的計算和迭代。不容易收斂。
      • 綜合上述兩中批量塊的選擇情況,提出這種方案「小批量」進行訓練,迭代速度比整個數據集更快,比隨機訓練集更容易收斂。在語音識別任務中,前期可以選擇較小的批量塊,比如64到256個樣本,而後期換用較大的批量塊,比如1024-8096個樣本。
   隨機取樣
      • 隨機取樣與全局訓練是無關的,因為在全局訓練中所有的樣本都會被用來估計梯度。而在隨機梯度下降和小批量梯度下降中,隨機取樣是十分重要的。這是為了得到梯度的無偏估計,樣本必須是獨立同分布的。如果訓練過程中的一些樣本不是隨機從訓練集中取出的,模型的參數可能會沿著一個方向偏移太多。
      • 以下是兩種隨機取樣的思路:
         • 在語音處理任務中,若所有樣本都可以被載入內存中,那可以通過對樣本索引進行相應的處理抽樣就可以達到樣本抽樣的效果。
         • 在語音處理任務中,若無法將所有樣本載入內存進行計算,可以採用滾動窗的方法每次加載一塊數據進內存,然後再窗內隨機取樣。


   學習率
      • 從梯度下降算法的角度來說,通過選擇合適的學習率,可以使梯度下降法得到更好的性能。學習率,即參數到達最優值過程的速度快慢,當你學習率過大,即下降的快,很容易在某一步跨過最優值,當你學習率過小時,長時間無法收斂。因此,學習率直接決定著學習算法的性能表現。

      • 可以根據數據集的大小來選擇合適的學習率,當使用平方誤差和作為成本函數時,隨著數據量的增多,學習率應該被設置為相應更小的值(從梯度下降算法的原理可以分析得出)。另一種方法就是,選擇不受數據集大小影響的成本函數-均值平方差函數。
      • 一般常用的學習率有0.00001,0.0001,0.001,0.003,0.01,0.03,0.1,0.3,1,3,10。
         • 在不同的迭代中選擇不同的學習率,在最初的迭代中,學習率可以大一些,快接近時,學習率小一些。在每次迭代後,使用估計的模型參數來查看誤差函數的值,如果相對於上一次迭代,錯誤率減少了,就可以增大學習率如果相對於上一次迭代,錯誤率增大了,那麼應該重新設置上一輪迭代的值,並且減少學習率到之前的50%,這是一種學習率自適應調節的方法。


   網絡結構
      • DNN每個隱藏層都可以被認為是前一層的特徵抽取器,每層節點的數量應該足夠大以獲取本質的模式。
      • 寬且淺的模型容易過擬合,窄且深的模型容易欠擬合。如果有一層很小,模型性能將有較大下降。相對一個窄且淺的模型,通常一個寬且深的模型更容易找到一個好的配置。
      • 在語音識別中,有5-7個隱藏層,每層有1000-3000個節點的DNN模型效果很好。


 課程諮詢 :400-1024-400

歡迎添加,了解騰科課程體系介紹,可獲取學習資源。

 官方微博:騰科教育官微 

 官網:www.tk-edu.com

 全國統一熱線:400-1024-400

相關焦點

  • 技術貼 | AI-語音處理理論與應用
    本文帶大家了解AI-語音處理理論與應用語音處理中的基礎知識及應用、掌握語音處理的基本步驟、掌握語音處理的主要技術、了解語音處理的難點與展望等知識點
  • 生成式對抗網絡GAN在語音自然語言處理中的應用,臺大李宏毅老師,附247頁ppt下載
    內容簡介生成對抗網絡(GAN)是訓練模型的新思想,生成器和鑑別器相互對抗以提高生成質量。最近,GAN在圖像生成方面取得了驚人的成果,並在此基礎上迸發發了大量新的思想,技術和應用。雖然只有少數成功的案例,但GAN在文本和語音領域具有很大的潛力,以克服傳統方法的局限性。本教程分為三個部分。
  • 騰訊AI Lab語音技術中心應用與研究介紹
    其中,騰訊 AI Lab語音技術中心副總監蘇丹博士作了題為《騰訊AI Lab語音技術中心應用與研究介紹》的學術報告,主要介紹了騰訊AI Lab語音技術中心的主要應用落地,分享了近期在多個方向包括陣列前端,語音識別,語音分離及多模態交互技術方面研究進展,預告下半年即將對業界開放的語音技術工具平臺PiKa
  • 語音識別開源工具PyTorch-Kaldi:兼顧Kaldi效率與PyTorch靈活性
    1 背景傑出的科學家和工程師們一直在努力地給機器賦予自然交流的能力,語音識別就是其中的一個重要環節。人類對語音識別技術的研究從上世紀 50 年代開始就未曾停止。在長期的探索中,一次次重大的技術突破逐漸讓語音識別技術進入我們的日常生活。今天的 ASR 技術水平是前所未有的。
  • OpenCV入門及應用案例:手把手教你做DNN圖像分類
    OpenCV是一個計算機視覺開源庫,提供了處理圖像和視頻的能力。OpenCV的影響力非常大,有超過47 000的社區用戶,以及超過1400萬次的下載量。其應用領域橫跨圖像處理、交互式藝術、視頻監督、地圖拼接和高級機器人等。
  • 賈磊暢談AI語音技術的現在、過去和未來
    講這些乍一聽,好像和人類認知沒有關係,但是真正的把技術應用到實際的應用過程,賈磊越來越發現,人類的認知過程,不是一個簡單的學科劃分過程。不是說學語音的就只解決語音的認知,很多時候認知是視覺、聽覺、理解一體化的一個過程,比如任何人交流中的肢體語言,就對人的意圖理解起到舉足輕重的作用,再比如語義理解過程和語音識別過程,在具體的產業應用中,是密不可分的。
  • 淺談語音識別技術的發展趨勢與應用前景
    與說話人識別及說話人確認不同,後者嘗試識別或確認發出語音的說話人而非其中所包含的詞彙內容。   語音識別技術的應用包括語音撥號、語音導航、室內設備控制、語音文檔檢索、簡單的聽寫數據錄入等。語音識別技術與其他自然語言處理技術如機器翻譯及語音合成技術相結合,可以構建出更加複雜的應用,例如語音到語音的翻譯。
  • AI語音二三事:你需要了解這些AI 語音對話技術
    機器學習以及自然語言處理技術的進步,開啟了人與人工智慧進行語音交互的可能,人們透過對話的方式獲取信息、與機器進行交互,將不再只是存在科幻情結當中。從上圖中可以看到,用戶與設備之間的交互,主要是採用語音方式處理和完成的。二、語音交互流程設計一次完整的語音交互流程,成功的語音對話,通常是有以下幾個階段。
  • 領先語音體驗,探析博泰車聯網擎AI語音技術
    同時在基礎語音技術模塊,擎AI還可以根據使用場景選擇最好的技術供應商,保證技術領先性的同時通過組合使用可動態圖插拔和替換技術,保證良好的產品體驗,領先於單一技術供應商。 以常見的車噪場景為例,在噪聲影響下,語音識別的準確度勢必會受到明顯影響,採用常規識別方式識別語音交互流程存在加大困難。
  • 詳解語音處理檢測技術中的熱點——端點檢測、降噪和壓縮 | 雷鋒網...
    同時,工作環境存在著各種各樣的背景噪聲,這些噪聲會嚴重降低語音的質量從而影響語音應用的效果,比如會降低識別率。未經壓縮的語音數據,網絡交互應用中的網絡流量偏大,從而降低語音應用的成功率。因此,音頻的端點檢測、降噪和音頻壓縮始終是終端語音處理關注的重點,目前仍是活躍的研究主題。
  • Google新型的AI語音錄製應用程式
    機器學習是一種理論,其中電腦程式無需任何人工幹預即可學習,解密和適應。機器學習處理成千上萬的數據(也稱為大數據),它根據給定的算法使用並使其有意義。但是Google錄音機是使用RNN-T換能器模型開發的,這就是Google語音錄音應用程式堅固的原因。它使用單個神經網絡,被認為最適合解碼錯誤。如果公司希望開發具有更長保存期限的應用程式,那麼它就必須擺脫傳統的思想流派。
  • 孔曉泉:自然語言處理應用和前沿技術回顧 | 分享總結
    近日,雷鋒網研習社公開課邀請了孔曉泉來介紹自然語言處理技術的一些基本知識、行業的發展現狀和基於深度學習的通用的 NLP 處理流程。本次分享將幫助想要學習和從事 NLP 的學生、工程師以及愛好者建立一個基本的 NLP 的知識框架,熟悉基礎的技術方案,了解通用的深度學習處理流程。
  • 微軟開放多項AI技術,小娜與Alexa「合體」丨AI Daily
    1、7 月起,Drive.ai 將在德州提供無人計程車服務由吳恩達擔任董事的無人車初創公司 Drive.ai 昨日宣布: 2018 年 7 月起將在德克薩斯州弗裡斯科(Firsco)提供無人計程車服務。Drive.ai 將與弗裡斯科運輸管理協會合作,共同運營該項目。
  • 語音信號處理:基本方法與前沿技術
    語音信號處理是一門學習門檻較高的學科,包含語音增強、回聲消除、麥克風陣列信號處理等多個研究方向,涉及聲學、語言學、數學、信號處理、機器學習等多個學科的專業知識。很多夥伴在入門之初會遇到如何學、學什麼的困惑,並且,隨著深度學習的廣泛應用,以及研究深度學習的學術熱潮,夥伴們很容易被學術氛圍所「迷惑」,跟隨「熱潮」學習。
  • 大牛講堂 | 語音專題第一講,麥克風陣列的語音信號處理技術
    麥克風陣列技術的技術難點傳統的陣列信號處理技術直接應用到麥克風陣列處理系統中往往效果不理想,其原因在於麥克風陣列處理有不同的處理特點:1.陣列模型的建立>麥克風主要應用處理語音信號,拾音範圍有限,且多用於近場模型,使得常規的陣列處理方法如雷達,聲吶等平面波遠場模型不再適用,在近場模型中,需要更加精準的球面波,需要考慮傳播路徑不同引起的幅度衰減不同。
  • Synaptics要用人機互動和語音技術搶佔AI高地
    進軍30億消費物聯網市場的野心據Rick Bergman介紹,5年前,Synaptics開始深耕人機互動技術,現已在該市場佔據領先地位。目前,Synaptics共有六種支柱技術,包括電容式傳感技術、顯示驅動和集成的傳感技術、視頻和圖像處理技術、光學成像技術、遠場語音和語音採集技術和聲學及音頻輸出處理技術。
  • 搜狗AI交互技術顛覆語音背後,超強T4助力AI+語音猛衝行業領先
    例如在搜狗以語言為核心的AI技術布局中,從中文、多方言和外國語種的語音識別轉寫、AI同傳翻譯,再到個性化的語音合成和變聲……在人們生活中語言應用的方方面面,都不乏搜狗的身影。如今,搜狗作為國產AI+語音領域顛覆傳統語音行業領先者之一,AI語音技術具有高識別率、高準確率、低時延和多模態融合等優勢,已廣泛應用到教育、商務、旅遊等多個應用場景,並已深入你我身邊的千家萬戶中。
  • 終於有人把智能語音處理講明白了
    作者:張雄偉 孫蒙 楊吉斌 等來源:大數據DT(ID:hzdashuju)機器學習的快速發展,為智能語音處理奠定了堅實的理論和技術基礎。智能語音處理的主要特點是從大量的語音數據中學習和發現其中蘊含的規律,可以有效解決經典語音處理難以解決的非線性問題,從而顯著提升傳統語音應用的性能,也為語音新應用提供性能更好的解決方案。
  • 【推薦】基於MATLAB編程、機器學習、深度學習在圖像處理中的實踐技術應用
    尤其是在計算機視覺和圖像處理領域,各種顛覆性的成果應運而生。因此,為了幫助廣大科研人員更加系統地學習圖像處理、機器學習和深度學習的基礎理論知識及對應的代碼實現方法,Ai尚研修特舉辦「MATLAB圖像處理與機器學習技術應用培訓班」 培訓班,旨在幫助學員掌握圖像處理的基礎知識,以及經典機器學習算法和最新的深度神經網絡、遷移學習、對抗生成網絡等算法的基本原理及其MATLAB編程實現方法。
  • AI皇冠上的明珠:人工智慧自然語言處理技術
    NLP,即自然語言處理,就=相當於存在於機器語言和人類語言之間的翻譯,通過搭建溝通的橋梁,能夠高效實現人機交流的目的。自然語言理解的目標是理解人類的表達,包括語音表達和文本表達,側重於理解目標的實現,包括語法分析、文本閱讀;NLG則側重於如何生成自然語言的表達,包括翻譯系統、信息簡化、問答對話等。兩者相輔相成,大部分情況下,兩者會同時出現,來構築某一系統。