技術貼 | AI-語音處理理論與應用

2021-02-15 騰科教育

本文帶大家了解AI-語音處理理論與應用語音處理中的基礎知識及應用、掌握語音處理的基本步驟、掌握語音處理的主要技術、了解語音處理的難點與展望等知識點。

首先,先看一個語音小場景~

   比如,如今在網絡上訂票可以通過語音進行交互;會分為這麼幾步:
      1.客戶說:「我要訂一張從北京到杭州的機票。」
      2.機器識別到語音輸入
      3.通過語音識別的模塊,將語音轉換成語言,即轉換成文本「我要訂一張從北京到杭州的機票。」
      4.對話管理模塊對文本進行理解,結合上下文,生成一個動作action,這個動作決定了機器到底是確定還是不確定;比如說你沒有說機票的時間,對話管理模塊就會根據這個情況生成一個動作比如說「時間不確定」
      5.語音合成模塊接收到這個動作「時間不確定」,來生成人能理解的語言,比如說「請問您要定哪一天的機票?」這樣一個文本。

      6.語音合成模塊接收到語言生成模塊生成的文本,通過語音的方式和人交互,通過語音合成技術將文本轉換成語音「請問您要訂哪一天的機票的?」返回給客戶
   語音的小場景是跟傳統的GUI進行比對,傳統的GUI是通過界面化的方式來跟人進行交互,但是語音是通過VUI方式進行交互。

語音處理介紹

         • 語音信號處理(Speech Signal Processing)簡稱語音處理,是用以研究語音發聲過程、語音信號統計特性、語音自動識別、機器合成以及語音感知等各種處理技術的總稱。
         • 由於現代的語音處理技術都以數字計算為基礎,並藉助微處理器、信號處理器或通用計算機加以實現,因此也稱數字與因信號處理。

         • 簡單來講,語音處理技術就是通過語音到它的某些特徵之間的轉換這個過程中所涉及到的一系列技術,這個特徵可以是數字特徵(頻率、時長)、文本特徵(代表的具體文字)
      語音處理介紹
         • 語音信號處理的研究起源於對對發音器官的模擬。
         • 1939年美國H.杜德萊(H.Dudley)展出了一個簡單的發音過程模擬系統,以後發展為聲道的數字模型。利用該模型可以對語音信號進行各種頻譜及參數的分析,進行通信編碼或數據壓縮的研究,同時也可基於此合成語音信號,實現機器的語音合成。
         • 語言信息主要包含在語音信號的參數之中,因此準確而迅速地提取語言信號的參數是進行語音信號處理的關鍵。

語音識別

   • 語音識別技術就是讓機器通過識別和理解把語音信號轉變為相應的文本或命令的技術。
      • 語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和資訊理論、發聲機理和聽覺機理、人工智慧等等。

   語音識別發展史

      • 1952年,貝爾研究所研究成功了世界上第一個能識別10個英文數字發音的試驗系統;
      • 1970年以後,在小詞彙和孤立詞的識別方面取得了實質性進展;
      • 1980年以後,孤立詞轉向連接詞(識別一句話)識別;
      • 1987年12月,李開復開發出世界上第一個「非特定人連續語音識別系統」,用統計方法提升了語音識別率;
      • 1990年以後,大詞彙量連續語音識別得到優化;
      • 1997年,IBM Viavoice首個語音聽寫產品問世;
      • 2010年,Google Voive Action支持語音操作與搜索;
      • 2011年初,微軟的DNN在語音搜索任務上取得成功,科大訊飛將DNN首次成功應用到中文語音識別領域;
      • 2011年10月,蘋果iPhone 4S自帶的語音助手Siri一炮走紅;
      • 2013年,Google發布Google Glass,蘋果發布iWatch都嵌入語音交互功能;
      • 趨勢:
         • 語音識別任務越來越複雜
         • 用到的模型越來越複雜
         • 技術從實驗室走入生活


   語音識別任務處理流程

      1.得到語音文件(mp3、wav……)
      2.將語音文件進行還原
      3.還原後進行預處理,滿足一定數據要求
      4.通過聲學模型、分幀、聲學特徵提取得到語言模型、單詞、文本文件
      5.對於現代的語音識別的任務來說,有些過程是合併在一起的,成為一個end-to-end的形式
   語音識別的應用
      • 語音打字機:說一句話快速翻譯出來;搜狗聽寫
      • 語音搜索:購物網站購物可以通過語音搜索
      • 語音撥號
      • 語音助手

語音合成
   

      • 語音合成,又稱文語轉換(Text-To-Speech TTS)技術,能將任意文字信息轉化為相應語音朗讀出來。
      • 語音合成涉及聲學、語言學、數位訊號處理、計算機科學等多個學科技術,是中文信息處理領域的一項前沿技術。
      • 為了合成出高質量的語言,除了依賴於各種規則,包括語義學規則、詞彙規則、語音學規則外,還必須對文字的內容有很好的理解,這也涉及到自然語言理解的問題。
   語音合成應用場景
      大部分都和語音識別相結合,語音識別通過人向機器傳輸信息,語音合成通過機器向人傳輸信息;比如:
      • 服務機器人
      • 客服系統
      • 智慧家具
      • 出行導航
      • 閱讀軟體
   語音合成系統
      • 一個完整的語音合成系統過程是先將文字序列轉換成音韻序列,再由系統根據音韻序列生成語音波形。其中:
      • 第一步涉及語言學處理,例如分詞、字音轉換等,以及一整套有效的音律控制規則;
      • 第二步需要先進的語音合成技術,能按要求實時合成出高質量的語音流。
      • 語音合成技術的研究已有兩百多年的歷史,但真正具有實用意義的近代語音合成技術是隨著計算機技術和數位訊號處理技術的發展而發展起來的,主要是讓計算機能夠產生高清晰度、高自然度的連續語音。
   語音合成處理流程

      1.拿到文本文件
      2.對文本進行分析
         文本歸一化:把縮寫的詞完整化
         語音分析:分詞
         韻律分析:這句話代表什麼情緒、代表什麼角色
      3.語音內部表示
      4.波形合成
      5.形成完整的波形文件
      6.對波形文件進行評估看是否滿足需求
   文本分析
      • 語音識別中的文本分析主要的工作是把文本數據轉換成語音內部表示(Phonemic Internal Representation)。具體內容包括:
      • 文本歸一化:對形形色色的自然文本數據進行預處理或者歸一化,包括句子的詞例還原,非標準詞,同形異義詞排歧等;
      • 語音分析:文本歸一化之後的下一步就是語音分析,具體方法包括通過大規模發音詞典,字位-音位轉換規則;
      • 韻律分析:分析文本中的平仄格式和押韻規則,這裡主要包含三方面的內容,包括:韻律的機構,韻律的突顯度,音調。
   語音合成方法
      • 在語音合成技術的發展過程中,早期的研究主要是採用參數合成方法,後來隨著計算機技術的發展又出現了波形拼接的合成方法。
      • 參數合成
         • 在語音合成技術的發展中,早期的研究主要是採用參數合成方法。值得提及的是Holmes的並聯共振峰合成器(1973)和Klatt的串/並聯共振峰合成器(1980),只要精心調整參數,這兩個合成器都能合成出非常自然的語音。但準確提取共振峰參數比較困難,合成語音的音質難以達到實用要求。
      • 波形拼接
         • 自八十年代末期至今,語言合成技術又有了新的進展,特別是基音同步疊加(PSOLA)方法的提出(1990),使基於時域波形拼接方法合成的語音的音色和自然度大大提高,自然度比以前基於LPC方法或共振峰合成器的自然度要高,並且基於PSOLA方法的合成器結構簡單,易於實時實現,有很大的商用前景。


 課程諮詢 :400-1024-400

歡迎添加,了解騰科課程體系介紹,可獲取學習資源。

 官方微博:騰科教育官微 

 官網:www.tk-edu.com

 全國統一熱線:400-1024-400

相關焦點

  • 技術貼 | AI-語音處理理論和應用-DNN
    學習目標   • 了解語音處理的基礎知識及應用   • 掌握語音處理的基本步驟   • 掌握語音處理的主要技術
  • 生成式對抗網絡GAN在語音自然語言處理中的應用,臺大李宏毅老師,附247頁ppt下載
    最近,GAN在圖像生成方面取得了驚人的成果,並在此基礎上迸發發了大量新的思想,技術和應用。雖然只有少數成功的案例,但GAN在文本和語音領域具有很大的潛力,以克服傳統方法的局限性。本教程分為三個部分。在第一部分中,我們將介紹生成對抗網絡(GAN)並提供有關此技術的全面介紹。
  • 騰訊AI Lab語音技術中心應用與研究介紹
    其中,騰訊 AI Lab語音技術中心副總監蘇丹博士作了題為《騰訊AI Lab語音技術中心應用與研究介紹》的學術報告,主要介紹了騰訊AI Lab語音技術中心的主要應用落地,分享了近期在多個方向包括陣列前端,語音識別,語音分離及多模態交互技術方面研究進展,預告下半年即將對業界開放的語音技術工具平臺PiKa
  • 淺談語音識別技術的發展趨勢與應用前景
    與說話人識別及說話人確認不同,後者嘗試識別或確認發出語音的說話人而非其中所包含的詞彙內容。   語音識別技術的應用包括語音撥號、語音導航、室內設備控制、語音文檔檢索、簡單的聽寫數據錄入等。語音識別技術與其他自然語言處理技術如機器翻譯及語音合成技術相結合,可以構建出更加複雜的應用,例如語音到語音的翻譯。
  • AI語音二三事:你需要了解這些AI 語音對話技術
    機器學習以及自然語言處理技術的進步,開啟了人與人工智慧進行語音交互的可能,人們透過對話的方式獲取信息、與機器進行交互,將不再只是存在科幻情結當中。從上圖中可以看到,用戶與設備之間的交互,主要是採用語音方式處理和完成的。二、語音交互流程設計一次完整的語音交互流程,成功的語音對話,通常是有以下幾個階段。
  • 領先語音體驗,探析博泰車聯網擎AI語音技術
    我們今天從博泰車聯網擎AI語音技術為切入,深入了解在車載語音使用場景下,一整套完整語音解決方案的技術魅力。擎AI針對此類場景,除了採用AEC(聲學回聲消除)算法以及NS(噪聲抑制)的算法進行處理之外,提供「可見即可說」功能,通過技術優化將界面上可點擊部分註冊成UIControl的方式,通過臨時增加UIControl中文字的識別率來實現識別增強,對衝了環境噪音對於識別的影響,大大提高了語音操作的便捷程度;通過此項技術,實現了在幾乎所有的應用以及場景中都可以用語音來進行操作。
  • Google新型的AI語音錄製應用程式
    機器學習是一種理論,其中電腦程式無需任何人工幹預即可學習,解密和適應。機器學習處理成千上萬的數據(也稱為大數據),它根據給定的算法使用並使其有意義。但是Google錄音機是使用RNN-T換能器模型開發的,這就是Google語音錄音應用程式堅固的原因。它使用單個神經網絡,被認為最適合解碼錯誤。如果公司希望開發具有更長保存期限的應用程式,那麼它就必須擺脫傳統的思想流派。
  • 語音信號處理:基本方法與前沿技術
    語音信號處理是一門學習門檻較高的學科,包含語音增強、回聲消除、麥克風陣列信號處理等多個研究方向,涉及聲學、語言學、數學、信號處理、機器學習等多個學科的專業知識。很多夥伴在入門之初會遇到如何學、學什麼的困惑,並且,隨著深度學習的廣泛應用,以及研究深度學習的學術熱潮,夥伴們很容易被學術氛圍所「迷惑」,跟隨「熱潮」學習。
  • 微軟開放多項AI技術,小娜與Alexa「合體」丨AI Daily
    1、7 月起,Drive.ai 將在德州提供無人計程車服務由吳恩達擔任董事的無人車初創公司 Drive.ai 昨日宣布: 2018 年 7 月起將在德克薩斯州弗裡斯科(Firsco)提供無人計程車服務。Drive.ai 將與弗裡斯科運輸管理協會合作,共同運營該項目。
  • 賈磊暢談AI語音技術的現在、過去和未來
    這時候逐漸開始對語音技術產生了濃厚的興趣,很好奇人是怎麼發出聲音、感知聲音、並且理解聲音內容的。當時IBM的ViaVoice軟體也是風靡世界,人們依靠聲音來實現人機互動的夢想的實現就擺在眼前,語音產業化應用的明天一片大好。這時候正巧賈磊中科院自動化所的第一任導師因為工作調動問題,允許他們調換專業,最終他根據個人興趣發展,申請從圖像處理方向轉到語音識別的技術方向上。
  • 大牛講堂 | 語音專題第一講,麥克風陣列的語音信號處理技術
    麥克風陣列技術的技術難點傳統的陣列信號處理技術直接應用到麥克風陣列處理系統中往往效果不理想,其原因在於麥克風陣列處理有不同的處理特點:1.陣列模型的建立>麥克風主要應用處理語音信號,拾音範圍有限,且多用於近場模型,使得常規的陣列處理方法如雷達,聲吶等平面波遠場模型不再適用,在近場模型中,需要更加精準的球面波,需要考慮傳播路徑不同引起的幅度衰減不同。
  • 中文語音識別技術在c#中的應用(二)
    正在閱讀:中文語音識別技術在c#中的應用(二)中文語音識別技術在c#中的應用(二)2004-06-11 10:04出處:CSDN作者:tashanzhishi>  接上篇《中文語音識別技術在c#中的應用(一)》………但是,這個方法本身並不知道你給的字符串是什麼語言,所以需要我們它這個字符串用什麼語言讀出。
  • 搜狗AI交互技術顛覆語音背後,超強T4助力AI+語音猛衝行業領先
    例如在搜狗以語言為核心的AI技術布局中,從中文、多方言和外國語種的語音識別轉寫、AI同傳翻譯,再到個性化的語音合成和變聲……在人們生活中語言應用的方方面面,都不乏搜狗的身影。如今,搜狗作為國產AI+語音領域顛覆傳統語音行業領先者之一,AI語音技術具有高識別率、高準確率、低時延和多模態融合等優勢,已廣泛應用到教育、商務、旅遊等多個應用場景,並已深入你我身邊的千家萬戶中。
  • 終於有人把智能語音處理講明白了
    作者:張雄偉 孫蒙 楊吉斌 等來源:大數據DT(ID:hzdashuju)機器學習的快速發展,為智能語音處理奠定了堅實的理論和技術基礎。智能語音處理的主要特點是從大量的語音數據中學習和發現其中蘊含的規律,可以有效解決經典語音處理難以解決的非線性問題,從而顯著提升傳統語音應用的性能,也為語音新應用提供性能更好的解決方案。
  • 【推薦】基於MATLAB編程、機器學習、深度學習在圖像處理中的實踐技術應用
    尤其是在計算機視覺和圖像處理領域,各種顛覆性的成果應運而生。因此,為了幫助廣大科研人員更加系統地學習圖像處理、機器學習和深度學習的基礎理論知識及對應的代碼實現方法,Ai尚研修特舉辦「MATLAB圖像處理與機器學習技術應用培訓班」 培訓班,旨在幫助學員掌握圖像處理的基礎知識,以及經典機器學習算法和最新的深度神經網絡、遷移學習、對抗生成網絡等算法的基本原理及其MATLAB編程實現方法。
  • AI皇冠上的明珠:人工智慧自然語言處理技術
    NLP,即自然語言處理,就=相當於存在於機器語言和人類語言之間的翻譯,通過搭建溝通的橋梁,能夠高效實現人機交流的目的。自然語言理解的目標是理解人類的表達,包括語音表達和文本表達,側重於理解目標的實現,包括語法分析、文本閱讀;NLG則側重於如何生成自然語言的表達,包括翻譯系統、信息簡化、問答對話等。兩者相輔相成,大部分情況下,兩者會同時出現,來構築某一系統。
  • 現場| AI Frontier大會開幕 最乾貨的AI應用不容錯過
    這是繼今年年初第一屆AI Frontier後大會方在一年內組織的第二次會議,前百度首席科學家、Coursera聯合創始人、Deepliarning.ai創始人吳恩達與來自Apple、Amazon、Google、NVIDIA、UBER、Alibaba、麥肯錫等公司的團隊與技術負責人向參會的1400餘名觀眾分享了在人工智慧、語音助手、機器人、深度學習、視頻理解、工業應用、無人駕駛、遊戲等領域的最新趨勢。
  • 語音識別技術的發展及難點分析
    進入上世紀80年代以來,隨著計算機應用技術在我國逐漸普及和應用以及數位訊號技術的進一步發展,國內許多單位具備了研究語音技術的基本條件。與此同時,國際上語音識別技術在經過了多年的沉寂之後重又成為研究的熱點。在這種形式下,國內許多單位紛紛投入到這項研究工作中去。 1986年,語音識別作為智能計算機系統研究的一個重要組成部分而被專門列為研究課題。
  • 最熱門的AI技術,你知道多少?
    語音識別一門交叉學科把人類語言翻譯為計算機應用可識別數據格式並輸入計算機。目前用於交互式語音應答系統和移動應用。示例供應商:NICE,NuanceCommunications,OpenText,VerintSystems。虛擬代理自動答話機器人程序從簡單的聊天機器人,到可以與人類網絡協作的人工智慧。
  • 【模式國重】語音語言信息處理重要研究進展
    其中,基礎技術研究包括詞法、句法、語義和篇章分析以及知識表示與計算等自然語言處理的基本任務;應用技術研究包括文本分類聚類、信息抽取、情感分析、自動文摘、自動問答與對話和機器翻譯等自然語言處理的應用。正如前文所述,語音和文字是人類語言的兩個基本屬性,以語音為主要處理對象的語音識別、語音合成和說話人識別等通常稱為語音技術,而以文本(詞彙、句子、篇章等)為主要處理對象的研究,通常稱為「自然語言處理」。以下分別從自然語言處理和語音技術兩大方向闡述基礎資源建設方面的成果進展,以及語音語言技術方法、應用系統實現及未來挑戰。