ZLG深度解析:語音識別技術

2021-01-08 OFweek維科網

語音識別已成為人與機器通過自然語言交互重要方式之一,本文將從語音識別的原理以及語音識別算法的角度出發為大家介紹語音識別的方案及詳細設計過程。

語言作為人類的一種基本交流方式,在數千年歷史中得到持續傳承。近年來,語音識別技術的不斷成熟,已廣泛應用於我們的生活當中。語音識別技術是如何讓機器「聽懂」人類語言?本文將為大家從語音前端處理、基於統計學語音識別和基於深度學習語音識別等方面闡述語音識別的原理。

隨著計算機技術的飛速發展,人們對機器的依賴已經達到一個極高的程度。語音識別技術使得人與機器通過自然語言交互成為可能。最常見的情形是通過語音控制房間燈光、空調溫度和電視的相關操作等。並且,移動網際網路、智能家居、汽車、醫療和教育等領域的應用帶動智能語音產業規模持續快速增長,2018年全球智能語音市場規模將達到141.1億美元。

(數據來源:中商產業研究院整理)

目前,在全球智能語音市場佔比情況中,各巨頭市場佔有率由大到小依次為:Nuance、谷歌、蘋果、微軟和科大訊飛等。

(數據來源:中商產業研究院整理)

語音識別的本質就是將語音序列轉換為文本序列,其常用的系統框架如下:

接下來對語音識別相關技術進行介紹,為了便於整體理解,首先,介紹語音前端信號處理的相關技術,然後,解釋語音識別基本原理,並展開到聲學模型和語言模型的敘述,最後,展示我司當前研發的離線語音識別demo。

1前端信號處理

前端的信號處理是對原始語音信號進行的相關處理,使得處理後的信號更能代表語音的本質特徵,相關技術點如下表所述:

1、語音活動檢測

語音活動檢測(Voice Activity Detection, VAD)用於檢測出語音信號的起始位置,分離出語音段和非語音(靜音或噪聲)段。VAD算法大致分為三類:基於閾值的VAD、基於分類器的VAD和基於模型的VAD

基於閾值的VAD是通過提取時域(短時能量、短時過零率等)或頻域(MFCC、譜熵等)特徵,通過合理的設置門限,達到區分語音和非語音的目的;

基於分類的VAD是將語音活動檢測作為(語音和非語音)二分類,可以通過機器學習的方法訓練分類器,達到語音活動檢測的目的;

基於模型的VAD是構建一套完整的語音識別模型用於區分語音段和非語音段,考慮到實時性的要求,並未得到實際的應用。

2、降噪

在生活環境中通常會存在例如空調、風扇等各種噪聲,降噪算法目的在於降低環境中存在的噪聲,提高信噪比,進一步提升識別效果。

常用降噪算法包括自適應LMS和維納濾波等。

3、回聲消除

回聲存在於雙工模式時,麥克風收集到揚聲器的信號,比如在設備播放音樂時,需要用語音控制該設備的場景。

回聲消除通常使用自適應濾波器實現的,即設計一個參數可調的濾波器,通過自適應算法(LMS、NLMS等)調整濾波器參數,模擬回聲產生的信道環境,進而估計回聲信號進行消除。

4、混響消除

語音信號在室內經過多次反射之後,被麥克風採集,得到的混響信號容易產生掩蔽效應,會導致識別率急劇惡化,需要在前端處理。

混響消除方法主要包括:基於逆濾波方法、基于波束形成方法和基於深度學習方法等。

5、聲源定位

麥克風陣列已經廣泛應用於語音識別領域,聲源定位是陣列信號處理的主要任務之一,使用麥克風陣列確定說話人位置,為識別階段的波束形成處理做準備。

聲源定位常用算法包括:基於高解析度譜估計算法(如MUSIC算法),基於聲達時間差(TDOA)算法,基于波束形成的最小方差無失真響應(MVDR)算法等。

相關焦點

  • 語音識別技術簡史
    作者 | 陳孝良,馮大航,李智勇【CSDN 編者按】語音識別自半個世紀前誕生以來,一直處於不溫不火的狀態,直到 2009 年深度學習技術的長足發展才使得語音識別的精度大大提高,雖然還無法進行無限制領域、無限制人群的應用,但也在大多數場景中提供了一種便利高效的溝通方式。
  • 語音識別技術原理全面解析
    語音識別是以語音為研究對象,通過語音信號處理和模式識別讓機器自動識別和理解人類口述的語言。語音識別技術就是讓機器通過識別和理解過程把語 音信號轉變為相應的文本或命令的高技術。語音識別是一門涉及面很廣的交叉學科,它與聲學、語音學、語言學、信息理論、模式識別理論以及神經生物學等學科都 有非常密切的關係。
  • 排名 語音識別_語音識別技術排名 - CSDN
    該成果有望推動語音識別技術的大幅進步,已超越人類專業速記員的水平」的字眼令正在從事語音識別研究的科研工作者和技術提供商一陣錯愕,不明真相的群眾紛紛認為當前語音識別已經刷無可刷,語音識別技術已經沒有門檻,語音識別是已經解決的問題了……但是事實並不是這樣,在LibriSpeech這種簡單數據集上「刷」到詞錯誤率2.97%並不困難,語音識別領域仍存在大量的問題需要解決。
  • 智能語音識別技術入門系列(上)
    本系列文章開始,我們將一起探索自動識別、語言處理技術所包含的核心算法、模型及未來的發展趨勢。本篇文章我們主要討論語音識別的基本概念。並理解語音識別技術的流程。(一) 自動語音識別技術ASR自動語音識別,簡稱ASR。
  • FinTech時代商業銀行智能語音識別技術應用與發展
    1.語音識別技術發展  語音識別技術按照發展和應用程度,可分為早期實驗研究階段、實用階段、現代語音識別系統開發應用階段。  (3)現代語音識別系統開發應用階段  近些年,隨著大數據和深度學習技術的發展,深度學習方法逐漸被引入到語音識別系統中,相較於傳統的語音識別技術,識別性能獲得了顯著提升。  目前,市場上的語音識別系統大多基於深度神經網絡模型進行建模,大幅提升了各種應用場景下語音識別的準確度和可靠性,使語音識別技術進入了新的應用階段。
  • 從不溫不火到炙手可熱:語音識別技術簡史
    【導讀】語音識別自半個世紀前誕生以來,一直處於不溫不火的狀態,直到 2009 年深度學習技術的長足發展才使得語音識別的精度大大提高,雖然還無法進行無限制領域、無限制人群的應用,但也在大多數場景中提供了一種便利高效的溝通方式。本篇文章將從技術和產業兩個角度來回顧一下語音識別發展的歷程和現狀,並分析一些未來趨勢,希望能幫助更多年輕技術人員了解語音行業,並能產生興趣投身於這個行業。
  • 淺談自然場景中的語音情感識別技術
    語音是人類最基本、最便捷的交流工具,承載了複雜信息的語音信號不僅可以反映語義內容,還能夠傳遞說話人內在的情感狀態。語音情感識別是 建立在對語音信號的產生機制深入研究與分析的基礎上,對語音中反映個人情感信息的一些特徵參數進行提取,並利用這些參數採用相應的模式識別方法確定語音情感狀態的技術。
  • 深度解析音頻檢測背後的技術 | 雷鋒網公開課
    針對說話內容有語音識別、關鍵詞檢索等;針對語種的判別有語種識別的技術;針對說話人的識別有聲紋識別技術;針對說話內容無關的通常採用音頻比對的技術來進行檢測。語音識別的關鍵技術——聲學模型語音識別的聲學模型主要有以下兩種:混合聲學模型和端到端的聲學模型。
  • 深度解析音頻檢測背後的技術|硬創公開課
    針對說話內容有語音識別、關鍵詞檢索等;針對語種的判別有語種識別的技術;針對說話人的識別有聲紋識別技術;針對說話內容無關的通常採用音頻比對的技術來進行檢測。語音識別的關鍵技術——聲學模型語音識別的聲學模型主要有以下兩種:混合聲學模型和端到端的聲學模型。混合聲學模型通常是隱馬爾科夫模型結合混合高斯、深度神經網絡、深度循環神經網絡以及深度卷積神經網絡的一個模型。
  • AI浪潮下,語音識別建模技術的演進 | 雷鋒網公開課
    語音識別建模對語音識別來說是不可或缺的一部分,因為不同的建模技術通常意味著不同的識別性能,所以這是各個語音識別團隊重點優化的方向。搜狗知音引擎是搜狗公司自主研發的一項專注於自然交互的智能語音技術,於2016年8月3日正式對外發布,該技術集合了語音識別、語義理解、語音交互、以及提供服務等多項功能,不僅能聽會說,還能理解會思考, 本文將結合知音引擎中語音識別建模技術的使用來為大家講解。
  • 神經網絡技術解析:手寫數字識別項目解讀
    打開APP 神經網絡技術解析:手寫數字識別項目解讀 澤南 張倩 發表於 2021-01-13 15:50:11 手寫數字識別是很多人入門神經網絡時用來練手的一個項目
  • 各路大咖共探:智能語音技術如何與家電產品深度融合?
    為推動語音識別及交互技術在家電領域的融合發展,廣東省智能家電創新中心積極籌劃搭建「家電智能語音產業協同創新平臺」,平臺匯聚國內外智能家電語音產業鏈各環節的代表企業/機構專家,互通有無加快技術演進,促進合作共贏,助力語音識別及交互技術在智能家電領域的持續健康發展。
  • 揭秘語音識別背後的技術,GPU集群+DNN算法
    智能語音目前主要依靠深度學習的技術實現,作為機器學習的一個重要分支,深度學習在於建立、模擬人腦進行分析學習的神經網絡,使得機器能從大量歷史數據中學習規律,從而對新的樣本做智能識別或對未來做預測,以達到具有人類一樣的思考能力
  • .| 深度學習理論與實戰:提高篇(5)——深度學習在語音識別中的應用
    提起深度學習的再次興起,大家首先可能會想到2012年AlexNet在圖像分類上的突破,但是最早深度學習的大規模應用發生在語音識別領域。自從2006年Geoffrey Hinton提出逐層的Pretraining之後,神經網絡再次進入大家的視野。
  • 深度解析音頻檢測背後的技術
    針對說話內容有語音識別、關鍵詞檢索等;針對語種的判別有語種識別的技術;針對說話人的識別有聲紋識別技術;針對說話內容無關的通常採用音頻比對的技術來進行檢測。 語音識別的關鍵技術——聲學模型 語音識別的聲學模型主要有以下兩種:混合聲學模型和端到端的聲學模型。 混合聲學模型通常是隱馬爾科夫模型結合混合高斯、深度神經網絡、深度循環神經網絡以及深度卷積神經網絡的一個模型。
  • 指靜脈識別技術的源起、應用與發展深度解析
    導讀:指紋識別、人臉識別、指靜脈識別是當前最為常見的生物識別技術。隨著萬能指紋、人臉照片被盜、人臉信息隱私、指紋缺失等其他生物識別技術問題的出現,指靜脈識別技術因具有優越的高安全性、高便捷性,正得到大眾青睞並廣泛應用。
  • 應用、算法、晶片,「三位一體」淺析語音識別
    IBM、微軟、百度等公司在語音識別方面,使用組合模型,不斷提升語音識別性能。微軟基於6個不同的深度神經網絡構成的聲學模型以及4個不同的深度神經網絡構成的語言模型,取得了超越人類的識別準確率。科大訊飛則基於深度全序列卷積神經網絡語音識別框架,取得了實用級的識別性能。雲知聲、捷通華聲、思必馳等智能語音創業公司亦在不斷打磨自己的識別引擎,並能夠把自己的技術落地到產業中。
  • ...為什麼說聲紋深度編碼把聲紋識別和其他語音關聯任務有機聯繫...
    8 月 8 日上午,崑山杜克大學大數據研究中心 SMIP 實驗室李明博士為前沿語音專場做了題為《基於深度編碼的聲紋識別及其關聯任務》的主題演講分享。語音交互日趨成為人機互動的重要入口。語言自帶指令屬性,是人類最自然、最日常的溝通方式之一。從通過按鍵、觸控與機器交互過渡到語音人機互動,無疑是一大飛躍。
  • 語音識別是什麼 語音識別聲學特徵介紹【圖文】
    語音識別,什麼是語音識別  語音識別  與機器進行語音交流,讓機器明白你說什麼,這是人們長期以來夢寐以求的事情。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術。語音識別是一門交叉學科。近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。
  • 語音識別原理及其語音識別系統分類
    YQ語音識別方案語音識別是一個多層模式識別任務。聲音信號經過考察,結構分為一個層次詞根單位(例如,音素)、詞、短語、句子。一個標準的語音識別系統如下圖所示。YQ5969語音識別二、語音識別系統分類語音識別系統根據對說話人說話方式的要求,可以分為孤立詞語音識別系統、連接字語音識別系統和連續語音識別系統;根據對說話人的依賴程度,可以分為特定人和非特定人語音識別系統