國內外語音識別技術發展現狀探討

2021-01-07 電子產品世界

  語音識別的意思是將人說話的內容和意思轉換為計算機可讀的輸入,例如按鍵、二進位編碼或者字符序列等。與說話人的識別不同,後者主要是識別和確認發出語音的人而非其中所包含的內容。語音識別的目的就是讓機器聽懂人類口述的語言,包括了兩方面的含義:第一是逐字逐句聽懂而不是轉化成書面的語言文字;第二是對口述語言中所包含的命令或請求加以領會,做出正確回應,而不僅僅只是拘泥於所有詞彙的正確轉換。

本文引用地址:http://www.eepw.com.cn/article/201610/311278.htm

  自從1952年,AT&TBell實驗室的Davis等人研製了第一個可十個英文數字的特定人語音增強系統一Audry系統1956年,美國普林斯頓大學RCA實驗室的Olson和Belar等人研製出能10個單音節詞的系統,該系統採用帶通濾波器組獲得的頻譜參數作為語音增強特徵。1959年,Fry和Denes等人嘗試構建音素器來4個元音和9個輔音,並採用頻譜分析和模式匹配進行決策。這就大大提高了語音識別的效率和準確度。從此計算機語音識別的受到了各國科研人員的重視並開始進入語音識別的研究。60年代,蘇聯的MaTIn等提出了語音結束點的端點檢測,使語音識別水平明顯上升;Vintsyuk提出了動態編程,這一提法在以後的識別中不可或缺。60年代末、70年代初的重要成果是提出了信號線性預測編碼(LPC)技術和動態時間規整(DTW)技術,有效地解決了語音信號的特徵提取和不等長語音匹配問題;同時提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。語音識別技術與語音合成技術結合使人們能夠擺脫鍵盤的束縛,取而代之的是以語音輸入這樣便於使用的、自然的、人性化的輸入方式,它正逐步成為信息技術中人機接口的關鍵技術。

  一:語音識別技術發展現狀-語音識別系統的分類

  語音識別系統可以根據對輸入語音的限制加以分類。如果從說話者與識別系統的相關性考慮,可以將識別系統分為三類:

  (1)特定人語音識別系統。僅考慮對於專人的話音進行識別。

  (2)非特定人語音系統。識別的語音與人無關,通常要用大量不同人的語音資料庫對識別系統進行學習。

  (3)多人的識別系統。通常能識別一組人的語音,或者成為特定組語音識別系統,該系統僅要求對要識別的那組人的語音進行訓練。

  如果從說話的方式考慮,也可以將識別系統分為三類:

  (1)孤立詞語音識別系統。孤立詞識別系統要求輸入每個詞後要停頓。

  (2)連接詞語音識別系統。連接詞輸入系統要求對每個詞都清楚發音,一些連音現象開始出現。

  (3)連續語音識別系統。連續語音輸入是自然流利的連續語音輸入,大量連音和變音會出現。

  如果從識別系統的詞彙量大小考慮,也可以將識別系統分為三類:

  (1)小詞彙量語音識別系統。通常包括幾十個詞的語音識別系統。

  (2)中等詞彙量的語音識別系統。通常包括幾百個詞到上千個詞的識別系統。

  (3)大詞彙量語音識別系統。通常包括幾千到幾萬個詞的語音識別系統。隨著計算機與數位訊號處理器運算能力以及識別系統精度的提高,識別系統根據詞彙量大小進行分類也不斷進行變化。目前是中等詞彙量的識別系統,將來可能就是小詞彙量的語音識別系統。這些不同的限制也確定了語音識別系統的困難度。

  二:語音識別技術發展現狀-語音識別的方法匯總分析

  目前具有代表性的語音識別方法主要有動態時間規整技術(DTW)、隱馬爾可夫模型(HMM)、矢量量化(VQ)、人工神經網絡(ANN)、支持向量機(SVM)等方法。

  動態時間規整算法(Dynamic TIme Warping,DTW)是在非特定人語音識別中一種簡單有效的方法,該算法基於動態規劃的思想,解決了發音長短不一的模板匹配問題,是語音識別技術中出現較早、較常用的一種算法。在應用DTW算法進行語音識別時,就是將已經預處理和分幀過的語音測試信號和參考語音模板進行比較以獲取他們之間的相似度,按照某種距離測度得出兩模板間的相似程度並選擇最佳路徑。

  隱馬爾可夫模型(HMM)是語音信號處理中的一種統計模型,是由Markov鏈演變來的,所以它是基於參數模型的統計識別方法。由於其模式庫是通過反覆訓練形成的與訓練輸出信號吻合概率最大的最佳模型參數而不是預先儲存好的模式樣本,且其識別過程中運用待識別語音序列與HMM參數之間的似然概率達到最大值所對應的最佳狀態序列作為識別輸出,因此是較理想的語音識別模型。

  矢量量化(Vector QuanTIzaTIon)是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適用於小詞彙量、孤立詞的語音識別中。其過程是將若干個語音信號波形或特徵參數的標量數據組成一個矢量在多維空間進行整體量化。把矢量空間分成若干個小區域,每個小區域尋找一個代表矢量,量化時落入小區域的矢量就用這個代表矢量代替。矢量量化器的設計就是從大量信號樣本中訓練出好的碼書,從實際效果出發尋找到好的失真測度定義公式,設計出最佳的矢量量化系統,用最少的搜索和計算失真的運算量實現最大可能的平均信噪比。

  在實際的應用過程中,人們還研究了多種降低複雜度的方法,包括無記憶的矢量量化、有記憶的矢量量化和模糊矢量量化方法。

  人工神經網絡(ANN)是20世紀80年代末期提出的一種新的語音識別方法。其本質上是一個自適應非線性動力學系統,模擬了人類神經活動的原理,具有自適應性、並行性、魯棒性、容錯性和學習特性,其強大的分類能力和輸入—輸出映射能力在語音識別中都很有吸引力。其方法是模擬人腦思維機制的工程模型,它與HMM正好相反,其分類決策能力和對不確定信息的描述能力得到舉世公認,但它對動態時間信號的描述能力尚不盡如人意,通常MLP分類器只能解決靜態模式分類問題,並不涉及時間序列的處理。儘管學者們提出了許多含反饋的結構,但它們仍不足以刻畫諸如語音信號這種時間序列的動態特性。由於ANN不能很好地描述語音信號的時間動態特性,所以常把ANN與傳統識別方法結合,分別利用各自優點來進行語音識別而克服HMM和ANN各自的缺點。近年來結合神經網絡和隱含馬爾可夫模型的識別算法研究取得了顯著進展,其識別率已經接近隱含馬爾可夫模型的識別系統,進一步提高了語音識別的魯棒性和準確率。

  支持向量機(Support vector machine)是應用統計學理論的一種新的學習機模型,採用結構風險最小化原理(Structural Risk Minimization,SRM),有效克服了傳統經驗風險最小化方法的缺點。兼顧訓練誤差和泛化能力,在解決小樣本、非線性及高維模式識別方面有許多優越的性能,已經被廣泛地應用到模式識別領域。

  三:語音識別技術發展現狀-國外研究

  語音識別的研究工作可以追溯到20世紀50年代AT&T貝爾實驗室的Audry系統,它是第一個可以識別十個英文數字的語音識別系統。

  但真正取得實質性進展,並將其作為一個重要的課題開展研究則是在60年代末70年代初。這首先是因為計算機技術的發展為語音識別的實現提供了硬體和軟體的可能,更重要的是語音信號線性預測編碼(LPC)技術和動態時間規整(DTW)技術的提出,有效的解決了語音信號的特徵提取和不等長匹配問題。這一時期的語音識別主要基於模板匹配原理,研究的領域局限在特定人,小詞彙表的孤立詞識別,實現了基於線性預測倒譜和DTW技術的特定人孤立詞語音識別系統;同時提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。

  隨著應用領域的擴大,小詞彙表、特定人、孤立詞等這些對語音識別的約束條件需要放寬,與此同時也帶來了許多新的問題:第一,詞彙表的擴大使得模板的選取和建立發生困難;第二,連續語音中,各個音素、音節以及詞之間沒有明顯的邊界,各個發音單位存在受上下文強烈影響的協同發音(Co-articulation)現象;第三,非特定人識別時,不同的人說相同的話相應的聲學特徵有很大的差異,即使相同的人在不同的時間、生理、心理狀態下,說同樣內容的話也會有很大的差異;第四,識別的語音中有背景噪聲或其他幹擾。因此原有的模板匹配方法已不再適用。

  實驗室語音識別研究的巨大突破產生於20世紀80年代末:人們終於在實驗室突破了大詞彙量、連續語音和非特定人這三大障礙,第一次把這三個特性都集成在一個系統中,比較典型的是卡耐基梅隆大學(CarnegieMellonUniversity)的Sphinx系統,它是第一個高性能的非特定人、大詞彙量連續語音識別系統。

相關焦點

  • 人工智慧時代,如何看待語音識別技術的現狀?
    想像有一天,語音識別技術的發展已經足夠成熟,我們將能夠使用語音命令直接控制機器,例如人與人之間的對話,而無需使用傳統的工作方法(例如滑鼠,鍵盤或其他外部按鈕)。當前,從智慧型手機到智能家居,甚至在網際網路上,市場上的爆炸性產品都在擁抱智能語音。
  • 目前語音識別的技術現狀是怎樣的
    打開APP 目前語音識別的技術現狀是怎樣的 36kr 發表於 2019-09-18 10:19:24 (文章來源:36kr)
  • 語音識別行業的發展現狀分析
    語音識別行業的發展現狀分析 佚名 發表於 2020-01-02 09:44:54   因為資本的湧入、智能家居的火熱和人工智慧的崛起,市場對語音市場的關注度迅速提升
  • 語音識別技術的發展及難點分析
    語音識別技術的發展 與機器進行語音交流,讓它聽明白你在說什麼。語音識別技術將人類這一曾經的夢想變成了現實。語音識別就好比「機器的聽覺系統」,該技術讓機器通過識別和理解,把語音信號轉變為相應的文本或命令。 在1952年的貝爾研究所,Davis等人研製了世界上第一個能識別10個英文數字發音的實驗系統。
  • 毫米波相控陣天線國內外發展現狀及技術趨勢
    隨著5G毫米波通信和寬帶低軌衛星通信的迅速崛起,毫米波有源相控陣天線開始了前所未有的發展,預計未來幾年內將主宰市場。 隨著新材料、新技術和新工藝的提升,毫米波頻段集成電路元件的技術難題迅速被攻克,毫米波在5G時代會迎來大規模應用。
  • 淺談語音識別技術的發展趨勢與應用前景
    五、語音識別技術的發展狀況   1.語音識別技術在國際的發展   早在三四十年前,美國的一些大學和實驗室就開始了語音識別技術的研究   2.語音識別技術在國內的發展   我國的語音識別研究工作雖然起步較晚,但由於國家的重視,研究工作進展順利,相關研究緊跟國際水平。由於中國有不可忽視的龐大市場,國外對中國的語音識別技術也非常重視,漢語語音語義的特殊性也使得中文語音識別技術的研究更具有挑戰。
  • 語音識別技術專利分析
    ,近年來,語音識別技術開始飛躍性發展,不再局限於僅是科研人員實驗室中的產物,而是融入人類生活中,成為了一種商品。此外,像網際網路企業騰訊,也搭建了自己的語音識別引擎。各個企業在語音識別領域的研發成果不斷湧現,為保護自身技術而同步開展的專利布局也初現端倪。本文將藉助專利數據分析方法對語音識別技術的專利保護動向做梳理和總結,歡迎大家共同探討。
  • 淺析:國內外RFID技術的現狀及發展趨勢
    四、國內現狀相較於歐美等發達國家或地區,我國在RFID產業上的發展還較為落後。我國已經將RFID技術應用於鐵路車號識別、身份證和票證管理、動物標識、特種設備與危險品管理、公共運輸以及生產過程管理等多個領域。
  • 淺析:國內外RFID技術的現狀及發展趨勢
    早在2017年日本服裝品牌優衣庫宣布將在全球3000多家門店引入RFID技術。四、國內現狀相較於歐美等發達國家或地區,我國在RFID產業上的發展還較為落後。我國已經將RFID技術應用於鐵路車號識別、身份證和票證管理、動物標識、特種設備與危險品管理、公共運輸以及生產過程管理等多個領域。
  • 人臉識別技術發展現狀及未來發展趨勢
    近年來,隨著人工智慧的發展以及國家經濟發展、安全防衛的需要,我國人臉識別市場不斷擴大,技術水平不斷提升,在算法方面已取得世界領先地位。伴隨著人工智慧的持續發展,智能化時代的悄然到來,以人臉識別為代表的生物識別技術越來越普及。從安防、支付、金融到教育、醫療和交通,"刷臉"日漸成為常態,為人們的生產與生活帶來了諸多智能、安全與便捷。
  • 無人船的國內外研究現狀
    雖然相較無人機、無人車等技術,無人船研發起步晚,但發展迅速,在軍事領域和民用領域都有所應用,已被很多國家列為重要的發展方向,愈加重視和致力研究。智能化一直是船舶發展的趨勢。一、無人船的國內研究現狀就國內外研究現狀來看,近年來,國內學者關於無人船的研究也一直都在進行,如大連海事大學的張樹凱,劉正江,張顯庫,劉玉(2015)對無人船艇的基本概念、發展歷程、系統構成及基本特點、研究中涉及的關鍵技術、應用前景和發展趨勢等問題進行了綜述;張雲飛,潘登 ,蔡玉良,劉金華等人(2017)重點研究了國際組織頒布的有關船舶設計和建造的國際海事公約,包括《國際海上人命安全公約
  • 人工智慧與語音識別技術
    編者按:隨著深度神經網絡在大規模語音識別任務上獲得顯著效果提升,大數據的不斷完善和漣漪效應的提出,在近十年,中國的人工智慧也得到了快速發展。像是一個水滴滴到水面的時候,這個水面相當於所有的用戶人群,而這個水滴所激發起來的這個漣漪,其實是這個核心技術一開始的效果。一開始水滴滴入水面振幅會很大,說明它的效果並不好。就像大家今天看到科大訊飛的語音識別系統已經非常準確,但是在2010年科大訊飛第一次發布會發布其語音輸入法的時候,識別率慘不忍睹。在實驗室裡面90%的正確率的識別系統放到真實環境下一用,正確率只有55%。
  • 國內外露天礦山無人駕駛技術發展現狀
    2 國內露天礦山無人駕駛現狀2018 年 9 月包鋼集團、踏歌智行、北方股份、航空航天大學、中國移動、華為合作籤約,共同推進世界最大的稀土露天礦山白雲鄂博礦無人駕駛項目,實施「5G 網絡條件下無人駕駛及操作的智慧礦山技術的開發及應用」。
  • 語音識別技術發展史與行業最佳實踐全解析
    在人工智慧技術的探索徵程裡,語音語義識別技術一直扮演著先驅的角色,不管是在技術探索還是商業落地方面都走在了前面。近兩年來隨著深度學習技術的進一步深入,其識別準確率更是得以大大提升。為教育、客服、電信等傳統行業的產業升級帶來了一大助力,在車載、家居、醫療、智能硬體等領域又開闢出了新的商業應用探索實踐。語音語義技術目前發展到了哪個階段?
  • 目前的語音識別技術發展到了什麼程度
    打開APP 目前的語音識別技術發展到了什麼程度 中關村在線 發表於 2019-09-24 16:41:58 (文章來源:中關村在線
  • 語音識別技術原理全面解析
    語音識別是以語音為研究對象,通過語音信號處理和模式識別讓機器自動識別和理解人類口述的語言。語音識別技術就是讓機器通過識別和理解過程把語 音信號轉變為相應的文本或命令的高技術。語音識別是一門涉及面很廣的交叉學科,它與聲學、語音學、語言學、信息理論、模式識別理論以及神經生物學等學科都 有非常密切的關係。
  • 人工智慧的關鍵技術:模式識別(文字識別、語音識別、圖像識別)
    人工智慧技術應該是當今計算機技術中最熱門、發展最快的技術。而人工智慧技術也是計算機最重要的一個發展方向和趨勢。人工智慧雖然發展了幾十年,但是現在仍然處於發展期,技術仍有待提高。所以語音識別技術是模式識別,同時也是人工智慧的關鍵技術。語音識別技術最常見的是語音輸入,我們說話,就能對應為我們將語音轉換為文字進行錄入,語音識別沒有手寫輸入識別率高,但是語音識別的效率更高,錄入的更快。
  • DJI和GoPro運動相機語音控制對比和語音控制技術和創新應用的探討
    GoPro - GoPro的採用Sensory的離線多語言語音識別和控制技術,可以實現Always-on/Always-listening的關鍵詞設備激活和喚醒,以及多達數條的離線語音命令。不支持設備的語音開機,支持的語言和語音命令偏少,並且由於缺乏前置喚醒詞也會在一定程度上影響語音命令識別的準確性,影響了用戶體驗。
  • 你了解語音識別技術嗎?
    隨著社會的發展,讓機器聽懂人的語言已從夢想變成了現實。我們知道當聲音通過媒介傳到人的耳朵裡,大腦會對語音進行處理並形成自己的理解,然後用語言或者行動應答。那麼計算機是如何聽懂人類語言的?這就要靠人機互動的重要技術——語音識別技術。
  • 語音識別的技術原理及語音識別系統的分類
    打開APP 語音識別的技術原理及語音識別系統的分類 遠場語音識別研究 發表於 2019-10-21 16:32:58 (文章來源