語音識別揭秘:你的手機究竟有多理解你?

2020-12-12 鈦媒體APP

圖片來源@unsplash

文|蘇寧金融研究院,作者|沈春澤

在我們的生活中,語言是傳遞信息最重要的方式,它能夠讓人們之間互相了解。人和機器之間的交互也是相同的道理,讓機器人知道人類要做什麼、怎麼做。交互的方式有動作、文本或語音等等,其中語音交互越來越被重視,因為隨著網際網路上智能硬體的普及,產生了各種網際網路的入口方式,而語音是最簡單、最直接的交互方式,是最通用的輸入模式。

在1952年,貝爾研究所研製了世界上第一個能識別10個英文數字發音的系統。1960年英國的Denes等人研製了世界上第一個語音識別(ASR)系統。大規模的語音識別研究始於70年代,並在單個詞的識別方面取得了實質性的進展。上世紀80年代以後,語音識別研究的重點逐漸轉向更通用的大詞彙量、非特定人的連續語音識別。

90年代以來,語音識別的研究一直沒有太大進步。但是,在語音識別技術的應用及產品化方面取得了較大的進展。自2009年以來,得益於深度學習研究的突破以及大量語音數據的積累,語音識別技術得到了突飛猛進的發展。

深度學習研究使用預訓練的多層神經網絡,提高了聲學模型的準確率。微軟的研究人員率先取得了突破性進展,他們使用深層神經網絡模型後,語音識別錯誤率降低了三分之一,成為近20年來語音識別技術方面最快的進步。

另外,隨著手機等移動終端的普及,多個渠道積累了大量的文本語料或語音語料,這為模型訓練提供了基礎,使得構建通用的大規模語言模型和聲學模型成為可能。在語音識別中,豐富的樣本數據是推動系統性能快速提升的重要前提,但是語料的標註需要長期的積累和沉澱,大規模語料資源的積累需要被提高到戰略高度。

今天,語音識別在移動端和音箱的應用上最為火熱,語音聊天機器人、語音助手等軟體層出不窮。許多人初次接觸語音識別可能歸功於蘋果手機的語音助手Siri。

Siri技術來源於美國國防部高級研究規劃局(DARPA)的CALO計劃:初衷是一個讓軍方簡化處理繁重複雜的事務,並具備認知能力進行學習、組織的數字助理,其民用版即為Siri虛擬個人助理。

Siri公司成立於2007年,最初是以文字聊天服務為主,之後與大名鼎鼎的語音識別廠商Nuance合作實現了語音識別功能。2010年,Siri被蘋果收購。2011年蘋果將該技術隨同iPhone 4S發布,之後對Siri的功能仍在不斷提升完善。

現在,Siri成為蘋果iPhone上的一項語音控制功能,可以讓手機變身為一臺智能化機器人。通過自然語言的語音輸入,可以調用各種APP,如天氣預報、地圖導航、資料檢索等,還能夠通過不斷學習改善性能,提供對話式的應答服務。

語音識別(ASR)原理

語音識別技術是讓機器通過識別把語音信號轉變為文本,進而通過理解轉變為指令的技術。目的就是給機器賦予人的聽覺特性,聽懂人說什麼,並作出相應的行為。語音識別系統通常由聲學識別模型和語言理解模型兩部分組成,分別對應語音到音節和音節到字的計算。一個連續語音識別系統(如下圖)大致包含了四個主要部分:特徵提取、聲學模型、語言模型和解碼器等。

(1)語音輸入的預處理模塊

對輸入的原始語音信號進行處理,濾除掉其中的不重要信息以及背景噪聲,並進行語音信號的端點檢測(也就是找出語音信號的始末)、語音分幀(可以近似理解為,一段語音就像是一段視頻,由許多幀的有序畫面構成,可以將語音信號切割為單個的「畫面」進行分析)等處理。

(2)特徵提取

在去除語音信號中對於語音識別無用的冗餘信息後,保留能夠反映語音本質特徵的信息進行處理,並用一定的形式表示出來。也就是提取出反映語音信號特徵的關鍵特徵參數形成特徵矢量序列,以便用於後續處理。

(3)聲學模型訓練

聲學模型可以理解為是對聲音的建模,能夠把語音輸入轉換成聲學表示的輸出,準確的說,是給出語音屬於某個聲學符號的概率。根據訓練語音庫的特徵參數訓練出聲學模型參數。在識別時可以將待識別的語音的特徵參數與聲學模型進行匹配,得到識別結果。目前的主流語音識別系統多採用隱馬爾可夫模型HMM進行聲學模型建模。

(4)語言模型訓練

語言模型是用來計算一個句子出現概率的模型,簡單地說,就是計算一個句子在語法上是否正確的概率。因為句子的構造往往是規律的,前面出現的詞經常預示了後方可能出現的詞語。它主要用於決定哪個詞序列的可能性更大,或者在出現了幾個詞的時候預測下一個即將出現的詞語。它定義了哪些詞能跟在上一個已經識別的詞的後面(匹配是一個順序的處理過程),這樣就可以為匹配過程排除一些不可能的單詞。

語言建模能夠有效的結合漢語語法和語義的知識,描述詞之間的內在關係,從而提高識別率,減少搜索範圍。對訓練文本資料庫進行語法、語義分析,經過基於統計模型訓練得到語言模型。

(5)語音解碼和搜索算法

解碼器是指語音技術中的識別過程。針對輸入的語音信號,根據己經訓練好的HMM聲學模型、語言模型及字典建立一個識別網絡,根據搜索算法在該網絡中尋找最佳的一條路徑,這個路徑就是能夠以最大概率輸出該語音信號的詞串,這樣就確定這個語音樣本所包含的文字了。所以,解碼操作即指搜索算法,即在解碼端通過搜索技術尋找最優詞串的方法。

連續語音識別中的搜索,就是尋找一個詞模型序列以描述輸入語音信號,從而得到詞解碼序列。搜索所依據的是對公式中的聲學模型打分和語言模型打分。在實際使用中,往往要依據經驗給語言模型加上一個高權重,並設置一個長詞懲罰分數。

語音識別本質上是一種模式識別的過程,未知語音的模式與已知語音的參考模式逐一進行比較,最佳匹配的參考模式被作為識別結果。當今語音識別技術的主流算法,主要有基於動態時間規整(DTW)算法、基於非參數模型的矢量量化(VQ)方法、基於參數模型的隱馬爾可夫模型(HMM)的方法、以及近年來基於深度學習和支持向量機等語音識別方法。

站在巨人的肩膀上:開源框架

目前開源世界裡提供了多種不同的語音識別工具包,為開發者構建應用提供了很大幫助。但這些工具各有優劣,需要根據具體情況選擇使用。下表為目前相對流行的工具包間的對比,大多基於傳統的 HMM 和N-Gram 語言模型的開源工具包。

對於普通用戶而言,大多數人都會知道 Siri 或 Cortana 這樣的產品。而對於研發工程師來說,更靈活、更具專注性的解決方案更符合需求,很多公司都會研發自己的語音識別工具。

(1)CMU Sphinix是卡內基梅隆大學的研究成果。已有 20 年歷史了,在 Github和 SourceForge上都已經開源了,而且兩個平臺上都有較高的活躍度。

(2)Kaldi 從 2009 年的研討會起就有它的學術根基了,現在已經在 GitHub上開源,開發活躍度較高。

(3)HTK 始於劍橋大學,已經商用較長時間,但是現在版權已經不再開源軟體了。它的最新版本更新於 2015 年 12 月。

(4)Julius起源於 1997 年,最後一個主版本發布於2016 年 9 月,主要支持的是日語。

(5)ISIP 是第一個最新型的開源語音識別系統,源於密西西比州立大學。它主要發展於 1996 到 1999 年間,最後版本發布於 2011 年,遺憾的是,這個項目已經不復存在。

語音識別技術研究難點

目前,語音識別研究工作進展緩慢,困難具體表現在:

(1)輸入無法標準統一

比如,各地方言的差異,每個人獨有的發音習慣等,如下圖所示,口腔中元音隨著舌頭部位的不同可以發出多種音調,如果組合變化多端的輔音,可以產生大量的、相似的發音,這對語音識別提出了挑戰。除去口音參差不齊,輸入設備不統一也導致了語音輸入的不標準。

(2)噪聲的困擾

噪聲環境的各類聲源處理是目前公認的技術難題,機器無法從各層次的背景噪音中分辨出人聲,而且,背景噪聲千差萬別,訓練的情況也不能完全匹配真實環境。因而,語音識別在噪聲中比在安靜的環境下要難得多。

目前主流的技術思路是,通過算法提升降低誤差。首先,在收集的原始語音中,提取抗噪性較高的語音特徵。然後,在模型訓練的時候,結合噪聲處理算法訓練語音模型,使模型在噪聲環境裡的魯棒性較高。最後,在語音解碼的過程中進行多重選擇,從而提高語音識別在噪聲環境中的準確率。完全消除噪聲的幹擾,目前而言,還停留在理論層面。

(3)模型的有效性

識別系統中的語言模型、詞法模型在大詞彙量、連續語音識別中還不能完全正確的發揮作用,需要有效地結合語言學、心理學及生理學等其他學科的知識。並且,語音識別系統從實驗室演示系統向商品的轉化過程中還有許多具體細節技術問題需要解決。

智能語音識別系統研發方向

今天,許多用戶已經能享受到語音識別技術帶來的方便,比如智慧型手機的語音操作等。但是,這與實現真正的人機交流還有相當遙遠的距離。目前,計算機對用戶語音的識別程度不高,人機互動上還存在一定的問題,智能語音識別系統技術還有很長的一段路要走,必須取得突破性的進展,才能做到更好的商業應用,這也是未來語音識別技術的發展方向。

在語音識別的商業化落地中,需要內容、算法等各個方面的協同支撐,但是良好的用戶體驗是商業應用的第一要素,而識別算法是提升用戶體驗的核心因素。目前語音識別在智能家居、智能車載、智能客服機器人方面有廣泛的應用,未來將會深入到學習、生活、工作的各個環節。許多科幻片中的場景正在逐步走入我們的平常生活。

【鈦媒體作者介紹:本文由「蘇寧財富資訊」原創,作者為蘇寧金融研究院金融科技研究中心副主任沈春澤。】

相關焦點

  • 語音識別技術
    以下是機哥在做可科大訊飛研究報告中的PPT內容,可以看到科大訊飛的核心技術就在於語音識別、語義理解、自然語音理解、機器翻譯、聲紋識別,其實在應用上的領域就比較好理解,比如智能可穿戴設備,智慧機器人,智慧型手機上的語音識別,最初級的應用就是語音識別,比如在法庭上的庭審記錄直接就可以把語音轉換為文字作為記錄,省去很大一部分的人力時間提升人工效率,智能語音客服可以回答80%左右的用戶問題等等
  • 文字轉語音助手怎麼實現轉換?教你用手機語音識別軟體處理
    文字轉語音助手也就是能夠把文本信息轉換成語音內容的工具,當我們開直播由於各種原因不便於說話時就可以藉助文字轉語音助手把想要講的內容以文字的信息將其轉換成語音。這種轉換方式其實可以歸納到語音識別處理一類中,而我們常用的錄音轉文字助手就是這樣的一種工具。
  • 加速度傳感器 語音密碼識別 原來手機是這樣「竊聽」的!
    更加弔詭的是,當你打開手機設置,想要關閉某些App的麥克風權限時,卻赫然發現這個App根本沒有這一權限。沒有授權麥克風,「偷聽」究竟是如何實現的!《IT時報》記者通過採訪發現,這並不是天方夜譚,至少有兩種目前已被發現的技術手段,完全可以讓手機App在未經授權的情況下「偷聽」你。
  • 您好,語音識別了解一下(文末評論有獎)
    語音識別也被稱為自動語音識別,其目標是將人類語音中的詞彙內容轉換為計算機可讀的輸入,例如按鍵、二進位編碼或者字符序列。簡單來講,即是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術,因此,常有人將其比作「機器的聽覺系統」。作為一門交叉學科,語音識別技術所涉及的領域十分廣泛,其中包括:信號處理、模式識別、概率論和資訊理論、發聲機理和聽覺機理、人工智慧等等。
  • 語音識別基礎,總有一天你會用到
    本文為PMCAFF專欄作者rui_liu出品語音交互將會成為新的入口,也是各大公司務必爭奪的資源之一,資源是指數據,不是技術,因為技術會開放,而有價值的有標註的數據才是制勝法寶。所以,pm們需要了解語音識別技術的基礎,總有一天你會用到,並且這一天不會太遠。
  • 語音識別技術的發展及難點分析
    語音識別技術的發展 與機器進行語音交流,讓它聽明白你在說什麼。語音識別技術將人類這一曾經的夢想變成了現實。語音識別就好比「機器的聽覺系統」,該技術讓機器通過識別和理解,把語音信號轉變為相應的文本或命令。
  • 亞馬遜首席科學家:揭秘 Alexa 語音識別技術
    年隨著 Tellme Networks 被微軟收購,加入微軟,推進商業語音識別技術的前沿研究;2011 年加入亞馬遜,擔任首席科學家,領導語音識別及相關領域的深度學習項目。以下是 Nikko Strom 在本次大會上的演講,雷鋒網在不改變願意的基礎上有刪減和補充。aKhednc先簡單介紹下我們的產品。如果你買了 Amazon Echo,意味著你可以通過 Alexa 語音識別系統控制它,並與它對話,而且不需要拿遙控器。左邊(下圖)是 Holiday Season,是我們新加入的白色Echo和Dot,相信在座應該有很多人比較偏愛白色的電子產品。
  • 玩人工智慧的你必須知道的語音識別技術原理
    在人工智慧快速發展的今天,語音識別開始成為很多設備的標配, 語音識別開始被越來越多的人關注,國外微軟、蘋果、谷歌、nuance,國內的科大訊飛、思必馳等廠商都在研發語音識別新策略新算法,似乎人類與語音的自然交互漸行漸近。
  • 手機輸入法竟有這麼多隱藏功能 揭秘訊飛輸入法背後的黑科技
    接下來,小編就帶著大家看看整個訊飛輸入法背後有哪些我們不知道的強大功能,並為大家揭開訊飛輸入法功能背後的人工智慧技術真相,了解下語音識別技術見長的訊飛,如何將時下流行的雲計算和AI技術運用在了手機輸入法中,讓上述科幻電影場景變為可能,成為人工智慧落地的典型。
  • 百度輸入法新增方言語音識別,看下有沒有你家鄉的方言
    每天都在用手機,你知道手機輸入法其實也蘊含著黑科技嗎,在AI時代百度輸入法也結合時代需求,將AI技術也融入到輸入法中。有了AI技術的 加持,百度輸入法在功能上得到了全面的升級,很多實用性功能大大提升了輸入效率。
  • 語音識別算法有哪些_語音識別特徵提取方法
    語音識別算法有哪些_語音識別特徵提取方法 網絡整理 發表於 2020-04-01 09:24:49   語音識別算法有哪些   本文列舉了幾種不同的語音識別算法
  • 語音識別技術簡史
    但是,我們一般理解的語音識別其實都是狹義的語音轉文字的過程,簡稱語音轉文本識別( Speech To Text, STT )更合適,這樣就能與語音合成(Text To Speech, TTS )對應起來。語音識別是一項融合多學科知識的前沿技術,覆蓋了數學與統計學、聲學與語言學、計算機與人工智慧等基礎學科和前沿學科,是人機自然交互技術中的關鍵環節。
  • 被稱作"智障"的人工智慧 光語音識別就花了100年
    前不久,中文版Bixby開始公測,雖然這並不是的首次發布,但卻意味著新的語音巨頭開始打入中國市場。在我們的測試中發現,擁有優良的識別率,可以實現語音開鎖、語音文本轉換,並且用戶可以通過語音對手機進行電話簡訊、軟體控制、第三方內容接入等各種各樣的操作。從某種意義上來說,手機已經實現聽懂人的語音。
  • 你試過嗎?其實語音輸入比打字快多了!
    現在我們手機上的很多軟體都有語音識別的功能,可是它們的口碑並不太好,少有人會真正用語音來輸入文字。
  • 你的手機夠智能嗎?三大手機語音助手對比,還是小米更勝一籌啊
    現在大家誰不是人手一部手機,有些甚至是一人手持兩、三部,手機那麼多,用了那麼久,你知道手機中都隱藏著哪些實用功能嗎?今天就從華為、小米、蘋果三款手機入手,一起來對下一下它們的語音助手,看看誰才是手機語音助手界的箇中強手。
  • iPhone手機語音轉文字的方法這麼多,你知道哪一個?
    相信大家都知道,現在使用iPhone手機的小夥伴越來越多了,不少小夥伴都覺得iPhone手機非常好用,也正是因為它的好用,不少小夥伴也都成為了iPhone手機的忠實粉絲。那大家在使用了這麼久的iPhone手機以後,知道我們要如何在iPhone手機中將語音轉換成文字呢?
  • 文字識別,語音輸入全場景應用解析,讓你的職場辦公效率狂飆
    我們可以用手機把要做成文檔的內容全部用手機拍成照片,然後用白描進行批量識別,最後直接導出電子版的文件,別人用一上午的時間才能完成的工作量,而你呢?10分鐘!,在OCR識別方面,在全世界是非常有名氣的。訊飛語記可以當做筆記本或者便籤使用,同時他最強大的功能就是可以把錄音內容快速轉換為文字,畢竟訊飛在語音識別領域確實在國內無人能敵,識別準確率很高,就算是中間出現了部分錯別字,修改幾個字和手打一整場會議講稿來說,要輕鬆的多。
  • 什麼是自動語音識別?
    自動語音識別(ASR)是一種將口語轉換為文本的過程。該技術正在不斷應用於即時通訊應用程式、搜尋引擎、車載系統和家庭自動化中。儘管所有這些系統都依賴於略有不同的技術流程,但這些所有系統的第一步都是相同的:捕獲語音數據並將其轉換為機器可讀的文本。
  • 語音識別的技術原理是什麼?
    常見的一種變換方法是提取MFCC特徵,根據人耳的生理特性,把每一幀波形變成一個多維向量,可以簡單地理解為這個向量包含了這幀語音的內容信息。這個過程叫做聲學特徵提取。實際應用中,這一步有很多細節,聲學特徵也不止有MFCC這一種,具體這裡不講。至此,聲音就成了一個12行(假設聲學特徵是12維)、N列的一個矩陣,稱之為觀察序列,這裡N為總幀數。
  • 微信語音識別團隊如何避免AI 把「久石讓」聽成「就是了」?
    原標題:《語音識別揭秘,如何讓微信「聽懂」你的心?》從 1972 年,一個孤獨程式設計師對著電腦敲下第一句「hello world」開始,人類與人工智慧的溝通與對話,便從未停止。人類真能教會冰冷的 AI,讓它聽懂我們的話語和呼喚嗎?我們始終憧憬與暢想,技術也正逐漸打破科幻與現實的分野。