ASR(語音識別)評測學習

2021-02-14 搜狗測試

小編新接觸語音SDK項目，SDK無UI、底層調用多個C++算法庫、提供的是AI服務。語音AI項目，識別效果是至關重要的一環，識別效果評測也是一項測試重點。為了制定一個專業、全面的效果評測的方案，小編學習了相關知識，對方案制定有了初步思路。希望對測試小夥伴有所幫助~~(●—●)

1、語音識別（Automatic Speech Recognition，ASR）

語音識別，也被稱自動語音識別，所要解決的問題是讓機器能夠「聽懂」人類的語音，將語音中包含的文字信息「提取」出來，相當於給機器安裝上「耳朵」，使其具備「能聽」的功能。

語音識別是一門涉及面很廣的交叉學科，它與聲學、語音學、語言學、信息理論、模式識別理論以及神經生物學等學科都有非常密切的關係。語音識別的目標是將人類的語音內容轉換為相應的文字。

2、語音識別基本流程、系統結構

語音識別原理的4個基本流程：「輸入——編碼——解碼——輸出」

語音識別系統本質上是一種模式識別系統，主要包括信號處理和特徵提取、聲學模型（AM）、語言模型（LM）和解碼搜索四部分。

評測模型，各家評測模型殊途同歸。下圖參考為例：

首先要有測試的數據集，測試的數據集也是有一段音頻和標註。標註的就是標註音頻內容，說的是什麼。注意：評測的數據集和訓練的數據集是嚴格隔離的。

準備好數據集後，SDK讀取數據集中的音頻（批量評測），每條音頻都嚴格按照待識別效果評測模塊的實際邏輯流程，得到每條音頻的識別結果，最後得到這個數據集的指標衡量的統計結果。

4、語音識別(ASR)評測指標

語音識別(ASR)評測指標：WER（字錯誤率）和SER（句錯誤率）

(1). WER 字錯誤率

為了使識別出來的詞序列和標準的詞序列之間保持一致，需要進行替換、刪除或者插入某些詞，這些插入、替換或刪除的詞的總個數，除以標準的詞序列中詞的總個數的百分比，即為WER。

公式為：

Substitution——替換（錯誤識別）

Deletion——刪除（漏識別）

Insertion——插入（多識別）

N——單詞數目（標註中含有字數總和）

結果比較示例：

比如下圖是某個小功能需求更換模型參數識別效果評測，其中一個測試集的WER統計。

(2). SER句錯誤率

SER表述為句子中如果有一個詞識別錯誤，那麼這個句子被認為識別錯誤。ASR句子識別錯誤的個數，除以音頻中句子總數即為SER

其計算公式如下所示：

1、語⾳識別準確率影響因素

影響到準確率的因素逐漸增多，其中主要因素有以下幾種：

(1). 說話人的口音、多語種混合識別（Code-switching,如中英混合等）等問題仍對識別性能影響較大。

(2). 語音方式：目前人機對話場景下，講話相對會收著說，吐字相對清晰，識別精度會有保證。但是自然對話場景下，斷斷續續（停頓造成的斷句錯誤）、吞音、咬字不清、語速快慢等問題對識別效果有影響。

(3). 語音場景（環境）：語音識別近講、遠講場景，環境噪音、混響等問題對識別效果影響很大。

(4). 識別領域：針對特定場景，需要預先對語言模型進行優化，確保領域內的專有名詞，語言習慣都能夠正確識別。

上述四項中，前三項與聲學模型相關，第四項與語言模型有關。

2、語⾳識別評測影響因素

(1). 聲音來源（人聲錄音聲廣播聲耳機麥克風單/雙通道/立體聲）

(2). 語種分類（普通話方言英語小語種混合語言）

(3). 語音內容/領域（日常話語非日常話語）【不同行業不同場景】

(4). 音色（男音女音）【不同年齡段的男/女音：兒童少年中年老年】

(5). 環境（室內室外公共場所安靜嘈雜回音）

(6). 音量（分貝值大小時大時小）

(7). 語音方式（哼唱斷斷續續正常說話咬字不清）

(8). 語速（快中等慢時快時慢）

(9). 錄入語音時長（0秒 1秒 1分鐘內 >1分鐘）

(10).對話方式（間隔連續單人多人）

(11).特殊發音（比如普通話中sh與s ping與pin l與n f與h）

評測方案具體設計流程

(1). 了解業務邏輯、實現流程，和針對具體評測項目的主流方法；

(2). 設計專項評測方案；

(3). 組內根據方案設計文檔進行討論、補充；與相關項目組成員組會溝通，確保所有內容的認知達成一致，且對評測方案認可通過；

(4). 完成專項評測方案，並撰寫評測報告；

(5). 根據需求變更或者版本變更定期更新維護專項評測。

1、ASR評測方案設計——確定測試場景（簡單舉例）

考慮評測的各種影響因素，需要先確定某些維度（下例），制定一個測試場景評測：

確定：語種分類（普通話）、聲音來源（人聲錄音）、對話方式（單人）、語音內容（日常話語）、音色（青年女音）、語音方式（正常說話）、語速（中等）、錄入語音時長（2分鐘）

距離聲源和麥克風之間的距離

角度聲源和麥克風之間的角度

中等語速每分鐘字數大約150左右

2、ASR評測方案設計——確定測試標準（簡單舉例）

3、ASR評測方案設計——製備輸⼊語料、選取數據集

目前現狀：標註數據集，數量有限，擴充、更新慢；

數據集要反映用戶的實際情況，做識別效果評測，需要更多、貼近用戶的數據集；

評測集拓展：新的語料來源：自己錄製；調研用戶top N的數據內容類型；收集⾼頻的badcase；

4、ASR評測方案執行——過程設計

小編所在項目的ASR評測需要基於語音SDK進行，具體執行方案還在修訂，遇到的問題和解決方案，小編在實踐總結後再總結分享~~

註：參考

https://blog.csdn.net/sty945/article/details/80438587

https://my.oschina.net/u/4594489/blog/4441264

https://www.zhihu.com/question/53001402/answer/148537722

MTSC2019

搜狗測試微信號：Qa_xiaoming

搜狗測試QQ粉絲群：459645679

相關焦點

Kaldi 學習基礎篇(三)--語音識別資料

機器器學習書籍主要針對的是HMM，EM，GMM、Tree等基礎算法學習。深度學習，主要在於學習深度學習基礎。語⾳音識別書籍這部分主要針對的是語音識別相關的內容
絕佳的ASR學習方案:這是一套開源的中文語音識別系統

機器之心編輯作者：AI檸檬博主語音識別目前已經廣泛應用於各種領域，那麼你會想做一個自己的語音識別系統嗎？這篇文章介紹了一種開源的中文語音識別系統，讀者可以藉助它快速訓練屬於自己的中文語音識別模型，或直接使用預訓練模型測試效果。所以對於那些對語音識別感興趣的讀者而言，這是一個學習如何搭建 ASR 系統的極好資料。
語音識別開源工具PyTorch-Kaldi:兼顧Kaldi效率與PyTorch靈活性

1 背景傑出的科學家和工程師們一直在努力地給機器賦予自然交流的能力，語音識別就是其中的一個重要環節。人類對語音識別技術的研究從上世紀 50 年代開始就未曾停止。在長期的探索中，一次次重大的技術突破逐漸讓語音識別技術進入我們的日常生活。今天的 ASR 技術水平是前所未有的。
微軟上線語音評測功能:基於Azure雲構建,賦能口語學習的教與學

5月中旬，在2020微軟Build開發者大會上，微軟上線了語音評測功能，該功能基於Azure語音服務Speech-to-text（語音轉文本）構建。用戶可以上傳跟讀文本和音頻對發音人的語音從準確度，流利度和完整度進行評測。在教育領域，尤其是口語學習方面，因具有高識別準確率、擬專家打分的高一致性，可以讓口語學習的教和學更加高效方便。
用Python 訓練自己的語音識別系統,這波操作穩了

作者 | 李秋鍵責編 | Carol封圖 | CSDN 付費下載自視覺中國近幾年來語音識別技術得到了迅速發展，從手機中的Siri語音智能助手、微軟的小娜以及各種平臺的智能音箱等等，各種語音識別的項目得到了廣泛應用。
馳聲AI語音開放平臺上線,首次公開中英文智能語音評測開發文檔

「智能技術消滅啞巴英語，讓教和學更高效」是馳聲的使命，為了讓更多的智能語言學習產品更便捷地接入馳聲技術，為此，馳聲首次公開所有自主研發的中英文語音評測內核開發文檔，助力教育品牌實現業務升級。　　馳聲中文口語評測內核文檔　　2007年，馳聲團隊創立於英國劍橋大學，始終專注於教育領域，用自主研發的語音評測技術一路引領行業，為全球182個國家和地區的智能語言學習產品和1.3億語言學習者提供評分糾音服務。
百度大腦遠場語音開發套件評測—快速上手,超讚語音交互體驗

我也是大概在18年末開始接觸到百度AI社區，通過使用文字識別、圖像識別等百度AI技術，逐步感受到了AI技術的強大，同時也感覺到了百度AI技術的進步：AI技術領域範圍越來越廣泛，識別速度越來越快，識別準確度越來越高。這次，有幸收到百度遠場語音開發套件的測評邀請，作為一個非測試專業人員，這裡我就自己的百度遠場語音開發套件使用過程及在使用過程中遇到的問題和大家分享一下，如有錯誤，請多多指教。
用 Python 訓練自己的語音識別系統,這波操作穩了

近幾年來語音識別技術得到了迅速發展，從手機中的Siri語音智能助手、微軟的小娜以及各種平臺的智能音箱等等，各種語音識別的項目得到了廣泛應用。
馳聲AI開放平臺上線,公開語音評測技術實用接入指南

馳聲中文口語評測內核文檔2007年，馳聲團隊創立於英國劍橋大學，始終專注於教育領域，用自主研發的語音評測技術一路引領行業，為全球182個國家和地區的智能語言學習產品和1.3億語言學習者提供評分糾音服務。
語音識別技術的發展及難點分析

在「863」計劃的支持下，中國開始組織語音識別技術的研究，並決定了每隔兩年召開一次語音識別的專題會議。自此，我國語音識別技術進入了一個新的發展階段。自2009年以來，藉助機器學習領域深度學習研究的發展以及大數據語料的積累，語音識別技術得到突飛猛進的發展。將機器學習領域深度學習研究引入到語音識別聲學模型訓練，使用帶RBM預訓練的多層神經網絡，提高了聲學模型的準確率。
【Github分享】語音交互、NLP相關資源分享

導語：本文是關於語音交互和NLP相關的代碼的論文、語料庫、代碼、項目、教學等資源連結。讀完本文需要10分鐘。lattice-word-length-distributionkaldi-lattice-word-indexkaldi-decoderslattice-remove-ctc-blankkaldi-lattice-searchhtk2kaldiparallel-kaldikaldi在線中文識別系統搭建
【pinpong庫控制硬體】之 Latte Panda一代—語音控制硬體

基礎篇連結：03【pinpong庫控制硬體】之 Latte Panda一代-1銜接上一篇的學習基礎上，我們這節課進行比較熱門的語音控制硬體。大家想一下語音對於語音控制有什麼了解，我們需要怎麼實現呢？語音識別技術，也被稱為自動語音識別Automatic Speech Recognition，(ASR)，其目標是將人類的語音中的詞彙內容轉換為計算機可讀的輸入，例如按鍵、二進位編碼或者字符序列。這裡我們調用了百度ai的語音識別技術，通過錄音中的特徵提取，調用已有的識別引擎，識別所輸入的語音，最終轉化成字符序列讓主板能夠識別，當識別到正確的指令時，就可以實現相應功能的控制了。
當外語學習用上智能語音

而依託智能語音技術的「網際網路+」計算機輔助教學系統涵蓋大量優質教學資源，不僅便於教師在課上開展豐富多樣的口語教學活動，積極調節課堂氛圍，也能滿足學生在課下進行自主性口語學習和語音訓練的需求。此外，計算機輔助教學系統可以通過機器的深度學習，模擬教師的評測標準和方法，實現對每名學生高效、實時的口語評價和問題診斷。
先進語音識別技術步步高T800點讀機簡評

由於現在父母們都很忙，照顧孩子的學習已經越來越困難了，因此已經有很多家長選擇了點讀機，來幫助孩子們提高學習成績。今天，筆者向大家介紹的一款步步高點讀機，型號為T800，而售價為980元，性價比較高，不過實際性能如何。不妨看看評測吧！
【乾貨】怎樣用深度學習做語音識別

加盟新智元，與人工智慧業界領袖攜手改變世界。【新智元導讀】吳恩達曾經預測當語音識別的準確率從95%上升到99%時，語音識別將會成為人類與計算機交互的新方式。歸功於深度學習，這4%的準確率的提升使得語音識別從難以實際應用的技術變成有無限的應用潛力的技術。
如果你也對語音交互感興趣,這裡有份書單可以參考

▼ 兩本技術類書籍6、《解析深度學習：語音識別實踐》理解語音識別技術的中文必讀書之一，作者是前微軟研究院首席研究員、語音識別及深度學習資深專家俞棟，以及人工智慧、機器學習、語音語言信號處理專家鄧力。內容相對偏理論，覆蓋了大部分語音識別知識，如果對語音識別底層技術感興趣可以參考學習。
語音識別技術概述

除了傳統語音識別技術之外，基於深度學習的語音識別技術也逐漸發展起來。本文對廣義的自然語言處理應用領域之一的語音識別進行一次簡單的技術綜述。概述自動語音識別（Automatic Speech Recognition， ASR），也可以簡稱為語音識別。語音識別可以作為一種廣義的自然語言處理技術，是用於人與人、人與機器進行更順暢的交流的技術。
...學習語音識別系統DeepSpeech,嘈雜環境下識別率超Google、蘋果

這項成果的名字叫做Deep Speech，是一款採用深度學習技術的語音識別系統系統。其獨特之處在於，它可以在飯店等嘈雜環境下實現將近81%的辨識準確率。 81%的準確率聽起來似乎不算高。但是同樣環境下，其他的商業版語音識別API，包括Bing、Google以及Wit.AI等的最高識別率也只有65%。相比之下這就算十分突出的表現了。
託福(R)考試採用先進的生物語音識別軟體

託福(R)考試採用先進的生物語音識別軟體，提高全球測試安全性新澤西州普林斯頓2012年5>月30日電 /美通社亞洲/ -- 創建託福® (TOEFL®) 考試的美國教育考試服務中心 (ETS) 宣布使用生物語音識別軟體來保持託福考試的公平和可靠性。
語音翻譯也能端到端?深度學習這條路有戲!

端到端技術是當前語音翻譯的研究前沿，科大訊飛聯合優化語音識別和機器翻譯的新技術路線，理論上更具前景，一旦技術研究成功，將為翻譯機器性能的提升帶來極大促進。提問：語音翻譯涉及哪些步驟？你或許會說，語音識別和機器翻譯——沒錯，傳統的語音翻譯通常採用語音識別和機器翻譯級聯的方式實現，對輸入語音先進行語音識別得到文本結果，然後再基於文本進行機器翻譯，這也是當前語音翻譯採用的主流方法。

ASR(語音識別)評測學習

相關焦點

Kaldi 學習基礎篇(三)--語音識別資料

絕佳的ASR學習方案:這是一套開源的中文語音識別系統

語音識別開源工具PyTorch-Kaldi:兼顧Kaldi效率與PyTorch靈活性

微軟上線語音評測功能:基於Azure雲構建,賦能口語學習的教與學

用Python 訓練自己的語音識別系統,這波操作穩了

馳聲AI語音開放平臺上線,首次公開中英文智能語音評測開發文檔

百度大腦遠場語音開發套件評測—快速上手,超讚語音交互體驗

用 Python 訓練自己的語音識別系統,這波操作穩了

馳聲AI開放平臺上線,公開語音評測技術實用接入指南

語音識別技術的發展及難點分析

【Github分享】語音交互、NLP相關資源分享

【pinpong庫控制硬體】之 Latte Panda一代—語音控制硬體

當外語學習用上智能語音

先進語音識別技術 步步高T800點讀機簡評

【乾貨】怎樣用深度學習做語音識別

如果你也對語音交互感興趣,這裡有份書單可以參考

語音識別技術概述

...學習語音識別系統DeepSpeech,嘈雜環境下識別率超Google、蘋果

託福(R)考試採用先進的生物語音識別軟體

語音翻譯也能端到端?深度學習這條路有戲!

先進語音識別技術步步高T800點讀機簡評