1、語音識別(Automatic Speech Recognition,ASR)
語音識別,也被稱自動語音識別,所要解決的問題是讓機器能夠「聽懂」人類的語音,將語音中包含的文字信息「提取」出來,相當於給機器安裝上「耳朵」,使其具備「能聽」的功能。語音識別是一門涉及面很廣的交叉學科,它與聲學、語音學、語言學、信息理論、模式識別理論以及神經生物學等學科都有非常密切的關係。語音識別的目標是將人類的語音內容轉換為相應的文字。
2、語音識別基本流程、系統結構
語音識別原理的4個基本流程:「輸入——編碼——解碼——輸出」
語音識別系統本質上是一種模式識別系統,主要包括信號處理和特徵提取、聲學模型(AM)、語言模型(LM)和解碼搜索四部分。
評測模型,各家評測模型殊途同歸。下圖參考為例:
首先要有測試的數據集,測試的數據集也是有一段音頻和標註。標註的就是標註音頻內容,說的是什麼。注意:評測的數據集和訓練的數據集是嚴格隔離的。
準備好數據集後,SDK讀取數據集中的音頻(批量評測),每條音頻都嚴格按照待識別效果評測模塊的實際邏輯流程,得到每條音頻的識別結果,最後得到這個數據集的指標衡量的統計結果。
4、語音識別(ASR)評測指標
語音識別(ASR)評測指標:WER(字錯誤率)和SER(句錯誤率)
(1). WER 字錯誤率
為了使識別出來的詞序列和標準的詞序列之間保持一致,需要進行替換、刪除或者插入某些詞,這些插入、替換或刪除的詞的總個數,除以標準的詞序列中詞的總個數的百分比,即為WER。
公式為:
Substitution——替換(錯誤識別)
Deletion——刪除(漏識別)
Insertion——插入(多識別)
N——單詞數目(標註中含有字數總和)
結果比較示例:
比如下圖是某個小功能需求更換模型參數識別效果評測,其中一個測試集的WER統計。
(2). SER句錯誤率
SER表述為句子中如果有一個詞識別錯誤,那麼這個句子被認為識別錯誤。ASR句子識別錯誤的個數,除以音頻中句子總數即為SER
其計算公式如下所示:
1、語⾳識別準確率影響因素
影響到準確率的因素逐漸增多,其中主要因素有以下幾種:
(1). 說話人的口音、多語種混合識別(Code-switching,如中英混合等)等問題仍對識別性能影響較大。
(2). 語音方式:目前人機對話場景下,講話相對會收著說,吐字相對清晰,識別精度會有保證。但是自然對話場景下,斷斷續續(停頓造成的斷句錯誤)、吞音、咬字不清、語速快慢等問題對識別效果有影響。
(3). 語音場景(環境):語音識別近講、遠講場景,環境噪音、混響等問題對識別效果影響很大。
(4). 識別領域:針對特定場景,需要預先對語言模型進行優化,確保領域內的專有名詞,語言習慣都能夠正確識別。
上述四項中,前三項與聲學模型相關,第四項與語言模型有關。
2、語⾳識別評測影響因素
(1). 聲音來源(人聲 錄音聲 廣播聲 耳機 麥克風 單/雙通道/立體聲)
(2). 語種分類(普通話 方言 英語 小語種 混合語言)
(3). 語音內容/領域(日常話語 非日常話語)【不同行業 不同場景】
(4). 音色(男音 女音)【不同年齡段的男/女音:兒童 少年 中年 老年】
(5). 環境(室內 室外 公共場所 安靜 嘈雜 回音)
(6). 音量(分貝值大 小 時大時小)
(7). 語音方式(哼唱 斷斷續續 正常說話 咬字不清)
(8). 語速(快 中等 慢 時快時慢)
(9). 錄入語音時長(0秒 1秒 1分鐘內 >1分鐘)
(10).對話方式(間隔 連續 單人 多人)
(11).特殊發音(比如普通話中sh與s ping與pin l與n f與h)
評測方案具體設計流程
(1). 了解業務邏輯、實現流程,和針對具體評測項目的主流方法;
(2). 設計專項評測方案;
(3). 組內根據方案設計文檔進行討論、補充;與相關項目組成員組會溝通,確保所有內容的認知達成一致,且對評測方案認可通過;
(4). 完成專項評測方案,並撰寫評測報告;
(5). 根據需求變更或者版本變更定期更新維護專項評測。
1、ASR評測方案設計——確定測試場景(簡單舉例)
考慮評測的各種影響因素,需要先確定某些維度(下例),制定一個測試場景評測:
確定:語種分類(普通話)、聲音來源(人聲錄音)、對話方式(單人)、語音內容(日常話語)、音色(青年女音)、語音方式(正常說話)、語速(中等)、錄入語音時長(2分鐘)
距離 聲源和麥克風之間的距離
角度 聲源和麥克風之間的角度
中等語速 每分鐘字數大約150左右
2、ASR評測方案設計——確定測試標準(簡單舉例)
3、ASR評測方案設計——製備輸⼊語料、選取數據集
目前現狀:標註數據集,數量有限,擴充、更新慢;
數據集要反映用戶的實際情況,做識別效果評測,需要更多、貼近用戶的數據集;
評測集拓展:新的語料來源:自己錄製;調研用戶top N的數據內容類型;收集⾼頻的badcase;
4、ASR評測方案執行——過程設計
小編所在項目的ASR評測需要基於語音SDK進行,具體執行方案還在修訂,遇到的問題和解決方案,小編在實踐總結後再總結分享~~
註:參考
https://blog.csdn.net/sty945/article/details/80438587
https://my.oschina.net/u/4594489/blog/4441264
https://www.zhihu.com/question/53001402/answer/148537722
MTSC2019
搜狗測試微信號:Qa_xiaoming
搜狗測試QQ粉絲群:459645679