雲從科技刷新一項語音識別紀錄:將 Librispeech 數據集上的錯詞率...

2020-12-12 雷鋒網

活動

企業:雲從科技

操作:刷新記錄

事項:雲從科技刷新一項語音識別紀錄

開發

企業:雲從科技

操作:刷新記錄

內容:雲從科技刷新一項語音識別紀錄

更多相關

雷鋒網 AI 科技評論按:10 月 29 日,雲從科技宣布在全球最大的開源語音識別數據集 Librispeech 上,將錯詞率(Worderrorrate,WER)降到了 2.97%,並將 Librispeech 的 WER 指標提升了 25%,超過阿里、百度、約翰霍普金斯大學等企業及高校,刷新了原先記錄。

將 Librispeech 數據集上的錯詞率降至 2.97%

Librispeech 是當前衡量語音識別技術的最權威主流的開源數據集,錯詞率(Worderrorrate,WER)是衡量語音識別技術水平的核心指標。

 DS2:百度,ESPnet:約翰霍普金斯大學,DFSMN-CE:阿里

雲從科技在 Librispeech 數據集上將錯詞率(Worderrorrate,WER)降到了 2.97%,較之前提升了 25%。這項成果有利於語音識別技術的進步,也有助於推動語音識別帶來良好的智慧交互體驗。

雲從科技此次推出的語音識別模型 Pyramidal-FSMN 融合圖像識別與語音識別的優勢,將殘差卷積網絡和金字塔記憶模塊的序列記憶網絡相結合, 能夠同時有效的提取空間和時間上不同粒度的信息,對比目前業界使用最為廣泛的 LSTM 模型,訓練速度更快、識別準確率更高。

語音識別技術近年進展

2017 年 3 月,IBM 結合了 LSTM 模型和帶有 3 個強聲學模型的 WaveNet 語言模型。「集中擴展深度學習應用技術終於取得了 5.5% 錯詞率的突破」。相對應的是去年 5 月的 6.9%。

2017 年 8 月,微軟發布新的裡程碑,通過改進微軟語音識別系統中基於神經網絡的聽覺和語言模型,在去年基礎上降低了大約 12% 的出錯率,錯詞率為 5.1%,聲稱超過專業速記員。相對應的是去年 10 月的 5.9%,聲稱超過人類。

2017 年 12 月,谷歌發布全新端到端語音識別系統(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),錯詞率降低至 5.6%。相對於強大的傳統系統有 16% 的性能提升。

2018 年 6 月,阿里巴巴達摩院推出了新一代語音識別模型 DFSMN,將全球語音識別準確率紀錄提高至 96.04%,錯詞率降低至 3.96%。

2018 年 10 月,雲從科技發布全新 Pyramidal-FSMN 語音識別模型,將錯詞率(Worderrorrate,WER)降低至 2.97%,較之前提升了 25%。

Pyramidal-FSMN 語音識別模型原理解析

雲從科技提出的新型網絡結構,能更加有效的提取空間和時間特徵的角度,為語音識別進一步發展提供了一些新的思路: 

  • 模型設計採用一種殘差卷積網絡和金字塔記憶模塊的序列記憶網絡相結合的結構; 

  • 訓練方式使用 lattice-free 最大互信息(lattice-free maximum mutual information,LF-MMI/Chain)與交叉熵(cross entropy,CE)損失函數相結合的多任務學習技術;

  • 解碼部分採取 RNNLM rescoring 的方式,利用 RNN 提取一個句子中的長期語義信息,從而更有效地幫助聲學模型得到準確的句子。

如下圖所示,作者採用了由 6 層 Residual CNN 和 10 層 Pyramidal-FSMN 相結合的網絡結構。前端網絡借鑑了圖像識別中經典的 Residual CNN 結構,更有效地提取特徵與時間相互的關聯信息,同時 skip connection 避免了 CNN 網絡加深之後梯度消失和梯度爆炸問題。在金字塔記憶模塊中,淺層的網絡主要聚焦於音素本身的特徵學習,所以只需抽取短時上下文信息,而深層的網絡由於已經學習到了足夠的固定時間的音素信息,需要學習長時間包括語義和語法特徵,所以深層抽取長時間的上下文信息。利用這樣的金字塔結構,既能減少參數,縮小模型結構,也能更加精巧的模擬人類處理語音信號的過程,提高識別效果。

在損失函數部分,作者採用了基於 LF-MMI 的序列性訓練方式。同時為了解決序列性訓練容易導致過擬合的問題,又引入了傳統的交叉熵損失函數,在 LF-MMI 輸出之外加入另一個輸出層作為一個正則技術,通過設置交叉熵的正則化係數,兩個目標能夠有效地學習並且避免過擬合問題。

最後,作者使用了 RNNLM rescoring 技術對解碼做進一步處理。在沒有 RNNLM rescoring 的情況下,Pyramidal-FSMN 已經達到了目前最好的結果,rescoring 之後又有了更進一步的提升。

聲學模型和 RNNLM 的訓練數據完全基於 Librispeech 和通用的語言模型數據集,並沒有額外引入其他的訓練數據這樣的「技巧」性策略。

論文地址:https://arxiv.org/abs/1810.11352

相關介紹:

LibriSpeech 數據集:世界最大的免費語音識別資料庫,包含文本和語音的有聲讀物數據集,由 1000 小時的多人朗讀的清晰音頻組成,且包含書籍的章節結構。雷鋒網雷鋒網(公眾號:雷鋒網)

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 澎思科技宣布車輛再識別(Vehicle ReID)成績刷新世界紀錄
    【TechWeb】12月19日,澎思科技宣布其車輛再識別(Vehicle ReID)技術在非受限場景車輛再識別數據集VERI-Wild上的成績刷新世界紀錄,並打破了VCIP 2019車輛再識別大型挑戰賽的最好成績。
  • Tensorflow官方語音識別入門教程 | 附Google新語音指令數據集
    李林 編譯整理量子位 報導 | 公眾號 QbitAIGoogle今天推出了一個語音指令數據集,其中包含30個詞的65000條語音,wav格式,每條長度為一秒鐘。這30個詞都是英文的,基本是yes、no、up、down、stop、go這類。
  • 繼行人再識別後,澎思科技車輛再識別(Vehicle ReID)技術刷新世界紀錄
    近日,澎思科技車輛再識別(Vehicle ReID)技術在非受限場景車輛再識別數據集VERI-Wild上的成績刷新世界紀錄,並打破了VCIP 2019車輛再識別大型挑戰賽的最好成績。
  • 依圖做語音了!識別精度創中文語音識別新高點
    新智元報導 編輯:聞菲【新智元導讀】依圖強勢進軍智能語音,聯合微軟發布語音開放雲平臺,攜手華為發布軟硬體一體化的智能語音聯合解決方案。依圖語音識別算法在全球最大開源中文資料庫AISHELL-2上詞錯率僅3.71%,比原業內領先者提升約20%,大幅刷新現有紀錄。比對各家語音識別算法,當今智能語音戰場,英雄唯訊飛與依圖爾?
  • 博觀智能ReID車輛識別達到97.59%,刷新多項世界紀錄
    在當今世界最大的車輛重識別數據集VERI-Wild上,博觀智能在首位命中率(Rank-1 Accuracy)、平均精度均值(Mean Average Precision,MAP)和MINP(Mean Inverse Negative penalty)三大指標上,均超越已公開的企業與科研機構,創造了新的世界紀錄
  • 阿里知產保護科技大腦一項技術刷新世界紀錄;曠視推出AI生產力平臺...
    風向早報廣電5G技術標準體系通過專家論證曠視推出AI生產力平臺Brain+覆蓋AI全流程研發安徽首條5G自動駕駛示範線路將開建第一款AI藥物誕生:英國公司「光速」製藥碾壓傳統研發阿里知產保護科技大腦一項技術刷新世界紀錄
  • ...學習語音識別系統DeepSpeech,嘈雜環境下識別率超Google、蘋果
    而且按照吳恩達的說法,這樣的結果依然低估了Deep Speech與其他語音識別系統的準確率差異,因為Deep Speech進行比較時還把其他語音識別系統那些返回空白字符串的結果排除在外了。而且Deep Speech跟頂級的學術型語音識別模型(基於流行的數據集Hub5』00建模)相比也高出9個百分點。
  • 絕佳的ASR學習方案:這是一套開源的中文語音識別系統
    這篇文章介紹了一種開源的中文語音識別系統,讀者可以藉助它快速訓練屬於自己的中文語音識別模型,或直接使用預訓練模型測試效果。所以對於那些對語音識別感興趣的讀者而言,這是一個學習如何搭建 ASR 系統的極好資料。
  • 澎思新加坡研究院異常行為檢測技術刷新世界記錄
    【TechWeb】12月31日,近日,澎思科技異常行為檢測(Anomaly Detection)技術在中佛羅裡達大學犯罪數據集(UCF-Crime)和上海科技大學校園數據集(ShanghaiTech Campus)兩個大規模異常檢測數據集上的成績刷新世界記錄。
  • 雲從科技提出Pixel-Anchor框架 取得OCR文字識別突破
    日前,雲從科技的自然場景OCR(文字識別)技術在ICDAR數據集上取得了多項最佳成績,特別對於東亞語言部分,該文本檢測框架的表現尤為出色,在多個子測試集上(包括中文)都獲得了第一。
  • 百度飛槳視覺能力再攀高峰,刷新史丹福大學DAWNBench四大世界紀錄
    2019開年以來,百度大腦視覺技術團隊在國際賽事上屢屢奪冠。繼ICME人臉106關鍵點檢測比賽奪冠、多目標追蹤挑戰MOT榜單第一等多項賽事傳來喜報後,百度大腦視覺技術團隊再露鋒芒,飛槳視覺能力再攀高峰,一舉刷新四項世界紀錄。  近日,百度大腦視覺技術團隊聯合百度智能雲,在史丹福大學舉辦的DAWNBench榜單中,刷新了四項世界紀錄。
  • 騰訊雲小微&騰訊雲智能鈦聯合團隊獲國際口音英語語音識別賽冠軍
    騰訊雲小微&騰訊雲智能鈦聯合團隊獲國際口音英語語音識別賽冠軍 近日,語音研究領域頂級會議Interspeech2020召開,在本次大會的口音英語語音識別挑戰賽上,騰訊雲小微
  • 深度神經網絡——中文語音識別
    這個過程主要採用了 3 種技術,即自動語音識別(automatic speech recognition,ASR)、自然語言處理(natural language processing,NLP)和語音合成(speech synthesis,SS)。語音識別技術的目的是讓機器能聽懂人類的語音,是一個典型的交叉學科任務。2.
  • 雲從科技與中科院聯合奪得ICCV 2019無人機目標檢測冠軍
    , SOT)"冠軍,再次刷新此項目的世界紀錄。這是繼今年三月份跨鏡追蹤(ReID)、3D人體重建技術、自然語言處理技術分別創造世界紀錄後,雲從科技在人工智慧領域再一次領跑全球。同時,這也是雲從科技第十四次獲得世界冠軍。
  • 使用Python和Keras創建簡單語音識別引擎
    我們在實驗中使用TensorFlow提供的語音指令數據集。我們將建立一個語音識別系統,它可以理解簡單的語音命令。您可以從此處下載數據集(kaggle.com/c/tensorflow-speech-recognition-challenge)。2.預處理音頻波在使用的數據集中,一些記錄的持續時間少於1秒,並且採樣率太高。
  • 在語音識別這件事上,漢語比英語早一年超越人類水平
    語音識別一直是國內外許多科技公司發展的重要技術之一,微軟的此次突破是識別能力在英語水平上第一次超越人類。在消息公開之後,百度首席科學家吳恩達就發推恭賀微軟在英語語音識別上的突破,同時也讓我們回憶起一年前百度在漢語語音識別上的突破。
  • UWSpeech語音翻譯系統了解一下
    現有的語音翻譯系統高度依賴於對應的文本:級聯模型(語音識別+文本翻譯+語音合成)需要對應的文本作為翻譯的樞紐;端到端模型則需要對應的文本作為輔助的訓練數據,通過額外的輔助識別任務來提升翻譯精度。然而世界上有成百上千種語言,其中大多數語言是沒有文字的,例如方言、少數民族語言等等。對於這些沒有文字的語言,先前的語音翻譯系統構建方法將不再適用。
  • 愛數智慧高難度對話測試集入選 LDC Catalog,助力語音識別
    愛數智慧此次入選的數據集由60名發音人在不同環境中錄製而成,發音人來自全國多個口音區,年齡段覆蓋均衡。作為測試集,該數據集可為多種對話類語音識別模型測試提供特徵廣泛的語音數據。AI巨頭髮力多輪對話研究,對話數據集需求爆發AI巨頭在應用層的拓展推動對話類數據集需求迎來爆發期。
  • 語音識別技術簡史
    但是,我們一般理解的語音識別其實都是狹義的語音轉文字的過程,簡稱語音轉文本識別( Speech To Text, STT )更合適,這樣就能與語音合成(Text To Speech, TTS )對應起來。語音識別是一項融合多學科知識的前沿技術,覆蓋了數學與統計學、聲學與語言學、計算機與人工智慧等基礎學科和前沿學科,是人機自然交互技術中的關鍵環節。
  • INTERSPEECH2020口音英語語音識別技術挑戰賽 數據堂喊你開賽!
    當前階段,標準英語ASR系統已經能夠獲得較高的識別正確率,滿足一定場景的商用要求,但是口音英語識別仍然是具有挑戰性的課題,商用系統往往通過大量的口音標註數據覆蓋來緩解口音帶來的識別性能影響。  口音語音識別面臨著口音本身的不一致性、語速與音素髮音的多變性帶來的建模難題。另外,帶有口音標註的語音數據的短缺也嚴重限制了相關研究的開展。