語音識別 AI 挑戰賽上線:用深度學習三種結構,對 50 種環境聲音...

2021-01-13 雷鋒網

雷鋒網 AI 源創評論按:此前,AI 研習社(https://god.yanxishe.com )陸續推出了醫療、美食、安全等多個領域的圖像識別挑戰賽以及 NLP 方向的挑戰賽 30 餘場。在這過程中,各位 AI 大神在各個挑戰賽中不僅進一步提升了自己的編程實力,也為更多開發者留下了令人印象深刻、受益匪淺的作品。

據一些大神選手反饋,可以肯定的是比賽主題選取都很新穎且有實際意義,只是現在的他們已經不再滿足於初級難度的挑戰啦,並詢問我們是否能夠推出難度更高的比賽呢?

當然沒問題!這不,難度再次升級的「50 種環境聲音分類」的語音識別挑戰賽,來了!

深度學習與語音識別

在目前大多數語音識別應用中,深度學習是較為常見的一種方法。它通過模仿人腦結構,建立起了一個深層神經網絡;通過輸入層輸入數據,由低到高逐層提取特徵,建立起低級特徵到高級語義之間複雜的映射關係。

從而實現對輸入的複雜數據的高效處理,使機器可以像人一樣智能地學習不同的知識,並且有效地解決多類複雜的智能問題;例如:語音識別、圖像視頻識別、語言處理和信息檢索等領域。

根據深層神經網絡的構造方式、訓練方法等因素,我們將深度學習分為了 3 大類別:生成深層結構、判別深層結構以及混合深層結構。

深度學習與語音識別

深層神經網絡結構

一、生成深層結構

美國哲學家喬姆斯基將語言的結構分為「深層結構」和「表層結構」兩種結構。語言按一定的短語規則和句子規則生成深層結構 (語義介入),而深層結構經轉換規則處理後變成表層結構 (語音介入),於是轉換為了人類看得見聽得懂的話語。

而生成深層結構則是使得機器能夠通過學習觀測數據高階相關性,或觀測數據和關聯類別之間的統計特徵分布來實現模式分類,從而轉換為機器可以識別語言的一類深層結構。

DBN 的組成元件是受限玻爾茲曼機(RBM)

生成深層結構的代表模型是由 Geoffrey Hinton 在 2006 年提出深度信任網絡(Deep Belief Networks,DBN)。它由多層神經元構成,通過一層一層訓練其神經元間的權重,可以讓整個神經網絡按照最大概率來生成訓練數據。

此外,該模型除了可以使用 DBN 識別特徵、分類數據之外,它還可以被用來生成數據。

參考文獻:

《A Fast Learning Algorithm for Deep Belief Nets 》by Geoffrey E. Hinton and Simon Osindero.

https://www.mitpressjournals.org/doi/pdfplus/10.1162/neco.2006.18.7.1527 

二、判別深層結構

判別深層結構是通過直接學習不同類別之間的區分表達能力來實現模式分類的一類深層結構。其代表模型是卷積神經網絡(Convolutional Neural Network,CNN)。

目前在語音識別方向,deep cnn 算是其中較為熱門的方向,這和 CNN 的三個重要的思想架構,包括:局部區域感知、權重共享、空間或時間上的採樣有著極強的關聯。

 

CNN 模型

我們知道在通常情況下,語音識別都是基於時頻分析後的語音譜完成的,而其中語音時頻譜則具有較強的結構特點。而卷積神經網絡恰好提供了在時間和空間上的平移不變性卷積,將這一思想應用到語音識別的聲學建模中,則可以很好的克服語音信號本身的多樣性。

從這一角度來看,CNN 可以視為將整個語音信號分析得到的時頻譜,當作一張圖像來處理,然後再採用圖像中廣泛應用的深層卷積網絡對其進行識別。

參考文獻:

《ImageNet Classification with Deep Convolutional Neural Networks》by Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton.

http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf 

三、混合深層結構

混合深層結構是將上述生成深層模型和判別生成模式相結合而成的一類深層結構。在大部分混合深層模型訓練中,生成單元首先將模型參數初始化為近似最優解,再使用判別單元全局微調,從而解決高度複雜問題的建模與推廣問題。

例如:使用連續受限玻爾茲曼機(continuous restricted Boltzmann machine,CRBM)代替 RBM 對連續數據建模;將傳統 CNN 與貪心逐層無監督學習算法結合從而提高有標籤數據稀少時特徵提取器的訓練性能;用預訓練算法(CD 算法)提高 RBM 的訓練效率;或是採用全局優化算法解決深層神經網絡模型中收斂速度慢、易於過擬合等問題。

這一結構往往更加複雜,但最終取得的效果也更佳。曾有一些研究者在遷移學習的基礎上,將深度學習和機械學習相結合、並可在前端嵌入式實現的算法,使得最終環境聲音識別準確率達到 88%(比此前全球最佳算法提高了近 2 個百分點)。

混合深層結構語音識別結果對比

50 種環境聲音分類

在語音識別中,通常我們根據不同識別側重點,將任務細化為不同類別,如:音樂流派識別、說話者識別、說話者性別分類、語音種類分類等,從而提高語音識別的準確率。

在本次 AI 研習社(https://god.yanxishe.com/ )推出的挑戰賽中,我們選取了語音種類分類中的「50 種環境聲音分類」主題。

圖片來源:AI 研習社

開始時間:2020-2-21 09:00:00

結束時間:2020-3-20 23:59:59

本次比賽需要選手準確識別 5 種大類,共計 50 種小類的音頻,每個音頻文件時長 5 秒,格式為 wav。數據集來自 freesound.org 公開項目,從中手動提取,訓練集共計 1600 個,測試集 400 個。


5 大類語音分類詳情

其中數據集詳細文件格式如下所示:

文件名命名:{FOLD}-{CLIP_ID}-{TAKE}-{TARGET}.wav

數據集下載連結:

https://static.leiphone.com/sound_classification_50.zip

評審標準與獎金

最終提交結果文件如下所示,其中,第一個欄位位:測試集 ID(注意 ID 即文件名是從 0 開始的);第二個欄位:類別-數字 [0,49]。

Ps:結果文件建議使用 UTF-8(BOM)編碼~

(答案示例圖片使用 Notepad++打開)

整個比賽的評審完全透明化,我們將會對比選手提交的 csv 文件,確認正確分辨圖片數據,並按照如下公式計算得分,其中:

True:模型分類正確數量

Total :測試集樣本總數量

本次大賽依舊提供了基礎獎金池為 3000 元,共設置了三種獎項,包括:參與獎(30%)、突破獎(20%)、排名獎(50%);以上三種獎項均互不衝突,只要你足夠秀,全部拿走也是沒問題的!

每日 24:00,我們也會將最新結果更新在官網排行榜上,你可以隨時隨地查看自己的排名情況。

更多信息,可進入參賽主頁查看:

https://god.yanxishe.com/37 

雷鋒網(公眾號:雷鋒網) AI 源創評論 雷鋒網

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 語音識別 AI 挑戰賽上線:用深度學習三種結構,對 50 種環境聲音分類!
    這不,難度再次升級的「50 種環境聲音分類」的語音識別挑戰賽,來了!深度學習與語音識別在目前大多數語音識別應用中,深度學習是較為常見的一種方法。這一結構往往更加複雜,但最終取得的效果也更佳。曾有一些研究者在遷移學習的基礎上,將深度學習和機械學習相結合、並可在前端嵌入式實現的算法,使得最終環境聲音識別準確率達到 88%(比此前全球最佳算法提高了近 2 個百分點)。
  • 語音識別算法有哪些_語音識別特徵提取方法
    第三種:基於非參數模型的矢量量化(VQ)的方法   該方法所需的模型訓練數據,訓練和識別時間,工作存儲空間都很小。   但是VQ算法對於大詞彙量語音識別的識別性能不如HMM好。   在孤立字(詞)語音識別系統中得到了很好的應用。
  • .| 深度學習理論與實戰:提高篇(5)——深度學習在語音識別中的應用
    提起深度學習的再次興起,大家首先可能會想到2012年AlexNet在圖像分類上的突破,但是最早深度學習的大規模應用發生在語音識別領域。自從2006年Geoffrey Hinton提出逐層的Pretraining之後,神經網絡再次進入大家的視野。
  • 如何區分人工智慧、機器學習和深度學習?
    深度學習(Deep Learning)是一種機器學習的方法,它試圖使用包含複雜結構或由多重非線性變換構成的多個處理層(神經網絡)對數據進行高層抽象的算法。神經網絡是一組大致模仿人類大腦構造設計的算法,用於識別模式。神經網絡通過機器感知系統解釋傳感器數據,能夠對原始輸入進行標記或聚類等操作。
  • AI深度(續) | 3D人臉識別和雙目結構光慣導
    人工智慧的字面含義就是模仿人感知世界的能力,主要就包括計算機視覺、語音(識別)和文字(OCR)識別三種。目前市面上大多數的計算機視覺技術主要應用於人臉識別,由於視頻監控的發展趨勢和基礎,50多年的發展都是基於RGB監控攝像機的(用專業術語來講就是2D攝像機),也就是說大家常見的攝像機所拍攝到的視頻(實際上是每秒25幀的畫面)是平面圖像的,沒有深度,從而造成機器理解世界產生了巨大的限制,而每個健全的人擁有兩個眼睛(雙目),故而市面上出現了深度相機(攝像機)採用雙目架構
  • ZLG深度解析:語音識別技術
    語音識別已成為人與機器通過自然語言交互重要方式之一,本文將從語音識別的原理以及語音識別算法的角度出發為大家介紹語音識別的方案及詳細設計過程。語言作為人類的一種基本交流方式,在數千年歷史中得到持續傳承。近年來,語音識別技術的不斷成熟,已廣泛應用於我們的生活當中。語音識別技術是如何讓機器「聽懂」人類語言?
  • 百度上線英語語音輸入功能識別準確率高得驚人
    早前,百度國際旗下的輸入法Facemoji將「人文的溫度」帶入AI技術,在海外又更新並上線了一項最新的人工智慧成果——英語語音輸入功能。  百度自研平臺開發實踐上萬小時數據的聲學建模  據百度技術人員介紹,Facemoji更新的英語語音輸入功能完全基於百度自研的深度學習平臺進行開發,使用上萬小時的語音數據進行模型訓練,識別結果快速準確。
  • 騰訊AI Lab西雅圖實驗室負責人俞棟:語音識別領域的現狀與進展
    去年三月,語音識別和深度學習領域的著名專家俞棟宣布加入騰訊,擔任騰訊成立不久的騰訊 AI Lab 副主任及西雅圖實驗室負責人。舉個例子,如果一個模型用我的聲音做訓練,然後去識別你的聲音,效果就會很差。但是如果有一個模型,專門刻畫人聲的特點,並且在訓練的時候,就把「說話人身份」(Speaker ID)作為一個重要的變量放進去,那麼今後在識別其他人的時候,只要把說話人身份替換掉,就能獲得識別率的上升了。問題在於,這種對於變化的估算也會引入誤差,相對的性能還是會有損失。
  • 科大訊飛摘得ICFHR 2020數學公式識別挑戰賽冠軍
    提起科大訊飛,人們總津津樂道於「讓機器能聽會說」的先進智能語音技術。其實除此之外,科大訊飛的「攻城獅們」也一直致力於讓機器「能看會認」。近日,科大訊飛A.I.研究院聯合中科大語音及語言信息處理國家工程實驗室,以顯著優勢獲得ICFHR 2020 OffRaSHME數學公式識別挑戰賽冠軍。
  • ...為什麼說聲紋深度編碼把聲紋識別和其他語音關聯任務有機聯繫...
    在演講中,李明副教授先是從特徵提取,建立模型,魯棒性處理,分類器設計等幾個步驟介紹傳統聲紋方法,並隨後引出基於端到端深度學習框架的聲紋識別網絡設計。李明副教授提到,基於深度編碼的聲紋識別與傳統的參數化建模方法從結構上有一定的類比性,比如卷積神經網絡用於特徵提取,編碼層網絡用於計算統計量並得到固定維度的特徵向量,全連接網絡用於後端分類等。
  • 語音識別原理及其語音識別系統分類
    一、語音識別原理語言交流是人類一種天然的溝通模式。從兒童時代開始我們對語言的相關學習都是自發的,語言交流始終貫穿於我們的生活。它是那麼的自然以至於我們根本沒有發現這是一種多麼複雜的現象。因此,聲音會因為他們的口音、發音、清晰度、體積、速度等有著大幅的變動。人類希望能與機器進一步溝通,從而方便生產與生活,而在語音信號的傳輸過程中,我們不規則的語言行為方式會被背景噪聲和回聲,以及電特性(如話筒等電子設備)進一步扭曲。這一切可變性的聲音來源語音識別更加繁瑣複雜。
  • AI浪潮下,語音識別建模技術的演進 | 雷鋒網公開課
    主流聲學建模技術近年來,隨著深度學習的興起,使用了接近30年的語音識別聲學模型HMM(隱馬爾科夫模型)逐漸被DNN(泛指深度神經網絡)所替代,模型精度也有了突飛猛進的變化,整體來看聲學建模技術從建模單元、模型結構、建模流程等三個維度都有了比較明顯的變化,如圖5所示:
  • 語音識別的痛點在哪,從交互到精準識別如何做? | 雷鋒網公開課
    語義理解不只包含用戶說話意圖,還要包括內容的獲取,這樣才能在接下來的端點檢測、語音識別等交互過程中,共享信息,做到場景自適應,以提高準確率。完成語音識別和語義的理解後,機器需要通過語音合成,把信息傳遞給用戶。合成這一塊沒有太多需要展開的,訊飛提供了幾十種不同的發音人,而且支持不同情感進行朗讀,至於該以何種情境、情感進行播報,這是在語義理解中需要給出的信息。
  • 智能音箱大戰全面開火,那麼問題來了:如何成為一名全棧語音識別...
    語言學概論、語言哲學、語義最小論與語用多元論、語法化與語義圖等知識對於理解語言模型和語音交互 UI 設計非常有幫助。 計算機學信號系統、數位訊號處理、語音信號處理、離散數學、數據結構、算法導論、並行計算、C 語言概論、Python 語言、語音識別、深度學習等課程也是必備的基礎知識。
  • 語音識別技術簡史
    DNN-HMM主要是用 DNN 模型代替原來的 GMM 模型,對每一個狀態進行建模,DNN 帶來的好處是不再需要對語音數據分布進行假設,將相鄰的語音幀拼接又包含了語音的時序結構信息,使得對於狀態的分類概率有了明顯提升,同時DNN還具有強大環境學習能力,可以提升對噪聲和口音的魯棒性。簡單來說,DNN 就是給出輸入的一串特徵所對應的狀態概率。
  • 應用、算法、晶片,「三位一體」淺析語音識別
    語音識別後續的操作都是在VAD截取出來的有效片段上進行,從而能夠減小語音識別系統噪聲誤識別率及系統功耗。在近場環境下,由於語音信號衰減有限,信噪比(SNR)比較高,只需要簡單的方式(比如過零率、信號能量)來做激活檢測。但是在遠場環境中,由於語音信號傳輸距離比較遠,衰減比較嚴重,因而導致麥克風採集數據的SNR很低,這種情況下,簡單的激活檢測方法效果很差。
  • IROS 2019 機器視覺全球挑戰賽:賦予 AI 終生學習能力(附冠軍算法...
    目前基於大量數據集的物體檢測,分割和識別的計算機視覺應用也在人臉識別、智能家居、輔助工業製造等領域做出了突出貢獻。然而機器人視覺對於視覺算法的開發和落地提出了新的挑戰。通常情況下,基於深度學習的計算機視覺算法需要數據符合獨立同分布 (i.i.d) 的假設,也意味著需要訓練數據的任務單一化、樣本分布同質化、難度統一化。
  • 夏日專刊AI產品上新升級集錦,50餘項軟硬能力加速場景落地
    企業服務領域方案 乘風平臺(人臉通行考勤平臺)正式上線依託百度大腦人臉識別能力,提供端到端的一站式通行考勤的解決方案,可以滿足企業對智慧通行、無感考勤等場景的管理需求,實現跨地域、跨環境的人臉設備在線管理,適配多模態設備接入,實現端雲數據同步。
  • 科大訊飛DCASE挑戰賽奪冠,「A.I.+工業」前景廣闊
    攻克兩大難關奪得冠軍  DCASE挑戰賽是由IEEE(Institute of Electrical and Electronics Engineers)舉辦的聲音場景識別和事件檢測競賽,自2013年組織發起以來,至今已舉辦了六屆,是目前聲音事件領域最權威的競賽。
  • AI助力語音克隆,人和自己「對話」的障礙在哪?
    它擁有兩個深度神經網絡,第一個能夠將文本轉化為頻譜圖,第二個則負責將頻譜圖生成相應的音頻。而麻省理工評論則認為百度的技術則更進一步,百度在最近發布的新論文中表示,該技術只要通過一個半小時的語音數據的學習,就能「克隆」出原對象的聲音。