快訊 | Facebook開源語音識別工具包wav2letter

2021-02-13 大數據文摘


今日凌晨,Facebook AI研究中心宣布開源語音識別工具包wav2letter!這是一款簡單高效的端到端自動語音識別(ASR)系統,wav2letter 實現的是論文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System 和 Letter-Based Speech Recognition with Gated ConvNets 中提出的架構。


16年11月,Facebook的三位研究者Ronan Collobert, Christian Puhrsch, Gabriel Synnaeve在arXiv.org上發布文章,正式提出了wav2letter。


文章中研究者介紹,這是一個簡單的端到端語音識別模型,結合了基於卷積網絡的聲學模型和圖解碼。其被訓練輸出文字,轉錄語音,而無需強制對齊音素。wav2letter還引入了一個自動的序列標註訓練分割準則,而不需要與CTC一致的對齊方式,這種方式更簡單。


項目代碼已經發布至GitHub,如果你想直接開始進行語音轉錄,你可以使用同時被開源的預訓練好的一些模型,前提是完成必要的安裝。當然,目前能識別的只有英文語音哦!


開原始碼GitHub連結:

https://github.com/facebookresearch/wav2letter


論文arXiv連結:

https://arxiv.org/abs/1609.03193


Facebook也發布了公開信介紹這一開源項目,包括該項目主要負責人Ronan Collobert、Facebook AI研究中心負責人Yann Lecan等在內的研究者都在推特上介紹了這一發布。



文摘菌摘錄了部分公開信內容如下:


我們剛剛開源我們的語音識別工具:wav2letter!


代碼地址:

https://github.com/facebookresearch/wav2letter


我們將其與在LibriSpeech語料庫中預先訓練的一些模型一起發布,支持我們的最新論文Letter-Based Speech Recognition with Gated ConvNets。


wav2letter是在Torch上編寫的一個簡單的工具包,簡化了對端到端語音識別系統的訓練,並提供了一個允許快速解碼的獨立解碼器。


它使我們能夠復現我們最近的3篇論文(詳見參考資料)。


敬請期待我們的更多研究。


Gabriel Synnaeve,Vitaliy Liptchinsky,Neil Zeghidour和Christian Puhrsch。


更多參考資料:


語料庫 LibriSpeech。

http://www.openslr.org/12


論文 Letter-Based Speech Recognition with Gated ConvNets。

https://arxiv.org/abs/1712.09444


論文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System。

https://arxiv.org/abs/1609.03193


論文 Learning Filterbanks from Raw Speech for Phone Recognition。

https://arxiv.org/abs/1711.01161

點擊圖片閱讀

GPS腳環計步、AI「雞」臉識別,如何確保自己吃到了一隻幸福健康的雞

相關焦點

  • 業界 | Facebook 開源語音識別工具包wav2letter(附實現教程)
    選自GitHub作者:Ronan Collobert等機器之心編譯參與:李亞洲、劉曉坤近日,Facebook AI 研究院開源了端到端語音識別系統wav2letter,本文是該架構的論文實現,讀者可據此做語音轉錄。
  • 開源自動語音識別系統wav2letter (附實現教程)
    是由 Facebook AI 研究團隊開源的一款簡單而高效的端到端自動語音識別系統,它實現了在 WavLetter:an End-to-End ConvNet-based Speed Recognition System 和 Letter-Based Speech Recognition with Gated ConvNets 這兩篇論文中提到的架構。
  • WAV2LETTER++:最快的開源語音識別系統
    合成算法QQ群(696554058) 本文介紹了最快的開源深度學習語音識別框架wav2letter ++。wav2letter++的代碼全是用C++編寫,同時為了最大提升效能使用了Array Fire 張量計算庫。在這裡我們將要說明這個系統架構和設計,並與其他一些主流的開源語音識別系統做比較。在某些情況下,wav2letter ++訓練時長比其他端到端的神經網絡語音識別框架快兩倍以上。同時,我們還展示了具有1億個參數的模型的wav2letter++在64 GPU上的訓練時間,這可是我們測試的最高值。
  • Facebook開源多款AI工具,支持遊戲、翻譯
    下面就是筆者為大家整理的完整的 Facebook 開源 AI 工具列表及 GitHub 地址。GitHub 地址:https://github.com/caffe2/caffe2ONNXONNX 是深度學習模型的一種開源格式,允許 AI 開發人員在最先進的工具之間輕鬆切換。
  • Facebook AI 研究院在無監督語音識別上取得新突破,wav2vec-U性能直逼監督模型
    FAIR使用斯瓦西裡語和韃靼語等語言對wav2vec-U進行了測試,這些語言目前尚無法使用高質量的語音識別模型,因為它們缺乏大量的帶標籤的訓練數據。結果表明,wav2vec-U有很好的廣泛適用性。圖靈獎得主、FAIR首席科學家Yann LeCun在推特上表示:事實證明,我們可以用不帶標籤的語音數據訓練語音識別系統。只需要一個文本轉音素系統來生成音素序列。
  • 有這5款開源軟體,語音轉文字很簡單!
    過去,語音轉文本技術由專有軟體和庫控制;開源替代方案不存在或存在極端局限,如今這種形勢已經發生變化,今天你可以使用許多開源的語音轉文本工具和庫,今天,我們就舉5個好用的開源語音識別庫。該項目由Mozilla開發,這是一個100%免費的開源語音轉文本庫,它使用了 TensorFlow 機器學習框架實現去功能。
  • Facebook第三代語音識別wav2vec-U,匹敵監督模型,Lecun看了都說好
    ,繼wav2vec, wav2vec 2.0以來,又出完全不需要監督數據的wav2vec-U,小眾語言也能用語音識別啦!為了解決這個難題,Facebook開發了一個全新的語音識別系統,wav2vec Unsupervised (wav2vec-U) ,這是一種完全不需要轉錄數據的語音識別系統的方法。它的性能已經能夠和幾年前最好的監督模型匹敵,而這些模型需要將近1000小時的轉錄語音的訓練數據。
  • PyTorch+Kaldi、專注E2E語音識別,騰訊AI Lab開源輕量級語音處理工具包PIKA
    PyTorch + Kaldi,騰訊 AI Lab 開源輕量級語音處理工具包 PIKA,專注於端到端語音識別任務。Kaldi 是一個開源的語音識別系統,由 Daniel Povey 主導開發,在很多語音識別測試和應用中廣泛使用。但它依賴大量腳本語言,且核心算法是用 C++ 編寫的,對聲學模型的更新和代碼調試帶來一定難度。
  • 對Azure Speech Services中語音情緒識別模型的探索
    在Azure人工智慧服務中,目前只有轉錄服務擁有語音情緒識別的功能。那麼,為什麼語音情緒識別功能沒有獨立服務,而需要依託於轉錄服務呢?     我們可以在微軟研究小組發布的語音情緒識別的混合模型的數據中找到線索。     從圖2中,我們可以看出相較於文本情緒識別85.5%的精確性,僅僅使用語音識別情緒的精確性只有49.7%。
  • 絕佳的ASR學習方案:這是一套開源的中文語音識別系統
    這篇文章介紹了一種開源的中文語音識別系統,讀者可以藉助它快速訓練屬於自己的中文語音識別模型,或直接使用預訓練模型測試效果。所以對於那些對語音識別感興趣的讀者而言,這是一個學習如何搭建 ASR 系統的極好資料。
  • Python在線語音識別速成案例 | 手把手快速嘗鮮百度語音技術SDK包 | 機器語音
    百度語音提供了語音識別、語音合成和語音喚醒等產品的SDK免費資源,是面向廣大開發者永久免費的開放語音技術平臺,且簡單易用,可以作為學習之餘練手的好去處。       本文以在線語音識別為例,基於Python開發環境,嘗試介紹一下如何使用百度語音識別資源。
  • ASRT:一個中文語音識別系統
    Tool,由AI檸檬博主開發並在GitHub上開源(GPL 3.0協議)。這個應用軟體包含Windows 10 UWP商店應用和Windows 版.Net平臺桌面應用,也一起開源在GitHub上了。在人類的交流和知識傳播中,大約 70% 的信息是來自於語音。未來,語音識別將必然成為智能生活裡重要的一部分,它可以為語音助手、語音輸入等提供必不可少的基礎,這將會成為一種新的人機互動方式。因此,我們需要讓機器聽懂人的聲音。我們的語音識別系統的聲學模型採用了深度全卷積神經網絡,直接將語譜圖作為輸入。
  • 2019年,這8款自動語音識別方案你應該了解!
    AI 前線導讀: 基於計算機的人類語音識別與處理能力,被統稱為語音識別。目前,這項技術被廣泛用於驗證系統中的某些用戶,以及面向谷歌智能助手、Siri 或者 Cortana 等智能設備下達指令。從本質上講,我們通過存儲人聲與訓練自動語音識別系統以發現語音當中的詞彙與表達模式。
  • Google、Facebook等不可錯過的 AI 開源工具,你想要的都在這裡!
    content_types%5B0%5D=blog1、LASER 【Stars:2k】增強版的 LASER是首個能夠成功探索大型多語種句子表徵的工具包,共包含 90 多種語言,由 28 種不同的字母表編寫。這項龐大的工作也引發了整個 NLP 社區的廣泛關注。該工具包將所有語言聯合嵌入到單個共享空間,而不是為每個語言單獨建立模型。
  • 又一批Linux內核組件與工具開源!來自Facebook!
    近日,Facebook 開源了一套解決重要計算集群管理問題的 Linux 內核組件和相關工具,這些項目覆蓋了資源控制、資源利用
  • Tensorflow官方語音識別入門教程 | 附Google新語音指令數據集
    李林 編譯整理量子位 報導 | 公眾號 QbitAIGoogle今天推出了一個語音指令數據集,其中包含30個詞的65000條語音,wav
  • FaceBook又開源了一個超級工具WDT
  • Python語音識別終極指南
    整合了語音識別的 Python 程序提供了其他技術無法比擬的交互性和可訪問性。最重要的是,在 Python 程序中實現語音識別非常簡單。早期語音識別系統僅能識別單個講話者以及只有約十幾個單詞的詞彙量。現代語音識別系統已經取得了很大進步,可以識別多個講話者,並且擁有識別多種語言的龐大詞彙表。語音識別的首要部分當然是語音。通過麥克風,語音便從物理聲音被轉換為電信號,然後通過模數轉換器轉換為數據。一旦被數位化,就可適用若干種模型,將音頻轉錄為文本。
  • 訊飛語音識別
    語音識別,科大訊飛提供了sdk和web api,相比於sdk還要下載安裝,web api顯然clean很多,只要直接通過http調用它的api就可以了。但web api有明顯的的限制,比如上傳的語音不能超過60秒,只支持8k和16k的採樣率,只支持單聲道。