百面深度學習 | 第十四期:語音識別

2021-03-06 Hulu Beijing

[1] HINTON G, DENG L, YU D, 等. Deep neural networks for acoustic modeling in speech recognition[J]. IEEE Signal processing magazine, 2012, 29.

[2] GRAVES A, FERNÁNDEZ S, GOMEZ F, 等. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks[C]//Proceedings of the 23rd international conference on Machine learning. ACM, 2006: 369–376.

[3] MIAO Y, GOWAYYED M, METZE F. EESEN: End-to-end speech recognition using deep RNN models and WFST-based decoding[C]//2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU). IEEE, 2015: 167–174.

[4] CHAN W, JAITLY N, LE Q, 等. Listen, attend and spell: A neural network for large vocabulary conversational speech recognition[C]//2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016: 4960–4964.

相關焦點

  • 深度學習筆記 | 第16講:語音識別——一份簡短的技術綜述
    神經網絡和深度學習興起以後,循環神經網絡、LSTM、編碼-解碼框架、注意力機制等基於深度學習的聲學模型將此前各項基於傳統聲學模型的識別案例錯誤率降低了一個 level,所以基於深度學習的語音識別技術也正在逐漸成為語音識別領域的核心技術。語音識別發展到如今,無論是基於傳統聲學模型的語音識別系統還是基於深度學習的識別系統,語音識別的各個模塊都是分開優化的。
  • 【乾貨】怎樣用深度學習做語音識別
    加盟新智元,與人工智慧業界領袖攜手改變世界。【新智元導讀】吳恩達曾經預測當語音識別的準確率從95%上升到99%時,語音識別將會成為人類與計算機交互的新方式。歸功於深度學習,這4%的準確率的提升使得語音識別從難以實際應用的技術變成有無限的應用潛力的技術。
  • 基於深度學習的圖像識別進展
    :1.1深度學習特別適合處理大數據從統計和計算的角度看,深度學習特別適合處理大數據。【視覺機器人:在我看來深度學習本身就是一套系統一個架構,而不是一個單一的算法,有時候不能用深度學習和其他單一算法例如SVM算法比較,深度學習本身也是有抽取特徵的網絡部分】經驗1:豐富的圖像擾動是我們將關於圖像的先驗知識用於深度學習輸入端的有效手段經驗2:結構化損失函數是我們將模型化知識用於深度學習輸出端的有效方式經驗3:參數的稀疏化、圖像的多解析度通道
  • 阿里小蜜:語音識別、語義分析、深度學習在手機淘寶的實戰分享
    我們特別邀請阿里技術專家空無來深入分享下手機淘寶客戶端是如何用語音識別、語義分析、深度學習等AI技術打造阿里小蜜客服系統的。下為正文:一場人機大戰,讓全世界所有對人工智慧一知半解的人們變成了人類未來的擔憂者、段子手。「人機大戰」佔據著公眾的眼球,但人工智慧的價值已並不局限於「人機大戰」的全民話題中。
  • 依圖做語音了!識別精度創中文語音識別新高點
    技術上,在全球最大的中文開源資料庫AISHELL-2中,依圖短語音聽寫的字錯率(CER)達到3.71%[1],相比原業內領先者提升約20%,大幅刷新現有紀錄。產業上,依圖聯合微軟推出基於Azure雲服務的語音開放平臺,並攜手華為發布軟硬體一體化的「智能語音聯合解決方案」,將依圖語音識別技術提供給第三方應用開發者。
  • 讀書總結|深度學習圖像識別技術
    人工智慧是計算機科學的一個分支,它企圖了解人工智慧的實質,並生產出一種新的與人類智能相似的方式作出反應的智能機器,該領域的研究包括機器人、語音識別、圖像識別、自然語言處理和專家系統等。其中,在語音識別方面有語音助手、翻譯機及智能音箱等應用;在圖像識別方面有智能駕駛、人臉識別和醫學影像識別等應用。
  • 語音識別技術概述
    神經網絡和深度學習興起以後,循環神經網絡、LSTM、編碼-解碼框架、注意力機制等基於深度學習的聲學模型將此前各項基於傳統聲學模型的識別案例錯誤率降低了一個層次,所以基於深度學習的語音識別技術也正在逐漸成為語音識別領域的核心技術。語音識別發展到如今,無論是基於傳統聲學模型的語音識別系統還是基於深度學習的識別系統,語音識別的各個模塊都是分開優化的。
  • 語音識別技術簡史
    但是,語音識別自誕生以來的半個多世紀,一直沒有在實際應用過程得到普遍認可,一方面這與語音識別的技術缺陷有關,其識別精度和速度都達不到實際應用的要求;另一方面,與業界對語音識別的期望過高有關,實際上語音識別與鍵盤、滑鼠或觸控螢幕等應是融合關係,而非替代關係。深度學習技術自 2009 年興起之後,已經取得了長足進步。
  • 表情識別:從傳統方法到深度學習
    目前,深度學習已經在語音處理、計算機視覺、自然語言處理、醫療應用等方面取得重大進展。許多高校與科研機構已經開展了對深度學習的研究。Google 公司已經開發出許多基於深度學習的開源項目如自然語言解析器SyntaxNet,深度學習引擎TensorFlow,圖像分類工具TF-Slim等,這些系統是完全開源的,已經廣泛地用於多個領域。
  • ...學習語音識別系統DeepSpeech,嘈雜環境下識別率超Google、蘋果
    這項成果的名字叫做Deep Speech,是一款採用深度學習技術的語音識別系統系統。其獨特之處在於,它可以在飯店等嘈雜環境下實現將近81%的辨識準確率。 81%的準確率聽起來似乎不算高。但是同樣環境下,其他的商業版語音識別API,包括Bing、Google以及Wit.AI等的最高識別率也只有65%。相比之下這就算十分突出的表現了。
  • 語音識別巨頭Nuance的救贖之法
    在談人工智慧的時候,一定不能不談語音識別,在近幾年來,藉助機器學習領域深度學習研究的發展,以及大數據語料的積累,語音識別技術得到突飛猛進的發展。那麼在談論語音識別技術時就不得不提起一家公司,Nuance 公司,它是全球最大的語音識別公司。你可能沒聽過它的名字,但是你肯定知道蘋果的Siri,Siri就是由Nuance和蘋果公司合作開發的智能語音交互系統。
  • 深度神經網絡——中文語音識別
    這個過程主要採用了 3 種技術,即自動語音識別(automatic speech recognition,ASR)、自然語言處理(natural language processing,NLP)和語音合成(speech synthesis,SS)。語音識別技術的目的是讓機器能聽懂人類的語音,是一個典型的交叉學科任務。2.
  • 深度學習與圖像識別
    深度學習是近十年來人工智慧領域取得的最重要的突破之一。它在語音識別、自然語言處理、計算機視覺、圖像與視頻分析、多媒體等諸多領域都取得了巨大成功。本文將重點介紹深度學習在物體識別、物體檢測、視頻分析的最新研究進展,並探討其發展趨勢。 1.
  • ASR(語音識別)評測學習
    語音AI項目,識別效果是至關重要的一環,識別效果評測也是一項測試重點。為了制定一個專業、全面的效果評測的方案,小編學習了相關知識,對方案制定有了初步思路。希望對測試小夥伴有所幫助~~(●—●)1、語音識別(Automatic Speech Recognition,ASR)語音識別,也被稱自動語音識別,所要解決的問題是讓機器能夠「聽懂」人類的語音,將語音中包含的文字信息「提取」出來,相當於給機器安裝上「耳朵」,使其具備「能聽」的功能。
  • Kaldi 學習基礎篇(三)--語音識別資料
    機器器學習書籍主要針對的是HMM,EM,GMM、Tree等基礎算法學習。 深度學習基礎
  • 百度語音識別上線新版本 長語音轉寫告別時間限制
    隨著用戶對移動端語音功能需求的增長,開發者也開始紛紛將產品接入語音功能。目前,開發者多通過第三方接入語音識別技術,以減少研發時間、降低研發成本。但是,大部分公司提供的語音識別功能有時間限制,類似會議錄音、長語句等長語音識別成了難題,雖然市面上存在一些長語音識別技術支持方,但開發者需要為此支付大筆的技術接入費用,徒增業務成本。對於用戶,受「60秒」限制的語音識別功能往往無法滿足他們在生活、工作中的需求,這不僅影響他們使用語音識別功能的「興致」,同時會導致用戶對一些搭載了語音識別功能的產品「敬而遠之」。
  • 全球稀缺的Kaldi學習資料,《Kaldi語音識別實戰》給補上了!
    但是今天,博文菌還想給大家安利一部新的前沿著作,一部國內市場非常稀缺的技術教程、一份開發者們非常珍貴的學習資料、目前全球第一本關於Kaldi的著作———《Kaldi 語音識別實戰》在《Kaldi語音識別實戰》誕生之前,Kaldi 社區的活躍開發者們更關注推進核心技術,因此在文檔建設方面,還停留在項目早期的設計理念及核心概念階段,文檔稀缺,入門學習曲線異常陡峭。
  • 應用、算法、晶片,「三位一體」淺析語音識別
    雲知聲提供物聯網人工智慧技術,通過與格力等公司合作,把自己的語音識別技術集成到終端家電產品中,另外,雲知聲發布的『Pandora』語音中控方案,能夠大幅縮短產品智能化周期。啟英泰倫結合自己強大的硬體(終端智能語音識別晶片CI1006)及算法(深度學習語音識別引擎)優勢,提供離線與在線的整套語音識別方案,並在物聯網各個領域有廣泛的布局。
  • 「聊騷」屢禁不止,深度學習技術如何對抗語音色情?
    深度學習作為人工智慧領域的一個分支,受到了學者和工業界廣泛的關注。本文主要介紹基於深度學習的色情語音和 ASMR 語音的識別技術。根據業務需求,色情語音和 ASMR 語音屬於違禁內容,需要被自動攔截。我們的任務就是通過深度學習模型,從大量客戶傳入的語音中自動識別色情語音和 ASMR 語音。
  • 百度語音識別系統DeepSpeech 2:算法識別中英文
    【環球科技綜合報導】據Inside Bigdata網站11月27日報導,百度研究院(baidu research)宣布矽谷人工智慧實驗室 (SVAIL)已經開發出了一種新型語音識別系統——深度語音識別系統(Deep Speech 2)。該系統能通過簡單學習算法準確的識別英語和漢語。