百度語音識別系統DeepSpeech 2:算法識別中英文

2021-01-08 環球網

【環球科技綜合報導】據Inside Bigdata網站11月27日報導,百度研究院(baidu research)宣布矽谷人工智慧實驗室 (SVAIL)已經開發出了一種新型語音識別系統——深度語音識別系統(Deep Speech 2)。該系統能通過簡單學習算法準確的識別英語和漢語。具體細節刊登在預印本在線資料庫arXiv.org,Deep Speech 2:英漢端對端深度語言識別。

SVAIL開發的深度語音系統於2014年發布,最初是為了改善在飯店、汽車、公共運輸等嘈雜環境下英語識別的準確度問題。SVAIL研究員改善了深度語音識別系統英語方面的性能,並讓其轉化成中文。很多情況下,中文版本都能達到高準確率。該系統現已可以大範圍應用於真實世界中,例如用於移動裝置的網絡搜索。

百度首席科學家吳恩達(Adrew Ng)評價稱,SVAIL已經證實端對端深度語言識別可疑用來識別差別顯著的語言,我們成功的關鍵就是使用高性能的計算技術,由於效率提升,之前需要花費兩周完成的實驗現在只需要一天。

報告還指出深度語音識別系統正在學習處理世界各地的不同英語口音,並且對許多口音進行了快速的改進,其中包括印度口音以及歐洲那些英語非母語的國家的口音。目前,廣泛應用於移動裝置的語音識別系統正遭受此系統的衝擊。(實習編譯:孫曉雪 審稿:陳薇)

相關焦點

  • 百度語音識別新算法準確率提升超30%,鴻鵠晶片彰顯AI落地新打法
    在發布會上,百度語音識別新算法和百度鴻鵠晶片的最新進展最引人注目。它們無疑是對進化和賦能兩詞最好的註解。 完全端到端,深度學習再次顛覆語音識別 在論壇上,百度語音首席架構師賈磊介紹了百度近一段時間的語音技術突破。
  • 百度ICML論文:端對端中英文語音識別!
    因為這種方法用神經網絡取代整個了手動設計的管道狀網絡,並讓我們得以適應的多種多樣的語音,包括噪音,口音和不同的語言。方法的關鍵是HPC技術的應用,使得以前要花幾個星期運行的實驗,現在只用幾天就得以運行。這使得我們更快地迭代以識別更好的架構和算法。其結果是,在一些的情況下,當以標準資料組作為測試基準時,我們的系統足以和人工錄音進行競爭。
  • 百度發布AI輸入法:語音識別精度提升15%支持凌空手寫
    【網易智能訊1月16日消息】今天,百度召開新品發布會,宣布百度輸入法AI探索版正式發布,這是一款默認輸入方式為全語音輸入,並調動表情、肢體等全感官輸入的產品。據了解,百度首先宣布了在語音技術方面取得的突破,流式截斷的多層注意力建模(SMLTA)已經將在線語音識別精度提升了15%,這一技術能夠解決傳統Attention模型在識別中的時延性,以及因此導致的無法進行大規模在線語音實時交互的問題。
  • 離線中英自由說 無網也能語音識別
    近日,AI實力強勁的百度輸入法又向業內投下一顆「重磅炸彈」——業界首發「離線中英自由說」功能。這項基於中英文SMLTA模型的創新功能,讓用戶在弱網甚至無網絡環境中,依然可以順暢地進行中英文語音混輸,且識別準確率和有網絡時一樣優秀,準確率超過98%。
  • 中英混合和六大方言語音輕鬆識別,百度輸入法讓你想怎麼說就怎麼說
    去年1月,百度輸入法用實力拉開了「AI·輸入 全感官輸入1.0」的序幕,今年1月,百度輸入法再次召開以「AI·新輸入 全感官輸入2.0」為主題的發布會。短短一年之後,百度輸入法就再次基於科技創新與功能創新,推出了一款主打全語音交互的AI輸入法產品。
  • 百度OCR通用中英文字符識別準確率達95%以上
    來源:格隆匯格隆匯11月1日丨百度大腦開放日OCR文字識別專場昨日在上海召開,百度AI技術生態部產品經理為開發者們詳細介紹了百度大腦最新的開放能力,百度視覺技術部韓鈞宇深入分享了百度大腦OCR文字識別方向的最新技術與趨勢,並邀請華夏保險上海分公司
  • 自動化所在語音識別研究中獲進展
    現有端到端語音識別系統難以有效利用外部文本語料中的語言學知識,針對這一問題,陶建華、易江燕、白燁等人提出採用知識遷移的方法,首先對大規模外部文本訓練語言模型,然後將該語言模型中的知識遷移到端到端語音識別系統中。
  • 儒博語音技術團隊斬獲 ASRU 2019中英文雙語識別比賽三等獎
    ASRU 2019 中英混雜語音識別挑戰賽最終結果近日出爐,儒博語音團隊憑藉在中英文聲學模型音素建模方面的傳統經驗,以及面向語言教育行業的人工智慧軟硬體整體解決方案儒博AI老師累積的中英文混合語料等業務數據,在此比賽中採用 TDNN-F 高效神經網絡建模技術對中英文音素分別建模,並通過大量實驗調整各種語言模型語料的權重和佔比,最終斬獲賽道二自由語言模型評測三等獎。
  • 吳恩達盛讚的Deep Voice詳解教程,教你快速理解百度的語音合成原理...
    :百度前段時間推出了語音合成應用 Deep Voice,雷鋒網也於近日回顧了百度在語音識別及語音合成的研究歷程《從SwiftScribe說起,回顧百度在語音技術的七年積累》,但對於不了解TTS的同學們來說,要理解 Deep Voice 同樣困難。
  • 百度、微軟的漢語英語識別準確率已分別超越人類
    近年來,隨著數據量的豐富和計算能力的提升,語音識別行業迅速崛起。據 TechCrunch 統計,僅美國至少就有 26 家公司在開發語音識別技術。美國眾多企業在技術上多年的積累使之佔據了絕對的行業優勢,但中國網際網路企業百度近年來在語音識別技術上持續發力,在漢語語音識別方面取得了領先世界的成績,已成為該研究領域當之無愧的領頭羊。
  • 君子動嘴不動手,百度輸入法離線中英文,語音混輸不再困難
    很多人是不是都習慣了用微信語音來進行文字的輸入,其實語音輸入確實是非常方便,特別是在目前AI功能加持下的語音,準確率與識別速度都很高,大大方便了內容輸入的速度,並且解放了雙手,動動嘴就可以進行輸入文字,特別是一些雙手不方便的場景,比如開車的時候就非常便捷。
  • ASRU2019大賽落幕,中英混雜語音識別技術取得新突破
    東南亞出行服務巨頭Grab、字節跳動、華為等國內知名企業及人工智慧數據服務商數據堂等為本次會議鉑金贊助商,將現場與國內外眾多科技名企和研究領域頂級專家共同探討人工智慧自動語音識別技術的新發展。眾所周知,目前語音識別領域面臨的重要挑戰之一——多語種混雜的語言現象,技術難點主要表現為:嵌入語受主體語影響形成的非母語口音現象嚴重、不同語言音素構成之間的差異給混合聲學建模帶來巨大困難、帶標註的混合語音訓練數據極其稀缺。為促進國內外語種混雜語音識別方面的研究,數據堂聯合中國計算機學會語音對話與聽覺專業組、西北工業大學音頻語音與語言處理研究組舉辦首屆中英混雜語音識別挑戰賽。
  • 百度上線英語語音輸入功能識別準確率高得驚人
    百度自研平臺開發實踐上萬小時數據的聲學建模  據百度技術人員介紹,Facemoji更新的英語語音輸入功能完全基於百度自研的深度學習平臺進行開發,使用上萬小時的語音數據進行模型訓練,識別結果快速準確。
  • 國產離線語音識別晶片哪家強?未來誰才是語音識別晶片NO.1
    公司主要從事麥克風陣列、音頻信號前處理、本地語音識別、IOT語音聲控、聲紋識別、雲端語義算法的技術開發與應用,提供從晶片、技術到方案一條龍的服務。 公司核心團隊來自IBM、 SONY、 Nuance、復旦大學、華東理工、上海交大、西工大、英國利物浦等知名企業和高校,現有員工50餘人,核心研發人員30餘人。
  • 手機發語音消息時,你的塑料普通話系統無法識別怎麼辦?
    可能很多朋友都會遇到這樣的問題,有時候不想打字,就想啟動語音輸入轉文字的功能,想省心省力,但是結果往往差強人意,語音輸入轉成的文字往往都是不通順的或者是識別錯誤的;或者是你的好友給你發來一段很長的語音你不想聽,想轉成文字,但是對方的塑料普通話系統根本無法識別,諸如此類的問題。
  • 被稱作"智障"的人工智慧 光語音識別就花了100年
    這不僅要相當完善的資料庫,滿足這樣的準確率還得效率較高的識別提取算法和自學習系統。當然這樣的數據我們要以辨證的眼光來看,俗話說,一句話百樣說,漢語言可謂博大精深;而且廠商給出的準確率數據的測試很難具備廣泛性,所以有些用戶在使用語音識別功能時發現它還很「弱智」,實屬正常。
  • 百度輸入法語音能中英文混輸了 這個痛點終於解決
    中關村在線消息:語音輸入法發展這麼多年,一個每天都可能遇到的痛點到現在都沒有解決,那就是中英文混輸,但現在百度輸入法有了新的突破。百度輸入法在今天上午的百度AI開發者大會2019主題演講中,百度語音技術部高級總監高亮展示了百度輸入法語音中英混輸的技術效果。
  • 基於百度EasyDL定製化圖像識別平臺的海洋魚類識別方法
    【方法】本文提出了一種基於百度EasyDL定製化圖像識別平臺的海底魚類識別方法。首先使用伽馬校正法和暗通道先驗算法對圖片數據進行預處理,提高圖片亮度和清晰度,接著利用百度EasyDL定製化圖像識別平臺構建初魚類識別模型,再使用數據增強等方法對模型進行調優,提高模型識別能力。
  • 語音識別領先企業專題及常見問題 - CSDN
    滴滴出行作為移動出行領域的一家領先的移動網際網路企業,也正積極布局和利用智能語音交互相關技術,如語音識別、語音對話理解、語音合成等,以便更好的為司機和乘客提供高質量服務,具體地,包含有司機智能助手和滴滴智能客服系統等應用產品。滴滴正在嘗試推出司機智能助手,為司機提供語音服務。
  • 算法推薦|在iOS14與Android11系統上,App開發如何實現人臉識別
    在算法類型的選擇上,大致有API和SDK兩類。考慮到如今App開發通常需要兼容多版本iOS和Android系統,所以算法最好能同時適配iOS14與Android11這兩個作業系統的最新版本。【適用App的人臉識別算法選型】API和SDK是人臉識別算法的不同應用形式,與識別準確率無關,取決於算法廠商究竟是開放可以調用人臉識別功能的接口(API),還是直接提供人臉識別軟體的安裝包(SDK)。API本質上是「在線請求,返回結果」:算法廠商將算法布置在雲端,把接口向有需求的公司開放。本地端只上傳照片,並接收結果。