科大訊飛劉聰:如何持續保持語音識別技術的領先

2020-12-28 中關村在線

    2020科大訊飛全球1024開發者節今天正式拉開帷幕,伴隨著AI的發展,我們得以更全面和細緻地洞察人們的生活習慣,並為人們提供更加智能和便捷的服務。在人工智慧的應用場景中,最重要的一個就是語音交互。針對這一點,科大訊飛AI研究院常務副院長劉聰做了細緻的講解,讓我們對當前語音交互技術有了更清晰和深入的了解。


科大訊飛AI研究院常務副院長--劉聰 

    我們知道語音識別是訊飛的傳統強項,從早期的呼叫、導航到2010年發布的訊飛超腦語音雲和輸入法,從而開啟了中文語音輸入的新時代。通過深度學習等框架持續的迭代效果,我們又陸續推出了方言識別、遠場交互、多麥克風陣列等相關的功能。2015年,我們又將人機互動的場景拓展到人人對話的場景。為此我們總結出三點,我們將語音聽寫從簡單場景的可用做到了通用。這種場景的好用,語音轉寫從原來的不好用,做到了像演講、會議、庭審等很多複雜場景的好用。像語音控制、命令喚醒,我們也是從簡單場景的可用,做到了複雜場景的好用。

    隨著現在語音識別在更多場景的應用,語音識別的下一步發展方向是什麼?又有哪些技術可以從實驗室場景走向成熟,還有哪些價值得我們發掘?


    首先,我們認為語音識別需要持續的去挑戰更加複雜的場景,去實現從語音到聲音,從單純的文字內容識別到音頻的全場景解析。例如現在我們在泛娛樂當中,直播、短視頻,我們可以看到這裡面有很多的更加複雜的聲音場景需要我們去解決。例如在直播的過程中,背景可能是複雜多樣的,可能有視頻聲、遊戲聲或者音樂聲。此外直播連麥的時候還會經常出現多人混疊的對話,這些對我們的語音識別都會有很大的影響。除此之外,這些視頻當中還會包含像笑聲、掌聲、各種音效等聲音,所以我們需要提出一些新的方案。當前的框架已經難以去解決這樣一個複雜的問題。

    針對這樣一個場景,我們一方面需要降低各種背景的噪聲對識別精度的影響。另外一方面,要有針對性的將我們感興趣的聲音提取出來。這裡我們也是展示了全場景音頻解析的整體方案。首先我們是通過多解析度特徵提取的聲音檢測方案,再結合我們的序列訓練,對一些相似聲音進行精細建模,可以實現將笑聲、音效等非語音的聲音和語音內容分離。針對包含語音的有效內容,我們也使用了語音降噪和分離的方案,綜合利用我們的聲音、文本、說話等信息,以及在有條件的情況下,還可以使用多模態的唇形、視線以及麥克風陣列的空間位置等信息來進行聯合建模。以上這些才能保證我們能夠持續保持語音合成以及語音識別技術的領先。


    與此同時,我們也和合作夥伴一起,不斷提升在直播等複雜場景上的語音識別效果,並且準確率從60%提到了85%。未來我們相關的技術也會在我們的開放平臺——訊飛聽見等上線。未來,我們會做得更好,請大家繼續期待。

本文屬於原創文章,如若轉載,請註明來源:科大訊飛劉聰:如何持續保持語音識別技術的領先http://dcdv.zol.com.cn/754/7548950.html

dcdv.zol.com.cn true http://dcdv.zol.com.cn/754/7548950.html report 2300     2020科大訊飛全球1024開發者節今天正式拉開帷幕,伴隨著AI的發展,我們得以更全面和細緻地洞察人們的生活習慣,並為人們提供更加智能和便捷的服務。在人工智慧的應用場景中,最重要的一個就是語音交互。針對這一點,科大訊飛AI研究院常務副院長劉聰做了細...

相關焦點

  • 劉聰:聽懂方言的AI,科大訊飛中文語音識別背後推手 | 榜單人物
    近年來,科大訊飛通過訊飛輸入法和訊飛聽見等產品逐漸為人所知。它們的語音識別表現之所以能夠在業界獨佔鰲頭,其背後的中文語音識別系統功不可沒。科大訊飛AI研究院常務副院長劉聰,就是打造相關技術的主要負責人之一,他曾在2016年、2018年帶領團隊連續包攬國際英文多通道語音分離和識別大賽 (CHiME-4、CHiME-5) 的所有項目冠軍。
  • 科大訊飛:「黑名單」無關痛癢,語音技術領先全球
    ,科大訊飛董事長劉慶峰就被列入「黑名單」公開回應,在最近結束的最權威的英文語音識別比賽中,科大訊飛再次蟬聯全球第一。在公司營收飛速突破的2019年,科大訊飛也正式進入人工智慧戰略2.0階段,除了繼續保持原有的技術領先、收入毛利增長、用戶數增長三大目標外,新增了人均效益提升的目標。科大訊飛試圖通過全面推進增量績效管理、實現業務聚焦,來提升經營效益,最終達到「在人員沒有大幅增長的情況下,保持收入和毛利快速增長」的目標,從而促使淨利潤的增速與收入和毛利匹配,利潤端的效益逐漸釋放。
  • 搜狗奪食科大訊飛語音識別
    而AI技術的進步,則能夠方便智能產品推進商業化。在語音識別領域,代表語音技術圈領先水平的INTERSPEECH為促進語音識別技術的進步,舉辦了2020屆語音識別挑戰賽。在今年舉辦的INTERSPEECH 2020 DNS挑戰賽中,搜狗以4.01的MOS評分奪得冠軍。AI降噪技術取得的喜人成績,讓搜狗在語音識別技術的商業化推進中有了更足的底氣。
  • 十年之後,科大訊飛終於「獨木成林」
    目前訊飛開放平臺上已經擁有 334 項 AI 產品及方案,連結了 230 萬合作夥伴共建人工智慧生態。在未來,如何持續保持語音合成語音識別技術的領先?如何用核心技術更好地助力價值兌現?在科大訊飛 AI 研究院常務副院長劉聰看來,AI 核心技術的發展和演進,與基礎算法、技術體系、場景理解三大關鍵要素息息相關。
  • 十年終成功,科大訊飛讓中國人工智慧走上新臺階
    澆灌十年,「AI科技樹」終於獨木成林藉此機會,我們也看到了這家深耕語音行業多年的中國企業,所取得的最新成績。目前訊飛開放平臺上已經擁有 334 項 AI 產品及方案,連接了 230 萬合作夥伴共建人工智慧生態。在未來,如何持續保持語音合成語音識別技術的領先?如何用核心技術更好地助力價值兌現?
  • 科大訊飛發布訊飛AI雲!認知中臺「花開」AI科技樹,1024計劃進階4.0
    四、劉聰:訊飛科技樹構建的五大方向在科大訊飛AI研究院常務副院長劉聰看來,AI核心技術需要遵循源頭化、體系化、可持續的發展,以在源頭技術上保持先進。因此,以基礎算法為主幹、以技術體系為生長方向、以場景理解為發展動力這三個要素,也是科大訊飛AI科技樹的構築過程,亦是訊飛核心技術發展的內在邏輯。會上,劉聰分別通過語音識別、語音合成、圖文識別OCR、行業認知智能等方面,為大家系統性地展示了科大訊飛的科技樹全景。
  • 科大訊飛發布訊飛AI雲!認知中臺「花開」AI科技樹,1024計劃進階4.0
    於繼棟談到,訊飛也將與行業龍頭一起打磨更符合場景化的方案、聯合賦能行業,逐步幫助客戶實施和雲運營,幫助企業提升效能。四、劉聰:訊飛科技樹構建的五大方向在科大訊飛AI研究院常務副院長劉聰看來,AI核心技術需要遵循源頭化、體系化、可持續的發展,以在源頭技術上保持先進。
  • 大橘財經:科大訊飛的AI科技樹——從直播場景識別到智能醫療
    在接下來的時間裡面,我們基於領先的核心技術,深入到醫療輔診的各個核心的剛需場景,去解決實際問題,核心指標有了大幅度的進步。 觀察者網·大橘財經訊(文/一鳴 編輯/周遠方)10月23日下午,在科大訊飛「全球1024開發者節」上,科大訊飛AI研究院常務副院長劉聰發表了關於「構築AI科技樹,煥新美好新生活」的主題演講。
  • 回顧科大訊飛「平臺化」十年:平臺開放開源,AI生態發展生生不息
    2010年10月28日,科大訊飛首次科大訊飛首次向行業發布基於網際網路和移動網際網路的語音識別和語音合成引擎,即「訊飛語音雲」。 科大訊飛副總裁於繼棟回憶道,「最初的訊飛語音雲只有語音合成和識別兩個通用能力。」到2012年,訊飛推出語音助手,在2012年到2013年一年間的裝機量就已經達到了1.2億。
  • 科大訊飛2019營收過百億 人工智慧關鍵核心技術保持國際領先水平
    科大訊飛董事長劉慶峰曾多次提及「要堅持源頭技術的核心引領作用」,近一年的國際環境也讓科大訊飛更加堅定了繼續走「頂天立地、自主創新」的道路。事實上,科大訊飛始終擁有國際領先的源頭技術,人工智慧關鍵核心技術也始終保持國際領先水平。
  • 科大訊飛語音識別中標工行總行電話銀行系統
    科大訊飛語音識別中標工行總行電話銀行系統 2011/03/30  CTI論壇(ctiforum)3月30日消息(記者 潘婷婷): 日前,從中國工商銀行總行(下簡稱工總行)傳來消息,科大訊飛語音識別解決方案唯一中標其電話銀行系統,這也標誌著繼採用科大訊飛語音合成系統之後
  • 從語音產業拓荒者到人工智慧國家隊,科大訊飛是如何煉成的?
    技術方面,科大訊飛堅持「頂天」策略,深耕語音領域,構建擁有自主智慧財產權的技術體系。目前,科大訊飛以感知智能+認知智能為兩大研究方向,在語音合成、語音識別、語音評測、圖文識別、機器翻譯等多項核心技術方面走在前列,在國際賽事中獲得近30項冠軍。
  • AI再次立功,科大訊飛語音識別率已達98%
    當時,據訊飛輸入法方面稱,這款在2010年推出的輸入軟體,集語音、手寫、拼音等多種輸入方式於一體,語音識別準確率已超97%,按照微軟方面的標準,97%已經是世界前茅的準確率。並且,科大訊飛訊飛輸入法產品總監翟吉博在12日的媒體見面會現場宣布:其用戶已經突破6億,準確率提升到98%,語音滲透率保持逐年上升態勢。
  • 人工智慧:科大訊飛語音交互技術世界第一
    如何才能避免這個問題呢?我想應該是科大訊飛突破了各種相關技術,其中可能之一就是語音交互技術。這步廣告操作,直接擴大了科大訊飛的市場,人人都在用高德導航,林志玲美妙的聲音響遍大街小巷。後來企業通過不斷的技術迭代,以及龐大市場的不斷反饋,現在科大訊飛的語音合成技術已經做到了1-2個小時就可以模擬出任何明星的聲音,甚至現在最短時間可以5分鐘模擬一個人的講話。
  • 用戶評價是最好的證明,科大訊飛翻譯機市場銷量一直保持領先
    用戶評價是最好的證明,科大訊飛翻譯機市場銷量一直保持領先    眾所周知,全世界各地有數以萬計的華僑生活在國外,受環境的影響,他們長年生活在國外,語言溝通方面自然沒有任何問題。    科大訊飛翻譯機自從上線以來,特別是3.0版本,因為功能豐富而且強大,所以備受用戶的青睞,銷量一直都保持領軍。通過人工智慧技術的植入,科大訊飛翻譯機展現出了更加多出色的性能,滿足了用戶的個性化翻譯需求。
  • 2020科大訊飛全球1024開發者節啟幕 A.I.生態發展生生不息
    在過去10年,訊飛開放平臺從早期的只有語音合成和識別兩個通用能力,到今天可以呈現334種更複雜的A.I.的能力;從最早不到10萬的應用終端數,到今天的20多億應用終端數;從最早創業者只有十幾個團隊創業者,到如今的150多萬開發者團隊。科大訊飛董事長劉慶峰表示,正是這樣一個又一個的登頂和攀登的過程,使開發者們看到了越來越遠、越來越大的未來。
  • 科大訊飛全球開發者大會召開:這些AI黑科技顛覆你想像
    科大訊飛全球1024開發者節希望用最新最全的人工智慧技術和產品促進跨行業連結、多領域碰撞、新技術開發,以科技之光、生態之念,立足當下、放眼未來。本次大會採取"合肥市·雲上見"的全新形式,科大訊飛董事長劉慶峰、國際歐亞科學院院士李世鵬、長光衛星技術有限公司董事長宣明、科大訊飛消費者事業群總裁胡國平等諸多AI人工智慧行業大咖出席了本次活動;同時還吸引了9118支隊伍參加"iFLYTEK A.I.
  • 技術過硬才是王道,科大訊飛翻譯機搭載最新的AI語音技術
    帶上科大訊飛翻譯機來一次說走就走的旅行也成為了不少出國遊愛好者的一致選擇。科大訊飛翻譯機自從上線以來,特別是3.0版本,因為功能豐富而且強大,所以備受用戶的青睞,銷量一直都保持領先。通過人工智慧技術的植入,科大訊飛翻譯機展現出了更加多出色的性能,滿足了用戶的個性化翻譯需求。
  • 關於科大訊飛對新一代語音識別系統技術原理的分析和介紹
    打開APP 關於科大訊飛對新一代語音識別系統技術原理的分析和介紹 發表於 2019-10-08 11:20:10 作為國內智能語音與人工智慧產業領導者
  • AI賦能行業數位化升級,科大訊飛全球1024開發者節啟幕
    從早期的只有語音合成和識別兩個通用能力,到今天可以呈現334種更複雜的A.I.的能力;從最早不到10萬的應用終端數,到今天的20多億應用終端數;從最早創業者只有十幾個團隊創業者,到如今的150多萬開發者團隊……科大訊飛董事長劉慶峰表示,正是這樣一個又一個的登頂和攀登的過程,使開發者們看到了越來越遠、越來越大的未來。