中科院聲學所:譜寫智能語音和諧樂曲

2020-12-14 人民網

原標題:譜寫智能語音和諧樂曲

不久前,中科院聲學所研究員顏永紅帶領團隊,為其實驗室——中科院語言聲學與內容理解重點實驗室(原名中科院聲學所中科信利語音實驗室)舉行了13周年慶典。

而就在最近,他們又增加了一個慶祝的理由:該實驗室和中科院新疆理化所合作開展的「基於海雲計算的智能語音處理系統」獲得2014年度中科院傑出科技成就獎。

這是該實驗室在智能語音領域結出的又一枚碩果。

「老」研究上的新突破

此次獲獎的「基於海雲計算的智能語音處理系統」項目,是顏永紅團隊在智能語音領域多年成果的延續。

他告訴記者,該課題於2008年立項。當時,恰逢中科院副院長陰和俊正在謀劃為新疆做點事。為響應號召,顏永紅課題組便與新疆理化所合作開展該項目。

如今,「雙語教學輔助軟體」成為該系統最為人熟知的應用。同時,「基於海雲計算的智能語音處理系統」還被用於國家安全領域。

「現在『雙語教學』軟體已經很成熟,課題也在2014年告一段落。」顏永紅說,「但這只是理論上的結束,我們的研究工作還在進一步深入。」

在顏永紅看來,「基於海雲計算的智能語音處理系統」不是單一課題,而是許多研究內容的結合。「這是在多年智能語音系統研究基礎上取得的新突破。」

「沒有大的團隊,做不了大的事情」

短短13年,中科院語言聲學與內容理解重點實驗室已成為世界上最先進的智能語音實驗室之一。「沒有什麼捷徑,我們是一點一點靠競爭活下來的。」顏永紅說。

此次獲獎項目的主要完成者之一張鵬遠,在2004年到聲學所攻讀博士學位,並成為顏永紅的學生。如今已是副研究員的他向記者回憶說:「我剛來時,實驗室也不過十幾個人,在一層的小房間裡。但實驗室會抓住每個項目鍛鍊大家。我記憶特別深刻的是,有一次接到北航的項目,有10萬元,那時候絕對是大手筆,大家都下決心要好好完成。」

令顏永紅自豪的另一件事情是,不同於其他實驗室一個課題組一個帳本,語言聲學與內容理解重點實驗室自成立之初便是一個集體、一個帳本。「我們實驗室有90多位工作人員、40多名學生。這麼大的實驗室,到現在也只有一個帳本。」在顏永紅看來,沒有大的團隊,做不了大的事情。

在這樣的理念下,顏永紅帶領著「大團隊」在智能語音領域摘得一個又一個果實:2004年,研發出國內第一款手機語音助手;2006年,開發出國內第一個電信級語音識別引擎;2007年,在步步高、諾亞舟學習機中應用中國第一款語音發音評估矯正軟體;2009年,研發出國內第一個語音雲,並將其應用於百度語音搜索;2010年,在即時通訊領域開發大規模語音輸入,並在騰訊QQ中應用;2013年,研發出中國第一款智能語音客服系統,應用於阿里巴巴……

因為興趣的堅持

如今,智能語音行業炙手可熱,研究院所面臨著企業來「挖人」的現象。顏永紅和他的團隊也不例外。

顏永紅的學生、此次獲獎項目的主要完成者之一張晴晴告訴記者,如今她和張鵬遠帶的一些學生一畢業便會被大公司挖走。

另一位課題主要完成者、2009年通過中科院海外引進人才來到聲學所的周若華也表示,雖然與中科院其他研究所相比,實驗室的待遇並不算差,但和大公司還是有很大差距。「所以,留下來堅持作研究的都是真的喜歡這個領域,是因為興趣。」

留下作研究就要面臨做科研的困難。「做科研,晚上加班是家常便飯。」顏永紅說,「我們實驗室一周七天經常燈火通明。當然,為課題作必要的付出是常有的事。」

2008年從北大本科畢業來到聲學所碩博連讀的李鑫,一到聲學所便參與到「基於海雲計算的智能語音處理系統」課題中。為了「雙語教學」軟體的開發,李鑫從2008年開始自學維語發音。

正是在興趣的驅動下,團隊成員在智能語音領域取得了豐碩的成果。

如今,顏永紅和他的團隊除了開展國家相關課題,還積極參與民用智能語音的應用工作。「我們基本上每年做一個新產品,一定是最前沿的技術和引領性的應用。」顏永紅認為,在多媒體時代,智能語音處理技術前景大好,但這些技術在民用市場的應用還不夠廣。「原因有兩個:一是智能語音處理技術計算量太大,使用成本還相對較高;二是該項技術還沒有足夠好。因此,智能語音在民用市場的普及還需要一段時間。」(王俊寧)

相關焦點

  • 阿里籌建兩個實體聲學實驗室,前中科院研究員付強帶隊加盟
    阿里巴巴又招來一位「大牛」,計劃推進語音識別技術的場景落地。5月3日,阿里巴巴宣布全資收購語音解決方案創業公司北京先聲互聯科技有限公司(以下簡稱先聲互聯),先聲互聯創始人、中科院聲學所前研究員付強博士,近日入職阿里達摩院機器智能技術實驗室,負責語音交互前端處理技術和方案的研發。
  • 百靈聲學推出語音互聯耳機
    近日,百靈聲學2019戰略發布暨新品首發儀式在深圳南山軟體產業基地落幕,此次發布會以「百靈新聲,語音互聯」為主題,探索語音交互賽道的創新機會並發布百靈聲學的戰略規劃
  • 各路大咖共探:智能語音技術如何與家電產品深度融合?
    作為「智能家電語音交互與識別技術「系列活動的首站,本次會議以「協同、創新」為主題,吸引了來自中科院聲學所、科大訊飛、美的、海思、格力、海信、丹麥Brüel & Kj r、愛數智慧等企業、機構的二十多名專家、學者、高級工程師參會。
  • 聲學所提出一體化降噪與混響消除算法
    聲學所提出一體化降噪與混響消除算法 2020-11-23 聲學研究所 【字體:大  為了同時抑制環境中存在的噪聲與混響,中國科學院聲學研究所語言聲學與內容理解重點實驗室的碩士生宋思遠與其導師、研究員李軍鋒等,提出一種融合多通道加權預測誤差與多通道維納濾波的一體化降噪與解混響算法。
  • 小米聲學語音技術實現全面自研
    IT之家6月22日消息 根據小米官方的消息,小米的聲學語音技術已經實現全面自研,官方稱「自研部分領域持續領先,聲學語音技術已迎來全新時代」。小米官方提到了聲學語音的4項技術實現了業內突破:1.語音交互實現「情感化」:業內首家情感化TTS大規模落地2. AIoT放音技術升級:首次實現一句話全屋同步播放相同音頻功能3. 就近喚醒全新升級:業內首次上線跨設備關閉鬧鐘功能4.
  • 深度:中科院AI勢力崛起
    例如,當前處在國內語音交互領域第一梯隊的雲知聲,2012年時就已將深度學習技術應用到語音識別領域,隨後還提出了面向物聯網的「雲端芯」產品體系構想。雲知聲自主研發的雲知聲開放平臺3.0,利用語音識別、語義理解、語音合成和音頻轉寫等技術,為移動物聯網、智能家電、可穿戴設備和醫療等領域提供AI語音解決方案。
  • 智能音箱聲學語音技術完全自研,背後是那個你不了解的小米
    當然,作為小米的第九款音箱,當中也融入了小米更多的自研聲學語音技術,比如支持全屋播放、就近喚醒等功能。設想一下,用戶直接對小愛同學發出「全屋播放」的指令,不必打開APP,房間裡面所有音箱產品都能播放同一首歌曲。
  • 百靈聲學2019戰略發布暨KULARK語音互聯耳機全球首發
    2019年6月18日,百靈聲學2019戰略發布暨新品首發儀式在深圳南山軟體產業基地圓滿落幕,此次發布會以「百靈新聲,語音互聯」為主題,探索語音交互賽道的創新機會並發布百靈聲學的戰略規劃,同時隆重推出新品牌KULARK,全球首發KULARK語音互聯耳機,京東、有贊商城、十號街同步預售
  • 拆解報告:百靈聲學語音互聯真無線耳機
    -----我愛音頻網拆解報告第242篇----- 百靈聲學是一家專注於智能聲學和語音交互的人工智慧公司6月份,百靈聲學在深圳南山軟體產業基地成功舉辦了 2019 戰略發布暨新品發布會,此次發布會以百靈新聲,語音互聯為主題,探索語音交互領域的創新機會並發布了百靈聲學的戰略規劃,同時重磅推出品牌新品——百靈聲學首款語音互聯耳機以及自研APP語音助手。現在,請跟著我愛音頻網的拆解,來深入地了解這款耳機。
  • 「心有靈,一點通」,百靈聲學首款語音互聯耳機橫空出世
    百靈聲學語音互聯耳機,不只是耳機,更是心意相通的生活伴侶。」百靈聲學耗時2年精心打造的首款語音互聯耳機,產品一亮相就創造多項業內第一。耳機內置自研的APP語音助手,首款立體環繞聲,左右耳可任意切換,支持NFC連接配對。百靈聲學 ·語音互聯耳機
  • 智能音箱界誰最智能?且看看中科院的權威評測結果
    近日,國內最高科技學術機構中科院首次在國家機構層面對市場主流智能音箱產品的智能性進行了評估。其物聯網研發中心發布的《智能音箱智能技術分析與成熟度評價》報告是國內最具權威性和影響力的智能音箱報告。參與中科院評估的智能音箱產品來自百度、阿里、騰訊、小米四家國內網際網路龍頭企業,其產品佔據了國內智能音箱市場的主要份額。
  • 聲學——科學、技術與藝術
    現在我們知道,語音產生動力源於肺,肺產生壓縮空氣,然後通過氣管、喉、口腔、鼻腔、牙齒、嘴唇等等這一套器官調製以後,再噴射出來,就產生了語音。專業的歌手發出樂音時,還要使用胸腔,而不僅僅是喉嚨。目前的聲波產生機制研究前沿,主要包括流致噪聲、結構聲輻射和熱聲學等幾個方面。流致噪聲研究的是流體的流動所產生的噪聲,其應用很廣,當前最困難的問題是湍流所產生的無規噪聲。
  • 聲學所提出基於五模材料的準各向同性水下聲學隱身毯
    聲學隱身毯是一種隱形裝置,它能將放置在反射面上的物體隱藏起來,從而不會被聲波探測到。因此,聲學隱身毯在聲學通信和探測中有著重要的應用。  中國科學院聲學研究所噪聲與振動重點實驗室研究員楊軍團隊利用五模材料超流體設計了一種各向同性水下聲學隱身毯。
  • 一文讀懂智能語音前端處理中的關鍵問題
    雷鋒網編者按:本文由極限元(微信號:極限元)智能科技語音算法專家、中科院-極限元「智能交互聯合實驗室」核心技術人員、中科院自動化所博士劉斌整理分享,後續將會為大家分享更多智能語音技術的研究、應用等一系列的優質內容。
  • 2018北京中科院聲學所超聲技術中心分析化學工程師招聘公告【招1人】
    為貫徹落實中科院「率先行動」計劃,推進聲學所科技發展,吸引和凝聚人才,本著「按需設崗,按崗聘任,競爭擇優」及「公開、公平、公正」的原則,現就超聲技術中心相關工作進行公開招聘。誠摯地歡迎有識之士加盟我們的行列!
  • 語音識別技術的發展及難點分析
    我國的語音識別研究起始於1958年,由中國科學院聲學所利用電子管電路識別10個元音。由於當時條件的限制,中國的語音識別研究工作一直處於緩慢發展的階段。直至1973年,中國科學院聲學所開始了計算機語音識別。 進入上世紀80年代以來,隨著計算機應用技術在我國逐漸普及和應用以及數位訊號技術的進一步發展,國內許多單位具備了研究語音技術的基本條件。
  • 中科院聲學計量測試站通過國家認監委檢驗檢測機構資質認定飛行檢查
    中科院聲學計量測試站通過國家認監委檢驗檢測機構資質認定飛行檢查 2017-06-14 聲學研究所 語音播報
  • 佳禾智能,智造未來
    2016年9月蘋果發售的AIRPODS引爆了整個耳機領域,讓全世界看到了TWS智能耳機行業的曙光。目前市場正處於爆發增長期,作為智能音箱和TWS耳機的龍頭,佳禾智能順勢躋身國際一流聲學廠商之列。公司在智能電聲產品上取得了一系列創新性成果,已經為喜馬拉雅FM、小米、咪咕、出門問問等品牌製造了小雅AI音箱、Mobius全語音人工智慧耳機、小問智能耳機Ticpods Free等引領國內智能電聲發展潮流的產品,成為了國內智能電聲領域領先的研發和生產合作商。
  • 聲學的學科發展介紹:科學、技術與藝術的結合體
    現在我們知道,語音產生動力源於肺,肺產生壓縮空氣,然後通過氣管、喉、口腔、鼻腔、牙齒、嘴唇等等這一套器官調製以後,再噴射出來,就產生了語音。專業的歌手發出樂音時,還要使用胸腔,而不僅僅是喉嚨。目前的聲波產生機制研究前沿,主要包括流致噪聲、結構聲輻射和熱聲學等幾個方面。流致噪聲研究的是流體的流動所產生的噪聲,其應用很廣,當前最困難的問題是湍流所產生的無規噪聲。
  • 開創耳機新品類,百靈聲學發布全球首款KULARK語音互聯耳機
    開創耳機新品類,百靈聲學發布全球首款KULARK語音互聯耳機 2019 年 6 月 18 日,百靈聲學在深圳南山軟體產業基地,正式發布了全球首款KULARK語音互聯耳機,其結合了前端的聲學處理