中科院發聲:有監督的語音增強方法可提高語音通信的質量

2020-07-28 自然語義NLP

對於語音通信,重要的是抑制背景噪聲而不引入不自然的失真。基於深度學習的語音增強方法可以有效地抑制背景噪聲成分。

中科院發聲:有監督的語音增強方法可提高語音通信的質量

但是,在噪聲不匹配的情況下,會產生不自然的殘留噪聲,並嚴重影響語音的舒適度。

最近,中國科學院聲學研究所的研究人員提出了一種帶有殘留噪聲控制的語音語音監督語音增強方法。

在人為地維持低水平殘留噪聲的基礎上,研究人員致力於最大程度地減少噪聲並最大程度地減少語音失真,從而提高增強語音的感知舒適度。

面對損失函數廣泛存在的缺點,研究人員介紹了多個可調整的超參數並推導了廣義損失函數。

他們選擇了合適的參數配置,使增強的語音在兩個目標之間靈活有效地權衡。同時,通過引入低水平的背景噪聲,他們提高了主觀感知質量。

實驗結果表明,選擇合適的參數配置可以使增強語音在客觀指標和主觀評價方面均勝過先前的工作。

這項工作可用於語音通信設備中的噪聲抑制和語音信息提取。

相關焦點

  • 聲學所將可控制殘差噪聲的語音增強方法用於語音通訊
    在抑制背景噪聲的同時避免引入不自然的失真是語音通訊中的重要課題。目前,基於深度學習的語音增強方法能夠有效減少背景噪聲成分,但會在噪聲失配條件下會引入較多不自然的殘差噪聲,對語音舒適度造成影響。近日,中國科學院噪聲與振動重點實驗室研究生李安冬及其導師鄭成詩等提出一種帶有殘差噪聲控制的語音增強方法用於語音通訊,在人為保留較低背景噪聲的前提下,以噪聲抑制與語音失真最小化為目標進行聯合優化,提高語音舒適度。該研究通過引入多個可調節參數推導出一種廣義損失函數,用不同參數組合使增強後的語音進行有效權衡,並通過人為引入較低的背景噪聲參與優化有效增強語音的主觀聽覺質量。
  • 語音識別是什麼 語音識別聲學特徵介紹【圖文】
    高魯棒性嵌入式語音識別引擎,可以應用到各種電子設備,從而利用語音來完成電子設備的自動控制等。特別在車載環境下,利用語音來控制各種設備的"hand-free"模式已經成為語音識別技術最重要的應用之一。  東芝的嵌入式語音識別引擎結合了高性能語音端點檢測技術、語音增強技術和特徵補償技術,並採用了噪聲免疫訓練,可以在各種噪聲環境下工作;特別針對汽車背景噪聲優化,在極低信噪比環境下仍可使用。
  • AMBE2000在語音通信中的設計
    根據奈奎斯特理論,要想不失真地重構語音信號,採樣頻率不能低於40 kHz,按8位採樣精度計算,語音數據量也有320kbit/s,佔用的數據帶寬多,嚴重破壞通信系統(特別是無線通信系統)的通信性能。因此需要尋找合適的語音編碼方法,將語音數據率壓縮到理想狀態,使其能夠佔用較少的帶寬,實現理想的通信效果。
  • 科研人員提出一種基於卷積循環神經網絡的單通道漸進語音增強方法
    在複雜的聲學應用場景中,語音信號易受到環境噪聲與房間混響的影響,給自動語音識別和語音通信帶來較大的幹擾。儘管目前基於深度學習的單通道語音增強方法可有效抑制幹擾成分,但這些方法的網絡參數量較大且運算複雜度較高,難以應用於低功耗設備。
  • 語音識別算法有哪些_語音識別特徵提取方法
    語音識別算法有哪些_語音識別特徵提取方法 網絡整理 發表於 2020-04-01 09:24:49   語音識別算法有哪些   本文列舉了幾種不同的語音識別算法
  • 語音識別技術原理全面解析
    2、語音識別技術的發展歷史及現狀  1952年,AT&TBell實驗室的Davis等人研製了第一個可十個英文數字的特定人語音增強系統一Audry系統1956年,美國普林斯 頓大學RCA實驗室的Olson和Belar等人研製出能10個單音節詞的系統,該系統採用帶通濾波器組獲得的頻譜參數作為語音增強特徵。
  • 2010年1月浙江自學考試普通話語音與發聲真題A卷
    1.音位是從______角度劃分出來的最小語音單位。、腹壁「站定」D.穩勁、持久、變化16.人體發聲過程中振動體振動的狀態直接影響發音的質量,振動體是指( )A.肺 B.氣管C.口腔 D.聲帶17.聲帶振動時影響到其他臨近的器官或器官內部的空間所產生的聲響效果是指( )A.共鳴B.泛音C.口腔音 D
  • 語音識別原理及其語音識別系統分類
    人類的聲道和發音器官,是具有非線性特徵的生物器官,不僅僅運行在有意識的控制下,而且受到性別及其成長因素情緒狀態的影響。因此,聲音會因為他們的口音、發音、清晰度、體積、速度等有著大幅的變動。人類希望能與機器進一步溝通,從而方便生產與生活,而在語音信號的傳輸過程中,我們不規則的語言行為方式會被背景噪聲和回聲,以及電特性(如話筒等電子設備)進一步扭曲。這一切可變性的聲音來源語音識別更加繁瑣複雜。
  • 語音合成在語音助手中的應用及擴展
    在語音信號處理中,最普遍有效的建模方法就是隱馬爾可夫模型(HMM),它在語音識別中已經有非常成熟的應用,目前的可訓練語音合成技術也都是基於HMM 進行參數建模以上兩個合成方法他們各有其優缺點,也在不同的應用場合起到非常重要的作用:
  • 中文語音處理在數字助聽器的設計
    1原理 (Principles) 本文介紹一種可應用於數字助聽器的提高漢語可懂度的語音處理方法,其目標是使以漢語為母語的聽殘人士能更容易地理解語言。增強言語可懂度的思路來源於人們的實踐經驗。回想一下,當你為使一個有聽力障礙的人更容易聽懂自己說話時所採用的方法:你不僅僅要提高音量,而且還要改變發音方式,說得更慢和更清晰。一些研究表明清楚地讀無意義的語句,比在日常會話句子,大約能提高 17% 的單詞可懂度。這裡所謂說得更清晰是指強調言語信號中的某些暗示,這些暗示有許多不同的形式,如特定音段的持續時間,元音的共振峰位置或者音素之間的過渡等。
  • 語音計算器
    Android 語音計算器 真人發聲,超大按鈕,年底算帳的好幫手。 語音計算器除了實現普通的計算器功能之外,還具備了獨特的語音發聲技術,有助於加快計算時所需要的時間,讓您專心於文稿的校對,而無需擔心會按錯數字。
  • 語音識別技術輔助篩查睡眠窒息症
    原標題:語音識別技術輔助篩查睡眠窒息症   「即便是呼吸的聲音,我們也可以通過算法監測到不同的信息,根據這些信息可以做很多事情。」
  • [論文分享]用GAN從MFCC合成語音波形
    這篇文章提出了一種從濾波器組梅爾頻率倒譜係數(MFCC)生成語音的方法,該方法廣泛用於語音應用程式(例如ASR)中,但通常被認為無法用於語音合成。首先,我們使用自回歸遞歸神經網絡預測MFCC的基本頻率和聲音信息。
  • 《使命召喚戰區》聽不到隊友語音怎麼辦 聽不到隊友語音解決方法
    導 讀 近日很家在遊玩使命召喚戰區時遇到了語音方面的問題,具體的表現為語音時隊友可以聽到玩家講話但是玩家卻聽不到隊友講話
  • 語音合成方法概述與總結
    :最初的物理機理語音合成,波形拼接語音合成,韻律轉換語音合成到統計參數語音合成和深度學習語音合成情感語音合成:波形拼接合成方法,韻律特徵修改方法和基於隱馬爾可夫模型( hidden Markov model, HMM )的統計參數語音合成方法HMM傳統參數語音合成方法是基於統計學習和決策樹的隱馬爾科夫
  • 基於語音質量的SCG刪除方案
    3、通話過程中基於語音質差刪除SCG,兼顧語數協同感知(後續簡稱質差刪除SCG)UE進行VoLTE語音業務,基站檢測LTE無線信道質量較差,即:信號質量低於EN-DC VoLTE終端刪除SN的SINR門限時,對已經配置雙連接的NSA UE刪除SCG。
  • 基於FPGA的語音智能操控系統
    本文引用地址:http://www.eepw.com.cn/article/201706/348697.htm設計摘要:1、設計意圖科學技術水平的發展,使人們的生活受到潛移默化的影響,並逐漸改變人們的生活習慣,不斷地提高人們的生活質量。
  • 智能語音技術中麥克風陣列的原理
    — 語音增強  語音增強是指當語音信號被各種各樣的噪聲(包括語音)幹擾甚至淹沒後,從含噪聲的語音信號中提取出純淨語音的過程。所以DingDong在嘈雜環境下,也能準確識別語音指令。  通過麥克風陣列波束形成進行語音增強示意圖  從20世紀60年代開始,Boll等研究者先後提出了針對使用一個麥克風的語音增強技術,稱為單通道語音增強。
  • 智能音箱大戰全面開火,那麼問題來了:如何成為一名全棧語音識別...
    信號處理: 包括語音增強、噪聲抑制、回聲抵消、混響抑制、波束形成、聲源定位、聲源分離、聲源追蹤等。具體如下:語音增強: 這裡是狹義定義,指自動增益或者陣列增益,主要是解決拾音距離的問題,自動增益一般會增加所有信號能量,而語音增強只增加有效語音信號的能量。
  • 人工智慧電視遠場語音設計
    摘要:本文介紹一種服務於人工智慧電視,實現遠場語音應用的麥克風陣列設計方案,闡述系統框架和硬體設計,同時介紹軟體設計的部分要點。通過麥克風陣列,協助語音增強算法的實現,達到遠距離拾音、回聲消除、聲源定位,滿足當前智能語音應用的需求。