在電話通信、智能交互等應用場景中,目標說話人的語音信號通常會受到噪聲或其他說話人幹擾,從而影響語音質量和語音識別率,這就是著名的「雞尾酒會問題」。有效解決這個問題的方法之一是通過盲源分離從僅有的混合觀測信號中分離出原始聲源,但此計算方法複雜度高,給實際應用帶來了較大的困難。
為降低盲源分離方法的計算複雜度,中科院噪聲與振動重點實驗室的康坊與其導師楊飛然研究員、楊軍研究員提出了一種基於獨立成分分析的低複雜度盲源分離方法,在保證分離性能不受影響的情況下,極大地降低了計算複雜度。
▲ 圖1 計算複雜度對比(圖/中科院聲學所)
▲ 圖2 不同混響時間下的分離性能對比(左)平均輸出信幹比與(右)平均PESQ得分(圖/中科院聲學所)
本研究得到國家重點研發計劃(2017YFC0804900),中國科學院青年創新促進會(2018027),中國科學院聲學研究所青年英才計劃項目(QNYC201812)和中國科學院先導專項項目資助。
參考文獻:
KANG Fang, YANG Feiran, YANG Jun. A low-complexity permutation alignment method for frequency-domain blind source separation. Speech Communication. 2019, 115: 88-94. DOI: 10.1016/j.specom.2019.11.002
論文連結:
https://doi.org/10.1016/j.specom.2019.11.002
英文報導:
請點擊閱讀原文↓↓↓
■ 編輯:周文佳
審校:王榮泉
聲學所近期熱門文章 top 榜
點擊文章標題,可直接閱讀哦~