Juvela, Lauri, et al. 「Speech waveform synthesis from MFCC sequences with generative adversarial networks.」 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.
本次論文分享的是一篇2018年發表在IEEE上的用GAN從MFCC合成語音波形的論文。這篇文章提出了一種從濾波器組梅爾頻率倒譜係數(MFCC)生成語音的方法,該方法廣泛用於語音應用程式(例如ASR)中,但通常被認為無法用於語音合成。首先,我們使用自回歸遞歸神經網絡預測MFCC的基本頻率和聲音信息。第二,將MFCC中包含的頻譜包絡信息轉換為全極濾波器,並訓練與這些濾波器匹配的音調同步激勵模型。最後,我們引入了基於對抗網絡的生成噪聲模型,以將真實的高頻隨機成分添加到建模的激勵信號中。結果表明,僅在測試時給出MFCC信息即可獲得高質量的語音重建。MFCC:Mel頻率倒譜係數(Mel Frequency Cepstrum Coefficient,MFCC)的縮寫
Mel頻率是基於人耳聽覺特性提出來的,它與Hz頻率成非線性對應關係。Mel頻率倒譜係數(MFCC)則是利用它們之間的這種關係,計算得到的Hz頻譜特徵,MFCC已經廣泛地應用在語音識別領域(ASR)和說話人驗證(ASV)。由於MFCC是針對這些任務而設計的,因此它們的使用會丟棄許多在識別任務中被認為無關的信號細節。MFCC在識別和分類任務中的成功部分歸因於這種有損壓縮,其近似於聽覺中的感知特性。具體而言,MFCC將頻譜包絡與精細結構分開,並使用基於聽覺尺度的非線性頻率解析度。MFCC中包含的光譜信息可以被視為包絡,僅給出該包絡對於語音的合成是不夠的,還必須從MFCC恢復語音的基本頻率(F0)和發聲信息。由MFCC恢復語音的基本頻率(F0)和發聲信息已經有一定的進展,在GMM-HMM框架中進行了研究,其中F0和聲音是通過與MFCC的GMM聯合分布成功預測的。但是隨著深度學習的發展,RNN展現了很好的實現效果。這篇論文提出三個主要貢獻來研究MFCC的語音合成:
從MFCC高精度地預測F0,優化SPSS預測的F0模型。
提出了一個激勵模型,它將MFCC和F0映射到使用MFCC衍生的信號通過反向濾波語音獲得的激勵波形。
引入了一個改進的殘差GAN噪聲模型,用於生成在最小二乘激勵模型中丟失的高頻隨機分量。
整個模型從下向上看,首先由MFCC通過F0預測模型恢復出語音的基本頻率F0,F0和發聲信息經過激勵脈衝模型得到平滑的脈衝,送入殘差GAN噪聲模型生成帶有高頻分量的信號,為了產生連續的激勵信號,所產生的脈衝以節距同步的方式連接,由產生的F0確定。最後得到的信號和MFCC重構的包絡信號經過濾波器得到語音波形從而還原出語音。F0預測模型
F0模型將一系列MFCC作為輸入,並從中生成相應的F0軌道和發聲信息,整體實現是在RNN基礎上完成的,利用自回歸輸出反饋鏈路和分層softmax來預測來自輸入的量化F0類。F0範圍被線性量化為255個二進位位,並且一個附加類被保留用於清音語音。MFCC重構包絡
整體上採用偽逆的思路重構包絡,過程相當於由包絡得到MFCC的逆過程,與插值方法相比觀察到偽逆在實踐中表現良好並且給出具有更尖銳的共振峰結構的包絡。激勵脈衝模型
之前的方法使用將聲學特徵映射到聲門激發脈衝的神經網絡,近期提出了一種用於SPSS中聲門發聲的激勵模型。首先通過聲門反向濾波獲得聲門源信號(通過聲帶的差分體積流量),之後通過以間距標記來提取激勵脈衝,對兩個音高周期段進行餘弦加窗,並且將脈衝填充到固定長度。最後,在訓練之前,每個聲學特徵幀與最近間距標記處的脈衝相關聯。在所有基於源濾波器模型的語音編碼中通常可以採用類似的框架,其中濾波器允許對語音信號進行反向濾波。對於模型架構,在輸入端使用門控循環單元(GRU)層,因為循環網絡對於編碼聲學序列信息非常有用,其中循環網絡略微改善了TTS應用中的激勵模型性能。此外,在靠近波形水平工作時,已經發現卷積層很方便。在給定輸入的情況下,該模型將不可避免地向條件平均值回歸,這導致平滑的波形和高頻損失。殘差GAN模型
GAN以平滑生成的脈衝為輸入,由此生成附加的殘餘高頻分量。將LS-GAN與基於GAN的相似性度量學習相結合優化網絡。數據集上使用現有的SPSS訓練數據訓練了兩個特定於說話人的系統。兩位說話人都是專業的英國英語配音演員,「Nick」(男性)數據集包含2542個話語,總計1.8小時,「Jenny」(女性)數據集包含4080個話語,大約是4個小時。隨機選擇一組100個話語用於測試兩個說話人,其餘用於訓練。整個研究中使用16kHz的採樣率。F0模型性能通過濁音F0的均方根誤差(RMSE),發聲決策誤差百分比(VUV誤差)以及參考和生成的F0值之間的相關係數來測量,圖中的表格是實驗測試結果。
最後,謝謝大家的觀看,歡迎提出問題。
[論文分享]Char2wav端到端語音合成
[論文翻譯] Dropblock:一個用於卷積網絡的正則化方法
[論文分享]Dropblock:一個用於卷積網絡的正則化方法
生物信息學中的遷移學習
[論文翻譯]SpecAugment:一種用於自動語音識別的簡單數據增強方法
博客網址:https://blog.ailemon.me
點在看,讓檸檬菌知道你在看~
Long-press QR code to transfer me a reward
As required by Apple's new policy, the Reward feature has been disabled on Weixin for iOS. You can still reward an Official Account by transferring money via QR code.