[論文分享]用GAN從MFCC合成語音波形

2021-01-17 AI檸檬博客

Juvela, Lauri, et al. 「Speech waveform synthesis from MFCC sequences with generative adversarial networks.」 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.

本次論文分享的是一篇2018年發表在IEEE上的用GAN從MFCC合成語音波形的論文。

這篇文章提出了一種從濾波器組梅爾頻率倒譜係數(MFCC)生成語音的方法,該方法廣泛用於語音應用程式(例如ASR)中,但通常被認為無法用於語音合成。首先,我們使用自回歸遞歸神經網絡預測MFCC的基本頻率和聲音信息。第二,將MFCC中包含的頻譜包絡信息轉換為全極濾波器,並訓練與這些濾波器匹配的音調同步激勵模型。最後,我們引入了基於對抗網絡的生成噪聲模型,以將真實的高頻隨機成分添加到建模的激勵信號中。結果表明,僅在測試時給出MFCC信息即可獲得高質量的語音重建。

MFCC:Mel頻率倒譜係數(Mel Frequency Cepstrum Coefficient,MFCC)的縮寫

Mel頻率是基於人耳聽覺特性提出來的,它與Hz頻率成非線性對應關係。Mel頻率倒譜係數(MFCC)則是利用它們之間的這種關係,計算得到的Hz頻譜特徵,MFCC已經廣泛地應用在語音識別領域(ASR)和說話人驗證(ASV)。由於MFCC是針對這些任務而設計的,因此它們的使用會丟棄許多在識別任務中被認為無關的信號細節。MFCC在識別和分類任務中的成功部分歸因於這種有損壓縮,其近似於聽覺中的感知特性。具體而言,MFCC將頻譜包絡與精細結構分開,並使用基於聽覺尺度的非線性頻率解析度。MFCC中包含的光譜信息可以被視為包絡,僅給出該包絡對於語音的合成是不夠的,還必須從MFCC恢復語音的基本頻率(F0)和發聲信息。由MFCC恢復語音的基本頻率(F0)和發聲信息已經有一定的進展,在GMM-HMM框架中進行了研究,其中F0和聲音是通過與MFCC的GMM聯合分布成功預測的。但是隨著深度學習的發展,RNN展現了很好的實現效果。

這篇論文提出三個主要貢獻來研究MFCC的語音合成:

從MFCC高精度地預測F0,優化SPSS預測的F0模型。

提出了一個激勵模型,它將MFCC和F0映射到使用MFCC衍生的信號通過反向濾波語音獲得的激勵波形。

引入了一個改進的殘差GAN噪聲模型,用於生成在最小二乘激勵模型中丟失的高頻隨機分量。

整個模型從下向上看,首先由MFCC通過F0預測模型恢復出語音的基本頻率F0,F0和發聲信息經過激勵脈衝模型得到平滑的脈衝,送入殘差GAN噪聲模型生成帶有高頻分量的信號,為了產生連續的激勵信號,所產生的脈衝以節距同步的方式連接,由產生的F0確定。最後得到的信號和MFCC重構的包絡信號經過濾波器得到語音波形從而還原出語音。

F0預測模型

F0模型將一系列MFCC作為輸入,並從中生成相應的F0軌道和發聲信息,整體實現是在RNN基礎上完成的,利用自回歸輸出反饋鏈路和分層softmax來預測來自輸入的量化F0類。F0範圍被線性量化為255個二進位位,並且一個附加類被保留用於清音語音。

MFCC重構包絡

整體上採用偽逆的思路重構包絡,過程相當於由包絡得到MFCC的逆過程,與插值方法相比觀察到偽逆在實踐中表現良好並且給出具有更尖銳的共振峰結構的包絡。

激勵脈衝模型

之前的方法使用將聲學特徵映射到聲門激發脈衝的神經網絡,近期提出了一種用於SPSS中聲門發聲的激勵模型。首先通過聲門反向濾波獲得聲門源信號(通過聲帶的差分體積流量),之後通過以間距標記來提取激勵脈衝,對兩個音高周期段進行餘弦加窗,並且將脈衝填充到固定長度。最後,在訓練之前,每個聲學特徵幀與最近間距標記處的脈衝相關聯。在所有基於源濾波器模型的語音編碼中通常可以採用類似的框架,其中濾波器允許對語音信號進行反向濾波。對於模型架構,在輸入端使用門控循環單元(GRU)層,因為循環網絡對於編碼聲學序列信息非常有用,其中循環網絡略微改善了TTS應用中的激勵模型性能。此外,在靠近波形水平工作時,已經發現卷積層很方便。在給定輸入的情況下,該模型將不可避免地向條件平均值回歸,這導致平滑的波形和高頻損失。

殘差GAN模型

GAN以平滑生成的脈衝為輸入,由此生成附加的殘餘高頻分量。將LS-GAN與基於GAN的相似性度量學習相結合優化網絡。

數據集上使用現有的SPSS訓練數據訓練了兩個特定於說話人的系統。兩位說話人都是專業的英國英語配音演員,「Nick」(男性)數據集包含2542個話語,總計1.8小時,「Jenny」(女性)數據集包含4080個話語,大約是4個小時。隨機選擇一組100個話語用於測試兩個說話人,其餘用於訓練。整個研究中使用16kHz的採樣率。F0模型性能通過濁音F0的均方根誤差(RMSE),發聲決策誤差百分比(VUV誤差)以及參考和生成的F0值之間的相關係數來測量,圖中的表格是實驗測試結果。


最後,謝謝大家的觀看,歡迎提出問題。



[論文分享]Char2wav端到端語音合成

[論文翻譯] Dropblock:一個用於卷積網絡的正則化方法

[論文分享]Dropblock:一個用於卷積網絡的正則化方法

生物信息學中的遷移學習

[論文翻譯]SpecAugment:一種用於自動語音識別的簡單數據增強方法



博客網址:https://blog.ailemon.me


點擊下方「閱讀原文」即可閱讀博客原文,並參與評論和互動。

點在看,讓檸檬菌知道你在看~


Long-press QR code to transfer me a reward

As required by Apple's new policy, the Reward feature has been disabled on Weixin for iOS. You can still reward an Official Account by transferring money via QR code.

相關焦點

  • 語音合成在語音助手中的應用及擴展
    總的說來,近期語音合成的方法可以歸結為四種:1)物理機理語音合成;2)源-濾波器語音合成;3)基於單元挑選與波形拼接技術的語音合成;4)可訓練的語音合成;其中現在大家常採用的合成方法為基于波形拼接技術的語音合成和可訓練的語音合成兩種。本文涉及的內容為語音合成的後端,語音合成的前端也是文本處理的一部分,主要包括文本正則化、分詞、詞性標註、多音字消崎及韻律預測等,這裡不做具體介紹。
  • 語音合成方法概述與總結
    :最初的物理機理語音合成,波形拼接語音合成,韻律轉換語音合成到統計參數語音合成和深度學習語音合成情感語音合成:波形拼接合成方法,韻律特徵修改方法和基於隱馬爾可夫模型( hidden Markov model, HMM )的統計參數語音合成方法HMM傳統參數語音合成方法是基於統計學習和決策樹的隱馬爾科夫
  • 用Python 訓練自己的語音識別系統,這波操作穩了
    作者 | 李秋鍵責編 | Carol封圖 | CSDN 付費下載自視覺中國近幾年來語音識別技術得到了迅速發展,從手機中的Siri語音智能助手、微軟的小娜以及各種平臺的智能音箱等等,各種語音識別的項目得到了廣泛應用。
  • 梅爾頻率倒譜係數(MFCC)
    還有一個作用就是它可以直觀的評估TTS系統(text to speech)的好壞,直接對比合成的語音和自然的語音聲譜圖的匹配度即可。 二、倒譜分析(Cepstrum Analysis)下面是一個語音的頻譜圖。
  • 平安科技羅冬日:如何用RNN實現語音識別?| 分享總結
    文章內容根據雷鋒網AI研習社線上分享視頻整理而成。在近期雷鋒網AI研習社的線上分享會上,來自平安科技的人工智慧實驗室的算法研究員羅冬日為大家普及了RNN的基礎知識,分享內容包括其基本機構,優點和不足,以及如何利用LSTM網絡實現語音識別。
  • 基於Tacotron2實現中文語音合成,免去調試環節,輕鬆上手
    語音合成技術被廣泛應用於人機互動場景,如手機語音助手、地圖導航、智能音箱、文章聽讀等,返回的結果會以語音方式播報。語音合成翻譯成英文是Text-To- Speech,簡稱為TTS。語音合成相比語音識別的應用場景少一些,因工作中有接觸過語音合成並實現,也許有些朋友也需要用到它,特記錄在此,本文側重實現過程,對技術感興趣的朋友建議參考其他文獻,但對於技術新手和初次接觸並期待快速實現的朋友,不妨看看。
  • CVPR 2018 中國論文分享會之 「GAN 與合成」
    雷鋒網 AI 科技評論按:2018 年 5 月 11 日,由微軟亞洲研究院、清華大學媒體與網絡技術教育部-微軟重點實驗室、商湯科技、中國計算機學會計算機視覺專委會、中國圖象圖形學會視覺大數據專委會合作舉辦了 CVPR 2018 中國論文宣講研討會,數十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術觀點。
  • 超全的GAN PyTorch+Keras實現集合
    在本論文中,作者介紹了一種用於提升 GAN 在圖像合成方面訓練效果的新方法。他們構建了一種採用標籤條件(label conditioning)的 GAN 變體,這種方法可以生成 128×128 解析度的圖像樣本,且能展現出全局一致性。該論文擴展了以前的圖像質量評估工作,以提供兩個新的分析來評估類別條件(class-conditional)圖像合成模型中樣本的辨識度和多樣性。
  • 語音識別開源工具PyTorch-Kaldi:兼顧Kaldi效率與PyTorch靈活性
    語音識別的最終結果就是在聲學模型得分和語言模型得分上進行搜索得到的。具體的內容這裡不做展開。在語音識別技術的發展史上,深度學習絕對是極具影響力的。可以說,沒有對深度學習的引入,就不會有今天如此先進的語音識別引擎。
  • 在線語音合成工具分享—標貝悅讀
    智能音箱、智能玩具、智能車載等智能設備走進用戶的身邊,用戶產生了大量音頻內容的需求,這部分流量非常可觀,文字創作者也希望把自己的文字作品轉為語音,以便能更多地觸達用戶。標貝悅讀就是為解決這些問題而開發的。
  • GAN快速入門資料推薦:17種變體的Keras開原始碼,附相關論文
    論文中描述的模型,可以生成符合1000個ImageNet類別的128×128圖像。在論文中,研究人員給出了用MNIST和多倫多人臉數據集 (TFD)訓練的模型所生成的樣本。原版GAN不適用於離散數據,而BGAN用來自鑑別器的估計差異度量來計算生成樣本的重要性權重,為訓練生成器來提供策略梯度,因此可以用離散數據進行訓練。BGAN裡生成樣本的重要性權重和鑑別器的判定邊界緊密相關,因此叫做「尋找邊界的GAN」。
  • 語音合成助手-文字轉語音,製作mp3英語聽力音頻
    這裡給大家介紹一款文字轉語音軟體「語音合成助手」,它可以將英語文字內容製作成真人發音的英語聽力MP3,男女聲音都支持,非常方便,發音也非常地道。百度搜索「語音合成助手」,下載安裝這款軟體,也可以通過安卓手機在應用市場裡搜索「語音合成助手」下載,或者通過iphone手機在appstore裡搜索「語音合成助手」下載。
  • 示波器合成信號波形的分析 濾波電路、分頻電路等
    示波器合成信號波形的分析 濾波電路、分頻電路等 edatop 發表於 2020-11-18 10:41:01 1.1
  • DeepMind發布最新原始音頻波形深度生成模型WaveNet,將為TTS帶來無...
    ——WaveNet,一種原始音頻波形深度生成模型,能夠模仿人類的聲音,生成的原始音頻質量優於目前Google採用的兩種最優文本-語音模型Parameric TTS與Concatenative TTS。過去幾年中,深度神經網絡的應用(如Google語音搜索)為提高計算機理解自然語音的能力帶來了革新。但是,運用計算機生成語音——通常用於指代語音合成或文本-語音(TTS)系統——在極大程度上還要依託拼接TTS,TTS中包含一個超大型記錄單個說話者的簡短語音片段的資料庫,隨後將這些語音片段重新合成形成完整的話語。
  • 中文語音合成最高水平,百度語音技術打造全球首款地圖語音定製產品
    9月19日,百度地圖「『音』為有你,更有『AI』」語音定製功能發布會召開,重磅推出全球首個地圖語音定製產品。該功能科技範兒十足,用戶只需在百度地圖App上錄製20句話,最快20分鐘,即可生成個人完整語音包。換句話說,當你之後出行使用地圖功能時,就可以用自己的家人甚至寶寶的定製化語音導航,十一旅遊還可以聽自己聲音的景區解讀。
  • 一文看懂語音合成:真能跟Siri戀愛?模擬人類語言暗藏哪些商機
    當時,對語音的識別不再是識別一個簡單的詞和短詞組,而是基於統計的方法,運用聲學模型幫助計算機認知每個音素單元的聲學特徵、運用語言模型幫助計算機實現對人類用詞習慣的認知,最終給到用戶最高可能性的連接。在這其中,典型的模型是隱含馬爾可夫模型(HMM),用來描述如何在可變長的時序特徵序列上打詞標籤。
  • 思必馳技術分享:車載語音交互的需求及挑戰
    昨天,思必馳在深圳做了一場產品體驗沙龍,用他們的話來說,就是一場「裸技術分享會」,在會上向大家展示了他們最新的車載對話作業系統AIOS的3.0版本,通過這次技術分享,也讓大家了解了一下語音交互系統對車載領域的重要性。
  • CSSML(中文語音合成標記語言)的發展與應用
    SSML(語音合成標記語言)是由W3C制定並在VoiceXML中使用,作為電話語音流程中語音合成控制的標準。SSML的基本任務就是在不同的應用平臺上為合成文本提供一個標準的控制語音輸出的方法,例如發音、音量、音調、語速等參數。而VoiceXML作為人與電話應用交互的流程描述語言,在當今的語音門戶、統一消息平臺等以語音驅動的應用中正發揮著越來越重要的作用。
  • 首屆微電影創作者大會(MFCC)今日京召開
    2013年11月17日,倍受矚目的首屆mfcc微電影創作者大會在北京車庫咖啡隆重舉行。這是自微電影風靡中國以來規模最大的一次微電影創作者集體盛會,也將是微電影發展歷程中,一次具有裡程碑意義的大會。
  • 達摩院語音實驗室負責人鄢志傑:智能語音爆發進入倒計時,2019語音...
    ,結合傳統語音合成技術與深度學習端到端系統各自的優勢,顯著提升語音合成穩定性及表現力。端到端 (End2End) 技術摒棄了傳統語音合成技術前端-後端多模型多模塊框架,採用統一的模型,試圖直接從輸入文本到輸出波形。理論上,這樣能模擬任何聲音 (排除了對聲波建模的固有損失),大幅減輕乃至去掉了對語音、語言學專業知識的依賴。