語音處理中的自監督學習

2021-02-15 談人工智慧

文章來自知乎，原文連結：https://zhuanlan.zhihu.com/p/152672250

自監督學習也可以用在語音處理中。我們很容易收集到很多無標註的語音數據。把它用去噪自編碼器的方法去做預訓練，再在有標註的數據上微調。這便是自監督學習的核心精神。這一期，我們來講講所有自監督學習方法在語音處理上的應用。大概會有 24 個不同的方法。保證都是最近的，最強的，最飽眼福的。

最開始，人類新生兒的學習是不需要父母監督的。它們會自己去"體驗"周邊世界感官帶來的刺激，以純白的狀態去觀察沒有任何指示的人和事物，見識各種各樣的圖畫書，敲擊各種物件發出聲響，專注地聽著對面人說著自己還不能理解的對話。純粹，簡單而開放，對一切事物保持好奇的姿態。接著，這些嬰兒才開始接受到父母的一些指導，去理解它所觸及的事物是什麼，為什麼，然後是怎麼辦。

我們不禁覺得神奇，嬰兒究竟是怎麼學習的呢？沒錯，我們把嬰兒四周接觸的聲音、光影、觸覺作為輸入，嬰兒作為模型，父母的指導作為標籤。會發現，嬰兒在大部分的時候，都是沒有監督標籤的。但它依然能夠根據輸入的刺激來漸漸地熟悉、理解外部的世界。這就像是一個預訓練的過程。而父母給出的指導，則是在他們已有的建立好的世界認識上，再進行微調。這便是模型在下遊任務的微調。

自監督學習，有兩個主流門派，CPC 對比學習，和APC重構學習。二者差別主要在其學習模板，即損失的設計上。

先來大致了解一下對比學習。它最早是由 DeepMind 提出的方法，比較經典的模型有 wav2vec，Bidir CPC 以及 Modified CPC。它的做法很簡單。輸入是一排的聲音信號，會被拆分為若干個 frame輸入給一個 CNN 編碼器。

編碼出特徵後，上面會有一個負責上下文編碼的 GRU，考慮把一段序列編碼成特徵向量，如圖中橙紅色的Ct。然後模型要做的是根據 Ct 預測後面下方CNN 編碼出的藍色的向量，是不是屬於同一個句子。它在訓練的時候，會隨機採樣一些假的藍色向量給紅色做預測。訓練目標希望屬於同一個句子的橙色和藍色向量之間的距離越近越好。

但如果是不同的句子，或不同的說話者，就要讓它們的距離越遠越好。數學上可以證明，這樣做實際上是在最大化它們的互信息熵。它最重要的是學到橙色的向量。這個向量最終作為預訓練好的模型，去做微調就能得到表現的提升。

CPC 有兩個比較有名的實驗分別是做電話/說話者的分類。後續的研究也是基於這兩個實驗作為 Performance 的比較。CPC 也可以做在非語音處理領域上，像圖片和文本。但今天我們只要側重於語音部分。wav2vec 也是參照以上方法去預訓練的。它把橙色向量作為 ASR模型的輸入，輸出是識別出的文字。

之前的 CPC 是單向的。我們也可以把它變成雙向的，即在 CNN 上面再加一個反向的GRU。推斷的時候，把正向和反向的橙色向量接起來再去預訓練。模型的評估也是用 ASR任務，效果會比之前提升。

往後一個 Modified CPC 對原版有三個改進。一個是把批次歸一化 BN 變成了 channel-wise 歸一化。第二個是把線性映射預測層替換成了一個 Transformer。第三個是把 GRU 替換成了 LSTM。這些改進能讓它比原版的 CPC 好上一些。另一種自監督學習的方法是用重構損失。它其實就是語音版的語言模型。它也是做 Phone / Speaker 的分類實驗來驗證它學到的表徵質量好壞。multi-Target APC 的思想也簡單。它把只有前向的 APC 變成了雙向的。它的最後隱層要預測未來的 token，也需要預測過去的 token。

Amazon 還做了另一個 APC 的變體 DeCoAR。它把 APC 和 ELMO 的做法合在一起，在語音數據上應用了。它把輸入的語音聲學特徵，餵給雙向 LSTM，最後隱層相接後，要預測的是一個窗口的 token。這個窗口會從開頭掃到結尾。每個部分都要計算一次重構損失。

AutoEncoder 和 Phase 都是相似的做法。ASR系統會作為編碼器把聲學特徵編碼成中間嵌入，而 TTS 系統會作為解碼器把這份嵌入解碼成原來的聲學特徵。它會與一開始輸入的聲音計算重構損失。而 Phase 的不同之處在，它還原的不是聲學特徵，而是 Phase。它們通過不同的重構目標，希望中間嵌入得到有意義的信息。它可以幫助 ASR 和 TTS 下遊任務。這個架構和音色轉換的做法是相似的。

Audio2Vec 其實就是語音版本的詞向量。比如，CBoW 就變成了需要通過過去語音幀和未來幀去預測當前幀。而Skip-gram則是需要通過當前的幀去預測過去和未來的幀。Audio2Vec 還提出了第三個任務，叫 temporal gap。它的目標是讓編碼器看過去和未來的兩段語音幀，去預測二者時間上差了多少。它的目標是學出好的編碼器。這個編碼器可以作為 ASR 編碼器的初始化。

BERT 要如何應用到語音上呢？這裡先對要講的模型做一個全局概覽。上面模型，是兩階段的，主要用到了CPC損失。下面模型是一階段的，主要用到APC的損失。中間的 SLU BERT，則比較特別。

我們先來看 vq-wav2vec。它是一個兩階段的過程。第一階段，它先用CNN和GRU，算CPC 損失。中間的部分，先是把紫色部分的 logits 通過 Gumbel 得到其概率，然後 argmax 得到其獨熱編碼向量。它和設定好的向量集相乘就可以取出one-hot部分的其嵌入向量。它的 vq 指的是 Vector-Quantized ，即把一個連續的向量做量化，變成有限個。

這個有限向量集可以與文字版的BERT的詞彙相對齊，大概2-3萬左右。相當於我們用 vq-wav2vec 訓練一個語音版的向量表示，這樣就可以訓練一個文字版的 BERT。這個 BERT 預訓練好後，就可以做 ASR。

SLU BERT 的輸入是聲學特徵，它會先用有標註數據訓練一個CNN+GRU 的 CTC 模型。這個模型輸出的是 Phoneme posterior，音素生成概率矩陣。它用音素作為像文本中 token 一樣的表示語音的單位，去訓練BERT。它的MASK是一個帶有[PAD]的向量。這個模型不是純粹的自監督學習。

目前2019年-2020年的主流都是一階段的模型，它們主要用的是重構損失。我們先來講講tutor自研的 Mockinglay 。

先來看語音版的 BERT，其實就是把文字的token，換成了聲學的幀，輸入給模型。

語音版BERT輸入的幀是音素級別的頻譜。我們會有一個MASK策略來隨機把一些幀變成0。MASK為零之後，會通過Transformer Encoders 編碼成嵌入，再通過線性層去預測出這些MASK掉的幀，計算重構還原的損失。

它的MASK策略和文本原版的BERT一致。80% 中的15%遮掉，10%中的15%替換，剩下的10%中什麼也不變。

這個在語音頻譜上看起來就是大約有80-dim的頻譜加上它的一階微分，數據是全為0。

我們把這個重構的過程可視化出來，發現模型學到的重構頻譜幀和原來是非常像的。

文字版的BERT和語音版的BERT處理起來還是有些不一樣的。語音的輸入是連續的，所以我們需要做一些特殊的處理，來把連續的語音聲學特徵變得更平滑，讓MASK考慮的幀的範圍更長。前者可以用下採樣來做，即設定一個窗口，把窗口內的幀向量接起來變成一個幀。這樣就能保證沒有丟失任何信息的情況下，做到把長度變短。如果輸入長度很長的話，自注意力的矩陣就會非常大，佔用很多顯存。模型的架構會比BERT精簡些。一是它的Transformer疊加的數量更少了。但它的中間層特徵會更多一些3072。比原版的BERT寬，但沒它深。它的訓練語料有 360多個小時，預訓練了500k個步。

它的下遊任務微調有三種做法。一種是直接用它來抽特徵。用抽出來的特徵和線性分類器去進行分類。這相當於把前面的參數凍結住。

第二種是把每一層的輸出特徵做加權。我們用一個學出來的加權求和，得到它的最終輸出嵌入，再用一個線性層去做分類。這個時候所有層的特徵也都是凍住的。第三種就是正常的微調了。我們直接拿預訓練好的模型去做參數初始化，然後端對端地訓練。所有模型的參數都更新。

從結論上看，也是模型參數越大越好。這個和文字版的BERT一致。

有了預訓練語音版的BERT之後。我們的訓練數據從360個小時降到36分鐘。我們可以看不同的表徵可以怎樣被少量數據的數量影響表現。排序模型大致是 Mel < BASE < LARGE < LARGE-WS < BASE-FT2。後面兩個分別是加權求和，微調。

Mockingjay 往後又做了一個改進版本 TERA。

首先比起用梅爾頻譜，它用了fMLLR 頻譜特徵。

它不同在，預訓練這裡，它會在不同的軸上去做MASK。它新加了多種預訓練目標。比如沿著channel軸和時序軸都做MASK。再比如用一些隨機採樣去替換。這樣多樣的折騰，讓最終訓練出的模型在下遊任務都能有所提升，而且魯棒性更強。

這裡是各個模型的最終總結。

最近幾個月InterSpeech上又提交了很多Mockingjay的變體。我們也會一一介紹。

第一個是對抗防禦。它與對抗攻擊是同時出現的。在圖像中，我們知道，一個熊貓圖像加上了一些肉眼不可見的小噪音之後，可以讓模型把熊貓誤識別成長臂猿。這種對人臉來說無差別，但對機器而言卻有天壤之別的噪音加入，就是一種對抗攻擊。

在語音中，對抗攻擊可以攻破聲紋識別安全系統。我們可以用TTS去合成一個人的聲音來破解別人的聲紋鎖。為此，我們的聲紋識別安全系統，需要有一個 Anti-Spoofing 的模塊去防禦這種對抗攻擊。

Anti-Spoofing 會先去識別輸入的語音有無被人為改動過。若識別出被人改動過，就不會把他丟給聲紋驗證系統去解鎖。我們希望對抗防禦模型對非人工修改的語音和人工修改過的語音的辨識度越高越好。因此模型需要去學加入的對抗噪音是如何影響聲紋驗證系統的。我們可以直接把 Mockingjay 作為預訓練模型，就可以做對抗防禦了。橫軸表示對抗攻擊的強度，縱軸表示聲紋驗證系統的正確率。我們可以發現，在不同程度的對抗攻擊下，Mockingjay 表現都是可以持平的。說明魯棒性強。對於梅爾頻譜特徵，則比較容易被攻擊。橘色和紅色線的差異是有無預訓練。還有另一個實驗是算 LNSR，即每一層中對抗信號的數量。我們可以可視化出對抗噪音在不同層中遞減的情況。也就是說Mockingjay 對對抗噪音是有一個過濾的效果的。

語音處理中的自監督學習

相關焦點

DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能...

清華CVer 對自監督學習的一些思考

【深度】自監督學習,如何從數據困境中拯救深度學習?

德克薩斯A&M大學在讀博士遊宇寧:自監督學習在圖卷積網絡中的研究...

自監督學習蛋白質序列, 自然語言處理助力蛋白質工程新飛躍

人工智慧的下半場,一定少不了自監督學習

【源頭活水】淺談圖上的自監督學習——對比學習

自監督、半監督和有監督全涵蓋,四篇論文遍歷對比學習的研究進展

BYOL:輕鬆進行自監督學習

今日論文|視頻節奏預測助力自監督視頻表示學習&排序增強的對話生成框架&連續語音分離&常識知識圖譜推理&MORE

NeurIPS-21遷移學習、元學習、自監督學習新數據集概覽

試試自監督學習

「半監督學習系列」2. 半監督學習概述

清華 CVer 對自監督學習的一些思考(文末福利)

無監督學習的魅力

什麼是無監督學習?

復旦大學黃萱菁:自然語言處理中的表示學習

自訓練和半監督學習介紹

對比自監督學習浪潮迅猛來襲,你準備好了嗎?

從自監督學習主流方法、最新工作進展,看未來前景研究方向