深度網絡明顯改善了各種各樣的機器學習問題和應用程式。但是這些性能提升是以大量手工標記數據為代價的。求助於模擬數據,如計算機生成的場景是目前研究的一個流行趨勢是,以便提供無限數量的自動注釋。然而,這種學習受到數據分布之間變化的影響。
對於目標任務來說,不僅是數據標記,數據收集本身也可能是具有挑戰性的,如果不是不可能的話。例如,罕見的可能很難獲得疾病信息有隱私或者可以拍下視頻極端的天氣狀況。在這個缺乏數據的場景中由於來自目標域的未標記數據數量有限。
因此,發表於NeurIPS2020文章《Adversarial Style Mining for One-Shot Unsupervised Domain Adaptation》為這種現實但且具挑戰性的學習場景設計一個特定的算法,即一次性無監督領域適應(OSUDA)。
論文傳送門:
https://www.researchgate.net/publication/340618059_Adversarial_Style_Mining_for_One-Shot_Unsupervised_Domain_Adaptation
問題描述
作者為了解決由虛擬數據訓練出的網絡在真實數據上往往泛化能力不佳這一問題,利用無監督領域自適應方法One-Shot Unsupervised Domain Adaptation (OSUDA)來緩解虛擬源域數據和真實目標域數據分布的差距,達到了比較好的效果。
針對目標數據稀缺的現實問題,本文提出只搜集到了一張來自於目標域的珍貴樣本,僅僅通過對該樣本的充分挖掘,使模型能夠感知到潛在的目標域分布,達到「管中窺豹」的效果。
解決思路
假設源域和目標域具有相似的語義內容,但圖片風格不同。傳統基於風格遷移的Domain Adaptation方法將源域圖片轉化到目標域圖片的風格分布上進行訓練,以此降低domain gap。然而,在只有一張目標域圖片的情況下,如果直接按照風格遷移的思路,所有的源域圖片均會遷移到同一個單調的風格上,造成過擬合。
因此,這裡將OSUDA的問題轉化為了風格搜索問題,即如何從一個「孤點」風格搜索出更多潛在的目標域風格,形成「風格分布」,從而讓領域自適應變得可行。
但是只有一張圖片,潛在的目標域風格分布是完全未知的。那麼如何有效地搜索呢?
思路:
潛在的目標域風格雖然不可見,但大概分布在該one-shot風格的附近。應該讓搜索出的風格對模型的泛化能力有價值,即不能完全過擬合到one-shot的風格。沿著這種思路,我們設計了ASM方法。ASM方法以one-shot圖片提供的風格作為「錨」風格(anchored style),利用一個圖片生成網絡G在anchored style周圍採樣一個相似的風格(該風格離anchored style較近)進行圖片生成,然後將下一步的搜索方向確定為對當前任務模型M最難的方向(利用梯度上升實現)進行搜索,從而生成更多更難風格的圖像來提高任務特定模型 M 的泛化能力。更新後的 M 為 G 提供動態反饋,以指導G下一步的搜索方向。顯然,M與G形成了一個對抗的過程。在這種對抗訓練過程中,G逐步生成對於M來說更加困難的圖片,而M不斷地更新G的搜索方向。訓練收斂後,M可以對anchored style周圍的所有風格具有較強的泛化能力。方法詳情
風格生成網絡RAIN
根據解決思路中的描述,針對OSUDA問題,ASM算法需要一個根據M的訓練loss而動態改變遷移風格的模塊G,且模塊G需要具有採樣能力和端到端可導的搜索能力。
基於AdaIN方法,設計了RAIN模塊。
RAIN 在原始 AdaIN 的特徵空間中額外裝備了一個變分自編碼器(稱為 style VAE)。style VAE將所有的風格分布都編碼到了一個正態分布中,因此RAIN在訓練完成後,不需要再像AdaIN一樣每次輸入風格圖片進行風格遷移,而是可以直接通過採樣進行隨機風格遷移。通過改變採樣向量,生成的風格也相應的發生變化。因此,直接將梯度反傳至採樣向量即可完成端到端的對抗訓練。
對抗風格挖掘網絡ASM
將預訓練的G(也就是RAIN)的參數固定(可變的只有採樣向量),與M組成一個對抗網絡。以語義分割常用的FCN網絡為例的網絡結構如下。
ASM的訓練目標是優化兩個損失函數。任務損失:利用任務損失指導M從(已經過風格化的)源域數據和標籤中學習知識。一致性損失:為了進一步鼓勵 M 提取領域不變性特徵,算法使用了一致性損失。
實驗結果
本文分別在Classification和Segmentation的OSUDA任務上進行了實驗。
OSUDA Classification實驗
經典的MNIST-USPS-SVHN互相遷移的任務
T-SNE圖展示ASM的效果
OSUDA Segmentation實驗
GTA2Cityscapes和Synthia2Cityscapes兩個任務進行測試
OSUDA語義分割任務的可視化結果。
圖5 OSUDA語義分割可視化結果
不同採樣策略的結果比較
比較了不同採樣類型的風格生成結果。Anchor Sampling是完全在one-shot樣本附近的採樣策略(無對抗搜索過程),容易造成過擬合;而Random Sampling會生成對M無益的隨機風格。ASM方法生成的樣本既保證了風格符合潛在的目標域風格分布,又保證了對任務模型的有效泛化能力。
可視化不同採樣策略生成結果
圖6 不同採樣策略的風格遷移結果
結論
在分類和分割任務上的實驗結果表明了 ASM 針對 OSUDA 問題有效性。與其他領域自適應方法相比,ASM 在目標域樣本稀缺的情境下具有最優的性能。
OSUDA是一種非常現實卻極具挑戰性的問題環境,目前相關研究較少,特別是在語義分割任務上還有較大提升空間