谷歌對無監督解耦方法進行了大規模評估,還開源了用來實驗的開發庫!

2020-11-22 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論按:如何能夠以無監督的方式去理解高維數據,並進一步將這些知識提煉為有用的表示仍然是深度學習中的一個關鍵難題。該問題的一種解決方法便是解耦表示(disentangled representation),來自谷歌的研究人員不僅深入研究了目前最流行的解耦模型和多個解耦表示數據集,進行了大量實驗,還開源了他們的實驗庫「disentanglement_lib」。此外,與該實驗庫同時開源的還有一萬多個預訓練模型與完整的訓練測試流程。下面是雷鋒網 AI 科技評論針對這篇博客的部分編譯。

解耦模型能夠捕捉場景中互相獨立的特徵,即某種特徵不會由於其他特徵的改變而受到影響,實現特徵之間的解耦。如果能夠成功完成特徵的解耦表示,現實世界中機器學習系統(如自動駕駛汽車或者機器人)能夠將物體的屬性與其周圍環境分離,從而使得模型能夠泛化到其沒有見過的場景中。舉一個簡單的例子,一輛汽車在不同的天氣,光線條件或者地理位置等環境中,它的特徵應該是不變的,如果一個模型能夠將汽車的特徵與其背景環境的特徵解耦,那麼有理由認為,將這個汽車放在一個模型在訓練時完全沒見到過的環境中時,模型仍然能針對汽車捕捉到不變的特徵,這就意味著模型的泛化能力較強。儘管以無監督的方式進行解耦表示學習已經被用於好奇心驅動的探索(curiosity driven exploration)、抽象推理(abstract reasoning)、視覺概念學習 (visual concept learning),以及強化學習中的域適應 (domain adaptation for reinforcement learning) 等領域中,但是目前並沒有對比不同方法的有效性和局限性的研究。

在「挑戰無監督解耦表示中的常見假設」(Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations,ICML 2019 ) 這篇文章中,谷歌的研究人員對最近的無監督解耦方法進行了大規模評估,對一些常見假設進行了實驗驗證,同時也對解耦學習的未來工作提出了一些改進建議。這次評估共訓練了超過 12,000 個模型,涵蓋了大多數主流模型和評價指標,在七個不同數據集上進行可重複的大規模實驗。同時,谷歌的研究人員也開源了此次研究中的代碼和超過 10,000 個預訓練模型。開源的 disentanglement_lib 庫能夠幫助研究人員輕鬆地復現和驗證他們的實驗結果。

論文地址:https://arxiv.org/abs/1811.12359

「disentanglement_lib」開源庫:https://github.com/google-research/disentanglement_lib

理解解耦

為了更好的理解如何將圖像的真實屬性以解耦的方式編碼為特徵,不妨先來看 Shapes3D 數據集中圖像的真值因素。在這個數據集裡,如下圖所示,每一個圖代表了可能會被編碼進最終圖像的表示向量的一個因素,共有六種,分別是地板顏色、牆壁顏色、物體顏色、物體大小、物體形狀,以及觀察物體的角度。

Shapes3D 數據集真值因素的可視化:地板顏色(上左),牆壁顏色(上中)、物體顏色(上右)、物體大小(下左)、物體形狀(下中)以及觀察物體的角度(下右)。

解耦表示的目標是構建一個能夠捕捉這些解釋因素並將之編碼為一個向量的模型。下圖展示了一個具有 10 維表示向量的 FactorVAE 模型的結果。這 10 個圖可視化了十維向量每個維度所捕捉到的信息。從第一行的第三到第五張圖可以看到,模型成功地解耦了地板和牆壁顏色這一屬性,而左下方的兩個圖表明物體顏色和大小兩個屬性仍然糾纏在一起。

FactorVAE 模型學到的潛在維度的可視化(見下文)。模型成功地解耦了地板和牆壁顏色以及觀察物體的角度這三項真值因素(上右、上正中間以及下正中間),而物體顏色、物體大小、物體形狀三項真值因素(上左、下左兩張圖)則仍舊糾纏在一起。

大規模實驗的主要結果

儘管研究界已經提出了各種基於變分自動編碼器的無監督方法來學習解耦的表示,同時也設計了很多的度量標準來量化模型解耦的效果的好壞,但並沒有大規模的實驗研究以統一的標準評估這些方法。因此谷歌的研究者通過六種不同的最先進模型(BetaVAE,AnnealedVAE,FactorVAE,DIP-VAE I/II 和 Beta-TCVAE)和六種解耦評價指標(BetaVAE 評分,FactorVAE 評分,MIG,SAP,Modularity 和 DCI 解耦),提出了一個公平的,可復現的評價基準方案。此次評估,共在 7 個數據集上訓練和測試了 128,000 個這樣的模型。

此次研究的主要發現包括:

  • 谷歌研究團隊沒有發現證據表明這些模型能夠以無監督的方式,可靠地學習到解耦的表示,由於隨機種子和超參數似乎比模型選擇更重要。換句話說,研究者即使訓練大量的模型,其中一些模型能夠學到解耦的特徵,這些解耦表示似乎無法在沒有真實標籤的情況下被識別出來。此外,在此次研究中,良好的超參數值並不適用於不同的數據集。這些結果與論文中提出的定理一致,該定理指出,如果沒有數據集和模型的歸納偏差(inductive biases),則無法通過無監督的方式學到解耦的特徵(即,必須對數據集做出假設,並融合到模型中去)

  • 鑑於實驗中用到的模型和數據集,谷歌研究團隊無法驗證這種解耦表示是否對下遊任務有用,比如利用解耦表示來使用更少的有標註數據進行學習。

下圖展示了實驗中的一些發現。不同運行中隨機種子的選擇對解耦評價指標的影響大於模型選擇和正則化強度。使用差的超參數但有較好隨機種子模型的運行結果可以輕易超過有良好超參數但隨機種子模型較差的運行結果。

左側的圖展示了不同解耦模型不同模型在 Cars3D 數據集上的 FactorVAE 分數分布。右側的圖展示了 FactorVAE 模型在不同正則化強度下的分數分布。主要的結論為這些提琴圖有很大程度的交叉,即所有的模型都很依賴於隨機種子的選擇。

基於這些觀察結果,谷歌的研究者提出了四個與未來研究相關的建議:

  1. 由於無歸納偏差的無監督解耦特徵學習是不可能的,未來的工作應該更清楚地描述所加入的歸納偏差,以及加入隱性或顯性監督的作用。

  2. 如何找到適用於多個數據集和無監督模型的歸納偏差仍是一個重要問題。

  3. 需要展示出學習到解耦特徵的具象化的實際好處。比較可行的方向包括機器人技術、抽象推理 (abstract reasoning) 和公平性分析 (fairness)。

  4. 需要在更多數據集上設計可復現的實驗。

開源的 disentanglement_lib

為了能夠讓其他人驗證此次實驗的結果,谷歌研究團隊還開源了用來進行實驗的開發庫:disentanglement_lib。它包含了上述涉及到的解耦方法、評價指標的開源實現、標準化訓練測試流程以及更好理解模型的可視化工具。

disentanglement_lib 有三個方面的優點:

  • 首先,只需不到四個 shell 命令,disentanglement_lib 即可復現上述研究的任何模型。

  • 其次,研究人員可以很容易的基於此研究進行修改,來驗證其他假設。

  • 第三,disentanglement_lib 易於拓展,是一個好的入門解耦表示的方法,同時能夠很容易的使用這個庫來實現新模型,並將之與其他模型進行比較。

從頭訓練此次研究中的所有模型需要大概 2.5GPU 年的時間,對於一般研究者來說這可能是不現實的,因此谷歌同時開源了超過 10,000 個預訓練模型,可以與 disentanglement_lib 一起使用。

disentanglement_lib 允許其他研究人員將他們的新模型與的預訓練模型進行對比,並在各種模型上測試新的解耦度量標準和可視化方法,有望能夠推動該領域進一步向前發展。

via Google AI Blog ,雷鋒網(公眾號:雷鋒網) AI 科技評論編譯

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 谷歌幫助開發,正式支持TensorBoard | 5大開源項目
    不僅宣布支持TensorFlow的可視化工具TensorBoard,還正式向工業界邁進,為生產環境改進了PyTorch處理分布式訓練的方式。而且,根據Facebook介紹,開發這一版本的過程中谷歌還幫了不少忙。
  • 推斷速度達seq2seq模型的100倍,谷歌開源文本生成新方法LaserTagger
    來源:機器之心作者:Eric Malmi等機器之心編譯參與:魔王、杜偉使用 seq2seq 模型解決文本生成任務伴隨著一些重大缺陷,谷歌研究人員提出新型文本生成方法 LaserTagger,旨在解決這些缺陷,提高文本生成的速度和效率。
  • 多任務實現SOTA,UBC、谷歌等提出3D點雲的無監督膠囊網絡
    機器之心報導作者:杜偉、小舟這是一種為 3D 點雲提出的無監督膠囊架構,並且在 3D 點雲重構、配準和無監督分類方面優於 SOTA 方法。理解對象是計算機視覺的核心問題之一。傳統方法而言,理解對象任務可以依賴於大型帶注釋的數據集,而無監督方法已經消除了對標籤的需求。
  • 多任務實現SOTA,UBC谷歌等提出3D點雲的無監督膠囊網絡
    這是一種為 3D 點雲提出的無監督膠囊架構,並且在 3D 點雲重構、配準和無監督分類方面優於 SOTA 方法。理解對象是計算機視覺的核心問題之一。傳統方法而言,理解對象任務可以依賴於大型帶注釋的數據集,而無監督方法已經消除了對標籤的需求。
  • 看一遍人類動作就能模仿,能理解語義的谷歌機器人登上無監督學習的...
    為了使該方法可行,研究者使用了從ImageNet上進行圖像識別訓練的大型網絡的深度視覺特徵。這種深度視覺特徵對於語義概念是敏感的,能夠很好的提取語義概念,同時防止諸如外觀和照明等變量的幹擾。研究者使用這些功能來解釋用戶提供的演示,結果顯示從幾個演示中就可以以無監督的方式學習到獎勵函數,而無需額外訓練。
  • 一行命令跑評測,港中文MMLab開源自監督表徵學習代碼庫
    自監督表徵學習發展迅速,但也存在諸多問題。近日,香港中文大學多媒體實驗室(MMLab)和南洋理工大學的研究者開源了一套統一的自監督學習代碼庫 OpenSelfSup。前言近幾個月來自監督表徵學習領域獲得了顯著突破,特別是隨著 Rotation Prediction、DeepCluster、MoCo、SimCLR 等簡單有效的方法的誕生,自監督表徵學習大有超越有監督表徵學習的趨勢。
  • 機器之心年度盤點:2018年重大研究與開源項目
    研究者使用內在評價進行評估,結果顯示更高級別的 LSTM 狀態捕捉詞義的語境依賴方面(如它們不經修改就可以執行監督式詞義消歧任務,且表現良好),而較低級別的狀態建模句法結構(如它們可用於詞性標註任務)。同時揭示所有這些信號是非常有益的,可以幫助學得的模型選擇對每個任務最有幫助的半監督信號。
  • 用來評估化學品安全性的動物實驗,美國環保署計劃取消惹爭議
    用來評估化學品安全性的動物實驗,美國環保署計劃取消惹爭議 據美國《科學》周刊網站9月10日報導,美國環境保護署(EPA)今天宣布,將於2035年停止進行或資助針對哺乳動物進行的研究,此舉使EPA成為美國首個為逐步停止動物研究而設定嚴格期限的聯邦機構
  • 谷歌地球企業版開源!
    谷歌地球企業版(Google Earth Enterprise,GEE) 最初在 2006 年發布。當時的目標是,讓企業客戶能在本地數據中心部署谷歌地圖以及谷歌地球。如今,隨著越來越多的服務被搬到雲端,這項業務已被關閉。
  • 用來評估化學品安全性的動物實驗,美環保署計劃要取消……
    科技日報記者 劉霞據美國《科學》周刊網站10日報導,美國環境保護署(EPA)今天宣布,將於2035年停止進行或資助針對哺乳動物進行的研究,此舉使EPA成為美國首個為逐步停止動物研究而設定嚴格期限的聯邦機構。
  • 谷歌大數據工具衍生新開源平臺Drill
    《谷歌大數據工具衍生新開源平臺Drill》文章已經歸檔,不再展示相關內容,編輯建議你查看最新於此相關的內容:阿法狗閉關結束啦!根據谷歌在美國與出版商達成的1.25億美元和解協議,該公司可以在美國監測並在線銷售無版權及絕版圖書。
  • 谷歌開源TensorFlow Object Detection API物體識別系統
    API 將谷歌內部使用的物體識別系統(2016 年 10 月,該系統在 COCO 識別挑戰中名列第一)開源給更大的社區,幫助打造更好的計算機視覺模型。機器之心對該文進行了編譯,原文連結請見文末。在谷歌,研究人員開發了最高水平的計算機視覺機器學習系統,不僅可以用於谷歌自身的產品和服務,還可以推廣至整個研究社區。創造能夠在同一張圖片裡定位和識別多種物體的機器學習模型一直是業內的核心挑戰之一,谷歌宣稱自己已投入大量時間訓練和實驗此類系統。
  • 2018 年度 GtiHub 開源項目 TOP 25:數據科學 & 機器學習
    上面的圖像抓住了這個開源項目的精華——戶外場景下的密集人體姿勢評估。該開源項目包含了訓練和評估 DensePose-RCNN 模型的代碼,以及可用於可視化 DensePose COCO 數據集的筆記。這是一個開啟姿態評估學習的好地方。
  • 圖片質量評估論文|無監督SER-FIQ|CVPR2020
    這一篇文章是CVPR2020的與圖像質量評估相關的文章,整體思想比較新穎,而且是無監督的方式,感覺構思不錯,我要好好讀讀這一篇。1 細節人臉質量評估的目的是評估一個人臉圖片與面部識別算法的適用性,什麼是高質量的人臉圖片?不是看的清晰的,而是可以正確被面部識別算法識別的。
  • 告別調參煉丹,谷歌「權重無關」神經網絡開源了!
    「權重無關神經網絡」終於開源了!但谷歌前段時間發表的研究表明,即使拋棄神經網絡權重訓練,使用隨機共享權重,也可以執行各種任務。AI博客上撰文,介紹了該研究的核心思想和重要細節,並宣布WANN的代碼已經在GitHub上開源,以便讓廣泛的研究社區重現WANN實驗。
  • 谷歌宣布二進位文件對比工具BinDiff開源
    谷歌上周五宣布BinDiff開源——這是給安全研究人員用於進行二進位文件分析和對比的工具。
  • Jeff Dean撰文:谷歌AI 2018研究成果匯總
    我們還開發了BERT,這是第一個深度雙向、無監督的語言表示模型,只使用純文本語料庫進行預訓練,然後可以使用遷移學習對各種自然語言任務進行微調。BERT在11個自然語言任務上比以前的最先進的結果有了顯著的改進。
  • 基於H∞混合靈敏度的飛彈解耦控制器設計方法
    工程設計上,通常把較小的耦合項作為隨機幹擾來處理,但當耦合影響較大時,容易使控制系統喪失穩定性,因此必須考慮通道間的耦合效應,並對其解耦。近年來,隨著控制理論的發展,多種解耦控制方法應運而生,如特徵結構配置解耦、自校正解耦、線性二次型解耦、奇異攝動解耦、自適應解耦、智能解耦、H∞解耦,變結構解耦等,其中文獻[4]採用多變量頻域法,將耦合的MIMO系統化為一系列的SISO系統,再用經典頻域法分別設計,實現了BTT飛彈
  • GAN用於無監督表徵學習,效果依然驚人……
    該論文提出的方法建立在 SOTA 模型 BigGAN 之上,通過對其表徵學習和生成能力進行廣泛評估,證明這些基於生成的模型在 ImageNet 數據集的無監督表徵學習和無條件圖像生成方面均實現了 SOTA 效果。
  • 當前最好的詞句嵌入技術概覽:從無監督學習轉向監督、多任務學習
    最近的詞嵌入研究進展在過去的五年中,人們提出了大量可行的詞嵌入方法。目前最常用的模型是 word2vec 和 GloVe,它們都是基於分布假設(在相同的上下文中出現的單詞往往具有相似的含義)的無監督學習方法。