清華 CVer 對自監督學習的一些思考(文末福利)

2021-02-13 Jack Cui

點擊上方「Jack Cui」,選擇「設為星標」


大家好,我是 Jack 。


眾所周知,機器學習大致可分為有監督學習和無監督學習。


自監督學習作為無監督學習的一個特例,可以理解它是一種沒有人工標註標籤的監督學習,即沒有人類參與的監督學習。


但標籤仍然存在,只不過標籤是從輸入數據中生成的,通常是使用啟發式算法生成。


自監督學習的流行是勢在必然的


在各種主流有監督學習任務都做到很成熟之後,數據成了最重要的瓶頸


從無標註數據中學習有效信息一直是一個很重要的研究課題,其中自監督學習提供了非常豐富的想像空間。


今天為大家帶來的是一位本科清華,博士港中文畢業的大佬,對於自監督學習的一些思考。


自監督學習是指用於機器學習的標註(ground truth)源於數據本身,而非來自人工標註。如下圖,自監督學習首先屬於無監督學習,因此其學習的目標無需人工標註。其次,目前的自監督學習領域可大致分為兩個分支。

第一個是用於解決特定任務的自監督學習,例如場景去遮擋,以及自監督的深度估計、光流估計、圖像關聯點匹配等。
另一個分支則用於表徵學習。有監督的表徵學習,一個典型的例子是 ImageNet 分類。而無監督的表徵學習中,最主要的方法則是自監督學習。典型的方法包括:解決 Jigsaw Puzzles、運動傳播、旋轉預測,以及最近很火的MoCo 等等。當然還有其他分類方法,比如根據數據也可以分為 video / image / language 的自監督學習。本文主要討論 image 上的自監督學習。判斷一個工作是否屬於自監督學習,除了無需人工標註這個標準之外,還有一個重要標準,就是是否學到了新的知識。舉個簡單的例子,例如 image inpainting 是否屬於自監督學習?如果一篇 image inpainting 的論文,其主要目的是提升 inpainting 的效果,那麼它就不屬於自監督學習,雖然它無需額外標註。
但是如果它的目的是藉助 inpainting 這個任務來學習圖像的特徵表達,那麼它就是自監督學習(參考論文:Context Encoders [1])。如下圖,以自監督表徵學習為例,我們通常需要設計一個自監督的 proxy task,我們期望在解決這個 proxy task 的過程中,CNN 能學到一些圖像高級的語義信息。然後我們將訓練好的 CNN 遷移到其他目標任務,例如圖像語義分割、物體檢測等等。

那麼,自監督的 proxy task 有哪些呢?如下圖舉了一些有代表性的例子,第一行中的思路是將圖像以某種方式破壞,然後用神經網絡來學習恢復原圖的過程,期望在此過程中能學到一些圖像語義信息。然而,將圖像破壞,可能帶來預訓練的 domain 和目標任務 domain 不一致的問題。第二行中的 proxy tasks 則代表了無需破壞原圖的自監督任務。第三行中的方法是利用運動信息等多模態信息來學習圖像特徵。當然除了圖中這些例子之外,還有各種各樣其他有趣的自監督任務。

我們的世界是在嚴格的物理、生物規則下運行的,那麼對這個世界的觀測結果(圖像)也必然存在一些先驗規律。例如圖像上色任務,就是利用了物體類別和物體顏色分布之間的關聯;image inpainting,則是利用了物體類別和形狀紋理之間的關聯;旋轉預測任務,利用了物體類別和其朝向之間的關聯。通過挖掘更多的先驗,我們也能設計自己的自監督學習任務。那麼什麼樣的先驗更有效呢?結論是,低熵的先驗。如下圖,左邊的運動預測任務(ICCV 2015: Dense Optical Flow Prediction From a Static Image [2]) ,是從單張圖片中直接預測運動場,其利用的先驗是物體的運動傾向性。而運動傾向性是比較歧義的,例如人在半蹲狀態,難以預測下一時刻會站起來還是繼續下蹲。因而,運動傾向性是一個高熵的先驗。而右圖的運動傳播任務(CVPR 2019: Self-Supervised Learning via Conditional Motion Propagation [3]),從給定的稀疏運動來恢復完整運動場,利用的則是物體的運動學屬性先驗。運動學屬性,例如頭部是剛體,四肢是鉸接體等,是較為確定的先驗,那麼這就是一個低熵的先驗。從實驗結果也可以發現,在transfer到分割任務上,運動傳播比運動預測更好。

圖片具有空間連貫性,視頻具有時空連貫性。那麼就可以利用這些特點來設計自監督任務。如下圖,Solving Jigsaw Puzzles [4] 利用圖片中物體空間上的語義連貫性,Temporal order verification [5]任務利用了視頻中物體運動的時間連貫性。

圖五,利用數據空間、時間連貫性的自監督任務

目前很火的基於contrastive learning的方法,包括NPID, MoCo, SimCLR等,我們可以將它們統一為instance discrimination [6]任務。如下圖,這類任務通常對圖片做各種變換,然後優化目標是同一張圖片的不同變換在特徵空間中儘量接近,不同圖片在特徵空間中儘量遠離。

圖6,instance discrimination任務對於這類任務,下圖假設了兩種可能的優化後的特徵空間。這兩種結果都是符合instance discrimination優化目標的,即同一張圖片的不同變換在特徵空間中儘量接近,不同圖片在特徵空間中儘量遠離。然而,我們發現,實際的優化結果更偏向於第二種而非第一種,也就是說,雖然我們在解決instance discrimination的過程中並沒有用的物體的類別標籤,但是在優化後的特徵空間中,同類的物體還是相對能夠靠攏。
這就證明了,數據之間是具有結構性和關聯性的。Instance discrimination則是巧妙地利用了這種結構性和關聯性。類似地,最近的BYOL [7]也可能是利用了數據在特徵空間中的分布結構特點來拋棄負樣本對(個人理解)。

圖7,instance discrimination的兩種可能的優化後的特徵空間以 jigsaw puzzles 為例,如下圖,如果我們讓劃分的 patch 之間緊密挨著,那麼神經網絡只需要判斷 patch 的邊緣是否具有連續性,就可以判斷 patch 的相對位置,而不需要學到高級的物體語義信息。這就是一種捷徑,我們在設計任務的過程中需要避免這樣的捷徑。圖8,解決jigsaw puzzles時,patch之間不能緊密挨著對於這種捷徑,處理的方式也很簡單,我們只需要讓patch之間產生一些隨機的間隔就行,如下圖。

Solving jigsaw puzzles的其他捷徑還包括色差、彗差、畸變、暗角等可以指示patch在圖像中的相對位置的信息。解決方案除了想辦法消除這些畸變外,還可以讓patch儘量靠近圖像中心。

大多數利用先驗來設計的自監督任務都會面臨歧義性問題。例如 colorization 中,一種物體的顏色可能是多種多樣的,那麼從灰度圖恢復顏色這個過程就具有 ambiguity ;再例如在 rotation prediction 中,有的物體並沒有一個通常的朝向(例如俯拍放在桌上的圓盤子)。
有不少已有工作在專門解決特定任務的歧義性問題,例如 CVPR 2019 的 Self-Supervised Representation Learning by Rotation Feature Decoupling。另外就是設計低熵的先驗,因為低熵的先驗也具有較低的歧義性。

圖11,solving jigsaw puzzles中的不同難度神經網絡就像一個小孩,如果給他太簡單的任務,他學不到有用的知識,如果給他太難的任務,他可能直接就放棄了。設計合理的難度也是一個需要考慮的方面。

我們的世界是在嚴格的物理學、化學、生物學規則下運行的,視覺信號是這些內在規則的外在反映,而深度學習,正好非常擅長處理高維的視覺信號。

所以,無監督、自監督學習的存在和發展是必然的,因為世界本身就是有序的、低熵的,這使得數據本身就已經包含了豐富的信息。

自監督學習看似神奇,但理解了其本質之後,也就會覺得是情理之中了。當然,目前學術界對自監督學習的理解程度,可能也只是九牛一毛而已。未來會走向什麼方向,誰也說不準。

目前是基於數據之間的結構的instance discrimination處於state-of-the-art,未來,基於priors的方法更勝一籌也是有可能的。

所以,千萬不要受限於一類方法,不要讓自監督學習變成了調參遊戲,自監督領域的想像空間其實非常大。

最後,這個總結主要基於自己的思考,也許不一定非常到位,權當拋磚引玉。希望大家都能夠設計出有趣又有用的自監督學習任務,為這個領域添磚加瓦。

本文已由原作者授權,不得擅自二次轉載。

https://zhuanlan.zhihu.com/p/150224914

References:

Pathak, Deepak, et al. "Context encoders: Feature learning by inpainting."Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

Walker, Jacob, Abhinav Gupta, and Martial Hebert. "Dense optical flow prediction from a static image."Proceedings of the IEEE International Conference on Computer Vision. 2015.

Noroozi, Mehdi, and Paolo Favaro. "Unsupervised learning of visual representations by solving jigsaw puzzles."European Conference on Computer Vision. Springer, Cham, 2016.

Misra, Ishan, C. Lawrence Zitnick, and Martial Hebert. "Shuffle and learn: unsupervised learning using temporal order verification."European Conference on Computer Vision. Springer, Cham, 2016.

Wu, Zhirong, et al. "Unsupervised feature learning via non-parametric instance discrimination."Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

Grill, Jean-Bastien, et al. "Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning."arXiv preprint arXiv:2006.07733(2020).

看到這裡的,都是真愛,12 月份的福利來啦~

本次聯合「人民郵電出版社異步圖書」,送 5 本書給大家,規則很簡單,評論區留言,截止今晚(12.15日)十二點,獲贊前五名獲得本書

本書的內容,可以看下圖的簡介(上下滑動查看):

作者黃佳,新加坡埃森哲公司高級顧問,人工智慧專家,機器學習和雲計算高級工程師。

本書的目標,是讓非機器學習領域甚至非計算機專業出身但有學習需求的人,輕鬆地掌握機器學習的基本知識,從而擁有相關的實戰能力。

參與活動的記得加我微信,謹防失聯。

·················END·················

相關焦點

  • 清華CVer 對自監督學習的一些思考
    自監督學習的流行是勢在必然的。在各種主流有監督學習任務都做到很成熟之後,數據成了最重要的瓶頸。從無標註數據中學習有效信息一直是一個很重要的研究課題,其中自監督學習提供了非常豐富的想像空間。今天為大家帶來的是一位本科清華,博士港中文畢業的大佬,對於自監督學習的一些思考。如何定義自監督學習?
  • 【文末有福利】
    【文末有福利】 2020-04-23 17:38 來源:澎湃新聞·澎湃號·政務
  • 文末有福利,不容錯過
    新學期將至,如何選擇一本輔助孩子語文學習的精良讀本呢?如何給孩子們送上一份適宜的開學禮物呢?「第一教育」聯合廣西師大出版社助力新學期,為孩子們送上一份特別的書單。劇透一下:文末有福利哦~請看到最後!詩歌至美我愛吟誦(1-6年級)徐建順 徐冬梅/ 主編著名古典文化學者葉嘉瑩先生傾力推薦國內第一套兒童吟誦讀本精講384首古詩文,
  • 人工智慧的下半場,一定少不了自監督學習
    然而,當前主流的監督式學習任務往往過度依賴於人工標註,即所謂「有多少人工就有多少智能」。因此,通過自監督的方式自動生成監督信號成為了越來越多人工智慧從業者的選擇。本文從圖像、視頻、控制三個角度分別介紹了自監督表徵學習的最新進展,值得一讀!對於給定的任務,在擁有足夠的標籤的情況下,監督式學習可以很好地解決該問題。
  • MNIST競賽技術詳解,文末有福利
    MNIST項目基本上是深度學習初學者的入門項目,本文主要介紹使用keras框架通過構建CNN網絡實現在MNIST數據集上99+的準確率。溫馨提示,文末有福利哦。MNIST手寫數字數據集是深度學習中的經典數據集,該數據集中的數字圖片是由250個不同職業的人手寫繪製的。
  • (文末福利)
    (文末福利) 2020-04-23 09:58 來源:澎湃新聞·澎湃號·政務
  • 【美味英語】鼠你一夏打卡福利來襲!文末福利!
    美味英語全新線上APPI-Caramel正式上線為了讓孩子們儘快熟悉使用美味APP我們將在暑假期間推出打卡暑假 「鼠」你最酷一夏贏好禮活動完成每日班級作業或學習板塊自主學習進行朋友圈打卡配文「我正在參加美味英語鼠你一夏打卡活動第x天,快來和我一起暑假彎道超車!
  • 感恩節,關於「感謝」的最全英文表達 (文末福利又來啦!)
    ps.一定要看到文末福利部分哦!感恩節 (Thanksgiving Day),是北美洲的傳統節日,為感謝上帝賜予一年豐收的祝福。美國感恩節定於每年11月第四個星期四,也就是今天!在美國,自1941年起,感恩節定於每年11月的第四個星期四,這一天還被認為是聖誕採購季 (Christmas shopping season) 的正式開始。我們所熟知的「黑色星期五」購物節就是在感恩節之後的那一天哦!加拿大的感恩節則起始於1879年,定於每年10月第二個星期一。
  • (文末福利)
    那麼剩下沒有太多語言環境或者是有一定語言基礎,想要改善自身發音的學習者,音標學習也是很好的選擇因為音標學習成本更低,大部分學生從小學階段就開始涉及英語的學習,音標學習基本是英語課的入門課中國學生學習的時候通常是單詞和發音放在一起
  • 巨型「櫻桃小丸子」來高島屋了,文末有福利哦
    巨型「櫻桃小丸子」來高島屋了,文末有福利哦 2020-07-17 19:16 來源:澎湃新聞·澎湃號·政務
  • 【源頭活水】淺談圖上的自監督學習——對比學習
    地址:https://www.zhihu.com/people/shi-si-lou-de-can-hun-83前言: 本文將圍繞最近一些在圖上自監督學習的論文,對其中「Contrastive Learning」的內容進行一些解讀,包括一些自監督學習的思路。
  • 【深度】自監督學習,如何從數據困境中拯救深度學習?
    通過觀察/互動、監督和反饋來學習但是如果以嬰兒為例,那麼這個年齡與外界的互動幾乎沒有。儘管如此,嬰兒還是成功建立了物理世界的直覺模型。因此像重力這樣的高級知識只能通過純粹的觀察來學習——至少,我還沒有看到任何父母教一個6個月大的嬰兒物理。直到我們長大一些掌握語言並開始上學時,監督和互動(帶有反饋)才變得更加重要。
  • 試試自監督學習
    給你個秘密武器——自監督學習。數據科學家 Jeremy Howard 發布一條Twitter:在醫學圖像領域,我們經常需要靠一點點的數據來做很多工作。在這個問題上,有一種被低估的方法,正是自監督學習,簡直太神奇!還附上了與之相關的最新fast.ai教程。
  • 學習英語很痛苦?那你一定是用錯方法了!(文末有福利!)
    針對這種情況,我們最常說的一句話是:學習語言最重要的是環境,所以有條件的儘量出國,出國待一段時間,英語水平肯定能得到提高。出國固然是學習英語的好方法,但卻不是唯一的方法。對於大多數的普通家庭來說,出國的花費是一筆很大的支出。
  • 【福利】手寫+電子筆記的使用建議【文末免費領取電子版筆記】
    電子筆記格式,可以怎麼好看怎麼來,可以自定義模板,或者插入思維導圖等多種形式,筆記組織也能井然有序。4.儲存量大。缺點:1.電子版筆記沒有紙質版手寫效率高;2..做筆記的目的不明確,不是為了學會東西,而是為了做一份美觀的筆記自我感動;4.對一些過分追求細節耽誤時間 。
  • 文末有福利!
    幫你Get住拽文大師們的Point,還能讓勵志心靈雞湯瞬間變成畫風清奇的流行語……不信,你看↓↓↓The greater the man,the more restrained his anger以上就是本次整理好的英文名言名句及翻譯,是不是很有意思,那麼接下來就是福利時間啦!
  • 文末有福利
    What I'm going to do in this lecture is focus on something very specific 我在今天的講座中將主要探討一些非常具體的問題。n.她學習了文秘課程。Cornell University offers a course that investigates how language relates to particular cultural codes 康奈爾大學開設了一門研究語言與特定文化符號之間如何關聯的課程。
  • 比監督學習做的更好:半監督學習
    什麼是半監督學習,它與其他學習方法相比如何,半監督學習算法的框架/思維過程是什麼?算法:Semi-Supervised GANs。與傳統GANs的比較,過程的解釋,半監督GANs的性能。用例和機器學習的未來。為什么半監督學習會有如此大的需求,哪裡可以應用。半監督學習算法代表了監督和非監督算法的中間地帶。
  • (文末有福利)
    (文末有福利) 2020-05-14 02:48 來源:澎湃新聞·澎湃號·政務
  • 文末福利|老師們,教師節專屬禮包來啦
    文末互動福利互動話題「求學路上你最難忘的一位老師」文末留言參加互動