從自監督學習主流方法、最新工作進展,看未來前景研究方向

2021-02-13 AI科技評論

作者 | huybery

本文作者來自東北大學,他通過整理自監督學習的一系列工作,把主流方法分成三大類,方便大家更全面的了解自監督學習的定義、方法、用途。與此同時,文中也穿插著幾大主流方法的最新工作進展,現在正在探索自監督學習未來前景研究方向的同學,也不妨借鑑一二,說不定能找到靈感哦~我們首先來回顧下機器學習中兩種基本的學習範式,如圖所示,一種是監督學習,一種是無監督學習。

監督學習利用大量的標註數據來訓練模型,模型的預測和數據的真實標籤產生損失後進行反向傳播,通過不斷的學習,最終可以獲得識別新樣本的能力。而無監督學習不依賴任何標籤值,通過對數據內在特徵的挖掘,找到樣本間的關係,比如聚類相關的任務。有監督和無監督最主要的區別在於模型在訓練時是否需要人工標註的標籤信息。
無監督學習中被廣泛採用的方式是自動編碼器(autoencoder):

編碼器將輸入的樣本映射到隱層向量,解碼器將這個隱層向量映射回樣本空間。我們期待網絡的輸入和輸出可以保持一致(理想情況,無損重構),同時隱層向量的維度大大小於輸入樣本的維度,以此達到了降維的目的,利用學習到的隱層向量再進行聚類等任務時將更加的簡單高效。對於如何學習隱層向量的研究,可以稱之為表徵學習(Representation Learning)。但這種簡單的編碼-解碼結構仍然存在很多問題,基於像素的重構損失通常假設每個像素之間都是獨立的,從而降低了它們對相關性或複雜結構進行建模的能力。尤其使用 L1 或 L2 損失來衡量輸入和輸出之間的差距其實是不存在語義信息的,而過分的關注像素級別的細節而忽略了更為重要的語義特徵。對於自編碼器,可能僅僅是做了維度的降低而已,我們希望學習的目的不僅僅是維度更低,還可以包含更多的語義特徵,讓模型懂的輸入究竟是什麼,從而幫助下遊任務。而自監督學習最主要的目的就是學習到更豐富的語義表徵。
自監督學習主要是利用輔助任務(pretext)從大規模的無監督數據中挖掘自身的監督信息,通過這種構造的監督信息對網絡進行訓練,從而可以學習到對下遊任務有價值的表徵。從數據的本身出發,如何設計有效的輔助任務 pretext?對於第三點,評測自監督學習的能力,主要是通過 Pretrain-Fintune 的模式。我們首先回顧下監督學習中的 Pretrain - Finetune 流程:我們首先從大量的有標籤數據上進行訓練,得到預訓練的模型,然後對於新的下遊任務(Downstream task),我們將學習到的參數進行遷移,在新的有標籤任務上進行「微調」,從而得到一個能適應新任務的網絡。而自監督的 Pretrain - Finetune 流程:首先從大量的無標籤數據中通過 pretext 來訓練網絡,得到預訓練的模型,然後對於新的下遊任務,和監督學習一樣,遷移學習到的參數後微調即可。所以自監督學習的能力主要由下遊任務的性能來體現。

自監督學習的 Pretrain - Finetune自監督學習的方法主要可以分為 3 類:1. 基於上下文(Context based) 2. 基於時序(Temporal Based)3. 基於對比(Contrastive Based)。1. 基於上下文(Context Based)基於數據本身的上下文信息,我們其實可以構造很多任務,比如在 NLP 領域中最重要的算法 Word2vec 。Word2vec 主要是利用語句的順序,例如 CBOW 通過前後的詞來預測中間的詞,而 Skip-Gram 通過中間的詞來預測前後的詞。

而在圖像中,研究人員通過一種名為 Jigsaw(拼圖)[7] 的方式來構造輔助任務。我們可以將一張圖分成 9 個部分,然後通過預測這幾個部分的相對位置來產生損失。比如我們輸入這張圖中的小貓的眼睛和右耳朵,期待讓模型學習到貓的右耳朵是在臉部的右上方的,如果模型能很好的完成這個任務,那麼我們就可以認為模型學習到的表徵是具有語義信息的。

後續的工作[8]人們又拓展了這種拼圖的方式,設計了更加複雜的,或者說更難的任務。首先我們依然將圖片分為 9 塊,我們預先定義好 64 種排序方式。模型輸入任意一種被打亂的序列,期待能夠學習到這種序列的順序屬於哪個類,和上個工作相比,這個模型需要學習到更多的相對位置信息。這個工作帶來的啟發就是使用更強的監督信息,或者說輔助任務越難,最後的性能越好。

除了這種拼圖的模式,還有一種是摳圖[9]。想法其實也很簡單粗暴,就是我們隨機的將圖片中的一部分刪掉,然後利用剩餘的部分來預測扣掉的部分,只有模型真正讀懂了這張圖所代表的含義,才能有效的進行補全。這個工作表明自監督學習任務不僅僅可以做表徵學習,還能同時完成一些神奇的任務。

而對於這種摳圖的方式,其實和 nlp 中的 BERT [10] 的 MASK LM 訓練方式有異曲同工之妙,BERT 在訓練時也可以是看做隨機扣掉一些詞,然後來預測扣掉的詞,從而讓模型讀懂句子。

還有一種思路是通過圖片的顏色信息[11],比如給模型輸入圖像的灰度圖,來預測圖片的色彩。只有模型可以理解圖片中的語義信息才能得知哪些部分應該上怎樣的顏色,比如天空是藍色的,草地是綠色的,只有模型從海量的數據中學習到了這些語義概念,才能得知物體的具體顏色信息。同時這個模型在訓練結束後就可以做這種圖片上色的任務。
這種基於預測顏色的生成模型帶給了人們新的啟發,其實這種灰度圖和 ab 域的信息我們可以當做是一張圖片的解耦表達,所以只要是解耦的特徵,我們都可以通過這種方式互相監督的學習表徵,著名的 Split-Brain Autoencoders [12] 就在做這樣一件事情。對於原始數據,首先分成兩部分,然後通過一部分的信息來預測另一部分,最後再合成完成的數據。和傳統編碼器不同的是,這種預測的方式可以促使模型真正讀懂數據的語義信息才能夠實現,所以相當於間接地約束編碼器不單單靠 pixel-wise 層面來訓練,而要同時考慮更多的語義信息。

最後我們要介紹的是根據類似數據增廣的方式來尋找自監督上下文。ICLR 2018 [13]的工作是給定一張輸入的圖片,我們對其進行不同角度的旋轉,模型的目的是預測該圖片的旋轉角度。這種樸素的想法最後帶來的增益竟然是非常巨大的,所以數據增強對於自監督學習也是非常有益處的,我個人的想法是數據增強不僅帶來了更多的數據,還增加了預訓練模型的魯棒性。

自監督學習在預訓練模型中的成功讓研究人員覺得非常興奮,同時也激發了更多的靈感。我們之前介紹的模型都是在專注如何尋找自監督信息,而自監督學習一定要脫離下遊的具體任務嗎?答案是否定的,越來越多的工作開始思考自監督學習和具體任務緊密結合的方法(Task Related Self-Supervised Learning)。

Lee, Hankook et al [14]探索了在多任務學習中增加自監督學習的可能,他們將普通的分類任務中嵌入了旋轉預測任務。除了簡單的多任務學習,也可以設計聯合學習策略,直接預測兩種監督信息。同樣的想法也被用到了小樣本學習[15]中,一個分支進行傳統的小樣本分類,另一個分支來進行自監督旋轉預測,雖然這篇文章的想法和設計不是很亮眼,但提升還是比較明顯的。

而自監督和半監督學習[16]也可以進行結合,對於無標記的數據進行自監督學習(旋轉預測),和對於有標記數據,在進行自監督學習的同時利用聯合訓練的想法進行有監督學習。通過對 imagenet 的半監督劃分,利用 10% 或者 1% 的數據進行實驗,最後分析了一些超參數對於最終性能的影響。

這兩篇文章最後都中了 ICCV 2019,說明目前來說審稿人對於這類任務相關的自監督模型都是比較感興趣的。
2. 基於時序(Temporal Based)之前介紹的方法大多是基於樣本自身的信息,比如旋轉、色彩、裁剪等。而樣本間其實也是具有很多約束關係的,這裡我們來介紹利用時序約束來進行自監督學習的方法。最能體現時序的數據類型就是視頻了(video)。

第一種思想是基於幀的相似性[17],對於視頻中的每一幀,其實存在著特徵相似的概念,簡單來說我們可以認為視頻中的相鄰幀特徵是相似的,而相隔較遠的視頻幀是不相似的,通過構建這種相似(position)和不相似(negative)的樣本來進行自監督約束。

另外,對於同一個物體的拍攝是可能存在多個視角(multi-view),對於多個視角中的同一幀,可以認為特徵是相似的,對於不同幀可以認為是不相似的。

還有一種想法是來自 @Xiaolong Wang 大佬 ICCV 2015 [18]的基於無監督追蹤方法,首先在大量的無標籤視頻中進行無監督追蹤,獲取大量的物體追蹤框。那麼對於一個物體追蹤框在不同幀的特徵應該是相似的(positive),而對於不同物體的追蹤框中的特徵應該是不相似的(negative)。

除了基於特徵相似性外,視頻的先後順序也是一種自監督信息。比如ECCV 2016, Misra, I. [19] 等人提出基於順序約束的方法,可以從視頻中採樣出正確的視頻序列和不正確的視頻序列,構造成正負樣本對然後進行訓練。簡而言之,就是設計一個模型,來判斷當前的視頻序列是否是正確的順序。

Self-supervised Dialogue Learning基於順序的約束還被應用了到了對話系統中,ACL 2019 [20] 提出的自監督對話學習就是基於這種思想。這篇文章主要是想解決對話系統中生成的話術連貫性的問題,期待機器生成的回覆和人類交談一樣是符合之前說話的風格、習慣等等。從大量的歷史預料中挖掘出順序的序列(positive)和亂序的序列(negative),通過模型來預測是否符合正確的順序來進行訓練。訓練完成後就擁有了一個可以判斷連貫性的模型,從而可以嵌入到對話系統中,最後利用對抗訓練的方式生成更加連貫的話術。

而 BERT 的另一種訓練方式,Next Sentence Prediction 也可以看作是基於順序的約束,通過構造大量的上下文樣本,目的是讓模型理解兩個句子之間的聯繫。這一任務的訓練語料可以從語料庫中抽取句子對包括兩個句子A和B來進行生成,其中50%的概率B是A的下一個句子,50%的概率B是語料中的一個隨機句子。該任務預測B是否是A的下一句。
3. 基於對比(Contrastive Based)第三類自監督學習的方法是基於對比約束,它通過學習對兩個事物的相似或不相似進行編碼來構建表徵,這類方法的性能目前來說是非常強的,從最近的熱度就可以看出,很多大牛的精力都放在這個方向上面。關於這個方向的方法,[22] 總結的比較好。這裡我們再簡單的闡述一下,加上一些我個人的看法。其實我們第二部分所介紹的基於時序的方法已經涉及到了這種基於對比的約束,通過構建正樣本(positive)和負樣本(negative),然後度量正負樣本的距離來實現自監督學習。核心思想樣本和正樣本之間的距離遠遠大於樣本和負樣本之間的距離:這裡的 x 通常也稱為 「anchor」數據,為了優化 anchor 數據和其正負樣本的關係,我們可以使用點積的方式構造距離函數,然後構造一個 softmax 分類器,以正確分類正樣本和負樣本。這應該鼓勵相似性度量函數(點積)將較大的值分配給正例,將較小的值分配給負例:通常這個損失也被稱為 InfoNCE (多麼炫酷的名字啊),後面的所有工作也基本是圍繞這個損失進行的。

我們首先介紹 ICLR 2019 的 DIM [23],DIM 的具體思想是對於隱層的表達,我們可以擁有全局的特徵(編碼器最終的輸出)和局部特徵(編碼器中間層的特徵),模型需要分類全局特徵和局部特徵是否來自同一圖像。所以這裡 x 是來自一幅圖像的全局特徵,正樣本是該圖像的局部特徵,而負樣本是其他圖像的局部特徵。這個工作的開創性很強,已經被應用到了其他領域,比如 graph [24]。

CPC 同樣是一個基於對比約束的自監督框架,主要是可以應用於能夠以有序序列表示的任何形式的數據:文本、語音、視頻、甚至圖像(圖像可以被視為像素或塊的序列,後面作者也給出了具體的想法)。CPC 主要是利用自回歸的想法,對相隔多個時間步長的數據點之間共享的信息進行編碼來學習表示,這個表示 c_t 可以代表融合了過去的信息,而正樣本就是這段序列 t 時刻後的輸入,負樣本是從其他序列中隨機採樣出的樣本。CPC的主要思想就是基於過去的信息預測的未來數據,通過採樣的方式進行訓練。

所以基於對比約束的自監督方法主要圍繞如何選取正負樣本, @慕容腹黑 大佬提出了利用多模態(多視角)的信息來構造樣本[26] ,一個樣本的多個模態為正樣本,其他樣本的模態為負樣本。我認為這個工作還是很有啟發性的,很遺憾 ICCV2019 沒有中,真心希望這篇文章能夠有一個好的歸宿。

對於具體的實現上,因為存在大量的樣本,如何存取和高效的計算損失是急需解決的。研究人員提出了memory bank [27]的概念,也就是說我們把之前模型產生樣本特徵全部存起來,當前計算損失的時候直接拿來用就可以了,每次模型更新完後將當前的特徵重新更新到 memory bank 中,以便下一次使用。這個工作的缺點就在於每次需要將所有樣本的特徵全部存起來。後續 kaiming 大神提出的 Moco[28], 主要的貢獻是 Momentum Update、 shuffleBN 等技術點來優化這個過程。關於 Moco 知乎上已經有了很多的解釋了,推薦大家閱讀 [2],這裡我們就不展開介紹了。

最近 hinton 組又放出了 SimCLR[29],這個工作主要是對於一個輸入的樣本,進行不同的數據增廣方式,對於同一個樣本的不同增廣是正樣本,對於不同樣本的增廣是負樣本。整個過程比之前kaiming提出的動量對比(MoCo)更加的簡單,同時省去了數據存儲隊列。這個工作的創新主要有兩個:
在表徵層和最後的損失層增加了一個非線性映射可以增加性能 (這個地方我比較好奇,希望能有大佬給出更直觀的解釋)。數據增廣對於自監督學習是有益的,不同數據增廣方式的結合比單一增廣更好。
同時作者公布了非常多的實驗經驗,比如自監督學習需要更大的 batch 和更長的訓練時間。找到合適的輔助任務(pretext)對於自監督學習是最需要解決的問題。數據和資源越多,自監督預訓練的效果會更好(Bert, MoCo, SimCLR)。自監督直接和具體任務的結合(Task Related Self-Supervised Learning)是個可探索的方向,已經在很多任務中初露頭角,也比較符合審稿人的口味。Reference

[1] https://lawtomated.com/supervised-vs-unsupervised-learning-which-is-better/

[2] https://zhuanlan.zhihu.com/p/102573476

[3] https://zhuanlan.zhihu.com/p/107126866

[4] https://zhuanlan.zhihu.com/p/30265894

[5] https://zhuanlan.zhihu.com/p/108625273

[6]https://lilianweng.github.io/lil-log/2018/08/12/from-autoencoder-to-beta-vae.html

[7] Carl Doersch, Abhinav Gupta, and Alexei A. Efros. Unsupervised Visual Representation Learning by Context Prediction. In ICCV 2015

[8] Noroozi, M., & Favaro, P. Unsupervised learning of visual representations by solving jigsaw puzzles. In ECCV 2016.

[9] Deepak Pathak et al. Context Encoders: Feature Learning by Inpainting. In CVPR 2016.

[10] Devlin, Jacob et al. 「BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.」 NAACL-HLT (2019).

[11] Zhang, R., Isola, P., & Efros, A. A. Colorful image colorization. In ECCV 2016.

[12] Zhang, R., Isola, P., & Efros, A. A. Split-Brain Autoencoders: Unsupervised Learning by Cross-Channel Prediction. In CVPR 2017

[13] Gidaris, Spyros et al. 「Unsupervised Representation Learning by Predicting Image Rotations.」 In ICLR 2018

[14] Lee, Hankook et al. 「Rethinking Data Augmentation: Self-Supervision and Self-Distillation.」 ArXiv abs/1910.05872 (2019): n. pag.

[15] Gidaris, Spyros et al. 「Boosting Few-Shot Visual Learning with Self-Supervision.」 ICCV 2019

[16] Zhai, Xiaohua et al. 「SL: Self-Supervised Semi-Supervised Learning.」 」 ICCV 2019

[17] Sermanet, Pierre et al. 「Time-Contrastive Networks: Self-Supervised Learning from Video.」 2018 IEEE International Conference on Robotics and Automation (ICRA) (2017): 1134-1141.

[18] Wang, Xiaolong and Abhinav Gupta. 「Unsupervised Learning of Visual Representations Using Videos.」 2015 IEEE International Conference on Computer Vision (ICCV) (2015): 2794-2802.

[19] Misra, I., Zitnick, C. L., & Hebert, M. Shuffle and learn: unsupervised learning using temporal order verification. In ECCV 2016.

[20] Wu, Jiawei et al. 「Self-Supervised Dialogue Learning.」 ACL (2019).

[21] cloud.tencent.com/devel

[22] ankeshanand.com/blog/20

[23] Hjelm, R. Devon et al. 「Learning deep representations by mutual information estimation and maximization.」 . ICLR 2019

[24] Velickovic, Petar et al. 「Deep Graph Infomax.」 ArXiv abs/1809.10341 (2018): n. pag.

[25] Oord, Aäron van den et al. 「Representation Learning with Contrastive Predictive Coding.」 ArXiv abs/1807.03748 (2018): n. pag.

[26] Tian, Yonglong et al. 「Contrastive Multiview Coding.」 ArXiv abs/1906.05849 (2019): n. pag.

[27] Wu, Zhirong et al. 「Unsupervised Feature Learning via Non-parametric Instance Discrimination.」 CVPR 2018

[28] He, Kaiming et al. 「Momentum Contrast for Unsupervised Visual Representation Learning.」 ArXiv abs/1911.05722 (2019): n. pag.

[29] Chen, Ting et al. 「A Simple Framework for Contrastive Learning of Visual Representations.」 ArXiv abs/2002.05709 (2020): n. pag.

[30] 題圖: educators.brainpop.com/

掃碼關注[ AI研習社頂會小助手] 微信號,發送關鍵字「ECCV 2020+直播」,即可進群觀看直播和獲取課程資料。閱讀原文,直達「 ECCV 」小組,了解更多會議信息!

相關焦點

  • 自監督、半監督和有監督全涵蓋,四篇論文遍歷對比學習的研究進展
    機器之心分析師網絡作者:仵冀穎編輯:Joni本文通過四篇相關論文對自監督學習中的對比學習(Contrastive Learning)進行了深入的探討。自監督學習意思是使用非人工標記數據進行學習。在機器學習中,比較著名的自監督方法就是自然語言處理中的word2vec。
  • 【源頭活水】淺談圖上的自監督學習——對比學習
    原始的監督學習、無監督學習,都被目所能及的一切所約束住,無法泛化,導致任務效果無法提升,正是因為自監督探索的是更本質的聯繫,而不是表像的結果,所以其效果通常出乎意料的好。自監督學習的前兩類方法,其核心想法其實都是想去探索事物的本質。
  • 大討論|天線未來研究方向及發展前景怎樣?
    剛讀博士,對未來研究方向不太確定,希望和大家一起交流一下,大家覺得天線未來發展方向是什麼樣的,哪些領域比較有發展前景(指SCI論文產出高)或熱門
  • 著名人工實驗室的前沿研究和深度學習最新進展
    人工智慧學家推薦來源:CSDN本文首先回答關於深度學習的幾個常見問題,介紹深度學習研究的最新進展,特別是一些代表性工作
  • Yu 團隊最新綜述!社區發現的深度學習方法:進展、挑戰...
    隨著深度學習的發展,研究者們逐漸從傳統的統計推斷和譜聚類等方法中解放了出來。那麼,深度學習時代的社區發現工作有哪些特點,研究者們遇到了哪些挑戰,有哪些前景光明的研究方向呢?近日,IJCAI 2020 上發表的一篇 Survey 文章,完整闡釋了這一研究方向的方法、挑戰和機遇。論文來自數據挖掘領域大牛 Philip S. Yu 團隊。
  • 螞蟻金服提自監督表徵學習識別方法
    特徵提取器的訓練採用了表徵學習方法,使用無標籤的數據樣本以自監督的方式進行訓練,使特徵提取器能夠提取到有效的且具有判別力的字符特徵。當特徵提取器訓練好了之後,在後面接上分類器,使用少量帶有標籤的驗證碼圖片以全監督的方式訓練分類器。
  • 清華CVer 對自監督學習的一些思考
    自監督學習的流行是勢在必然的。在各種主流有監督學習任務都做到很成熟之後,數據成了最重要的瓶頸。從無標註數據中學習有效信息一直是一個很重要的研究課題,其中自監督學習提供了非常豐富的想像空間。今天為大家帶來的是一位本科清華,博士港中文畢業的大佬,對於自監督學習的一些思考。如何定義自監督學習?
  • 用強化學習研究推薦系統的前景和難度怎麼樣?
    - 知乎https://www.zhihu.com/question/328133447姊妹篇:增強學習在推薦系統有什麼最新進展?- 知乎https://www.zhihu.com/question/57388498正文:用強化學習研究推薦系統的前景和難度怎麼樣?
  • 貝葉斯深度學習研究進展
    基於這種理解,可以通過多次採樣,推導出更準確估計預測置信度的方法,稱為MC-Dropout。另外,神經網絡的結構搜索是近期很受關注的一個方向。10年前就有學者研究如何用貝葉斯方法隨機生成神經網絡的結構[13]。
  • 德克薩斯A&M大學在讀博士遊宇寧:自監督學習在圖卷積網絡中的研究...
    當前自監督學習已經被廣泛用於訓練卷積神經網絡(CNNs),有效地提高了圖像表示學習可傳遞性、泛化能力和魯棒性,並且已在語義分割、目標檢測、圖像分類、人體動作識別等實戰場景中展現出卓越效果。現在更多無需人工標註的前置任務訓練也被提出,如前景對象分割、圖像修補、圖像著色等。然而,自監督如何應用於處理圖數據結構的圖卷積網絡(GCNs)的問題卻很少被探索。
  • 試試自監督學習
    給你個秘密武器——自監督學習。數據科學家 Jeremy Howard 發布一條Twitter:在醫學圖像領域,我們經常需要靠一點點的數據來做很多工作。在這個問題上,有一種被低估的方法,正是自監督學習,簡直太神奇!還附上了與之相關的最新fast.ai教程。
  • 表徵學習、圖神經網絡、可解釋的 AI , ML & 機器人七大研究進展...
    整個 AI 研究社區都正在努力將個人的想法匯集起來,集合個體思想以建立更強大的決策系統。AlphaZero 和 MuZero 也都朝著這個方向發展,識別 MCTS 樹結構(模擬選擇不同動作的影響)以及預測每個動作的未來優點的能力,將產生更強大的學習系統。
  • 表徵學習、圖神經網絡、可解釋的 AI,ML & 機器人七大研究進展一覽
    最近的一些工作已開始在能夠從數據中學習這種表徵的方向上取得真正的進展,使學習系統能夠自行推斷對象或建立它們能夠用以與此前未見過的位置進行交互的對象和位置的「關係圖」。這項研究目前仍處於初級階段,但是我很渴望看到它的進展,因為我堅信朝著能力更強的機器人方向前進,需要對這個領域有更深入的了解和取得重大的進步。
  • 語音處理中的自監督學習
    文章來自知乎,原文連結:https://zhuanlan.zhihu.com/p/152672250自監督學習也可以用在語音處理中。我們很容易收集到很多無標註的語音數據。把它用去噪自編碼器的方法去做預訓練,再在有標註的數據上微調。這便是自監督學習的核心精神。這一期,我們來講講所有自監督學習方法在語音處理上的應用。大概會有 24 個不同的方法。
  • 使用半監督學習從研究到產品化的3個教訓
    半監督學習(SSL),一個結合了監督和非監督學習的子領域,在過去幾年中在深度學習研究社區中越來越受歡迎。很有可能,至少在短期內,SSL方法可能成為標籤密集型監督學習和未來數據高效建模之間的橋梁。半監督圖像分類的提升很難轉化為目標檢測的提升。我們在SSL方面的大部分進展都是在圖像分類性能方面進行的,並在目標檢測方面進行類似的改進,但我們發現很難在實踐中對它們進行適應。因此,在半監督目標檢測領域需要進行更多的工作和研究。什麼是半監督學習(SSL)?
  • Yann Lecun自監督學習指南(附114頁Slides全文下載)
    2018年11月08日,他來到加州大學聖巴巴拉分校,為在場師生作了一場關於自監督學習的前沿報告,近日他在twitter上公開了報告的全程錄像以及Slides全文,現為大家編譯如下。介紹:11月08日,應加州大學聖巴巴拉分校,統計與應用概率學系(Department of Statistics and Applied Probability)邀請,Facebook副總裁兼人工智慧科學家、紐約大學數據科學中心創始主任Yann Lecun為在場師生做了一場自監督學習的前沿報告。
  • 清華 CVer 對自監督學習的一些思考(文末福利)
    從無標註數據中學習有效信息一直是一個很重要的研究課題,其中自監督學習提供了非常豐富的想像空間。第一個是用於解決特定任務的自監督學習,例如場景去遮擋,以及自監督的深度估計、光流估計、圖像關聯點匹配等。另一個分支則用於表徵學習。有監督的表徵學習,一個典型的例子是 ImageNet 分類。而無監督的表徵學習中,最主要的方法則是自監督學習。典型的方法包括:解決 Jigsaw Puzzles、運動傳播、旋轉預測,以及最近很火的MoCo 等等。
  • DeepMind科學家:2020年AI領域十大研究進展
    與此同時,研究人員也逐漸意識到這些模型存在成本高和能源消耗大的問題,從而專注於設計規模更小的模型並取得了一定的進展:最新的方法依賴於剪枝、量化、蒸餾和壓縮。其他方法側重於提高Transformer架構本身的效率。這一系列的模型包括Performer和Big Bird,如上方的封面圖片所示。
  • 2019 到目前為止的深度學習研究進展匯總
    在剛剛結束的2019年的第一季度裡,深度學習技術在快速的向前發展。我經常會去查看相關研究人員的工作,以便了解這項技術的進展。這項工作讓我能夠了解到很多我不知道的事情,然後以此優化自己的工作時間安排。最近關於條件生成對抗網絡(conditional generative adversarial networks,GANs)的研究表明,在自然圖像上學習複雜的高維分布是可行的。雖然最新的模型能夠在高解析度下生成高保真度、多樣化的自然圖像,但它們依賴於大量的標註數據。這篇論文展示了如何從最新的自我和半監督學習研究中獲得啟發,從而在無監督的圖像合成和條件設置方面都優於當前的最好效果(SOTA)。
  • 概覽普適詞嵌入句嵌入最新進展
    最近,遷移學習在一些重要的任務(比如文本分類)上戲劇性地提升了NLP模型的表現。請參閱Jeremy Howard和Sebastian Ruder提出的ULMFiT模型。儘管長期以來句子的無監督表示學習是主流,最近幾個月(2017年末/2018年初),我們看到了許多非常有趣的工作,顯示了向監督學習和多任務學習轉向的趨勢。