從多模態到泛化性,無監督學習如何成為人工智慧的下一站?

2020-09-03 AI科技評論

作者 | 彩嫻、青暮、寶尚

編輯 | 大鑫

2016年,圖靈獎得主Yann LeCun 表示,未來幾年的挑戰是讓機器學會從原始的、沒有標籤的數據中學習知識,即無監督學習。Yann LeCun提出,無監督學習是人工智慧的下一站。

2020年,圖靈獎得主Geoffrey E. Hinton指出,人類無法完全依賴有監督學習的方法完成所有神經元訓練,而需要更多來自於無監督學習的幫助。

目前無監督學習技術備受關注,無監督表達學習技術在自然語言處理領域進展神速,OpenAI 近期發布的包含1700億參數的GPT-3預訓練模型吸引了全世界的目光;無監督圖嵌入表達技術在圖學習領域取得了不俗的成果;自監督學習技術在視覺領域近期也有較大的突破,Geoffrey E. Hinton 等谷歌研究者的最新研究一次就把無監督學習的指標提升了 7-10%,甚至可以媲美有監督學習的效果。

但我們同時也看到,對GPT-3的質疑聲一直不斷,無監督學習技術在更多的領域尚待突破。

2020年8月22日,中國計算機學會青年計算機科技論壇深圳分論壇主辦大灣區IT創新論壇「無監督學習,如何成為人工智慧的下一站?」。

本次論壇吸引了超過1千人通過線下會場、騰訊會議及B站全程參與,包括涉及表達學習、自然語言處理、計算機視覺分析、數據挖掘、金融大數據處理等眾多相關領域的青年學者、相關行業從業者及在讀學生,共同思辨無監督學習技術如何真的能成為人工智慧的下一站。

在論壇的思辨環節,大家充分交流了自己對無監督學習當前發展及未來趨勢的看法,並圍繞三個議題展開了精彩的討論。這三個議題分別對應於無監督的益處、多模態場景和魯棒性。

以下是邀請嘉賓及參與者的相關論點,AI科技評論進行了不改變原意的整理。

除了圖像與視頻的識別、檢測與分割,其實視覺領域還有許多子任務,比方說:底層任務有圖像的修復,中層任務有檢測圖像深度的估計,更上一層的任務包括圖像裡物體之間的關係預測,以及從圖像到語句的生成或者視覺問答等等。

各種各樣的視覺任務都非常依賴於視覺特徵的表達。自深度學習崛起後,由於在下遊的任務中不可能搜集關於該任務的各種特定的數據進行訓練,所以視覺特徵的表達越來越依賴於預訓練的模型。

預訓練模型指的是一個已訓練好的、保存下來的網絡,該網絡通常已在一些大型數據集上進行了訓練。目前一些比較著名的預訓練模型包括:計算機視覺領域的VGG16、Mask R-CNN和自然語言處理領域的BERT、GPT-3等等。

在視覺的預訓練模型上,2009年出現了一個大規模數據集——ImageNet,所以大家普遍使用在ImageNet上的預訓練模型,然後再在其他子任務上進行訓練。

但是,通過ImageNet進行預訓練的模型存在一些缺陷:1)預訓練依賴ImageNet,但ImageNet的數據量畢竟是有限的;2)ImageNet的標籤是人工設計的,因此可能存在著一些數據的偏差;3)關於下遊任務(即前面提到的各種各樣的視覺任務),不同的下遊任務有不同的特性,那麼在ImageNet上預訓練的模型在處理不同的下遊任務時,可能會表現出不同的能力與特徵;4)ImageNet數據集由人工來打標籤,需要耗費巨大的人力物力,數據的擴展非常困難,而且預訓練模型的訓練與人的學習機制是相違悖的,人的學習不依賴於大量的標籤數據來實現泛化能力。

因此,近幾年,研究人員逐漸轉向利用無監督或自監督的方法去學習更好的預訓練模型。在視覺領域,自監督模型的核心思想是設計各種各樣的前置任務(pre-tasks)。這種前置任務可以是基於生成式的,也可以是基於判別式的。

基於生成式的前置任務是說:抹掉圖的部分內容,然後去預測所抹掉的部分;或是把圖轉成灰色圖,去預測圖的彩色模樣;或是觀察視頻的前幾幀,去預測這段視頻的下一幀。例如,Image GPT是像語句一樣把圖像看作一個像素的序列,通過基於前面的像素去預測後面的像素。

另一種是基於判別式的,即設計一個分類任務,把一張圖打散成塊狀,然後去預測序列的分類。或者是,對圖像做一些更改,然後判別圖像經過了哪幾種不同的變化。根據現在的研究,在分類任務上,基於判別式的預訓練模型所取得的結果比基於生成式的預訓練模型更好。近幾年,關於對比學習的方法(基於三元組分類的方式)受到了廣泛關注,它比生成式的方法取得了更好的性能。

根據最新的NeurIPS投稿,在圖像分類方面,基於自監督的預訓練模型的準確率與基於全監督ImageNet的預訓練模型的準確率差距(gap)縮小到了大約2%以內。在視頻方面,自監督預訓練一般是用視頻的前幾幀去預測視頻的下一幀,這時,自監督模型與全監督模型之間的的gap比圖像分類任務要大一些。

進一步的研究發現,如果把視頻的預訓練數據擴展到多模態數據,例如視頻加上聲音或各種語言,然後再去設定前置任務,這時候預訓練的模型在執行視頻的下遊任務時,性能可能會更好一點,gap大概可以縮小到5%以內。

總的來說,這種基於自監督的預訓練模型是當前視覺領域的研究熱點之一,預計在未來也會慢慢替代基於監督的預訓練模型。

1無監督學習的益處

議題一:哪些領域更可能從無監督預訓練模型中受益?無監督預訓練模型的學習偏見如何解決?

使用無監督預訓練模型的最主要領域是CV和NLP,在CV和NLP領域裡面,哪些細分領域更可能從無監督預訓練模型中受益呢?以及無監督預訓練模型的學習偏見如何解決?

從CV角度來看,剛剛提到,自監督的預訓練模型在執行圖像分類時最好的研究結果是,與監督預訓練模型之間的Gap只有2%。但最近Facebook提出了一個最新的模型叫MoCo(動量對比學習)。研究人員發現,雖然自監督預訓練模型比基於全監督的模型相差2%的gap,但在執行CV的下遊任務(包括圖像的分割、檢測與小樣本學習)時,自監督預訓練模型比基於全監督的預訓練模型表現更好。也就是說,雖然自監督在ImageNet的分類任務上沒有表現地特別好,但它比監督模型更適合執行下遊任務,普適性和魯棒性更佳。

從NLP角度來看,更好的泛化性也存在。現在的大趨勢是:如果不使用大規模的無監督學習方法,基本上研究就無法繼續。在NLP領域,所有的問題都得從大規模無監督模型開始,然後基於無監督模型進行後續的任務,否則性能肯定上不去。所以結論是:NLP領域的所有研究問題基本上都會受益於無監督預訓練模型,但無監督模型在實際應用系統上的表現則帶有不確定性,因為涉及到許多其他方面。

從深度聚類角度來看,影響聚類性能的要素在於特徵表示。但有一個問題是:在聚類的過程中,因為沒有標籤,所以沒有辦法繼續對損失進行定義。在這個過程中,我們一般是先基於一個模型對輸入進行初始化,然後基於性能好的autoencoder來學習聚類中心。

如果聚類中心和特徵同時學習,模型可能會漂移,而且不知道會漂到什麼地方。所以,在預訓練過程中,要先只學習一個聚類中心,然後保持中心不變,再去學特徵。就相當於,在一開始,通過預訓練得到一個中心,然後把這個聚類中心固定,再通過預訓練來學習特徵表達,最後用特徵表達做聚類。

此外,無監督預訓練的偏見問題產生,涉及到很多因素,比如樣本沒有選好。最近有研究發現,在無監督預訓練中,數據並不是越多越好。要根據任務細心選擇數據,使訓練樣本和目標樣本的匹配度更高。否則的話,就算數據量達到了要求,但進行預訓練之後,它的效果反而會下降。

對於模型偏見,可以通過引入一個重構誤差,然後用重構誤差和聚類損失的折中來限制特徵學習。就是說,不要為了減少損失而跑偏,最後導致聚類結果反而不好。我們可以用新知識,比如重構誤差,來限制模型的學習,防止在訓練過程中跑偏。

2多模態場景

議題二:無監督學習技術如何促進多模態場景下不同領域之間知識的交互以提升性能?

真實的數據不只涉及文本,還有語音、視頻等等,在這種多模態場景下,我們會思考無監督學習技術的應用。不同領域的知識一定要進行交互,只有交互才能引入其它領域的知識來提高任務的性能,那麼,無監督學習技術如何促進不同領域知識之間的交互,最終提升性能呢?

無監督的跨模態數據對齊,是多種模態數據或者領域知識交互的橋梁。在多模態應用場景,進行視覺、語言處理或者更深入的將視覺與語言結合在一起的數據挖掘時,對於同一個實體或者描述同一個事件,可以從多個不同的角度,採集多模態的數據,不同的模態數據能從不同的角度刻畫該實體或事件。

通常的做法是融合來自多個模態的場景數據,以得到更好的結果。相關算法通常稱為多視圖學習和多模態學習,但挑戰在於,在不同模態採集的數據不一定是對齊好的。比如視頻、語音、文本、社交網絡數據,它們之間可能存在一定的錯配或者缺失。

所以要對多模態數據進行融合,首先得判斷數據之間是否已經對齊。比如多模態數據、多視圖數據或者網絡數據,可以通過學習數據的低秩表示,再通過互信息的方式建立一個目標函數,把不同模態、視圖或網絡的對應關係找出來。如果能找出來,不同模態之間的數據交互或者領域知識交互就成功了。

其實,在缺乏監督信息情況下,無監督學習對多模態數據對齊的解決相當於在無監督情況下對數據進行分類。

此外,利用已經配對良好的數據進行監督預訓練,比如新聞和紀錄片等數據,再泛化到其它數據進行無監督的對齊也是一個很好的研究方向。

更廣泛地說,在弱標註數據下,通過多模態數據之間的協同訓練,在性能上會有很大的促進作用。

3泛化性

議題三:無監督學習技術如何提升人工智慧技術的魯棒性及安全性?

眾所周知,深度神經網絡在一般情況下性能良好,被廣泛運用到各種應用中,但它其實並不魯棒。一個典型的例子是對抗攻擊,即在圖片中添加一些肉眼不可覺察的噪聲,就可以使得網絡出現錯誤的判別結果。

對抗攻擊不僅可以對分類任務產生影響,其對所基於的DNN任務(例如分割、追蹤等)都有影響,具有嚴重的威脅。為了應對這種問題,現在人們也開發了各種防禦的方法。

目前,最有效的防禦方式還是對抗訓練,即在訓練過程中引入對抗樣本要求模型對於對抗攻擊有足夠的魯棒性。然而,最近的研究表明,對抗訓練需要更多的數據,即當數據集的大小保持不變的時候,對抗訓練在提升模型魯棒性的同時會犧牲一些精度。

那麼能否用無標籤的數據提升模型的魯棒性呢?畢竟,有標籤的數據獲取難度比較大。這裡需要解決的核心問題是損失函數,因為原始對抗訓練的損失函數是有目標的。直觀上來說,對抗損失要求模型在一個區域內的預測都是正確的預測,這大概可以分解為兩個任務:一個是要求模型在原始樣本上足夠正確,另一個是要求模型在原始樣本的鄰域內的輸出足夠魯棒(穩定)。根據把原始對抗損失替換為標準損失與魯棒損失的方式,我們可以在魯棒損失中引入無標籤樣本,同時提升模型的精度與魯棒性。那麼除了改造損失函數,還有哪些方法能夠引入無標籤樣本?這也是值得進一步思考的問題。

當然,除了對抗訓練外,也有很多別的防禦方法。例如在預測前對圖像先進行預處理,試圖破壞甚至是去除對抗噪聲。這種防禦思路被稱為基於預處理的防禦,目前也有大量的學者在爭論這種防禦方式究竟是否有效。此外,基於檢測類型的防禦,即先通過異常檢測,確定數據中是否為對抗樣本,也是另一類重要的防禦方法。

當然,儘管深度神經網絡對對抗噪聲不魯棒,但其魯棒性也並沒有想像中那麼糟糕。如果數據中只是添加一些隨機噪聲,一般並不會影響模型的結果。

相關焦點

  • YOCSEF大灣區IT創新論壇:無監督學習,如何成為人工智慧的下一站?
    「如果人工智慧是一塊蛋糕,那麼強化學習是蛋糕上的一粒櫻桃,監督學習是外面的一層糖霜,無監督學習則是蛋糕胚Yann LeCun提出,未來幾年的挑戰是讓機器學會從原始的、沒有標籤的數據中學習知識,也就是無監督學習,佔據「蛋糕」主體的無監督學習是人工智慧的下一站。但是他同時也表示:「目前我們只知道如何製作糖霜和櫻桃,卻不知如何製作蛋糕胚。」時過境遷,到2020年,研究者們對「如何製作蛋糕胚」也有了更多的經驗。
  • 下一代人工智慧:無監督學習、聯合學習、Transformers
    1.無監督學習 當今人工智慧世界的主導範式是監督學習。在監督學習中,人工智慧模型從人類根據預定義類別管理和標記的數據集學習。雖然監督學習在過去十年裡推動了人工智慧的顯著進步,從自動駕駛汽車到語音助手,但它也有嚴重的局限性。手動標記數千或數百萬個數據點的過程可能非常昂貴和繁瑣。在機器學習模型可以融匯數據之前,人類必須手動標記數據,這一事實已經成為人工智慧的一大瓶頸。 在更深的層面上,監督學習代表了一種狹隘的學習形式。
  • 下一代人工智慧:無監督學習、聯合學習、Transformer
    在監督學習中,人工智慧模型從人類根據預定義類別管理和標記的數據集學習。雖然監督學習在過去十年裡推動了人工智慧的顯著進步,從自動駕駛汽車到語音助手,但它也有嚴重的局限性。手動標記數千或數百萬個數據點的過程可能非常昂貴和繁瑣。
  • ECCV 2020 Oral | TCGM:基於資訊理論的半監督多模態學習框架
    本文是計算機視覺領域頂級會議 ECCV 2020 入選 Oral 論文《基於資訊理論的半監督多模態學習框架 (TCGM: An Information-Theoretic Framework for Semi-Supervised Multi-Modality
  • 多模態與人工智慧(下)
    我們來看一下關於多模態與人工智慧第二部分的內容。新基建觸發萬物互聯多模態融合發展夯實信息系統安全基石「新基礎設施」進程突然加快,物理連通性將呈現指數增長,同時,加快中國數字經濟的過程中,它產生的數據,信息安全也將是大量的前所未有的挑戰,隱私進行維護和信息系統安全成為了新基建的基礎下,各場景下對強身份認證等無效防護設計手法的訴求將呈爆發式增進,以更精準、更安全、更便捷的多模態分析生物辨認融合教育技術企業構建一個基於社會屬性的身份參與治理與造訪控制制度體系
  • 同濟王昊奮:知識圖譜與多模態大數據時代 | 世界人工智慧大會
    非常榮幸受邀來到2020年世界人工智慧大會由達觀數據主辦的智能時代 「語」你同行的雲端高峰論壇。在經歷了網際網路和移動網際網路的高速發展後,我們積累了很多文本大數據,此外也擁有了大量語音、圖像、視頻等多模態數據。面對這樣的數據增長與豐富,我們也悄然進入了人工智慧的下半場。上半場的人工智慧多由感知智能主宰,能夠做到能聽會說,能看會認。下半場則不滿足於模擬人的各種感知能力,而要去提升其認知能力。
  • 【乾貨】基於深度學習的多視圖幾何:從監督學習到無監督學習
    本文整理自戴玉超教授在第二屆SLAM技術論壇中的報告:《基於深度學習的多視圖幾何:從監督學習到無監督學習》,共5700餘字。幾何視覺利用相機獲取的多視角圖像重建所觀測場景的三維幾何結構,在SLAM、無人系統、自動駕駛、機器人、虛擬實境/增強現實和場景分析等方面有重要應用。
  • 人工智慧在醫學影像中的應用研究——超聲跨模態影像分析
    在決策的過程中,對於同一實體的每一種信息來源或者形式,可以稱為一種模態。我們便是依據多種模態的信息,才對周邊的世界有著完善、精確的理解。 多模態學習: 人工智慧的發展方向 為了使得人工智慧全面了解周邊的世界,它需要像人類一樣學會處理和融合多種模態的信息。
  • 多模態與人工智慧(上)
    我們來講一下關於多模態與人工智慧第一部分的功能。「新基礎設施」的擔憂。人工智慧的新的基礎設施的核心領域之一,顯示出巨大的增長潛力,將成為產業數位化,多模態融合的重要推動力和人工智慧的發展,深入擴展的場景來實現的功率互連所有的東西取之不盡,用之不竭。中央密集命名為「新基建」,人工進行智能技術迎來經濟發展轉機。
  • 基於深度學習的多模態數據融合研究
    這些數據稱為多模態大數據,包含豐富的模態和跨模態的信息,因此這些數據對傳統的數據融合方法提出了巨大的挑戰。在這篇論文中,我們提出了一些開創性的深度學習模型來融合這些多模態的大數據。隨著對多模態大數據的不斷探索,仍然有一些挑戰需要解決。因此,本文將對多模態數據融合的深度學習進行一次調查,為讀者提供一個多模態的深度學習融合方法的基礎知識,並為他們提供新的深度學習多模態數據融合技術。
  • 多模態深度學習:用深度學習的方式融合各種信息
    我們對世界的體驗是多模態的 —— 我們看到物體,聽到聲音,感覺到質地,聞到氣味,嘗到味道。模態是指某件事發生或經歷的方式,當一個研究問題包含多個模態時,它就具有多模態的特徵。為了讓人工智慧在理解我們周圍的世界方面取得進展,它需要能夠同時解釋這些多模態的信號。例如,圖像通常與標籤和文本解釋相關聯,文本包含圖像,以更清楚地表達文章的中心思想。不同的模態具有非常不同的統計特性。
  • 多模態數據的主題建模:自回歸方法
    在這項工作中,我們展示了如何成功地將該模型應用和擴展到多模態數據中,例如同時進行圖像分類和注釋。具體來說,我們提出了 DocNADE 的監督擴展 SupDocNADE,通過將標籤信息納入模型的訓練目標來提高隱藏主題特徵的分辨力,並展示了如何運用 SupDocNADE 從圖像視覺詞、注釋詞和類標籤信息中學習聯合表示。
  • 獨家| AAAI-17獲獎論文深度解讀(上):從無標籤監督學習到人工智慧...
    這種做法讓該論文不需再使用大量有標籤數據來監督神經網絡,而是讓神經網絡學習更見先進的結構。通常來說,當前將不使用標籤進行學習方法稱為無監督學習(unsupervised learning),比如說自編碼器(autoencoder)。無監督學習方法通常是將輸入數據聚類(cluster)成不同的分組,這種方法雖然高效,但往往缺乏有意義的解讀。
  • 聚焦「新基建」,當人工智慧遇上多模態融合(上)
    我們來講一下關於當人工智慧遇上多模態融合第一部分的內容。近期中央密集點名「新基建」,備受社會關注。人工智慧的新的基礎設施的核心領域之一,表現出強勁的增長潛力,將成為工業數字的重要驅動力。乘著東風,多模態融合教育發展或為人工智慧技術深入研究拓展場景、實現萬物網際網路提供不竭動力。
  • CVPR 2020 | 利用跨模態無監督域自適應進行三維語義分割
    有許多多模態數據集,但大多數UDA方法都是單模態的。  在這項工作中,我們探索如何從多模態學習,並提出跨模態UDA(xMUDA),其中我們假設存在二維圖像和三維點雲進行三維語義分割。這是一個挑戰,因為這兩個輸入空間是異構的,並且可能受到域移動的不同影響。在xMUDA中,模態通過相互模仿相互學習,脫離分割目標,防止強模態採用弱模態的錯誤預測。
  • 「聯」音|人工智慧在醫學影像中的應用研究—超聲跨模態影像分析
    在決策的過程中,對於同一實體的每一種信息來源或者形式,可以稱為一種模態。我們便是依據多種模態的信息,才對周邊的世界有著完善、精確的理解。多模態學習: 人工智慧的發展方向為了使得人工智慧全面了解周邊的世界,它需要像人類一樣學會處理和融合多種模態的信息。
  • 聚焦「新基建」,當人工智慧遇上多模態融合(下)
    聚焦「新基建」,當人工智慧遇上多模態融合(下)同時,周軍應該積極利用這個機會大力建設新的基礎設施,使人工智慧的能力隱私保護和信息安全已成為新的基礎設施的基礎上,對強身份認證,並在每個場景保護的其他有效手段的需求將呈現爆發式增長,更準確,更安全,更方便的多模態生物特徵融合技術建立在身份管理和訪問控制系統的屬性,是必要的。
  • 多模態 AI 系統?從文本直接創建圖像!OpenAI發布新人工智慧系統
    1月5日,人工智慧(AI)研究組織OpenAI重磅推出了最新的語言模型DALL·E和圖像識別系統CLIP。這兩個模型是OpenAI第三代語言生成器的一個分支。兩種神經網絡都旨在生成能夠理解圖像和相關文本的模型。
  • 有監督學習和無監督學習兩大類
    如前所述,機器學習是AI的一個子集,通常分為兩大類:有監督學習和無監督學習。監督學習教學AI系統的常用技術是通過使用大量帶標籤的示例來訓練它們。這些機器學習系統被饋入大量數據,這些數據已被注釋以突出顯示感興趣的功能。
  • RoboCom世界機器人開發者大賽舉行 探索人工智慧的跨模態學習
    大賽通過探索人類多任務多感官學習中的神經、認知與計算機制,進一步推動人工智慧的跨模態學習等理論研究與實際應用。智慧機器人展示。 張煜歡 攝據了解,本屆賽事面向全球大學生及產業研發人員,通過前沿技術仿真賽、智慧機器人場地賽、創新技術路演賽等多種比賽方式,為從事人工智慧與機器人領域研究的高校院所和單位提供一個學習、展示、交流和競技平臺。大賽現場。