無需任何標記數據,幾張照片還原出3D結構,自監督學習還能這樣用

2020-12-14 量子位

蕭簫 發自 凹非寺量子位 報導 | 公眾號 QbitAI

只給你幾張物體的照片,你能準確還原出它在各種刁鑽視角下的模樣嗎?

現在,AI可能比你還原得還要準確。

只給幾個3D球的正臉照片:

AI立刻就能將不同視角的球形照片還原出來,大小顏色都接近真實的照片。

稍微複雜一點的結構,如這堆椅子:

AI在經過思考後,也能立即給出椅子在另一視角下的照片,結構大小與真實場景相比,幾乎沒有跑偏。

這還是在完全沒有給出物體深度、邊界框的情況下,AI模型純粹靠自己預測出來的3D效果。

那麼,這樣的模型到底是怎麼做出來的呢?

給模型安排一個「批評家」

這是一個由CNN和MLP(多層感知器)組成的模型,其目的在於通過一組2D圖片(不帶任何標籤),從中還原出物體的3D關係來。

相比於單個3D物體,這個模型能夠在整個場景上進行3D訓練,並將它還原出來。

例如,根據下圖的幾張兔子照片,還原出3D兔子模型在俯視角度下拍攝的照片。

但從2D照片中還原出物體的3D關係,並不如看起來這麼簡單。

在還原過程中,模型不僅要準確推斷每個3D物體的位置深度大小,還要能還原出它的光照顏色

通常訓練神經網絡的第一想法是,將這幾個變量直接設為參數,並採用梯度下降算法對模型進行收斂。

但這樣效果會很差,因為模型在想辦法「偷懶」。

將損失降低到一定程度後,它就不再尋找更好的解決方案。

例如,下圖真實目標(藍色)與當前目標(紅色)有差異,然而在進行梯度下降時,嘗試移動一定距離,誤差沒有降低;但在改變大小時,誤差卻降低了,就對網絡模型形成了誤導。

對此,研究者利用強化學習中的好奇心驅動,額外給模型加了一個「批評家」(critic)網絡,它會利用數據分布中隨機提取的有效樣本,來褒貶模型的結果。

這樣,模型作為「表演者」(actor),為了獲得更好的評價,就會再試圖去尋找更好的方法,以生成更優的結果。

如下圖所示,左邊是沒有利用好奇心驅動的模型,右邊則是加入了好奇心驅動。在「批評家」的驅使下,模型逐漸推導出了正確的參數。

這一「批評家」網絡,迫使模型在優化過程中,不能只依賴於同一種(錯誤的)答案,而是必須在已有數據下尋找更好的解決方案。

事實證明,加了「批評家」網絡的模型,不僅收斂下降到了一個新的高度(如上圖藍色線條),而且評論家最終給出的評分也不錯。

那麼,相比於其他3D關係生成模型,這一結構的優勢在哪裡呢?

無需任何外部標記,2D還原3D關係

作者與其他模型進行了詳細對比,這些模型涵蓋不同的3D還原方法,包括深度圖、CNN、立體像素、網格等。

在監督學習所用到的參數上,可用的包括深度、關鍵點、邊界框、多視圖4類;而在測試部分,則包括2D轉3D、語義和場景3種方式。

可以看見,絕大多數網絡都沒辦法同時實現2D轉3D、在還原場景的同時還能包含清晰的語義。

即使有兩個網絡也實現了3種方法,他們也採用了深度和邊界框兩種參數進行監督,而非完全通過自監督進行模型學習。

這一方法,讓模型在不同的數據集上都取得了不錯的效果。

無論是椅子、球體數據集,還是字母、光影數據集上,模型訓練後生成的各視角照片都挺能打。

甚至自監督的方式,還比加入5%監督(Super5)和10%監督(Super10)的效果都要更好,誤差基本更低。

而在真實場景上,模型也能還原出照片中的3D物體形狀。

例如給出一隻兔子的照片,在進行自監督訓練後,相比於真實照片,模型基本還原出了兔子的形狀和顏色。

不僅單個物體,場景中的多個3D物體也都能同時被還原出來。

當然,這也離不開「好奇心驅動」這種方法的幫助。

事實上,僅僅是增加「好奇心驅動」這一部分,就能降低不少參數錯誤率,原模型(NonCur)與加入好奇心驅動的模型(Our)在不同數據集上相比,錯誤率平均要高出10%以上。

不需要任何外部標記,這一模型利用幾張照片,就能生成3D關係、還原場景。

作者介紹

3位作者都來自倫敦大學學院。

一作David Griffiths,目前在UCL讀博,研究著眼於開發深度學習模型以了解3D場景,興趣方向是計算機視覺、機器學習和攝影測量,以及這幾個學科的交叉點。

Jan Boehm,UCL副教授,主要研究方向是攝影測量、圖像理解和機器人技術。

Tobias Ritschel,UCL計算機圖形學教授,研究方向主要是圖像感知、非物理圖形學、數據驅動圖形學,以及交互式全局光照明算法。

有了這篇論文,設計師出門拍照的話,還能順便完成3D作業?

相關焦點

  • 基於關係推理的自監督學習無標記訓練
    此外,未標記數據(例如,文檔文本,Internet上的圖像)的數量是不可數的。為任務標記所有標籤幾乎是不可能的,但是不使用它們絕對是一種浪費。在這種情況下,使用新的數據集從頭開始訓練深度模型是一種選擇,但是使用預先訓練的深度模型時標記數據需要花費大量的時間和精力,這似乎不再有幫助。這就是自監督學習誕生的原因。
  • 【深度】自監督學習,如何從數據困境中拯救深度學習?
    然而監督式學習過於依賴大規模標註數據集,數據集的收集和人工標註需耗費大量的人力成本。自監督模型解決了這一難題,它能夠從大規模未標記數據中學習圖像特徵,而無需使用任何人工標註數據。每個深度學習實踐者都認同的一件事是:深度學習模型是數據低效的。
  • 數據標註有困難?考慮下用BYOL輕鬆進行自監督學習!附代碼、論文解讀連結
    基於此,自監督學習成為深度學習的研究熱點,旨在從未標記樣本中進行學習,以緩解數據標註困難的問題。自監督學習的目標很簡單,即訓練一個模型使得相似的樣本具有相似的表示,然而具體實現卻困難重重。經過谷歌這樣的諸多先驅者若干年的研究,自監督學習如今已取得一系列的進步與發展。
  • BYOL:輕鬆進行自監督學習
    自監督學習在深度學習中,經常遇到的問題是沒有足夠的標記數據,而手工標記數據耗費大量時間且人工成本高昂。基於此,自我監督學習成為深度學習的研究熱點,旨在從未標記樣本中進行學習,以緩解數據標註困難的問題。子監督學習的目標很簡單,即訓練一個模型使得相似的樣本具有相似的表示,然而具體實現卻困難重重。
  • 自監督、半監督和有監督全涵蓋,四篇論文遍歷對比學習的研究進展
    機器之心分析師網絡作者:仵冀穎編輯:Joni本文通過四篇相關論文對自監督學習中的對比學習(Contrastive Learning)進行了深入的探討。自監督學習意思是使用非人工標記數據進行學習。在機器學習中,比較著名的自監督方法就是自然語言處理中的word2vec。
  • 數據太少怎麼辦?試試自監督學習
    數據科學家 Jeremy Howard 發布一條Twitter:在醫學圖像領域,我們經常需要靠一點點的數據來做很多工作。在這個問題上,有一種被低估的方法,正是自監督學習,簡直太神奇!還附上了與之相關的最新fast.ai教程。
  • 清華CVer 對自監督學習的一些思考
    但標籤仍然存在,只不過標籤是從輸入數據中生成的,通常是使用啟發式算法生成。自監督學習的流行是勢在必然的。在各種主流有監督學習任務都做到很成熟之後,數據成了最重要的瓶頸。從無標註數據中學習有效信息一直是一個很重要的研究課題,其中自監督學習提供了非常豐富的想像空間。
  • 自訓練和半監督學習介紹
    在監督學習中,這些數據必須根據目標類進行標記,否則,這些算法將無法學習獨立變量和目標變量之間的關係。但是,在構建用於分類的大型標記數據集時,會出現兩個問題:「標記數據可能很耗時」。假設我們有1000000張狗圖像,我們想將它們輸入到分類算法中,目的是預測每個圖像是否包含波士頓狗。
  • 「半監督學習系列」2. 半監督學習概述
    畢竟 f 是從實例 x 到標記 y 的映射,但是未標記的數據並沒有提供任何這樣的映射。問題答案的得出基於人們的假設:即關於「無標籤數據的分布 P(x) 與目標標籤之間的聯繫」 的假設。圖2.1展示了半監督學習的一個簡單例子。
  • 監督學習、非監督學習和強化學習
    learning)、非監督學習(Unsupervised learning)與強化學習(Reinforcement learning),不過在沒有任何概念的前提下,只看定義很難理解它們,我試著用教育孩子的方式來解釋,如果有什麼疏漏之處,歡迎大家指正。
  • Facebook新AI模型SEER實現自監督學習,LeCun大讚最有前途
    該模型包含10億個參數,可以從網上任何未標記圖像的中學習,並在一系列計算機視覺基準上取得了先進的結果。Facebook的這一突破能否實現計算機視覺的自監督學習革命?無需標籤,自我分析數據!Facebook的新AI模型在革計算機視覺的命?
  • 自監督學習蛋白質序列, 自然語言處理助力蛋白質工程新飛躍
    如果通過監督學習的方式來解決這一問題,我們就需要數據標籤,而且是十分龐大的數據標籤。針對蛋白質的空間構型預測,我們需要對蛋白質分子中的每一個胺基酸進行空間坐標位置標記。對一個蛋白質分子進行標記已經是很複雜的工作了,何況需要標記非常龐大的數量。人工標記的數據量遠遠落後於新蛋白質產生的速度。那麼除了監督學習我們還能如何解決這一問題呢?
  • 如何使用半監督學習為結構化數據訓練出更好的深度學習模型
    本文將使用半監督學習來提高深度神經模型在低數據環境下應用於結構化數據時的性能。 本文最初發表於 Towards Data Science 博客,經原作者 Youness Mansar 授權,InfoQ 中文站翻譯並分享。
  • 監督學習,非監督學習,半監督學習三者的區別是什麼,舉出一個最有...
    監督(supervised)=標籤(label),是否有監督,就是輸入數據(input)是否有標籤,有標籤則為有監督學習,沒標籤則為無監督學習。至於半監督學習,就是一半(一點點)數據有標籤,一半(極其巨大)數據沒標籤。——簡單一句話答案。
  • 德克薩斯A&M大學在讀博士遊宇寧:自監督學習在圖卷積網絡中的研究...
    自監督學習是一種介於無監督和有監督學習之間的新範式,可以有效減少對大量帶注釋數據的需求。在數據訓練的過程中,生成帶有無噪聲標籤的數據集的成本很高,而無標籤的數據又一直在不斷產生。為了有效利用大量的無標籤數據,自監督學習通過設置合理的學習目標和定義前置任務,從數據本身中得到了監督信號。
  • 語音處理中的自監督學習
    文章來自知乎,原文連結:https://zhuanlan.zhihu.com/p/152672250自監督學習也可以用在語音處理中。我們很容易收集到很多無標註的語音數據。把它用去噪自編碼器的方法去做預訓練,再在有標註的數據上微調。這便是自監督學習的核心精神。這一期,我們來講講所有自監督學習方法在語音處理上的應用。大概會有 24 個不同的方法。
  • 人工智慧的下半場,一定少不了自監督學習
    想要得到好的性能,往往需要大量的數據標籤,但是手動收集數據的成本很高(例如,ImageNet),而且也很難對數據集進行擴展。考慮到無標籤數據(例如,免費的文本、網絡上所有的圖像)的數據量遠遠超過了數量有限的人為標記的數據集,如果不使用這些無標籤數據是一種極大的浪費。然而,無監督學習是很困難的,而且相較於監督式學習往往要低效得多。
  • 什麼是無監督學習?
    如上圖所見,有一系列點,卻沒有標籤。又比如像下圖這樣的:無監督學習關鍵的特點是,傳遞給算法的數據在內部結構中非常豐富,而用於訓練的目標和獎勵非常稀少。無監督學習算法學到的大部分內容必須包括理解數據本身,而不是將這種理解應用於特定任務。
  • 半監督學習入門基礎(一)
    在無監督學習中,沒有標記數據可用。訓練數據集包含樣本,但沒有特定的期望結果或標籤。機器學習模型試圖通過提取有用的特徵並對其進行分析來自動地在數據中找到結構。像聚類、異常檢測、關聯等任務屬於無監督學習。半監督學習任務具有一個標記和一個未標記的數據集。它使用未標記的數據來獲得對數據結構的更多理解。通常,SSL使用小的帶標籤數據集和較大的未帶標籤數據集來進行學習。我們的目標是學習一個預測器來預測未來的測試數據,這個預測器比單獨從有標記的訓練數據中學習的預測器更好。
  • 機器學習三兄弟概念大揭秘:監督學習、非監督學習、強化學習
    監督學習、非監督學習和強化學習描述了機器處理和利用數據學習的三種不同手段,根據不同的數據和任務人們採用不同的學習方式來從數據中凝練出知識,從而在生產生活中幫助人類。也許非監督學習可以讓我們從「教會機器去做什麼」發展到讓機器「自己學會去做什麼」。與監督學習不同,非監督學習並不需要完整的輸入輸出數據集,並且系統的輸出經常是不確定的。它主要被用於探索數據中隱含的模式和分布。非監督學習具有解讀數據並從中尋求解決方案的能力,通過將數據和算法輸入到機器中將能發現一些用其他方法無法見到的模式和信息。