無需任何標記數據,幾張照片還原出3D結構,自監督學習還能這樣用

2020-12-23 量子位

蕭簫 發自 凹非寺量子位 報導 | 公眾號 QbitAI

只給你幾張物體的照片,你能準確還原出它在各種刁鑽視角下的模樣嗎?

現在,AI可能比你還原得還要準確。

只給幾個3D球的正臉照片:

AI立刻就能將不同視角的球形照片還原出來,大小顏色都接近真實的照片。

稍微複雜一點的結構,如這堆椅子:

AI在經過思考後,也能立即給出椅子在另一視角下的照片,結構大小與真實場景相比,幾乎沒有跑偏。

這還是在完全沒有給出物體深度、邊界框的情況下,AI模型純粹靠自己預測出來的3D效果。

那麼,這樣的模型到底是怎麼做出來的呢?

給模型安排一個「批評家」

這是一個由CNN和MLP(多層感知器)組成的模型,其目的在於通過一組2D圖片(不帶任何標籤),從中還原出物體的3D關係來。

相比於單個3D物體,這個模型能夠在整個場景上進行3D訓練,並將它還原出來。

例如,根據下圖的幾張兔子照片,還原出3D兔子模型在俯視角度下拍攝的照片。

但從2D照片中還原出物體的3D關係,並不如看起來這麼簡單。

在還原過程中,模型不僅要準確推斷每個3D物體的位置深度大小,還要能還原出它的光照顏色

通常訓練神經網絡的第一想法是,將這幾個變量直接設為參數,並採用梯度下降算法對模型進行收斂。

但這樣效果會很差,因為模型在想辦法「偷懶」。

將損失降低到一定程度後,它就不再尋找更好的解決方案。

例如,下圖真實目標(藍色)與當前目標(紅色)有差異,然而在進行梯度下降時,嘗試移動一定距離,誤差沒有降低;但在改變大小時,誤差卻降低了,就對網絡模型形成了誤導。

對此,研究者利用強化學習中的好奇心驅動,額外給模型加了一個「批評家」(critic)網絡,它會利用數據分布中隨機提取的有效樣本,來褒貶模型的結果。

這樣,模型作為「表演者」(actor),為了獲得更好的評價,就會再試圖去尋找更好的方法,以生成更優的結果。

如下圖所示,左邊是沒有利用好奇心驅動的模型,右邊則是加入了好奇心驅動。在「批評家」的驅使下,模型逐漸推導出了正確的參數。

這一「批評家」網絡,迫使模型在優化過程中,不能只依賴於同一種(錯誤的)答案,而是必須在已有數據下尋找更好的解決方案。

事實證明,加了「批評家」網絡的模型,不僅收斂下降到了一個新的高度(如上圖藍色線條),而且評論家最終給出的評分也不錯。

那麼,相比於其他3D關係生成模型,這一結構的優勢在哪裡呢?

無需任何外部標記,2D還原3D關係

作者與其他模型進行了詳細對比,這些模型涵蓋不同的3D還原方法,包括深度圖、CNN、立體像素、網格等。

在監督學習所用到的參數上,可用的包括深度、關鍵點、邊界框、多視圖4類;而在測試部分,則包括2D轉3D、語義和場景3種方式。

可以看見,絕大多數網絡都沒辦法同時實現2D轉3D、在還原場景的同時還能包含清晰的語義。

即使有兩個網絡也實現了3種方法,他們也採用了深度和邊界框兩種參數進行監督,而非完全通過自監督進行模型學習。

這一方法,讓模型在不同的數據集上都取得了不錯的效果。

無論是椅子、球體數據集,還是字母、光影數據集上,模型訓練後生成的各視角照片都挺能打。

甚至自監督的方式,還比加入5%監督(Super5)和10%監督(Super10)的效果都要更好,誤差基本更低。

而在真實場景上,模型也能還原出照片中的3D物體形狀。

例如給出一隻兔子的照片,在進行自監督訓練後,相比於真實照片,模型基本還原出了兔子的形狀和顏色。

不僅單個物體,場景中的多個3D物體也都能同時被還原出來。

當然,這也離不開「好奇心驅動」這種方法的幫助。

事實上,僅僅是增加「好奇心驅動」這一部分,就能降低不少參數錯誤率,原模型(NonCur)與加入好奇心驅動的模型(Our)在不同數據集上相比,錯誤率平均要高出10%以上。

不需要任何外部標記,這一模型利用幾張照片,就能生成3D關係、還原場景。

作者介紹

3位作者都來自倫敦大學學院。

一作David Griffiths,目前在UCL讀博,研究著眼於開發深度學習模型以了解3D場景,興趣方向是計算機視覺、機器學習和攝影測量,以及這幾個學科的交叉點。

Jan Boehm,UCL副教授,主要研究方向是攝影測量、圖像理解和機器人技術。

Tobias Ritschel,UCL計算機圖形學教授,研究方向主要是圖像感知、非物理圖形學、數據驅動圖形學,以及交互式全局光照明算法。

有了這篇論文,設計師出門拍照的話,還能順便完成3D作業?

相關焦點

  • 清華CVer 對自監督學習的一些思考
    但標籤仍然存在,只不過標籤是從輸入數據中生成的,通常是使用啟發式算法生成。自監督學習的流行是勢在必然的。在各種主流有監督學習任務都做到很成熟之後,數據成了最重要的瓶頸。從無標註數據中學習有效信息一直是一個很重要的研究課題,其中自監督學習提供了非常豐富的想像空間。
  • 自監督學習知識遷移
    自監督學習是一個非常有趣的研究領域,其目標是在沒有任何人工標註的情況下,從未標註的數據中學習豐富的表示。通過對前置任務的預訓練,希望模型能夠學習到有用的表示。之後,我們可以只用一小組標記的訓練數據,可以將模型微調到下遊任務,例如圖像分類、對象檢測和語義分割。
  • MIT博士生、北大校友,利用自監督算法,解決數據集中常見難題
    蕭簫 轉載整理自 楊宇喆量子位 報導 | 公眾號 QbitAI訓練模型時,你是否也遭遇過這樣的「尷尬」時刻:好不容易找到了自己想要的數據集,結果點進去一看,大部分樣本都是一類物體。(例如,數據集標籤「動物」,結果80%的樣本都是「貓」)用上面這個數據集訓練的動物檢測模型,可能只能識別「貓」。
  • 越大的自監督模型,半監督學習需要的標籤越少
    使用10%的標籤,本文的方法可以達到77.5%的top-1準確率,優於使用100%標籤的標準監督訓練。「無監督預訓練、監督微調」範式充分利用少量標記示例和大量未標記示例進行學習是機器學習的一個長期存在的問題。人們曾經提出一種半監督學習來試圖解決這個問題,其中涉及無監督或自監督的預訓練,然後進行有監督的微調。
  • 德克薩斯A&M大學在讀博士遊宇寧:自監督學習在圖卷積網絡中的研究...
    自監督學習是一種介於無監督和有監督學習之間的新範式,可以有效減少對大量帶注釋數據的需求。在數據訓練的過程中,生成帶有無噪聲標籤的數據集的成本很高,而無標籤的數據又一直在不斷產生。為了有效利用大量的無標籤數據,自監督學習通過設置合理的學習目標和定義前置任務,從數據本身中得到了監督信號。當前自監督學習已經被廣泛用於訓練卷積神經網絡(CNNs),有效地提高了圖像表示學習可傳遞性、泛化能力和魯棒性,並且已在語義分割、目標檢測、圖像分類、人體動作識別等實戰場景中展現出卓越效果。現在更多無需人工標註的前置任務訓練也被提出,如前景對象分割、圖像修補、圖像著色等。
  • 機器學習之——監督學習 VS 無監督學習
    對於任何機器學習問題,我們都是從一個由一組樣本組成的數據集開始的。每個實例都可以表示為屬性的元組。在Iris數據集中,類屬性(鳶尾花的類別)可以作為目標屬性;帶有目標屬性的數據通常稱為「標記」數據。根據上述定義,對於用標記數據預測鳶尾花類別的任務,可以看出這是一個監督學習任務。
  • 3d印表機結構_3d印表機分類
    打開APP 3d印表機結構_3d印表機分類 姚遠香 發表於 2019-04-28 14:19:11   3d印表機簡介   3D
  • 「神經網絡就像任性的小孩」港中文博士揭開自監督學習的秘密
    新智元邀請香港中文大學多媒體實驗室的詹曉航博士,為我們解讀關於自監督學習的歸納、思考和展望。如何定義自監督學習?自監督學習是指用於機器學習的標註(ground truth)源於數據本身,而非來自人工標註。如下圖,自監督學習首先屬於無監督學習,因此其學習的目標無需人工標註。
  • 小白學數據:教你用Python實現簡單監督學習算法
    大數據文摘作品編譯:文明、笪潔瓊、天培今天,文摘菌想談談監督學習。監督學習作為運用最廣泛的機器學習方法,一直以來都是從數據挖掘信息的重要手段。即便是在無監督學習興起的近日,監督學習也依舊是入門機器學習的鑰匙。這篇監督學習教程適用於剛入門機器學習的小白。
  • 谷歌NLP新方法:無需翻譯,質量優於無監督翻譯模型
    新智元報導 來源:techxplore編輯:元子【新智元導讀】無需翻譯的無監督複述的新方法:允許從輸入句子生成多樣化、但語義上接近的句子。模型基於矢量量化自動編碼器(VQ-VAE),可以在單純語言環境中解釋句子。
  • Facebook 開源 3D 深度學習函數庫 PyTorch3D
    下載客戶端還能獲得專享福利哦!原標題:Facebook開源3D深度學習函數庫PyTorch3D來源:開源中國Facebook近日開源了將PyTorch用於3D深度學習的函數庫PyTorch3D,這是一個高度模塊化且經過優化的庫,具備獨有的功能,旨在通過PyTorch簡化3D深度學習。
  • Facebook照片使用面部識別來簡化標記
    近期涉及Facebook照片使用面部識別來簡化標記內容備受矚目,很多讀者對此也很有興趣,現在給大家羅列關於Facebook照片使用面部識別來簡化標記最新消息。為了使每天向其社交網絡上的照片貼上1億個標籤的用戶的生活更加輕鬆,Facebook在12月15日表示,正在添加使用面部識別軟體的標籤建議。新的標記建議可幫助用戶輕鬆標記包含許多同一個人的一批照片。
  • Hinton團隊新作:無需重構,無監督比肩有監督
    原創 關注前沿科技 量子位魚羊 發自 麥蒿寺量子位 報導 | 公眾號 QbitAI最新研究表明,無需重構,無監督表示學習也可以表現出色。來自圖靈獎得主 Hinton 團隊的最新研究,提出了一種名為 SimCLR 的視覺表示對比學習簡單框架。作者表示,SimCLR 簡化了自監督對比學習算法,使其不再依賴於專門的架構和存儲庫。
  • AI已經如此神奇:自動給黑白底片上色,神奇還原歷史照片
    如果有人翻過家裡存放的老相冊也許會發現,在過去黑白膠捲的時代很流行一種「偽彩色」照片,這種照片上只有幾種彩色,比如紅色的帽徽、綠色的葉子和軍裝,這種照片就是人用手工畫上去的,有些照片幾乎可以以假亂真。我們先看幾張黑白膠片轉換成彩色的照片例子
  • Facebook 又出黑科技,手機照片一鍵切成 3D 大片
    可能不少人都想過,假如出現一種黑科技,讓我們拍攝的平面 2D 照片變成立體的 3D 照片......Facebook 也早就想到了這個問題。為改善用戶體驗,2018 年,Facebook 就推出了 3D 照片功能。這是一種全新的沉浸式格式,你可以用它與朋友、家人分享照片。但是,這項功能依賴於高端智慧型手機才具備的雙鏡頭「肖像模式」功能,無法在尋常的行動裝置上使用。
  • NeurIPS2020|解決不確定性問題—用於半監督學習的圖隨機神經網絡...
    圖神經網絡(GNN)在半監督節點分類任務中取得了卓越的性能。但是,大多數現有模型都學習確定性分類函數,在存在不完整的觀測數據(例如標記節點稀少和圖結構嘈雜)的情況下,目前的GNN缺乏足夠的靈活性。下面看看公式:大多數現有的GNN模型通常旨在學習確定性分類函數,該函數缺乏足夠的靈活性來滿足各種不完善的觀測數據。例如,當標記的節點稀少或圖形結構中存在噪聲時,它們很容易過擬合或被誤導。因此,這裡不是學習確定性函數,而是旨在學習一類分類函數,這些分類函數可以組織為隨機函數F,其分布表示為p(f)。
  • 澳門大學陳俊龍:無需深度結構的高效增量學習系統
    為了在寬度上擴展特徵節點和增強節點,論文中額外設計了對應的寬度學習算法。同時,如果網絡結構需要擴展,論文同時提出了無需完整網絡再訓練的快速增量學習算法。論文的其餘結構如下。首先介紹 RVFLNN,如圖 1-3 所示。其次,給出了所提出的寬度學習算法的細節。第三,在 MNIST 分類和 NORB 分類中實驗寬度學習系統,同時與其他各種深度神經網絡進行比較。
  • 稱霸圍棋、單手解魔方,零數據的強化學習,還能走多遠?
    在第一篇文章中,Sergey討論了標記數據集的界限。強化學習:用無數據打敗專業選手有趣的是,某些類型的機器學習根本不需要任何外部數據,更不用說標記數據了,通常的想法是他們能夠為自己生成數據。最重要的是,相同的模型也可以應用於例如Atari環境中的計算機遊戲(強化學習的標準基準)。但是值得注意的一個問題是,並非所有問題都可以用不需要數據的強化學習來解決。你可以用強化學習玩遊戲,即預先知道所有規則的獨立結構。但是,我們如何通過各種各樣的可能場景以及這些場景的各個組成部分來解決自動駕駛?一種可能的解決方案是使用合成虛擬環境。
  • Python, C++和Java代碼互翻,Facebook開發首個自監督神經編譯器
    FaceBook公司開發了一個工具TransCoder,這是一個完全自我監督的神經編譯器系統,它可以使代碼遷移變得更加輕鬆和高效。本文的方法是第一個能夠將代碼從一種程式語言轉換為另一種程式語言而無需並行數據進行訓練的AI系統。本文已經證明TransCoder可以成功地在C++,Java和Python 3之間進行翻譯功能。
  • 3d掃描儀施工現場項目3D數據捕捉建築數位化3D數據
    打開APP 3d掃描儀施工現場項目3D數據捕捉建築數位化3D數據 發表於 2020-04-13 16:28:17 項目現場數據捕捉 首先使用三維雷射掃描儀掃描項目現場,捕捉建築物、基礎設施和工業設施的現場數據。