無需任何標記數據,幾張照片就能還原出3D物體結構,自監督學習還能...

2021-01-11 澎湃新聞

蕭簫 發自 凹非寺

量子位 報導 | 公眾號 QbitAI

只給你幾張物體的照片,你能準確還原出它在各種刁鑽視角下的模樣嗎?

現在,AI可能比你還原得還要準確。

只給幾個3D球的正臉照片:

AI立刻就能將不同視角的球形照片還原出來,大小顏色都接近真實的照片。

稍微複雜一點的結構,如這堆椅子:

AI在經過思考後,也能立即給出椅子在另一視角下的照片,結構大小與真實場景相比,幾乎沒有跑偏。

這還是在完全沒有給出物體深度、邊界框的情況下,AI模型純粹靠自己預測出來的3D效果。

那麼,這樣的模型到底是怎麼做出來的呢?

給模型安排一個「批評家」

這是一個由CNN和MLP(多層感知器)組成的模型,其目的在於通過一組2D圖片(不帶任何標籤),從中還原出物體的3D關係來。

相比於單個3D物體,這個模型能夠在整個場景上進行3D訓練,並將它還原出來。

例如,根據下圖的幾張兔子照片,還原出3D兔子模型在俯視角度下拍攝的照片。

但從2D照片中還原出物體的3D關係,並不如看起來這麼簡單。

在還原過程中,模型不僅要準確推斷每個3D物體的位置、深度、大小,還要能還原出它的光照顏色。

通常訓練神經網絡的第一想法是,將這幾個變量直接設為參數,並採用梯度下降算法對模型進行收斂。

但這樣效果會很差,因為模型在想辦法「偷懶」。

將損失降低到一定程度後,它就不再尋找更好的解決方案。

例如,下圖真實目標(藍色)與當前目標(紅色)有差異,然而在進行梯度下降時,嘗試移動一定距離,誤差沒有降低;但在改變大小時,誤差卻降低了,就對網絡模型形成了誤導。

對此,研究者利用強化學習中的好奇心驅動,額外給模型加了一個「批評家」(critic)網絡,它會利用數據分布中隨機提取的有效樣本,來褒貶模型的結果。

這樣,模型作為「表演者」(actor),為了獲得更好的評價,就會再試圖去尋找更好的方法,以生成更優的結果。

如下圖所示,左邊是沒有利用好奇心驅動的模型,右邊則是加入了好奇心驅動。在「批評家」的驅使下,模型逐漸推導出了正確的參數。

這一「批評家」網絡,迫使模型在優化過程中,不能只依賴於同一種(錯誤的)答案,而是必須在已有數據下尋找更好的解決方案。

事實證明,加了「批評家」網絡的模型,不僅收斂下降到了一個新的高度(如上圖藍色線條),而且評論家最終給出的評分也不錯。

那麼,相比於其他3D關係生成模型,這一結構的優勢在哪裡呢?

無需任何外部標記,2D還原3D關係

作者與其他模型進行了詳細對比,這些模型涵蓋不同的3D還原方法,包括深度圖、CNN、立體像素、網格等。

在監督學習所用到的參數上,可用的包括深度、關鍵點、邊界框、多視圖4類;而在測試部分,則包括2D轉3D、語義和場景3種方式。

可以看見,絕大多數網絡都沒辦法同時實現2D轉3D、在還原場景的同時還能包含清晰的語義。

即使有兩個網絡也實現了3種方法,他們也採用了深度和邊界框兩種參數進行監督,而非完全通過自監督進行模型學習。

這一方法,讓模型在不同的數據集上都取得了不錯的效果。

無論是椅子、球體數據集,還是字母、光影數據集上,模型訓練後生成的各視角照片都挺能打。

甚至自監督的方式,還比加入5%監督(Super5)和10%監督(Super10)的效果都要更好,誤差基本更低。

而在真實場景上,模型也能還原出照片中的3D物體形狀。

例如給出一隻兔子的照片,在進行自監督訓練後,相比於真實照片,模型基本還原出了兔子的形狀和顏色。

不僅單個物體,場景中的多個3D物體也都能同時被還原出來。

當然,這也離不開「好奇心驅動」這種方法的幫助。

事實上,僅僅是增加「好奇心驅動」這一部分,就能降低不少參數錯誤率,原模型(NonCur)與加入好奇心驅動的模型(Our)在不同數據集上相比,錯誤率平均要高出10%以上。

不需要任何外部標記,這一模型利用幾張照片,就能生成3D關係、還原場景。

作者介紹

3位作者都來自倫敦大學學院。

一作David Griffiths,目前在UCL讀博,研究著眼於開發深度學習模型以了解3D場景,興趣方向是計算機視覺、機器學習和攝影測量,以及這幾個學科的交叉點。

Jan Boehm,UCL副教授,主要研究方向是攝影測量、圖像理解和機器人技術。

Tobias Ritschel,UCL計算機圖形學教授,研究方向主要是圖像感知、非物理圖形學、數據驅動圖形學,以及交互式全局光照明算法。

有了這篇論文,設計師出門拍照的話,還能順便完成3D作業?

論文地址:

https://arxiv.org/abs/2012.01230

— 完 —

本文系網易新聞•網易號特色內容激勵計劃籤約帳號【量子位】原創內容,未經帳號授權,禁止隨意轉載。

原標題:《無需任何標記數據,幾張照片就能還原出3D物體結構,自監督學習還能這樣用》

閱讀原文

相關焦點

  • 無需標註數據集,自監督注意力機制就能搞定目標跟蹤
    深度學習的蓬勃發展得益於大規模有標註的數據驅動,有監督學習推動深度模型向著性能越來越高的方向發展。但是,大量的標註數據往往需要付出巨大的人力成本,越來越多的研究開始關注如何在不獲取數據標籤的條件下提升模型的性能,這其中就包括自監督注意機制。
  • 人工智慧的下半場,一定少不了自監督學習
    想要得到好的性能,往往需要大量的數據標籤,但是手動收集數據的成本很高(例如,ImageNet),而且也很難對數據集進行擴展。考慮到無標籤數據(例如,免費的文本、網絡上所有的圖像)的數據量遠遠超過了數量有限的人為標記的數據集,如果不使用這些無標籤數據是一種極大的浪費。然而,無監督學習是很困難的,而且相較於監督式學習往往要低效得多。
  • 自監督、半監督和有監督全涵蓋,四篇論文遍歷對比學習的研究進展
    自監督學習意思是使用非人工標記數據進行學習。在機器學習中,比較著名的自監督方法就是自然語言處理中的 。由此可見,與無監督學習不同,自監督中仍然存在標記,只不過,這些標記不是人類參與生成的,而是從輸入數據中生成的,通常可以使用啟發式算法生成標記。
  • BYOL:輕鬆進行自監督學習
    自監督學習在深度學習中,經常遇到的問題是沒有足夠的標記數據,而手工標記數據耗費大量時間且人工成本高昂。基於此,自我監督學習成為深度學習的研究熱點,旨在從未標記樣本中進行學習,以緩解數據標註困難的問題。子監督學習的目標很簡單,即訓練一個模型使得相似的樣本具有相似的表示,然而具體實現卻困難重重。經過谷歌這樣的諸多先驅者若干年的研究,子監督學習如今已取得一系列的進步與發展。
  • 自監督學習知識遷移
    自監督學習是一個非常有趣的研究領域,其目標是在沒有任何人工標註的情況下,從未標註的數據中學習豐富的表示。我們可以通過創造性地提出一個問題來實現,這樣你就可以使用數據本身的一部分作為標籤並嘗試進行預測。這樣的表述被稱為前置任務例如,你可以設置一個前置任務,給定灰度圖情況下來預測圖像的彩色版本。
  • 為什麼說「無監督學習」才是深度學習的未來?
    我們已經在之前的一篇文章中探討了神經網絡和深度學習技術,現在是時候討論深度學習的另一個主要組成部分了:數據,即圖像,視頻,電子郵件,駕駛模式,短語,物體等等。   令人驚訝的是,儘管我們的世界幾乎被數據所淹沒,但很大一部分是未經標註未被整理過的,這意味著這些數據對於大多數目前的監督式學習來說是不可用的。
  • 看一遍人類動作就能模仿,能理解語義的谷歌機器人登上無監督學習的...
    研究者使用這些功能來解釋用戶提供的演示,結果顯示從幾個演示中就可以以無監督的方式學習到獎勵函數,而無需額外訓練。機器人的自監督人類動作模擬上面展示的多對一和高度非線性關節映射是端到端學習有點的有力證明。
  • 德克薩斯A&M大學在讀博士遊宇寧:自監督學習在圖卷積網絡中的研究...
    自監督學習是一種介於無監督和有監督學習之間的新範式,可以有效減少對大量帶注釋數據的需求。在數據訓練的過程中,生成帶有無噪聲標籤的數據集的成本很高,而無標籤的數據又一直在不斷產生。為了有效利用大量的無標籤數據,自監督學習通過設置合理的學習目標和定義前置任務,從數據本身中得到了監督信號。當前自監督學習已經被廣泛用於訓練卷積神經網絡(CNNs),有效地提高了圖像表示學習可傳遞性、泛化能力和魯棒性,並且已在語義分割、目標檢測、圖像分類、人體動作識別等實戰場景中展現出卓越效果。現在更多無需人工標註的前置任務訓練也被提出,如前景對象分割、圖像修補、圖像著色等。
  • 僅憑一張照片就能生成3D人體模型
    僅憑一張照片就能生成3D人體模型近日,重慶中科雲從科技有限公司(以下簡稱雲從科技)提出一種新型DenseBody框架,可直接從彩色照片中獲取3D人體姿勢和形狀。而此基於單幀圖像的3D人體重建技術,將原有最低誤差降低30%,刷新了世界紀錄。
  • CNN 在基於弱監督學習的圖像分割中的應用
    如果學習算法能通過對一些初略標記過的數據集的學習就能完成好的分割結果,那麼對訓練數據的標記過程就很簡單,這可以大大降低花在訓練數據標記上的時間。這些初略標記可以是:1. 只給出一張圖像裡面包含哪些物體;2. 給出某個物體的邊界框;3. 對圖像中的物體區域做部分像素的標記,例如畫一些線條、塗鴉等(scribbles)。
  • 3d印表機結構_3d印表機分類
    打開APP 3d印表機結構_3d印表機分類 姚遠香 發表於 2019-04-28 14:19:11   3d印表機簡介   3D印表機簡稱(3DP)是一位名為恩裡科·迪尼的發明家設計的一種神奇的印表機,不僅可以「列印」一幢完整的建築,甚至可以在航天飛船中給太空人列印任何所需的物品的形狀。
  • MIT黑科技:無需視覺,立體聲音頻+攝像機元數據實現移動車輛定位
    在本文中,來自 MIT 計算機科學與人工智慧實驗室、MIT-IBM 沃森人工智慧實驗室團隊的研究者提出了一套利用無標記的視聽數據來自監督學習的算法,僅依靠立體音頻和攝像機元數據就可以在視覺參考坐標系中定位移動的車輛。
  • 「3d掃描儀結合3d列印技術」學校3d創新教育的一把利器
    讓師生創客通過動手設計和深度體驗,激發師生創客跨學科學習和創意智造的熱情,從而培養空間想像能力、創新思維能力和創造設計能力。通過「玩中做,做中學,學中做,做中創」的愉快有趣的環境中達到有效學習的目的。那麼3d掃描儀和3d列印技術是怎麼樣配合應用呢?
  • Unity Perception工具 | 使用合成數據訓練出強大的物體檢測ML模型
    人工監督訓練的機器學習(ML)革新了人工智慧,促成了一系列創新產品落地。然而,人工監督的機器學習需要更大、更複雜的數據集,而搜集這些數據會消耗大量的成本,並且搜集時還會面臨如何保證標籤質量、如何確定數據真實有效等問題。如今,這些問題,尤其是對象檢測,有了一個全新的解決方案:藉助軟體生成大量的合成數據集。
  • Facebook 開源 3D 深度學習函數庫 PyTorch3D
    下載客戶端還能獲得專享福利哦!原標題:Facebook開源3D深度學習函數庫PyTorch3D來源:開源中國Facebook近日開源了將PyTorch用於3D深度學習的函數庫PyTorch3D,這是一個高度模塊化且經過優化的庫,具備獨有的功能,旨在通過PyTorch簡化3D深度學習。
  • 無需成對示例、無監督訓練,CycleGAN生成圖像簡直不要太簡單
    訓練圖像到圖像的轉換模型通常需要一個大的成對數據集。這些數據集準備起來既困難又昂貴,而且在某些情況下是不可行的,比如已故許久的藝術家的畫作照片。  CycleGAN 是一種無需成對示例便可自動進行圖像到圖像轉換的技術。這些模型是採用一批無需關聯的來自源域和目標域的圖像,以一種無監督的方式訓練的。
  • 從相關性分析到有監督學習,淺談數據挖掘分析
    相關性分析是我們做數據分析時最常用的一種方法。我們在對業務進行分析時,都會思考哪幾個環節是相互影響的,通過層層推理,找到工作中的關鍵問題,從而改進業務,提高工作效率。業務環節相互影響,在數據上的體現就是具有相關性。我們按照數據的類型來說下,在做數據分析時會碰到哪些相關性分析。
  • CVPR 2020 Oral |神奇的自監督場景去遮擋
    在本文中,來自香港中文大學、商湯、南洋理工大學的研究者提出了一種自監督的場景去遮擋方法,旨在恢復潛在的遮擋順序並補全被遮擋對象的不可見部分,其效果可媲美全監督的方法。目前,該論文已被 CVPR 2020 接收為 Oral 論文。
  • 如何將深度學習應用於無人機圖像的目標檢測
    本文全面概述了基於深度學習的對無人機航拍圖像進行物體檢測的方法。攝影測量:在無人機飛行過程中,為了確保圖象重疊,需要每隔一段時間拍攝幾張圖像。這一步很重要,這樣才能測量成像物體間的距離。廣義上講,這一過程被稱為攝影測量學。對於需要用於數據分析和製圖的圖像,還需要相應的元數據進行圖像拼接。這些元數據由無人機上的微型計算機自動嵌入。