Facebook 新研究:使用CNN將任何2D照片轉換為3D

2021-02-14 AI前線

Facebook 的 3D 照片功能 於 2018 年推出,是一種全新的、沉浸式的照片格式,用於與朋友和家人分享照片。不過,在當時,這一功能依賴於只有新款高端智慧型手機才有的雙鏡頭「肖像模式」功能。因此,這一功能無法在只有一個後置鏡頭的典型行動裝置上使用。為了讓更多的人能夠用上這種全新的視覺形式,我們使用了最先進的機器學習技術,能夠將幾乎任何標準的 2D 照片轉換為 3D 照片。這個系統可以推斷出任何圖像的 3D 結構,無論是用標準單鏡頭在 Android 和 iOS 設備拍攝的新照片,還是最近上傳到手機或筆記本電腦上的幾十年前的老照片。

這一技術進步使得數以百萬計使用單鏡頭照相手機或平板電腦的人們第一次可以輕鬆地接觸到 3D 照片技術。它還可以讓每個人以一種全新的方式體驗幾十年前的家庭照片和其他珍貴的圖像,將它們轉換成 3D 照片。擁有最先進的雙鏡頭設備的人也能從中受益,因為他們現在可以使用唯一的前置鏡頭進行 3D 自拍。任何擁有 iPhone 7 或更高版本,或者最近的中端或更好的 Android 設備的人,現在都可以在 Facebook 的應用程式中嘗試這些選項這項技術。

該動畫顯示了如何估計一幅 2D 圖片的不同區域的深度,以創建一幅 3D 圖像。

構建這種增強的 3D 照片技術需要克服各種技術挑戰,例如,訓練模型,以正確推斷出極其廣泛主題的 3D 位置,並優化系統,使其能夠在不到一秒的時間內,就能在典型移動處理器的設備上運行。為了克服這些挑戰,我們在數百萬對公共 3D 圖像及其相應的深度圖上訓練了卷積神經網絡,並利用了 Facebook AI 之前開發的各種移動優化技術,如 FBNet 和 ChamNet 等。(我們還討論了最近在 3D 理解方面的相關研究,參見:《推動 3D 內容理解的最新進展》(Pushing the state of the art in 3D content understanding))

現在,這一功能對所有 Facebook 的用戶都是可用的,我們將在本文分享如何構建這一功能的細節。

小狗的原始照片是用單鏡頭相機拍攝的,並不包含任何深度圖的數據。我們的系統將其轉換成 3D 圖像,如圖所示。

給定一幅標準的 RGB 圖像,3D Photos CNN (3D 照片卷積神經網絡)可以估計每個像素到相機的距離。我們通過以下四種方式實現了這一點:

我們的架構使用了受 FBNet 啟發的構件塊,FBNet 是一個用於優化行動裝置和其他資源受限設備的 ConvNet 架構的框架。一個構建塊由逐點卷積(pointwise convolution)、可選上採樣、$K \times K$ 深度卷積和一個額外的逐點卷積組成。我們實現了一個 U-net 風格的架構,該架構已經被修改為沿著殘差連接(skip connection)放置 FBNet 構建塊。U-net 編碼器和解碼器各包含五個階段,每個階段對應不同的空間解析度。

我們的網絡架構概述。該網絡架構是一個 U-net,沿著殘差連接放置了額外的宏級構建塊。

為了找到一個有效的架構配置,我們使用 ChamNet 將搜索過程自動化,這是 Facebook AI 開發的一個算法。ChamNet 算法迭代地從搜索空間中採樣點來訓練正確度預測器。該正確度預測器用於加速遺傳搜索,以找到在滿足特定資源約束的前提下,使預測正確度最大化的模型。在這個設置中,我們使用一個搜索空間,該搜索空間改變了通道擴展因子和每個塊的輸出通道數,從而產生了 $3.4 \times 10^{22}$ 個可能的架構。然後,我們使用 800 塊 Tesla V100 GPU,在大約三天內完成了搜索,設置並調整了模型架構上的 FLOP 約束,以實現不同的操作點。

默認情況下,我們的模型使用單精度浮點權重和激活進行訓練,但我們發現,將權重和激活量化為僅 8 位具有顯著的優勢。特別是,int8 權重只需 float32 權重所需存儲空間的四分之一,從而減少了首次使用時必須傳輸到設備的字節數。

這些圖像都是從普通的 2D 圖像開始,然後通過我們的深度估計神經網絡轉換成 3D 圖像。

由於 Facebook AI 的 QNNPACK 等經過調優的庫已經整合到 PyTorch 中,因此與 float32 相比,基於 int8 的運營商的吞吐量要高得多。我們使用量化感知訓練(quantization-aware training,QAT)來避免由於量化導致的不可接受的質量下降。QAT(現已作為 PyTorch 的一部分提供)在訓練過程中模擬量化並支持反向傳播,從而消除了訓練和生產性能之間的差距。

我們的神經網絡可處理各種內容,包括場景複雜的繪畫和圖像。

除了完善和改進我們的深度估計算法,我們還致力於為行動裝置拍攝的視頻提供高質量的深度估計。視頻是一個值得注意的挑戰,因為視頻中每一幀的深度必須與下一幀保持一致。但這也是提高性能的一個機會,因為對同一目標的多次觀測可以為高正確度的深度估計提供額外的信號。視頻長度深度估計將向我們的用戶開放多種創新的內容創作工具。隨著我們不斷提高神經網絡的性能,我們還將探索利用深度估計、表面法線估計(surface normal estimation)、和空間推理在實時應用(如增強現實)中的應用。

除了這些潛在的新體驗外,這項工作還將幫助我們更好地全面理解 2D,提高對 3D 場景的理解也可以幫助機器人導航並與現實世界進行互動。我們希望通過分享我們的 3D 照片系統的細節,能夠幫助人工智慧社區在這些領域取得進展,並創造利用先進的 3D 理解的新體驗。

作者介紹:

Kevin Matzen、Peizhao Zhang,研究科學家;Matthew Yu、Jonathan Lehman,軟體工程師;Jan-Michael Frahm、Peter Vajda、Johannes Kopf,研究科學主管;Matt Uyttendaele,工程總監。

拓展閱讀:

https://ai.facebook.com/blog/-powered-by-ai-turning-any-2d-photo-into-3d-using-convolutional-neural-nets

你也「在看」嗎?👇

相關焦點

  • Facebook 又出黑科技,手機照片一鍵切成 3D 大片
    但是,這項功能依賴於高端智慧型手機才具備的雙鏡頭「肖像模式」功能,無法在尋常的行動裝置上使用。為了讓更多人體驗到這種新的視覺格式,Facebook 利用機器學習開發了一個系統。這個系統可以推斷出任何圖像的 3D 結構,任何設備、任何時間拍攝的圖像都可以被轉換成 3D 形式。這就可以讓人們輕鬆使用 3D 照片技術。
  • 2D與3D動畫的融合
    百藝匯聚 · 我們只做專業的大家好,各位期待已久的2d與3d動畫的融合終於來了!
  • 爆料時間 | 黑科技+傳統動畫,2d畫面的新嘗試(內含發碼福利~)
    我是2d遊戲和傳統2d動畫的死忠粉絲,相對於3d遊戲,我始終認為2d有著一種更加藝術化的表現力,尤其是屏幕相對較小的手機遊戲,2d遊戲對空間和位置的清晰描畫使得它的體驗無法被3d所替代。所以,從未來發展考慮,我很希望用新的技術為2d遊戲這種傳統表現形式增添新的生命力,就如同大刀闊斧地擴展了2d遊戲魅力的那些厲害的作品——罪惡裝備,死亡細胞,空洞騎士,以及Vanillaware的所有作品那樣。
  • 臺灣清華大學與Facebook再度攻破3D照片技術
    更新:網友Alegriabaile指正「最新的3d照片與原來的主要區別是,原來的是根據蘋果人像模式RGB-D進行三維全景圖生成,重點在深度圖的全局一致性變形,當時Facebook發布的只是用到了裡面較簡陋的內容生成方法;最新的這個和19年的practical 3d photography更像,拍攝單幅RGB顏色圖片,利用深度學習得到深度圖
  • Facebook的3D照片功能現在可以模擬任何圖像的深度
    它最初要求在桌面或雙攝像頭手機(如Galaxy Note10或iPhone 11)上安裝深度地圖文件,但從今天開始,3D照片可以與任何單攝像頭的現代手機兼容——特別是iPhone 7或更高、中檔或更好的安卓設備。Facebook表示,「最先進的」機器學習技術使手機支持擴展成為可能。
  • 背後是國產3D動畫和2D動畫的戰爭
    如果說到連載動畫,我個人曾經一度強烈支持發展3d動畫,2d動畫當然也要發展但可能會輸。原因就日本2d動畫全面佔有,成熟並且系統性。國產2d動畫絕大多數就是在學習日本,很難超越系統本身。比如奇幻類的,我們能找一堆。
  • 3d列印的主要缺點,是需要重新批量生產3d列印材料
    因此,優秀的3d列印印表機可以幫助克服這些問題。這篇文章介紹了本文將講述的最優秀的3d印表機。三維雷射列印技術3d列印的選材與其他多數傳統工藝相同,3d列印人們在選擇材料時通常需要關注材料的重量、彈性、密度、顏色、硬度和大小。
  • Facebook 開源 3D 深度學習函數庫 PyTorch3D
    PyTorch3D為3D數據提供了一組常用的3D運算符和快速且可微分的損失函數(loss function),以及模塊化的可微分渲染API。通過上述的功能,研究人員可以立即將這些函數導入至當前最先進的深度學習系統中。研究人員和工程師可以利用PyTorch3D進行各種3D深度學習研究(無論是3D重構、集束調整,乃至3D推理),以及改進在二維空間下的識別任務。
  • 2D轉3D,在《流浪地球》中感受太空漂浮,愛奇藝推出「會動的海報」
    最近,來自愛奇藝的團隊介紹了一種 3D 內容轉換的 AI 模型,可通過深度學習技術將 2D 內容快速、批量、全自動地轉製成 3D 內容。在減少 3D 內容製作成本的同時,為用戶提供更多高質量的立體化影像。
  • Google相冊現在可以將您的2D照片變成電影3D圖像
    眾所周知,Google一直在努力開發適用於Android和iOS的照片應用,以使其與競爭對手並駕齊驅。因此,現在,山景城巨人最近宣布了Google相冊的一項很酷的新功能,可以將常規圖像轉換為逼真的3D圖像。
  • 谷歌Photos新AI功能絕了,可將2D照片變成3D效果
    谷歌Photos新AI功能絕了,可將2D照片變成3D效果 站長之家(ChinaZ.com)12月17日 消息:谷歌Photos宣布將推出了一個新的功能
  • 如何將 iPhone 照片轉換為 JPG
    那麼如何使用「文件」應用程式和相機設置將 iPhone 照片轉換為 JPG?在文件應用程式中轉換照片打開文件 . 您會在其中一個主屏幕上或「實用工具」文件夾中找到這個看起來像文件夾的圖標。點住空白區域。
  • 2D影片可以轉換成3D影片嗎?效果如何?
    儘管被網友吐槽為「只有字幕最3D」,2D轉3D電影在國內仍然發展得如火如荼。當市面上有超過一半的電影都打著「3D」宣傳招牌時,觀眾在影院看的真是3D嗎?2D影片可以轉換成3D影片嗎?而拍攝2D時,沒有錄製第二個視圖,因此,2D轉換成3D時,便試圖通過第一個視圖來創建第二個視圖。但是,真正使用另一臺攝影機時,可以從物體背後進行觀看。也就是說,另一臺攝影機會錄製一些不同的信息,這一信息會被第一個視圖的物體所覆蓋(即所謂的閉合或重疊occlusions)。在轉換中,不僅需要逐幀貼合每一個元素或每一根頭髮,還要逐幀地描繪那些重疊(occlusions)。
  • Facebook使用人工智慧,優化360度照片
    Facebook宣布,他們正在使用人工智慧技術,來確保上傳到社交網絡上360度照片是高質量的。
  • 戰狼2票房持續衝高8月18日將推IMAX2D版 《戰狼2》2d和3d哪個好看
    由於票房給力,《戰狼2》將加入IMAX2D版本,預計8月18日開始上映。由此,《戰狼2》又創造了一項新的記錄,成為了國內第一部上映後加映IMAX版的電影。那麼《戰狼2》IMAX2D值不值得觀看?戰狼2IMAX 2D和3D有什麼區別?
  • 不再是iphone專屬功能,Facebook 3D照片開始支持多種品牌手機
    2月29日消息 ,據外媒報導,Facebook正開放3D照片的使用範圍,不再局限於支持雙攝像頭的 iPhone 機型和針對人像模式下拍攝的照片。據悉,3D照片是Facebook在2018年 5 月舉行 F8 開發者大會上宣布此項目的。
  • Facebook F8講到的3D照片是怎麼一回事?
    Kopf指出:「有趣的是,3D照片這項成果的研究初衷並不是用來提升和完善當前2D照片的不足,而是從如何讓VR內容創作變得更簡單的角度出發。」之所以做這個工具,那是因為Facebook上普通的網友並沒有構建3D模型或創建VR內容的工具和能力。其中典型的例子是,360度全景圖片,雖然其可在VR中有很好的體驗,因為其可以看到各個角度圖像,但是它還不具備變革性。
  • Facebook是什麼_使用教程_功能詳解-雨果網
    成立初期原名為「thefacebook」,名稱的靈感來自美國高中提供給學生包含照片和聯繫數據的通訊錄(或稱花名冊)之暱稱「face book」。當前尚無官方的中文譯名,較為廣泛使用則為臉書。
  • Facebook批量優化360照片
    面對這些挑戰,我們重新設計了Facebook的照片基礎設施,以便「分塊」存儲和提供照片內容。我們會將360度照片轉換為立方體貼圖,這類似於我們用於360度視頻的早期方法。這些立方體貼圖依次存儲在多個解析度下,並且這些不同解析度都會被分割成小的、單獨的512x512圖像。當拍攝好一張360度照片時,我們會計算出哪個解析度和哪些圖塊是渲染當前窗口所必需的。
  • 用iPhone一秒拍攝3D照片,Facebook這項技術厲害了
    今年5月,Facebook介紹了3D照片技術,今天Facebook正式將其3D照片功能帶到了iPhone手機上。當你用iPhone拍攝一張照片時,點擊狀態更新編輯器中的新3D照片選項,選擇肖像模式照片,然後Facebook會用AI計算出場景深度,使得2D照片也可以動起來,呈現出多個角度的景象。