Facebook新研究:加強版CNN,2D照片也能模擬3D效果

2021-02-14 極市平臺

加入極市專業CV交流群,與10000+來自騰訊,華為,百度,北大,清華,中科院等名企名校視覺開發者互動交流!

同時提供每月大咖直播分享、真實項目需求對接、乾貨資訊匯總,行業技術交流。關注 極市平臺 公眾號 ,回復 加群,立刻申請入群~

來源:AI科技評論@微信公眾號

作者:Facebook AI

還記得Facebook在2018年推出的一種名為「攝影測量」的技術麼?

現在Facebook已經將此項技術完善,併集成到了APP上,也就是說,在FB軟體上,用靜態的2D照片,也能體會到豐滿的3D立體感。

轉換成的3D照片「看上去」包含一定的深度信息,並且在左右晃動時有著沉浸式的體驗,感覺像是一個小範圍的6DoF短片。

只需1秒,2D照片也能模擬3D效果

2018年推出的3D功能

雖然,FB 在2018已經推出的3D照片功能,並且能夠以一種全新的沉浸式的格式與家人和朋友共享照片。不過,這項功能依賴於雙攝像頭「人像模式」,只能在新的更高端的智慧型手機上使用,而無法在只有後置單攝像頭的老款行動裝置上使用。 為了讓這項 3D 照片功能惠及更多人,Facebook 採用最先進的機器學習技術,為幾乎所有的標準 2D 格式的照片生成 3D 照片。

該系統能夠為任意圖片推導出3D架構,無論是剛剛用安卓或 iOS 設備上的單攝像頭拍的新照片,還是最近上傳到手機或電腦上的幾十年前的老圖片。

不僅如此,使用最先進的雙攝像頭設備的人也能夠從中受益,因為他們現在可以使用前置單攝像頭也能夠進行3D自拍了。使用iPhone 7及以上版本的蘋果手機以及中端及以上的安卓機的人,現在都可以在Facebook APP上使用這一功能。

動畫展示了如何估計 2D 圖片不同區域的深度來構建 3D 圖像。

構建這種增強版的3D照片技術需要克服各種各樣的技術挑戰,例如訓練一個能夠正確推斷非常多種主題圖片的 3D位置的模型,並優化系統讓它能夠瞬間在搭載傳統移動處理器的設備上運行。

為了克服這些挑戰,Facebook 在數百萬對對外開放的3D圖像及其對應的深度圖上訓練卷積神經網絡(CNN),並使用了 Facebook AI 研究院此前開發的各種行動裝置優化技術,如FBNet 、 ChamNet等。

下面來看構建 3D 照片功能的細節:

小狗的原照片是用單攝像頭拍的,並且沒有任何深度圖數據,Facebook 的3D 照片功能將原照片轉成了3D格式的照片。

行動裝置上,也能夠實現高性能

給定一個標準的RGB 圖像,3D 照片卷積神經網絡能夠估計出每個像素離照相機的距離,具體有以下四個步驟:

由一組可參數化、可移動優化的神經網絡構建模塊構成的網絡架構;自動化架構搜索,來找到這些模塊的有效配置,從而使系統在不到一秒鐘的時間內就能夠在各種設備上執行任務;進行量化感知訓練,從而能夠在行動裝置上使用高性能的INT8 量化,同時最小化量化過程中潛在的質量下降;
神經網絡構建模塊


論文下載地址:https://research.fb.com/wp-content/uploads/2019/05/FBNet-Hardware-Aware-Efficient-ConvNet-Design-via-Differentiable-Neural-Architecture-Search.pdf?

關於神經網絡的構建基塊,其受到FBNet啟發,作為一套針對行動裝置進行優化的ConvNet架構體系,其構建塊由逐點卷積、可選上採樣、K x K深度卷積和附加逐點卷積組成。

在具體工作中,Facebook實現了一個U-Net風格的體系結構。這個結構的編碼器和解碼器分別包含五個階段,每個階段對應不同的空間解析度。

網絡架構概述

自動化架構搜索

為了找到一個有效的架構配置,Facebook使用其開發的算法——ChamNet 來自動化搜索過程。

ChamNet 算法迭代地從搜索空間採樣點來訓練一個準確度預測器。該預測器用來加速遺傳搜索,從而找到在滿足特定資源約束的情況下最大化預測準確度的模型。

在該設置下,他們使用了一個可以改變擴展因子和每個模塊的輸出通道數的搜索空間,生成了3.4x1022個可能的架構。之後,他們使用了800塊Tesla V100 的GPU,在將近3天的時間裡完成了這一搜索,並且設置和調整了模型架構上的FLOP 約束以實現不同的操作點。

量化感知訓練(QAT,Quantization-aware training)

默認情況下,模型使用單精度浮點權重和激活函數進行訓練,但是將權重和激活都數統一採取8位整數表示,具有顯著的優勢。更為具體有一點,用8-bit整數操作代替32-bit的浮點操作能夠節省3/4的儲存空間。

用我們的深度估計神經網絡將其轉換為3D圖像。

由於Facebook AI的QNNPACK等調優的庫已經集成到PyTorch中,基於Int8操作的吞吐量也比他們的Float32同行高得多。使用量化感知訓練(QAT)來避免由於量化而導致的不可接受的質量下降。值得一提的是,QAT現在已經是PyTorch的一部分了,它能在訓練期間模擬量化,並支持反向傳播,從而消除了訓練和生產性能之間的差距。

複雜場景的2D照片轉換3D效果也不錯

尋找創建3D體驗的新方法

除了改進深度學習算法之外,Facebook還致力為手機等行動裝置提供更質量的3D視頻,準確的說是提供深度估算。相比照片,視頻的難度要更大,因此要保證相鄰的2幀之間深度信息是一致的。所以可以猜測的是,視頻的深度信息估計將開創更多可能性,因為同一對象的多個觀測可以為高度精確的深度估計提供更多的信號。

據Facebook介紹,隨著神經網絡性能的不斷提升,他們還將探索在AR領域的實際應用,例如如何高效的利用深度估計以及空間推理。

毫無疑問,這項工作會幫助我們提高對3D場景的理解,也可以提升機器導航軟體的性能。

Via https://ai.facebook.com/blog/-powered-by-ai-turning-any-2d-photo-into-3d-using-convolutional-neural-nets/

極市平臺視覺算法季度賽,提供真實應用場景數據和免費算力,特殊時期,一起在家打比賽吧!

添加極市小助手微信(ID : cv-mart),備註:研究方向-姓名-學校/公司-城市(如:目標檢測-小極-北大-深圳),即可申請加入目標檢測、目標跟蹤、人臉、工業檢測、醫學影像、三維&SLAM、圖像分割等極市技術交流群,更有每月大咖直播分享、真實項目需求對接、求職內推、算法競賽、乾貨資訊匯總、行業技術交流,一起來讓思想之光照的更遠吧~

△長按添加極市小助手

△長按關注極市平臺,獲取最新CV乾貨

覺得有用麻煩給個在看啦~  

相關焦點

  • 2D素材3D效果!
    溫馨提示:所有內容純屬個人瞎玩研究,如要上線項目,請自行評估~ oh最近逛論壇,看到有一位小夥伴想實現下面這種透視效果。預期效果接著,去找了(扒)這個遊戲的素材,都是2d圖片。圖片素材這想到兩個方案去實現:純2d實現:對一張圖片的每個頂點做一次投影變換,算出每個頂點在2d屏幕中的坐標。用
  • Facebook將照片3D化技術商用,強大的算法+海量的數據+移動端優化是工程亮點
    3D 拍攝是手機攝像頭進化的重要方向,使用雙目攝像頭是主流方案,但一直以來學術界都在研究使用算法將單攝像頭拍攝的2D RGB圖像轉化成3D圖像(雖然也有人認為這並不科學),這不僅可以使得新設備硬體成本降低,而且可以讓我們看到之前拍攝的老照片3D化後的效果。
  • 如何用 JS 在 Canvas 2D 上做出 3D 效果
    ("2d") 做的,而且代碼並不長,才兩百多行,當時就被震驚了!!!在源碼 draw 方法的 things 數組裡加入我們的 Triangle, 調整攝像機的位置和注視點參數,讓他能看見三角形正面(同樣可以先在 3DsMax 裡擺好位置,然後取各點的位置參數放到源碼裡,注意YZ要互換),就可以看到結果了,透視效果 OK 符合預期
  • 更新|Facebook又添新功能?2D照片變3D,這麼神奇嗎?
    Facebook在其3D照片選項中添加了新功能,系統現在能夠模擬任何圖像的深度,支持將任何靜態圖片轉換為3D帖子。       如Facebook所述:「(到目前為止)我們的3D照片功能依賴於雙鏡頭「人像模式」功能,該功能僅在新的高端智慧型手機中可用,因此在只有單個後置攝像頭的手機無法使用。
  • 一張圖實現3D人臉建模!這是中科院博士生入選ECCV的新研究 | 智·技術
    新的3DDFA方法,最關鍵的核心,是3D輔助短視頻合成方法,它能模擬平面內和平面外的人臉移動,將一幅靜止圖像轉換為短視頻那麼,3DDFA-V2最關鍵的照片轉小視頻的功能是如何實現的呢?3D輔助短視頻合成3D密集人臉對齊方法,需要在在視頻上運行,它提供相鄰幀間提供穩定的3D重建結果。所謂穩定,是指在視頻的相鄰幀中,重建的三維圖像的變化應該與真實物體的細粒度移動保持一致。
  • 一文看盡 Facebook 3D視覺技術研究進展
    2D 圖像和視頻所描述的場景和對象本身仍是三維的,而真正智能的內容理解系統必須能夠從杯子的視頻中識別出手柄的幾何情況,或者識別出照片前景和背景中的對象。不久之前,Facebook 發布博客介紹了多個新研究項目的詳情,這些項目以不同卻互補的方式推進 3D 圖像理解領域的當前最優水平。
  • 3D場景理解中的點雲深度學習
    蘋果voxelnet  利用了pointnet 和3D cnn 直接在雷達數據中進行PP 和 dection 。4、點的數量的評價?輸入點數量是可變嗎?訓練的時候是固定的,測試時候是可變的。如果是單個圖片的話,是可變的。多個其實也是可以的。只需要強行pad到一樣的數目即可。5、未來發展趨勢?
  • Facebook分享:如何利用AI技術將2D圖片轉換成3D圖片
    查看引用/信息源請點擊:facebook現已支持所有iPhone 7或更高版本,或中高端Android設備的Facebook應用
  • facebook帳戶被禁用之照片審核的問題
    非常的多,不僅限於我們新註冊的帳號,很多用過幾年的帳號,甚至更久的帳號,都有收到這個提示,需要我們上傳帶有自己頭像的照片,這其實只是一個驗證的過程,所以不用太緊張,但是如果你的帳戶做過一些違規的事情,不合理的操作,那就另當別論了。登陸我們帳號之後,facebook說為了安全,需要我們上傳包含有自己頭像的照片。
  • 谷歌開發了一種新方法,可將人們在網際網路上的旅遊照片轉換為3D
    谷歌研究人員使用從網際網路和機器學習模型裡的照片,重構了世界著名地標的令人難以置信的細緻的3D場景。在該項目的GitHub頁面上,研究人員分享了柏林布蘭登堡門,巴黎聖心教堂和羅馬許願池的3D場景,這些場景都是從Flickr等在線網站拍攝的照片中創建的。他們使用了效果震撼的3D渲染,在構建3D場景中可以移動來自相機的視圖,並通過不同的燈光效果,來改變場景的外觀。
  • Facebook 發布 Detectron2:基於 PyTorch 的新一代目標檢測工具
    而 Detectron2 則是剛推出的新版 PyTorch 1.3 中一重大新工具,它源於 maskrcnn 基準測試,但它卻是對先前版本 detectron 的一次徹底重寫。Detectron2 包含了更大的靈活性與擴展性,並增強了可維護性和可伸縮性,以支持在生產中的用例。目前已在 GitHub 上開源,雷鋒網 AI 開發者將其重要內容整理編譯如下。
  • 無需建模,2D圖片秒變3D效果,視角隨意換,高清VR感…
    這就是來自伯克利大學和谷歌的最新研究:NeRF,只需要輸入少量靜態圖片,就能做到多視角的逼真3D效果。One More Thing最後,還想介紹個這方面有意思的研究。NeRF確實強,但在輸入上還需要多張照片……那麼有沒有方法,一張圖片就能玩3D效果呢?問就有。之前,Adobe的實習生就提出了一個智能景深算法,單張2D圖片秒變3D。讓我們感受下效果。
  • LoS - 2D 視野、光影相關技術研究及分享
    Spatial Hashing / 空間散列Radial Spatial Hashing for 2D Lightinghttp://bitnode.co.uk/radial-spatial-hashing-for-2d-lighting/
  • 一起做ROS-DEMO:基於find_object_2d的目標模板匹配識別
    -2d $ sudo apt-get install ros-hydro-find-object-2d2、功能包的可視化使用該功能包有兩個節點find_object_2d及find_object_3d,其中find_object_3d是為kinect之類的深度相機準備的,可以通過在匹配目標後識別目標中心的深度信息輸出目標的三維坐標。
  • ​不用插件,Cinema 4D也可以創建程序化2D和3D裝飾風格教程
    我將告訴你如何渲染2d風格的圖像和3d效果。此外,我們使用Photoshop與您的調色板組成具有alpha in color版本的渲染白色蒙版。作者Alexey Brin 是一名擁有8年以上工作經驗的動畫設計師。喜歡用技術場景創建簡單和複雜的場景。
  • facebook養號之標記照片
    FaceBook養號是最近文章的主題,裡面有一個步驟非常重要,就是標記照片,除了自己標記自己,也可以別人來標記來。
  • Edge 瀏覽器被曝為 Facebook 暗開白名單自動運行 Flash
    loa.gtarcade.com12055be963e0f2c7786d1283d343afbaac921513a985a21f5f83b6a82b9582e9nseindia.com12c3d9b1a0a1f33a7d7ab1b4ccb53c1163210ee527ad5336175eb40ff1fcfe45N/A
  • 潘多拉3d 月光寶盒 街機詳細評測
    關鍵能不能玩街霸5,問了好幾個店家,近10家,說不清楚,有的說不能接pc用,有的說能玩pc的遊聚模擬器對戰平臺,但玩不了steam的街霸5,我就想都是win10,既然支持遊聚也應該都支持其他遊戲啊。只好硬著頭皮冒險先買了。然後就是研究買哪個版本。有月光寶盒和潘多拉3d 還有個潘多拉3d 的wifi版 最貴的。
  • 3D深度學習火了!NVIDIA NeurIPS論文:訓練AI迅速將2D圖像轉換成3D模型
    來源:venturebeat報導:向學編輯:智察(ID:Infi-inspection)轉自:新智元(微信號:AI_era)【新智元導讀】NVIDIA的研究團隊開發出一個可以在不需要任何3D訓練數據的情況下預測2D圖像的
  • 周末實驗室|做自己的3D立體照片(超簡單教程)
    你想擁有一張屬於自己的3D立體照片嗎?你請看下面的教程,簡單易學。