加入極市專業CV交流群,與10000+來自騰訊,華為,百度,北大,清華,中科院等名企名校視覺開發者互動交流!
同時提供每月大咖直播分享、真實項目需求對接、乾貨資訊匯總,行業技術交流。關注 極市平臺 公眾號 ,回復 加群,立刻申請入群~
來源:AI科技評論@微信公眾號
作者:Facebook AI
還記得Facebook在2018年推出的一種名為「攝影測量」的技術麼?
現在Facebook已經將此項技術完善,併集成到了APP上,也就是說,在FB軟體上,用靜態的2D照片,也能體會到豐滿的3D立體感。
轉換成的3D照片「看上去」包含一定的深度信息,並且在左右晃動時有著沉浸式的體驗,感覺像是一個小範圍的6DoF短片。
只需1秒,2D照片也能模擬3D效果2018年推出的3D功能
雖然,FB 在2018已經推出的3D照片功能,並且能夠以一種全新的沉浸式的格式與家人和朋友共享照片。不過,這項功能依賴於雙攝像頭「人像模式」,只能在新的更高端的智慧型手機上使用,而無法在只有後置單攝像頭的老款行動裝置上使用。 為了讓這項 3D 照片功能惠及更多人,Facebook 採用最先進的機器學習技術,為幾乎所有的標準 2D 格式的照片生成 3D 照片。
該系統能夠為任意圖片推導出3D架構,無論是剛剛用安卓或 iOS 設備上的單攝像頭拍的新照片,還是最近上傳到手機或電腦上的幾十年前的老圖片。
不僅如此,使用最先進的雙攝像頭設備的人也能夠從中受益,因為他們現在可以使用前置單攝像頭也能夠進行3D自拍了。使用iPhone 7及以上版本的蘋果手機以及中端及以上的安卓機的人,現在都可以在Facebook APP上使用這一功能。
動畫展示了如何估計 2D 圖片不同區域的深度來構建 3D 圖像。
構建這種增強版的3D照片技術需要克服各種各樣的技術挑戰,例如訓練一個能夠正確推斷非常多種主題圖片的 3D位置的模型,並優化系統讓它能夠瞬間在搭載傳統移動處理器的設備上運行。
為了克服這些挑戰,Facebook 在數百萬對對外開放的3D圖像及其對應的深度圖上訓練卷積神經網絡(CNN),並使用了 Facebook AI 研究院此前開發的各種行動裝置優化技術,如FBNet 、 ChamNet等。
下面來看構建 3D 照片功能的細節:
小狗的原照片是用單攝像頭拍的,並且沒有任何深度圖數據,Facebook 的3D 照片功能將原照片轉成了3D格式的照片。
行動裝置上,也能夠實現高性能給定一個標準的RGB 圖像,3D 照片卷積神經網絡能夠估計出每個像素離照相機的距離,具體有以下四個步驟:
由一組可參數化、可移動優化的神經網絡構建模塊構成的網絡架構;自動化架構搜索,來找到這些模塊的有效配置,從而使系統在不到一秒鐘的時間內就能夠在各種設備上執行任務;進行量化感知訓練,從而能夠在行動裝置上使用高性能的INT8 量化,同時最小化量化過程中潛在的質量下降;論文下載地址:https://research.fb.com/wp-content/uploads/2019/05/FBNet-Hardware-Aware-Efficient-ConvNet-Design-via-Differentiable-Neural-Architecture-Search.pdf?
關於神經網絡的構建基塊,其受到FBNet啟發,作為一套針對行動裝置進行優化的ConvNet架構體系,其構建塊由逐點卷積、可選上採樣、K x K深度卷積和附加逐點卷積組成。
在具體工作中,Facebook實現了一個U-Net風格的體系結構。這個結構的編碼器和解碼器分別包含五個階段,每個階段對應不同的空間解析度。
網絡架構概述
自動化架構搜索為了找到一個有效的架構配置,Facebook使用其開發的算法——ChamNet 來自動化搜索過程。
ChamNet 算法迭代地從搜索空間採樣點來訓練一個準確度預測器。該預測器用來加速遺傳搜索,從而找到在滿足特定資源約束的情況下最大化預測準確度的模型。
在該設置下,他們使用了一個可以改變擴展因子和每個模塊的輸出通道數的搜索空間,生成了3.4x1022個可能的架構。之後,他們使用了800塊Tesla V100 的GPU,在將近3天的時間裡完成了這一搜索,並且設置和調整了模型架構上的FLOP 約束以實現不同的操作點。
量化感知訓練(QAT,Quantization-aware training)默認情況下,模型使用單精度浮點權重和激活函數進行訓練,但是將權重和激活都數統一採取8位整數表示,具有顯著的優勢。更為具體有一點,用8-bit整數操作代替32-bit的浮點操作能夠節省3/4的儲存空間。
用我們的深度估計神經網絡將其轉換為3D圖像。
由於Facebook AI的QNNPACK等調優的庫已經集成到PyTorch中,基於Int8操作的吞吐量也比他們的Float32同行高得多。使用量化感知訓練(QAT)來避免由於量化而導致的不可接受的質量下降。值得一提的是,QAT現在已經是PyTorch的一部分了,它能在訓練期間模擬量化,並支持反向傳播,從而消除了訓練和生產性能之間的差距。
複雜場景的2D照片轉換3D效果也不錯
尋找創建3D體驗的新方法除了改進深度學習算法之外,Facebook還致力為手機等行動裝置提供更質量的3D視頻,準確的說是提供深度估算。相比照片,視頻的難度要更大,因此要保證相鄰的2幀之間深度信息是一致的。所以可以猜測的是,視頻的深度信息估計將開創更多可能性,因為同一對象的多個觀測可以為高度精確的深度估計提供更多的信號。
據Facebook介紹,隨著神經網絡性能的不斷提升,他們還將探索在AR領域的實際應用,例如如何高效的利用深度估計以及空間推理。
毫無疑問,這項工作會幫助我們提高對3D場景的理解,也可以提升機器導航軟體的性能。
Via https://ai.facebook.com/blog/-powered-by-ai-turning-any-2d-photo-into-3d-using-convolutional-neural-nets/
極市平臺視覺算法季度賽,提供真實應用場景數據和免費算力,特殊時期,一起在家打比賽吧!△長按添加極市小助手
△長按關注極市平臺,獲取最新CV乾貨
覺得有用麻煩給個在看啦~