全景照片不怕歪!Facebook 用神經網絡矯正扭曲的地平線

2021-01-10 雷鋒網

雷鋒網 AI 科技評論按:最近微博上的全景照片很火呀,相比各位都已經在自己的iPhone或者iPad上品鑑了多家IT公司的辦公室、遊玩了多個旅遊勝地、享受了被小貓小狗環繞的感覺了。太平洋那頭的Facebook也沒閒著,從去年上線類似的功能以後,全世界 Facebook 用戶們已經上傳了七千萬張全景照片了。

Facebook 支持多種全景照片和全景視頻的拍攝方式,可以讓人們把自己的全方位感受分享給好朋友們。如果用戶有一個專門的全景攝像機,比如理光Theta S或者Giroptic iO,還可以直接把相機裡的照片發布到Facebook上去。如今,多數高端安卓和iOS智慧型手機的內置相機也都有了全景模式,可以用來拍全景照片。

Facebook 在過去的一年中開發並上線了多種技術給用戶提供更好的全景照片創建和分享體驗,包括全景拍照、全景視頻防抖,以及重新設計如何存儲高解析度媒體。最近,Facebook 還用到了深度神經網絡來自動矯正全景照片的方向,可以給手機拍攝的照片直接帶來更真實的包圍感。雷鋒網 AI 科技評論對這篇介紹文章做了編譯如下。

創建高解析度全景照片

最近 Facebook 剛剛在 Facebook app中上線了一個新功能,用戶可以在一個新的、能夠無限滑動的界面裡拍攝完整的360度全景照片。

由於全景照片會比一般的照片大很多,Facebook 首先需要解決的難題就是保證信息流裡出現了一張全景照片的時候也能讓用戶流暢地在界面中拖拉滑動;同時,當用戶停止滑動,移動手機或者轉動手機看這張全景照片的時候,也能立即把全解析度的照片加載出來。在屏幕立即上呈現全解析度的照片或佔用很多內存,所以當用戶繼續滑動頁面往下看的時候,又會給加載新的內容帶來延遲。

面對著這些挑戰,Facebook 的工程師們重新設計了 Facebook 的底層照片處理機制,便於存儲信息流中「拼貼」的照片以及呈現照片內容。

每張全景照片都會被轉換為一張立方映射圖,Facebook 之前也有類似的方法用在全景視頻中。然後這些立方映射圖會以多種不同的解析度存儲下來,而且每一個解析度的版本都會分割為許多張小的 512x512 解析度的圖像。

當用戶在信息流裡刷到一張全景照片的時候,程序就會計算當前窗口渲染時需要哪種解析度、以及用哪些小圖像來拼貼成大圖。如果當前需要的解析度不可用,程序就會暫時渲染一個低解析度的樣子,同時等待網絡把高解析度的內容傳過來。當用戶進入全景照片移動手機和在屏幕上縮放觀看的時候,程序會不停地做這樣的全套計算。這樣,原來的用戶體驗上不會有什麼可感知的變化,卻實現了千萬甚至上億像素的高解析度全景圖像顯示。

用於全景照片的深度神經網絡

用戶公開上傳到 Facebook 的上千萬張全景照片形成了一個強有力的新數據集,Facebook 的研發人員們也就可以利用這個數據集改善自家的產品。這些數據可以和機器學習的方法聯合起來,給用戶帶來更好的使用體驗。

讓人覺得全景照片不夠真實的最常見的原因之一就是拍照的時候相機沒有端平,然後最終的照片中也沒有修復過來這些傾斜。比如下面就是照片傾斜的例子,拍照的時候相機拿歪了。呈現在照片裡的地平線是傾斜的,完全破壞了照片的真實感。

對於傳統的照片,用照片編輯軟體修正這種傾斜是一件簡單直接的事情,但是能夠用於全景照片的這類工具並不多,而且修正球面上的傾斜旋轉相當不直觀。在拍攝全景照片的過程中,相機的旋轉可以用 x 軸旋轉(tilt)和 z 軸旋轉(roll)兩個參數來描述,如下方示意圖所示。第三個方向的旋轉,y 軸旋轉(yaw),影響的是全景照片的起始點,但是這個方向上的旋轉是不會造成照片內容的傾斜的。Facebook 的研發人員們就想開發出一種能夠自動修正這些相機的旋轉帶來的照片傾斜旋轉問題的方法。

為了解決這個問題,Facebook 的研究人員們使用了著名的深度神經網絡架構 AlexNet,並對它做了一些相應的修改。用於網絡訓練的數據就是像前文中那樣的照片,它包含了360x180度的完整球面環境,然後用等距離長方圓柱(equirectangular)投影轉換為了一張矩形的照片。Facebook 的研究人員們首先假設這個問題的幾何本質不需要顏色信息的參與,這樣訓練數據就可以簡化為256x128解析度的黑白照片。AlexNet 本來的設計是為了解決超過1000個類別的圖像分類問題的,所以它最終的全連接層就有4096個輸入和1000個輸出。在 Facebook 的這個問題中,他們要解決的是一個回歸問題,所以他們修改後的網絡中,全連接層變成了4096個輸入和 x 軸旋轉、z 軸旋轉兩個值的連續值輸出。

Facebook 的研究人員們用帶有 x 軸和 z 軸旋轉標籤的圖像訓練了這個網絡模型。訓練數據集中包含了五十萬張投影轉換過的矩形照片,這些照片是研究人員們挑出來,總體沒有旋轉、傾斜的;換句話說,這些照片的 x 軸和 z 軸旋轉全部都是0。在訓練過程中,研究人員們人工地用隨機生成的 x 軸和 z 軸旋轉值對訓練樣本做旋轉。如下的這個損失函數就會測量出這些隨機生成的標籤和網絡模型預測結果之間的差值,並把減小這個差值作為網絡的訓練目標。

為了測試訓練效果,研究人員們用一組給定的 x 軸和 z 軸旋轉值對測試集中的圖像做合成旋轉。然後他們用訓練過的網絡模型分析這些旋轉過的圖像並記錄模型給出的結果。這些已知的旋轉值和模型給出的結果之間的差別可以歸結為兩個原因,1,模型沒能完全解決這個旋轉問題;2,所用的數據集還有一些問題,影響了模型的表現。這第二個原因也是真實存在的,Facebook 的研究人員們假定了選用的數據集總體是平直的,但是單獨看其中的某個樣本都還是有一些固有的旋轉的。

所以,研究人員們用 [-4,-2,0,2,4] 度幾種 x 軸和 z 軸旋轉值中的所有組合在每一張照片都做了一遍,這就是用模型對每一張照片都過25遍。對於每一次所用的 x 軸和 z 軸旋轉值,他們都會計算對應的旋轉量。表示這種旋轉量的最好的方法就是用3D圖像中的一個常用工具:四元數(quaternion)。然後,模型會根據圖像計算出另一個四元數旋轉量。如果模型和數據中都不存在剛才提到的兩個問題,那麼這兩個四元數就應當是相等的。實際中其實並不相等,所以在每一次計算中,他們都會把兩個四元數相除,計算兩者間的差值。最後,用以下公式算出每張圖像在所有組合的下的差值的平均值。

以上公式中的計算都使用了四元數,因為它們用於計算差值和3D旋轉的均值時非常好用。但是,這樣就需要給每張圖片計算新的 x 軸和 z 軸旋轉值,因為數據集中的圖像一開始的時候並不是完全平直的。這種平均差值就是對每張訓練圖像的真實方向的很好的預測。那麼,研究人員們接下來簡單地把四元數格式的平均差值轉換為 x、y、z 軸旋轉就可以更新圖像的標籤了。

在圖像標籤更新以後,就可以對模型做新一輪訓練。模型一共經歷了四輪訓練和微調。在微調過程的最後,模型對全景照片算出的旋轉值誤差達到了0.1度的水平。每個階段的訓練都是從一個未經初始化的模型開始的,可以從下圖明顯地看到每個階段中模型都收斂到了更小的訓練損失。在另一項對抗測試中,模型也表現出了類似的收斂和誤差值水平。模型的收斂表現足以讓研究人員們得出結論:這樣的「訓練 - 微調」循環確實讓模型學到了理想的旋轉方程。

如下是一些經過旋轉的全景照片結果,而且都是訓練集之外的照片。從幾組圖片中可以看到,模型對於不同的內容類別都有出色的表現,不論有建築這樣的人造景觀還是完全的自然風光。

結論

Facebook 的照片、視頻、直播產品中都已經可以使用全景媒體。在這個過程中,具有沉浸感的內容也會帶來一些特有的問題。這篇文章僅僅介紹了 Facebook 的研究人員們解決的問題裡的幾個。隨著用戶往 Facebook 上傳這樣的具有沉浸感的內容的速度越來越快,Facebook 也對研究的前景充滿期待,他們相信類似這樣的技術可以讓用戶用新的方式感受不同的地點和事件。

via Facebook Blog,雷鋒網 AI 科技評論編譯

相關焦點

  • Facebook開源TTS神經網絡VoiceLoop:基於室外聲音的語音合成
    近日,Facebook 在題為《Voice Synthesis for in-the-Wild Speakers via a Phonological Loop》的論文中提出一個文本轉語音(TTS)的新神經網絡VoiceLoop,它能夠把文本轉化為在室外採樣的聲音中的語音。目前 VoiceLoop 已在 GitHub 上開源並附有 PyTorch 實現。機器之心對論文摘要進行了編譯。
  • 美天文愛好者用37440張照片合成全景星空圖-科教臺-中國網絡電視臺
    尼克·賴辛格的這張圖片是用在全球不同地區拍攝的3.7萬多張照片合成的。  北京時間5月16日消息,這張令人難以置信的全景星空圖是由天文愛好者和攝影師尼克·賴辛格製作的。他一直在觀測天空,但是去年他毅然辭去了在西雅圖的市場營銷主管工作,拖著6個同步相機旅行大約6萬英裡(9.66萬公裡),利用期間拍攝的大量照片合成這張全景星空圖。  在美國西部和南非,28歲的賴辛格把相機放置在位置較高的地方,在晴朗的漫漫長夜實時拍攝周圍的新月。
  • 人工智慧利用神經網絡來控制機器
    人工智慧利用神經網絡來控制機器,或者是人工智慧根據預定的規則來控制機器.人工智慧可以用於搜索,診斷,預測,監控和機器人等諸多方面.人工智慧為人類提供了創造性解決方案,這個解決方案不僅能創造出改變,同時還能控制它們.世界對於人工智慧抱有非常樂觀的態度,因為它們讓人類工作變得更加高效.然而,智能的出現時間還很短暫,遠沒有到大眾普遍接受的階段.那麼,人工智慧未來的發展方向到底是什麼
  • Facebook 又出黑科技,手機照片一鍵切成 3D 大片
    可能不少人都想過,假如出現一種黑科技,讓我們拍攝的平面 2D 照片變成立體的 3D 照片......Facebook 也早就想到了這個問題。為改善用戶體驗,2018 年,Facebook 就推出了 3D 照片功能。這是一種全新的沉浸式格式,你可以用它與朋友、家人分享照片。但是,這項功能依賴於高端智慧型手機才具備的雙鏡頭「肖像模式」功能,無法在尋常的行動裝置上使用。
  • 美天文愛好者用37440張照片合成全景星空圖
    尼克·賴辛格的這張圖片是用在全球不同地區拍攝的3.7萬多張照片合成的。拍攝和製作合成圖用了他1年時間。  北京時間5月16日消息,這張令人難以置信的全景星空圖是由天文愛好者和攝影師尼克·賴辛格製作的。他一直在觀測天空,但是去年他毅然辭去了在西雅圖的市場營銷主管工作,拖著6個同步相機旅行大約6萬英裡(9.66萬公裡),利用期間拍攝的大量照片合成這張全景星空圖。  在美國西部和南非,28歲的賴辛格把相機放置在位置較高的地方,在晴朗的漫漫長夜實時拍攝周圍的新月。
  • 720全景是什麼意思
    720全景就是720度的全景圖,720全景是視角超過人的正常視角的圖像。720全景給人的感覺就是三維立體,說的簡單一點就是全方位實景圖像。720度全景展示了水平垂直各360度全景,一共720度的視角沒有任何視線盲點。
  • Facebook:易於解釋的神經元可能阻礙深度神經網絡的學習
    編輯:張倩、杜偉易於解釋的神經元對於提升神經網絡的性能來說是必要的嗎?Facebook 的研究者給出了出人意料的答案。AI 模型能「理解」什麼?為什麼能理解這些東西?回答這些問題對於復現和改進 AI 系統至關重要。但遺憾的是,計算機科學家在解釋深度神經網絡(DNN)方面的能力遠遠落後於我們利用這些網絡獲取有用成果的能力。
  • Facebook:易於解釋的神經元可能阻礙深度神經網絡的學習
    編輯:張倩、杜偉易於解釋的神經元對於提升神經網絡的性能來說是必要的嗎?Facebook 的研究者給出了出人意料的答案。但遺憾的是,計算機科學家在解釋深度神經網絡(DNN)方面的能力遠遠落後於我們利用這些網絡獲取有用成果的能力。理解 DNN 的一類常見方法是聚焦於單個神經元的屬性,如找到一個能夠被貓的圖像而非其他類型的圖像激活的神經元。
  • PanoClip 評測:原來全景照片拍起來如此簡單
    這次參與太平洋電腦網的聚超值輕眾測獲得了這款PanoClip 全景手機鏡頭,聽到這個名字,大家可能跟我一樣陌生,但是如果我提到Insta360,可能很多人,就會和我一樣,恍然大悟。這是一家國內著名的VR全景相機公司,先後推出了幾款產品,都風靡的海內外。炫酷的全景照片、小行星照片等都火爆了朋友圈和抖音。
  • 一分錢不花,怎麼用手機拍攝球形全景照片?
    VR 概念帶火了球形全景拍攝(水平方向 360° ,垂直方向 180°),Theta S, Gear 360, LG 360 CAM 等全景相機也成了極客們的新寵。如果你沒有預算購入這些設備,完全可以藉助手上拿著的智慧型手機,零成本拍出一張球形全景照片。
  • facebook臉書中文版下載
    啥,沒時間,不怕,facebook臉書中文版下載滿足你,快來下載體驗吧。facebook臉書中文版下載版本記錄:facebook臉書中文版下載絕對是一款經典佳作,快來下載體驗。
  • 社交網絡電影經典臺詞語錄 扎克伯格facebook名言解讀
    大衛·芬奇所執導的這部《社交網絡》講述的金錢、天才和背叛的故事,扎克伯格從哈佛裡的一個普通大學生後來創業成功,他和朋友也經歷了各種考驗,電影《社交網絡》當中有很多經典的臺詞語錄,還記得扎克伯格關於facebook的那些名言嗎?
  • 網絡頭像進化史:從歪脖子到剪刀手再到不要臉
    」紅遍網絡,一時間,很多微博、微信、QQ用戶紛紛將自己的網絡頭像改成了歪脖子,而時下,「剪刀手」、「不要臉」等一些新的頭像素材又開始在網友們當中流傳開來,類似這種追求個性與時尚的網絡頭像,儼然已經成為一種潮流文化。
  • 大疆Mavic全景圖/球形全景如何PS合成?
    我們知道,一鍵全景功能是從大疆的曉(Spark)開始推出的,它可以在機內快速完成全景照片的拍攝和合成。如果我們想要清晰度足夠要求,而且又能滿足後期調整要求的全景圖片,顯然機內直出的照片是無法滿足要求的。好在大疆無人機在拍攝全景照片時是保留了原始圖片的,這給了不想使用機內直出照片的用戶一種選擇!大疆也是貼心地為每一次的全景項目用一個文件夾打包好了,這樣就不會令多個項目混亂在一起了!
  • NASA展示了「機遇號」發射的最後一張火星「全景照片」
    美國國家航空航天局透露,其現已退役的火星探測器「機遇號」在這顆外星星球死亡前,向NASA發送了最後一張美麗的全景照片。這張照片代表了對漫遊者任務的深刻總結;這是一幅詳細的全景圖,結合了它馬拉松旅程的最新軌跡和它永遠無法觸及的沙漠,「機遇號」本不打算運行得那麼久。 短短90天的時間最終變成了整整15年,在火星的沙灘上打滾,拍出的照片就像一個完全忘記了退休生活的遊客,這張360度的照片是去年5月在「玉兔」最後的棲息地拍攝的。
  • 全球「扭曲建築」盤點 阿聯「歪樓」角度致勝
    原標題:全球「扭曲建築」盤點 阿聯「歪樓」角度致勝   綜合報導,日前,全球「最高最擰巴」大廈「卡延塔」在阿拉伯聯合大公國杜拜正式落成。該建築最大特點是樓體實現了90度扭曲旋轉。
  • 跨境電商如何用Facebook引流
    推廣自己的Facebook 推廣自己的facebook,就是推廣網站的一種方法,因為上一步,我們已經把自己網站與Facebook關聯起來,把你的facebook推廣出去,就有希望把你的facebook的fans帶到你的網站。 4.
  • 室內全景拍攝,魚眼鏡頭怎麼拍室內全景?
    vr全景,一種逐漸普及的展現方式,不管是賓館還是飯店,包括房地產賣房,都需要將室內環境更好的在線上進行展示。而現如今的vr全景便是首選,那種身臨其境的體驗以及更加自由的視角。能夠實現客戶遠在天邊就可以看到室內的真實環境和細節,極大地提升了客戶體驗,同時還能結合營銷功能實現轉化和留存。
  • 小小神器配手機 就能拍攝360度全景影像
    這個神器不用電不怕水  夾在手機上就能拍360度全景  只需要在手機上夾一個小小的神器,就可以不用移動手機而得到360度的全景照片或者視頻,這個神器還不怕水不用電,拍出的照片也不重疊,聽起來是不是還挺神奇的,這個神器就是科博會上展出的一款集創新和潮品於一身的「馬克小V」VR取像器。
  • Facebook這個神經網絡用自然語言表示數學式,秒解微分方程!
    他們訓練了一個神經網絡來執行必要的符號推理,首次實現了對數學表達式的微分和積分。這項成果是邁向更強大的數學推理的重要一步,也是利用神經網絡超越傳統模式識別任務的新方法。在模式識別任務(如面部和物體識別,某些自然語言處理,甚至是玩象棋、圍棋和太空侵略者這樣的遊戲)上,神經網絡已經取得了巨大的成就。