計算機視覺方向簡介 | 多視角立體視覺MVS

2021-02-12 計算機視覺life

點擊上方「計算機視覺life」,選擇「星標」

快速獲得最新乾貨

作者: 黃浴

https://zhuanlan.zhihu.com/p/73748124

本文已由作者授權,未經允許,不得二次轉載

多視角立體視覺(Multiple View Stereo,MVS)是對立體視覺的推廣,能夠在多個視角(從外向裡)觀察和獲取景物的圖像,並以此完成匹配和深度估計。某種意義上講,SLAM/SFM其實和MVS是類似的,只是前者是攝像頭運動,後者是多個攝像頭視角。也可以說,前者可以在環境裡面「穿行」,而後者更像在環境外「旁觀」。

如圖所示(a)-(d)是MVS方法的基本流程,不同的應用可能有各個主模塊的不同實現,但總體方法是類似的:

•收集圖像;

•針對每個圖像計算相機參數;

•從圖像集和相應的攝像機參數重建場景的3D幾何圖形;

•可選擇地重建場景的形狀和紋理顏色。

註:可以看出一些步驟和SLAM/SFM是類似的,算法也是互通可用。

儘管MVS與經典立體視覺算法具有相同的原理,但MVS算法旨在處理視角變化更多的圖像,例如圍繞目標拍攝的圖像集,並且還處理甚至數百萬數量的大量圖像。MVS問題的差異最終會產生與經典立體視覺相應功能明顯不同的算法。例如3D地圖的工業應用,一次處理數百公裡範圍內數百萬張照片,有效地重建大都市、國家乃至整個地球的場景。

與雙目立體視覺法的分類思路相似,根據區分主要算法的六個基本屬性對現有方法進行分類:場景表示,照片一致性(photo consistency)度量,可見性模型(visibility model),形狀先驗知識,重構算法以及初始化要求。

初始化階段,除了是一組標定圖像之外,所有多視角立體視覺算法都假定或要求輸入被重建的目標或場景的幾何範圍信息。

場景表示可以是體素、多邊形網格、深度圖和水平度集(level sets),如圖是一些場景表示例子,即深度圖,點雲,體積標量場和網格。

圖像一致性度量分為場景空間和圖像空間兩種,前者將幾何點、面或體投影到圖像並評估投影之間的相互協調度,後者基於場景幾何估計變換(warp)來自一個視點的圖像預測不同視點的圖像然後計算預測圖像和測量圖像之間的預測誤差。下圖是兩個圖像像素一致性度量的例子,上面是紋理豐富,下面是紋理貧乏。

可見性模型(遮擋問題)確定在評估照片一致性度量時要考慮哪一個視角圖像。由於場景可見度隨視點變化,因此幾乎所有MVS算法都會以某種方式解決這種遮擋問題。可見性技術包括幾何、準幾何和基於出格點等三種方法:幾何法試圖明確模擬圖像形成過程和場景的形狀,以確定哪些場景結構在哪些圖像中是可見的;準幾何技術使用近似幾何推理來估計可見性關係;出格點法避免顯式幾何推理而是將遮擋視為出格點。下圖是可見性問題示意圖。

獨立的照片一致性測量並不足以恢復精確的幾何形狀,特別是在低紋理場景區域。因此考慮偏向重建具有期望特性的形狀先驗知識可能是有幫助的。雖然先驗知識對於立體視覺是必不可少的,但在多視圖立體視覺中起著不太重要的作用,因為來自多視圖的約束更強,比如表面積小的最小表面,以及體素著色(voxel coloring)和空間雕刻(space carving)方法採用的最大表面,還有可以放入馬爾可夫隨機場(MRF,Markov Random Field)的局部平滑性。

重建算法的劃分有四類:

• 第一類方法首先在3D體積計算成本函數,然後從該體積提取表面進行操作,如體素著色算法及其變型,單次掃描體積計算成本並在掃描中重建所有低於成本閾值的體素;

• 第二類技術通過減少或最小化成本函數來迭代演化一個表面,此類方法包括基於體素、水平度集和曲面網格等;

• 第三類方法在圖像空間計算一組深度圖;

• 最後一類方法提取並匹配一組特徵點然後曲面擬合重建的特徵點。

基於MRF的圖像一致性度量方法

下面以基於MRF的圖像一致性度量方法為例介紹MVS的重建算法。

儘管可以使用強大的圖像一致性函數,但在具有挑戰性的場景中,一致性曲線的峰值可能與真實深度不對應。在嚴重遮擋的情況下,可能在大多數其他圖像不存在匹配。一種標準解決方案是假設在相鄰像素具有相似深度值的強制一致性,其中馬爾可夫隨機場(MRF)是用於該任務的非常流行且成功的模型。MRF深度圖公式可以被視為組合優化問題,其中輸入深度範圍被離散化為有限的深度值集。而問題是將標籤集的深度標籤kp分配給每個像素p,最小化以下成本函數:

第一個求和項對圖像的所有像素,而第二個求和項對所有相鄰像素對。相鄰像素通常通過4鄰域或8鄰域系統來定義。前者像素連接水平和垂直相鄰像素。後者另外相鄰的對角線像素也相互連接。4鄰域系統具有較少的交互條件且更便宜,但可能受到離散化畸變的影響更大。

單元能量(Unary Potentials)

單元標籤成本Φ(·)反映了圖像一致性信息,其中成本應與圖像一致性得分成反比,單元成本的確定義各不相同。但是,假設NCC是圖像一致性函數的測度,其得分保證在[-1,1]範圍內。那麼單元成本可以定義為以下截斷線性損失函數:

其中τu是截止閾值。當然,另一個任意的強大功能,例如Huber損失或Cauchy損失,可以代替使用。

成對交互能量(Pairwise Interaction Potentials)

成對成本強制空間正則化並被與相鄰像素的深度差成比例,使得相鄰像素具有相似的深度值。成對成本Ψ(·,·)的定義有所不同,下面是一個簡單的實現:作為一個截斷線性損失函數,避免過多地懲罰深度不連續性。

優化

上述MRF構造的重建問題通常是NP-hard問題,但是存在許多有效近似,特別是每對相鄰像素的成對成本滿足以下子模塊條件

對於這個子模塊函數,最流行的技術之一稱為alpha-expansion,它反覆解決最大流量最小切割(max-flow min- cut)算法以改進深度標籤的分配。

幸運的是,子模塊條件適用於許多標準成對項。更具體地說,作為距離度量,Ψ(α,α)應該是0,因為兩個標籤是相同的。然後,剩餘的條件變成三角不等式:

平滑的先驗知識通常被定義為距離度量,並且滿足該三角不等式。這種度量函數可以是線性、截斷線性或Cauchy損失函數。但是,二次型或Huber損失函數不是子模塊函數,因為二次函數不服從三角不等式。注意,與成對成本不同,單元能量沒有限制,可以任意設定。

從零開始學習三維視覺核心技術SLAM,掃描查看介紹,3天內無條件退款

早就是優勢,學習切忌單打獨鬥,這裡有教程資料、練習作業、答疑解惑等,優質學習圈幫你少走彎路,快速入門!

交流群

歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、算法競賽、圖像檢測分割、人臉人體、醫學影像、計算攝影、自動駕駛、綜合等微信群(以後會逐漸細分),請掃描下面微信號加群,備註:」暱稱+學校/公司+研究方向「,例如:」張三 + 上海交大 + 視覺SLAM「。請按照格式備註,否則不予通過。添加成功後會根據研究方向邀請進入相關微信群。請勿在群內發送廣告,否則會請出群,謝謝理解~

推薦閱讀

前段時間參加了個線下交流會(附SLAM入門視頻)

計算機視覺方向簡介 | 從全景圖恢復三維結構

計算機視覺方向簡介 | 陣列相機立體全景拼接

計算機視覺方向簡介 | 單目微運動生成深度圖

計算機視覺方向簡介 | 深度相機室內實時稠密三維重建

計算機視覺方向簡介 | 深度圖補全

計算機視覺方向簡介 | 人體骨骼關鍵點檢測綜述

計算機視覺方向簡介 | 人臉識別中的活體檢測算法綜述

計算機視覺方向簡介 | 目標檢測最新進展總結與展望

計算機視覺方向簡介 | 唇語識別技術

計算機視覺方向簡介 | 三維深度學習中的目標分類與語義分割

計算機視覺方向簡介 | 基於單目視覺的三維重建算法

計算機視覺方向簡介 | 用深度學習進行表格提取

計算機視覺方向簡介 | 立體匹配技術簡介

計算機視覺方向簡介 | 人臉表情識別

計算機視覺方向簡介 | 人臉顏值打分

計算機視覺方向簡介 | 深度學習自動構圖

計算機視覺方向簡介 | 基於RGB-D的3D目標檢測

計算機視覺方向簡介 | 人體姿態估計

計算機視覺方向簡介 | 三維重建技術概述

計算機視覺方向簡介 | 視覺慣性裡程計(VIO)

計算機視覺方向簡介 | 多目標跟蹤算法(附源碼)

計算機視覺方向簡介 | 基於自然語言的跨模態行人re-id的SOTA方法(上)

計算機視覺方向簡介 | 圖像拼接

目標檢測技術二十年綜述

最全綜述 | 醫學圖像處理

最全綜述 | 圖像分割算法

最全綜述 | 圖像目標檢測

綜述 | 視頻分割在移動端的算法進展

綜述 | 語義分割經典網絡及輕量化模型盤點

綜述 | 機器視覺表面缺陷檢測

Graph Neural Networks 綜述

關於GANs在醫學圖像領域應用的總結

計算機視覺中,目前有哪些經典的目標跟蹤算法?

雷射雷達深度補全

最新AI乾貨,我在看  

相關焦點

  • 神奇的立體視覺
    這裡我們要講的立體視覺並不是生物的立體視覺,而是機器的立體視覺。日常生活中我們拍攝的圖像通常是二維的,也就是我們通常的照片。這時我們就需要想辦法讓機器像人的大腦一樣得到一個立體的像,也就是我們要講的立體視覺(上圖為3D 的方鼎圖像)。那麼這樣的機器的立體視覺是怎麼實現的呢?回想一下我們講到的人的立體視覺是怎麼實現的?
  • 除了切入零售與電力行業,極視角還要做計算機視覺PasS雲平臺
    「計算機視覺」毫無疑問是過去兩年人工智慧領域最受關注也是融資筆數與融資金額最多的細分賽道了。在36氪創投助手的資料庫中,輸入計算器視覺這一標籤後共有454條名目,而且這個數字每天都在增加。以安防為例,計算機視覺的應用通過攝像頭捕捉到有價值的信息,其技術落地確實解決了行業的痛點並提升了效率。但安防行業內,大部分政企客戶已有穩定的方案提供商,這些廠商中不乏許多大型上市公司,也就是說市場渠道並不是一個技術創新公司能夠簡單突圍的。36氪了解到,行業頭部的幾家創業公司大多還未迎來盈虧平衡點,即使有盈利,相比於本身十幾億甚至數十億的估值,未來還有很長的路要走。
  • 立體視覺
    優達學城計算機視覺課程學習筆記。本文來分享一下立體視覺相關知識。上節我們說到,照相機通過透視投影的方法將三維空間中的物體匯聚到二維平面上,但是這一過程損失了場景中的深度與結構信息,如下兩張圖,因為沒有深度信息,產生了很有意思的效果。這是因為距離不同的點可能會在像平面上投影到相同的點:
  • 計算機視覺的真實應用範例
    計算機視覺,無論是基於硬體還是軟體算法,大多還停留在「cool」的階段,計算機視覺的真實應用範例,它有什麼用,似乎離我們普通人還比較遠。看完這篇文章,也許你就不會這麼認為。發現雪白桌面上一張同樣雪白的 A4 紙?提前一秒預知你的動作是否存在威脅?出現危險情況時,對著鏡頭做「SOS」的手勢警察就會來幫助你? 這些太像科幻片?
  • 一個超乾貨的3D視覺學習社區
    成立近兩年來,工坊深挖3D視覺的各個領域,主要涉及計算機視覺與深度學習、點雲處理、SLAM、三維重建、結構光、雙目視覺、深度估計、3D檢測、自動駕駛、多傳感器融合等,在校的童鞋和已經工作的小夥伴為我們提出了很多非常有價值的問題,在這裡給大家做了匯總(可能有點燒腦哦……)點雲處理篇點雲補全有哪些常用的算法?常用的點雲分割算法有哪些?
  • 斯坦福AI實驗室:如何打造基於計算機視覺的智能醫院
    文章主要介紹了斯坦福AI實驗室如何通過計算機視覺技術監測醫院內的手部清潔工作來改善醫院衛生條件。每年死於院內感染的人數比車禍死亡人數還多,這意味著你被送進醫院的時候,有三十分之一的概率健康狀況會變得更加糟糕,這很值得警惕。好在醫院可以通過改善衛生條件來扭轉這一局面。無論在醫院、機場還是餐館之類的公共場合,手部衛生都是預防傳染病傳播的第一道防線,這是一個簡單的常識。
  • 計算機視覺進展二十年 (1995~2015)
    計算機視覺的兩大主要板塊是:幾何和識別,這裡我們主要來講述計算機視覺在1995—2015年間的進展。
  • 淺談立體視覺_湃客_澎湃新聞-The Paper
    原創 眼視光專家胡穎 眼視光專家胡穎Hi~新朋友,記得點藍字關注我喲立體視是雙眼對物體遠近、深淺、高低三維空間位置的分辨感知能力,是雙眼視覺中的最高級功能。立體視銳度是分辨雙眼視網膜影像間最小的水平視差的能力,其單位為秒弧角,或稱弧秒,正常值通常為40"~60",立體視銳度越小,其立體視功能就越好。
  • 光學預處理與計算機視覺結合,UCR學者用漩渦實現混合計算機視覺系統
    使用深度學習卷積神經網絡的計算機徹底改變了計算機視覺。但卷積神經網絡(convolutional neural network,CNN)通過從預訓練數據中學習來對圖像進行分類,然而這些數據通常會記住或發展某些偏見。此外,數據還易於受到對抗性攻擊(以極細微且幾乎察覺不到的圖像扭曲出現)的幹擾,從而導致做出錯誤的決策。這些缺點限制了卷積神經網絡的用途。
  • 知乎高贊:985計算機視覺畢業後找不到工作怎麼辦?
    我們來看看他的履歷: 本人目前是985高校研究生,方向是計算機視覺。成績中等,無論文,無比賽經歷,有項目經歷。 知友@mileistone說: 現在市場出現了一個看起來很矛盾的現象,招聘公司覺得計算機視覺算法工程師難招;計算機視覺算法工程師應聘者覺得工作難找。 前幾年因為人工智慧大火,非常多人轉行進入計算機視覺領域,供給遠遠大於需求,給應聘者以工作難找的感覺。
  • 淺談計算機視覺中的圖像標註_易車網
    什麼是計算機視覺?計算機視覺被認為是機器學習和人工智慧發展的重要領域之一。簡而言之,計算機視覺是人工智慧研究領域,致力於賦予計算機看世界和視覺解釋世界的能力。更進一步的說,計算機視覺是一門研究如何使機器「看」的科學,就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,並進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。計算機視覺的應用非常廣泛,從自動駕駛汽車和無人機到醫療診斷技術和面部識別軟體,計算機視覺的應用是巨大的和革命性的。
  • 計算機視覺華人鼻祖黃煦濤過世
    美國工程院院士、中國科學院外籍院士、計算機視覺華人鼻祖黃煦濤(Thomas S. Huang)於2020年4月25日夜間在美國印第安納小女兒家過世。3個月前,其夫人Margaret也在家人陪伴下過世。
  • 狗狗視角看世界,用視覺數據預測狗的行為
    來自華盛頓大學艾倫人工智慧研究所的Kiana Ehsani團隊突破傳統計算機視覺的研究任務,嘗試從目標對象(例如狗)的視角進行建模,並以此模型來預測對象的行為模式。這種表示學習方法與傳統的圖片訓練任務的不同之處在於,它的模型訓練是從特定視角出發,所以這是一種全新的CV任務。在論文中,作為案例,作者採用狗狗的視角來訓練模型,在狗的行為建模上取得顯著的成功。
  • 腦力影像視覺訓練系統簡介
    如同物理治療可以改善運動功能,腦力影像視覺訓練能顯著提高視力、增進視覺技巧、開發視覺潛能、改進視覺功能。是一種行之有效的恢復和重建視覺功能的方法,也是一門治療眼部疾病和提高視覺功能的科學。傳統的視覺訓練包括在醫院進行的治療和在家庭進行的各種訓練,包括:傳針、穿珠子、描圖、增視儀、光刷儀、同視機、離子導入儀、綜合弱視治療儀、直線機等。
  • uSens推出手部骨骼追蹤AR SDK,基於計算機視覺和深度學習
    文章相關引用及參考:reality.news通過計算機視覺和深度學習來追蹤整隻手的骨骼動態(映維網 2018年06月01日)去年這個時候,計算機視覺公司uSens推出了一款支持手部追蹤的立體攝像頭模型。現在,uSens只需通過智慧型手機攝像頭即可實現相同的功能。
  • 為何計算機視覺落地難?別說我沒告訴你AI數據的重要性
    而在大數據時代,隨著AI產品逐漸的落地,除去「大」和「多」兩個關鍵詞,「精準」成為了更重要的衡量維度。對於人工智慧應用來說,AI數據的精準度失之毫釐則差之千裡,而在人工智慧應用落地的過程中,AI數據精準度的差異會愈發的明顯。在這裡以國內頭部AI數據採集標註服務商雲測數據為例,結合計算機視覺方向的AI落地應用需求,看看高質量的精準化AI數據怎樣幫助人工智慧加速商業化、落地化、產業化進程。
  • 36氪首發|計算機視覺算法平臺「極視角」完成B輪融資,高通創投領投
    36氪此前曾對極視角進行過報導,該公司成立於2015年6月,此前主要為零售與電力行業提供視頻智能監控與分析的計算機視覺解決方案;2017年開始以計算機視覺算法為核心,構建一個連接企業客戶與算法開發者的PasS雲平臺;2018年初,極視角獲華潤數千萬人民幣A+輪融資,並上線計算機視覺PaaS雲平臺。
  • 視覺心理學
    她凝視的方向是不同的嗎至少有兩個組成部分來決定我們凝視的方向,第一個是瞳孔中心的位置,第二個是頭部所指的方向,一般情況下我們會把這兩種來源結合起來確定凝視的方向。這種情況下,我們就會產生一種幻覺,因為右邊鏡中成的像--除了眼睛沒變--產生了左邊的圖像。這會引起她的凝視的方向的極大變化,哈佛視力科學家申基·安多創作了這幅蒙娜麗莎凝視幻覺圖。華爾遜在1824年首先注意到這個效果。
  • 都市白領要注意,電腦打多了,可能會得「計算機視覺症候群」
    如鍵盤手、滑鼠爪等等,包括越來越多的近視,都是現代社會科技發展帶來的一大時代產物。但不僅僅是這些,不知道你有沒有聽過:計算機視覺症候群。這是一種典型的現代疾病,主要是因為長時間暴露在任何種類的電子產品時對眼睛造成了壓力。
  • AlphaGo 早已擊敗圍棋冠軍,計算機視覺還是 3 歲的 「智力」
    20 世紀 50 年代和 60 年代,計算機視覺並沒有被看成重頭戲,人們認為視覺系統很容易複製,而教計算機下棋更加困難。但是現在,AlphaGo 已經擊敗圍棋冠軍,IBM Watson 也在 Jeopardy 中擊敗人類競賽者,而大多數計算機視覺軟體最多只能完成 3 歲兒童的任務……理論與實踐不斷證明,人類視覺神經非常複雜,計算機視覺實現並非易事。計算機視覺研究從上世紀 50 年代興起之後,也歷經了狂歡、冷靜,又重新燃起希望的階段。