大數據文摘出品
來源:MIT
編譯:王轉轉、劉俊寰
在希區柯克的經典懸疑電影《後窗》中,男主因腿部受傷坐臥修養,期間只能用望遠鏡觀察鄰居的生活打發無聊時間,由此捲入一場兇殺案。
電影中男主的「觀看」被作為重要元素被反覆強調,「觀看」的內容則是被窗戶框選出來的部分生活。
有沒有一種透視法,能夠看穿牆壁等遮擋物,再現遮擋物後的人物動作呢,就像…「火眼金睛」?
當然這可不是用來窺視別人生活的,透視法的開發可以帶來很好的社會效益,比如,自動駕駛汽車可以更好地「看到」拐角處,養老中心可以提高居住的安全性,搜救隊可以提高在危險或障礙區域的導航能力……
這一切需要交給計算機視覺(computer vision)模型來處理,現在的CV模型已經能完成一些看似不可能的任務了,比如幫助撲滅加利福尼亞的野火、了解複雜而險惡的道路,甚至可以用影子看到拐角處。
七年前,MIT研究人員就開發了一個成像系統,該系統能以地板、門和牆壁為「鏡子」,「看到」人眼視線之外的場景信息。
系統利用了一種叫做飛秒雷射(femtosecond laser)的裝置,這種裝置能發出非常短的光脈衝,持續時間以百萬分之一秒為單位。工作時,系統向對面的牆壁發射雷射,光線從牆上反射到室內,然後反彈重新出現,最終擊中一個探測器。該裝置可以每隔幾皮秒,或萬億分之一秒進行測量,由此形成一個完整的物體信息。
可以說,這項工作為未來的計算機視覺發展開闢了無限的可能。
最近,MIT計算機科學與人工智慧實驗室(CSAIL)的科學家重啟了這項工作。與之前不同的是,他們利用的是一種新方法,即通過細微的陰影和反射重現被遮擋的動作。也就是說,打開攝像機之後,即使是攝像機視野之外的物體或動作,也可以進行再現。
MIT的研究員們基於視域外的視頻投射在附近物體上的陰影,預測出視域外的內容。上面一行顯示的是研究員使用這種方法重現的視覺元素,下面一行則是原始物體。
通過觀察陰影和幾何圖形之間的相互作用,新的算法可以預測光在場景中的傳播方式,即「光傳輸」。然後,再利用這種傳播方式從觀察到的陰影中估計被隱藏的內容,甚至可以構建真人表演的大致輪廓。
雜物如何成為「觀看」的鏡子
該技術是「被動的」,這意味著對場景沒有雷射或其他幹預,整個過程需要大約兩個小時的處理時間。研究人員表示,該技術最終有助於重現視線之外的場景,包括但不限於上述應用。
「通過使用非視距成像設備(例如雷射器)可以完成許多任務,但是在我們的方法中,只能使用自然到達相機的光線,並嘗試充分利用這些稀缺的信息,」前CSAIL博士後和NVIDIA現任研究科學家,新技術的首席研究員Miika Aittala表示, 「鑑於神經網絡的最新進展,這似乎是一個很好的時機,可以解決在這個領域以前被認為是無法解決的一些挑戰。」
為了捕獲這些看不見的信息,團隊使用了細微的間接照明提示,例如被觀察區域雜亂的陰影和高光。在某種程度上,一堆雜物的行為有點像針孔照相機,類似於在小學科學課中可能會製作的東西:它阻擋了一些光線,但允許其他光線通過,並且無論在何處,它們都描繪出周圍環境的圖像。
但如果針孔相機被設計為僅允許通過足以形成可讀圖像的光線,那麼一堆雜亂的雜物會產生無法識別的的圖像、(通過光傳輸)被擾亂的陰影的複雜運動。
可以將雜物想像成一面鏡子,使我們可以看到周圍的環境,尤其是在無法直接看到的角落。這個算法所解決的挑戰是要弄清並理解這些照明的提示。
具體而言,目標是通過光傳輸和隱藏視頻,將隱藏場景中活動恢復為人類可觀看的內容。但是,解密卻被證明是一個經典的「先有雞還是先有蛋」的問題。為了理解加擾模式,用戶將需要知道隱藏的視頻,反之,為了知道隱藏的視頻,用戶將需要理解加擾模式。
「從數學上來說,就像我告訴你我正在考慮兩個秘密數字,它們的乘積是80。你能猜出它們是什麼嗎?也許40和2?還是371.8和0.2152?對於我們的問題,我們在每個像素上都面臨類似的情況,」 Aittala說,「幾乎所有隱藏的視頻都可以通過相應的加擾來解釋,反之亦然。如果我們讓計算機進行選擇,它只會為我們提供一大堆看起來什麼都不像的隨機圖像。」
考慮到這一點,團隊致力於通過算法上指定一種與現實中的陰影相對應的「加擾」模式來消除歧義,以重現隱藏的視頻,看起來它具有邊緣,以及移動時具備一致的對象。
新的算法有助於消除歧義
該團隊還利用了一個令人驚訝的事實,即使從未受過訓練的神經網絡自然也喜歡表達「類似圖像」的內容,這有助於消除歧義。
算法使用了機器學習中「深層圖像優先級」的概念,同時訓練兩個神經網絡,這兩個神經網絡僅專用於一個目標視頻。一個網絡產生加擾模式,另一個網絡估計隱藏的視頻。當這兩個因素再現了從混亂中錄製的視頻時,網絡就會得到「獎勵」,驅使它們用合理的隱藏數據來解釋觀察結果。
為了測試該系統,團隊首先將物體堆放在一堵牆上,然後放映視頻或在對面的牆上移動自己的物理位置。由此,他們可以重現視頻,使您可以大致了解房間隱藏區域中正在發生的運動。
將來,該小組希望提高系統的整體解析度,並最終在不受控制的環境中測試該技術。