香港中文大學胡梟瑋:用於陰影檢測的 DSC 特徵 | AI研習社64期大講堂

2021-01-11 雷鋒網

雷鋒網AI研習社按:陰影檢測向來是計算機視覺中基礎且富有挑戰性的問題——對於一張輸入圖像,我們通過生成二進位圖像來標記陰影區域,陰影區域的檢測為進一步獲取圖像中的光照情況、物體的形狀與位置,以及攝像機的參數提供了可能。與此同時,陰影的存在也為計算機視覺中進一步理解圖像的算法,例如物體的檢測與跟蹤,帶來了障礙。

來自香港中文大學的胡梟瑋採用了提取 DSC 特徵的方式來解決這個問題,他在近日的 AI 研習社大講堂上向我們分享了具體操作思路。

公開課回放地址:http://www.mooc.ai/open/course/523

分享主題:用於陰影檢測的 DSC 特徵

分享提綱:

陰影檢測相關工作與研究動機DSC模型介紹實驗結果與討論最新工作---陰影去除

雷鋒網AI研習社將其分享內容整理如下:

大家好,我是胡梟瑋,來自香港中文大學。很榮幸能和大家介紹一下我們的工作「Direction-aware Spatial Context Features for Shadow Detection」。這篇文章已經被 CVPR2018 收錄,並做口頭報告 (Oral)。

作為計算機視覺中的基礎問題,最近一些年來,陰影檢測已經被廣泛的研究。

最近的兩個工作是基於深度學習的方法來檢測陰影,目前看來已經達到了比較好的性能,這兩種方法——scGAN 與 stacked-CNN,分別發表在了 2017 年的 ICCV 與 2016 年的 ECCV 上,主要是通過深度神經網絡從大量的數據樣本中自動學習特徵,用於檢測陰影區域。

然而,它們仍然可能將黑色的物體誤檢為陰影,或者漏掉一些不太明顯的陰影區域。

在這幅漫畫中,左邊的這個人舉著刀子指向右邊的人,可能會讓我們以為左邊的傢伙是一個殺手,但如果我們觀察整幅圖像,就會發現右邊的這個人才是真正的殺手。在同一幅圖畫中,我們看到了兩個完全不一樣的故事。

在檢測陰影區域的時候,我們也面臨類似的問題。

正如這幅圖展示的這樣,如果只從局部區域來判斷它是不是陰影,這個問題是十分困難的。

我們並不知道這個黑色區域到底是一個陰影還是一個黑色物體,所以我們需要通過分析更大的區域或者周圍區域來決定它是否是陰影——換句話說,陰影檢測需要去理解全局圖像的上下文信息。

除此之外,我們還需要分析不同方向的上下文信息。

如圖所示,當我們比較 A 區域與 B 區域的時候,由於 B 區域要比 A 區域亮許多,給了我們一個很強烈的指示:A 是陰影區域。

可是當我們去比較 C 區域和 A 區域的時候,我們並不能從 C 區域來判斷 A 是不是陰影(C 區域與 A 區域同樣都是陰影,且 C 區域更暗)。所以,為了進一步理解陰影,我們提出從不同方向的上下文特徵來分析圖像。

比如在這幅圖中,陰影投射在不同顏色的背景上面。

如果我們使用之前的方法,位於黃色區域的陰影可能會檢測不到。但是,當我們方向性地分析圖像上下文信息,就可以從圖像的上面或者下面來傳播陰影信息,同時可以使用左邊或右邊的信息來推斷陰影區域。

因此,我們的方法可以有效的檢測到位於黃色區域的陰影。

什麼是 spatial context features?

為了傳播圖像的全局上下文信息,我們使用空間 RNN來獲取空間上下文特徵,該特徵叫做 spatial context features。先輸入一張特徵圖(這個特徵圖可以是卷積神經網絡中任意的一張特徵圖),再從四個方向獨立的傳播信息,用來獲得局部的空間上下文特徵。

以向右傳播為例,每一個特徵值都會被它左邊的這個值更新。

在這個更新的過程中,信息在整張特徵圖上從左到右傳播(公式中的權值 alpha right 是共享的並且可以自動學習的)。通過聚合四個方向的結果,對於每一個像素點來講,就可以獲得它所在的行和列的信息。

通過兩次這樣的操作,每個像素點就可以得到全局的信息。

具體來說,就是將一個卷積神經網絡中的 2D 特徵圖作為輸入,首先經過一個 1 乘 1 的卷積操作,之後是四個方向的 recurrent translation。接著我們將四個結果綜合起來作為中間的特徵圖,然後重複上述過程,最終得到全局的空間上下文特徵。

為了進一步方向性的分析空間上下文特徵,我們採用的是attention 機制,來生成一組權值,並且將他們分成四張權值圖,分別通過點對點的方式,乘上四個方向的空間上下文特徵。

這些權值會在兩次 recurrent translation 中共享(且可以跟整個深度學習網絡一起進行訓練),因此,我們可以通過在不同方向上選擇性的使用空間上下文特徵來得到 direction-aware spatial context feature,這個結果我們叫做DSC 特徵。

至於獲取該特徵的過程被稱作DSC 模塊。

如何訓練網絡?

我們將在深度神經網絡中採用多個 DSC 模塊:對於一張輸入圖像,首先使用卷積神經網絡提取不同解析度下的特徵圖像(「特徵金字塔」),位於低層的特徵圖像解析度高,能夠提取到圖像的細節信息,但是缺乏語義信息;位於高層的特徵圖像解析度低,可以提取到圖像的語義信息,但是缺乏圖像細節信息。

我們將 DSC 模塊應用到每一層特徵圖上,並將得到的 DSC 特徵與原來的特徵相連接,然後放大這些特徵圖像到原圖大小。

這些放大之後的特徵圖像組合為Multi-level integrated features(簡稱為 MLIF),之後我們使用包括 MLIF 特徵在內的每一層特徵來預測陰影區域,最後將每層的預測結果綜合起來,作為網絡最終的輸出結果。

整個網絡是在 SBU training set 上面訓練的,訓練好的 model 會在 SBU testing set 以及 UCF testing set 上進行測試。

在自然圖像中,陰影區域的面積往往大於非陰影區域的面積,如果我們只是以提高整體的訓練精度為目標,結果會傾向於匹配佔的面積大的非陰影區域。

因此,我們設計了weighted cross entropy loss 來訓練網絡——它由 L1 和 L2 兩部分組成。

L1 用來平衡陰影區域與非陰影區域的比重,如果陰影區域的面積小於非陰影區域,會懲罰誤檢的陰影區域多一些。

L2 幫助網絡去學習不容易識別的類型(這裡主要指陰影或非陰影)。如果正確識別的陰影區域較小,那麼他的損失函數的權值就會變大,反之亦然。

在測試過程中,我們使用 MLIF 層以及 fusion 層的均值作為最後的結果。並且使用 CRF 作為後處理,用來改進檢測到的陰影區域的邊界。

這裡是我們的方法與最新的兩個陰影檢測方法的比較結果。

可以看到,我們的方法在兩個陰影檢測數據集上都取得了最好的效果。

陰影檢測效果展示

接下來,我來展示一些視覺比較結果。

圖中從左到右分別對應:輸入圖像,ground truth(人工標註的數據),我們的結果,以及其他方法的結果。

可以看到,我們的方法能夠有效的識別出黑色的物體,同時檢測到位於不同顏色的背景上面的陰影,相比之下,其他方法可能會失敗。

這是另一組比較結果。

通過方向性的分析圖像上下文特徵,我們的方法可以區分出黑色的桶與陰影區域,以及減少漏檢區域等等。

這是一個評價網絡設計的實驗。

圖中 Basic 指的是去除掉所有 DSC 模塊的網絡,而 basic + context 則指考慮上下文信息,但忽略掉不同方向上下文的影響。

可以看出,通過考慮 DSC 特徵,能夠有效的提高檢測精度。

這裡展示一下更多的陰影檢測結果。

圖 A 中的陰影投射到不同顏色的背景上面;圖 B 有一些小且零碎的陰影;圖 C 中陰影區域與非陰影區域的邊界不清晰;圖 D 是一些不規則的陰影。

這些陰影通過我們的方法可以比較準確地檢測出來。

然而,該方法在一些情況下可能會失效。

比如,第一幅圖擁有許多小的陰影區域;第二幅圖擁有一塊大的深色區域,然而缺少上下文信息;第三張圖主要是 soft shadow,它與非陰影區域的差別不是很大.

陰影去除機制

近期我們將網絡用於陰影去除,在兩個陰影去除數據集上取得了最好的效果。

為了將該網絡用於陰影去除,我們先讓網絡預測 shadow-free image(去除掉陰影的圖像),再接著用 Euclidean loss 訓練整個網絡。

同時,我們發現在現有的陰影去除數據集當中,輸入圖像與 ground truth 的非陰影區域存在顏色和亮度不一致的問題。

為了準備陰影去除的訓練數據,人們通常會先對有陰影的場景拍一張照片,然後拿掉產生陰影的物體,再拍一張照片。在這兩次拍照的過程中,環境光照與照相機的曝光參數都可能會發生變化,導致訓練樣本的顏色與亮度不完全一致。

這兩張圖是分別從 SRD 和 ISTD 兩個公開數據集中找的樣本,可以從顏色直方圖中清楚看到輸入圖像與 ground truth 之間的偏差。

現有的基於深度神經網絡的方法,會去學習匹配 ground truth,因此,如果直接用這些圖像去訓練,網絡可能會生成有顏色偏差的圖像。

為了解決這個問題,我們設計了顏色補償機制——對於一組訓練樣本,我們通過最小化輸入圖像與 ground truth 非陰影區域的誤差,來學習一個顏色轉換函數,然後將這個函數應用到整幅 ground truth 圖像上面來調整顏色誤差。

在實驗中我們發現,只要使用簡單的線性函數就可以學習的很好(該函數在公式中用 Tf 表示),也就意味著我們可以使用最小二乘法計算函數中矩陣 M alpha 的參數。

圖中的 R,g,b 分別對應圖像的紅綠藍三個通道的顏色值。

實際上每張訓練樣本都有一個轉換函數,由於每張拍攝樣本的偏差可能都不一樣(每張樣本都有各自的顏色轉換函數),所以我們將學到的顏色轉換函數應用到原始的 ground truth 上,就可以得到與輸入圖像非陰影區域的顏色亮度相匹配的結果。

我們分別在 SRD 與 ISTD 上訓練與測試網絡,並且通過計算整幅圖像(包含陰影區域與非陰影區域)的 Euclidean loss 來優化整個網絡。

在測試的過程中,我們採用 MLIF 與 fusion 層結果的平均值作為最終結果。

陰影去除效果展示

接下來我會展示一些視覺比較結果。

第一行,從左到右分別對應的是:輸入圖像、ground truth、DSC(我們的結果)、DSC+以及其他方法的結果。其中 DSC+是用調整之後(顏色轉換函數)的訓練樣本訓練的,而 DSC 則是使用原始的訓練樣本訓練網絡。

第二行則是:每張圖片(紅色)與輸入圖像(藍色)的顏色直方圖對比。可以看到,DSC+可以生成和輸入圖像顏色與亮度更匹配的結果。而 DSC 以及 ST-CGAN 這些基於深度神經網絡的方法,直接用原始的 ground truth 訓練,生成的圖像與原始的 ground truth 更接近,與輸入圖像存在顏色偏差。

第三行是另一組結果。

可以看到,我們方法能夠有效的去除陰影,同時保留非陰影區域的顏色。

這是在另一個數據集上面的測試結果,相比之下,其他方法可能會改變非陰影區域的顏色,或者不能有效去除陰影區域。

然後我們比較了 DSC 與 DSC+和原始的 ground truth (In) 與調整之後的 ground truth (Tf(In)) 的數值結果。

可以看到,DSC+能夠明顯減少與調整後沒有陰影的圖像的誤差。

我們繼續來看更多展示結果。

我們的方法可以去除在不同背景上的陰影區域(如圖 AB),也可以去除如圖 C 中牆磚上不規則形狀的陰影,以及圖 D 中複雜背景下的陰影。

然而,我們的方法可能也會不小心去除黑色瓷磚上的顏色,因為周圍的上下文無法提供有效的信息,讓它判斷黑色區域究竟是物體還是陰影。同時由於缺少足夠信息,該方法也不能夠恢復包包原本的顏色。

或者我們需要更多的訓練樣本來解決這些問題。

總的來說,在這項工作中,我們通過方向性地分析圖像空間上下文信息來進行陰影檢測與去除,並在兩個陰影檢測數據集以及兩個陰影去除數據集上都達到了頂尖的性能。

我們公布了文章的代碼與結果(https://github.com/xw-hu/DSC),同時在個人主頁上傳了更多相關的資料(https://xw-hu.github.io/ )。

接下來我們還會繼續深入研究這個方向,建立更大、更複雜的數據集。如果大家對這個項目感興趣,可以幫助我們收集數據或者標記圖像,歡迎直接聯繫我(郵箱:xwhu@cse.cuhk.edu.hk),我們會有相關的經費支持給到大家。

相關焦點

  • 香港中文大學胡梟瑋:用於陰影檢測的 DSC 特徵 | AI研習社64期大...
    與此同時,陰影的存在也為計算機視覺中進一步理解圖像的算法,例如物體的檢測與跟蹤,帶來了障礙。來自香港中文大學的胡梟瑋採用了提取 DSC 特徵的方式來解決這個問題,他在近日的 AI 研習社大講堂上向我們分享了具體操作思路。
  • 鄭文琛:基於網絡功能模塊的圖特徵學習 | AI 研習社79期大講堂
    AI研習社按:圖是一種常見的數據結構,可以被用於許多不同的預測任務。公開課回放地址:http://www.mooc.ai/open/course/560?微眾 AI 招聘簡介雷鋒網(公眾號:雷鋒網) AI 研習社將其分享內容整理如下:首先,我給大家做一些簡單的介紹,圖是一種常見的數據結構,我們會發現存在很多不一樣的圖結構,尤其是這種異質圖的網絡,比較常見的類型包括職場網絡、社交網絡、學術網絡和電商網絡等等
  • 鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社...
    近日,在雷鋒網 AI 研習社公開課上,新加坡科學設計大學在讀博士鄒炎炎就用通俗易懂的語言為大家介紹了 semantic parsing 的概念、背景以及自己在該領域的論文成果,並介紹了關於 output embedding 對於 semantic parsing 的影響。公開課回放視頻網址:http://www.mooc.ai/open/course/544?
  • AR近眼顯示中的光波導| AI 研習社 158期大講堂總結
    回放地址:http://www.mooc.ai/open/course/675?=from%20leiphone0726分享嘉賓:李琨,Rokid R-Lab 光學研究科學家,美國加州伯克利大學電子工程系博士,主要研究方向包括光學成像系統、光電子器件、半導體雷射器和納米技術等。
  • 吳博:目標檢測集成框架在醫學圖像 AI 輔助分析中的應用 | AI 研習...
    醫學圖像分析中目標檢測任務的普遍性,使得開發目標檢測集成框架顯得必要。近日,在雷鋒網 AI 研習社公開課上,深圳市宜遠智能科技有限公司負責人吳博剖析了目標檢測已有的框架,重點分享如何對目標檢測框架進行改造,以便在醫學圖像分析中產生更好的效果。公開課回放視頻網址:http://www.mooc.ai/open/course/559?
  • 香港中文大學陳愷:物體檢測算法的近期發展及開源框架介紹 | 大...
    雷鋒網 AI 科技評論按:物體檢測是計算機視覺的基礎任務之一。香港中文大學多媒體實驗室博士生陳愷在 AI 研習社的公開課上,為大家總結了深度學習背景下物體檢測算法的發展,分享 COCO 比賽冠軍團隊所使用的算法,並介紹由港中大多媒體實驗室開源的物體檢測算法框架 mmdetection。
  • 復旦大學陳俊坤:自然語言處理中的多任務學習 | AI 研習社職播間第...
    近日,在雷鋒網 AI 研習社公開課上,復旦大學計算機系在讀碩士陳俊坤分享了其所在研究組關於多任務學習在自然語言處理領域的最新工作。公開課回放視頻網址:http://www.mooc.ai/open/course/574?
  • 大講堂 | 預測時間敏感的機器學習模型建模與優化
    原標題:大講堂 | 預測時間敏感的機器學習模型建模與優化 雷鋒網AI研習社訊:機器學習模型現在已經廣泛應用在越來越多的領域比如地震監測,闖入識別,高頻交易;同時也開始廣泛的應用在行動裝置中比如通過邊緣計算。這些真實世界的應用在原有的模型精度基礎之上帶來很多實際約束比如預測要在很短或規定時間內完成。
  • 陳陟原:數據降維與可視化| AI 研習社第 53 期猿桌會
    近日,在雷鋒網 AI 研習社公開課上,澳大利亞國立大學信息技術專業學生陳陟原就分享了數據降維與可視化的相關內容。公開課回放視頻網址:http://www.mooc.ai/open/course/526陳陟原:澳大利亞國立大學信息技術專業學生。現在在北京大學做國際暑期教學助理。
  • | AI研習社...
    AI研習社按:神經網絡長久以來的「黑盒」屬性,導致人們一直無法理解網絡的內部是如何運作的,針對這個困擾已久的問題,學界主要存在三種研究方向:數據歸因模式、特徵解碼模式以及模型理解模式。在近日的 AI 研習社大講堂上,清華大學的王宇龍就從模型理解的角度入手,為我們詳細介紹了如何通過發現網絡中的關鍵數據通路(critical data routing paths, CDRPs),更好地理解網絡。
  • 孫啟超:卷積神經網絡在人臉識別技術中的應用 | AI研習社第51期猿...
    近日,在雷鋒網 AI 研習社公開課上,法國蒙彼利埃大學孫啟超就講述了卷積神經網絡的基本原理以及人臉識別技術是如何運行的。公開課回放視頻網址:http://www.mooc.ai/open/course/524孫啟超:法國蒙彼利埃大學 MBA 在讀,CSDN 百萬博客專家。
  • 香港中文大學原校長金耀基訪問中國人民大學 並做客「鄭杭生社會學...
    12月22日,香港中文大學原校長、社會學家金耀基訪問中國人民大學,並擔任「鄭杭生社會學大講堂」第十二期主講嘉賓作題為《大學與中國現代文明的建構》的學術報告。中國人民大學黨委書記靳諾、校長劉偉與金耀基會見,中國人民大學黨委常務副書記張建明主持報告會。
  • 大講堂 | 人工智慧所需的數學基礎
    AI研習社按:隨著大數據時代的到來,深度學習越來越具有可行性。在本次雷鋒網AI研習社公開課中,講者將分享轉行深度學習所需要的數學基礎以及相關熱門的CNN、RNN、GAN的數學思考。3、相關深度學習算法數學思考 分享時間9月 21 日(星期五)  20:00直播連結http://www.mooc.ai/open/course/543
  • 北郵張慶恆:如何基於 rasa 搭建一個中文對話系統 (有源碼視頻)|...
    AI研習社按:對話系統是自然語言處理的一個熱門話題,而自然語言理解則是對話系統的關鍵組成部分,現有的很多自然語言理解工具往往以服務的方式獲取(Google 的 API.ai, Facebook 的 Wit.ai 等),使用這些服務往往需要向服務提供商提供自己的數據,並且根據自己業務調試模型很不方便。
  • 香港中文大學
    書院制度-學生為本 中文大學是香港唯一採用書院制度的高等學府。大學原有三所成員書院,分別為新亞書院(1949年創立)、崇基學院(1951年創立)和聯合書院(1956年創立)。1976年12月,政府訂立大學新條例,修改中文大學及各成員書院的組織章程和權責範圍。1986年7月,政府復立法通過中文大學成立第四所成員書院逸夫書院。
  • 香港新華集團董事局主席蔡冠深做客第十六期東北振興大講堂
    11月12日,由東北大學主辦,中國東北振興研究院承辦,遼寧省人民政府港澳事務辦公室、遼寧—亞太商企合作委員會協辦的第十六期東北振興大講堂在東北大學國際學術交流中心舉行。全國政協常委、香港新華集團董事局主席蔡冠深應邀作了題為「粵港澳大灣區:中華騰飛於世界的核心引擎」的主題演講。遼寧省、瀋陽市有關單位負責同志、學校部分師生共200餘人參加本次活動。
  • 共推5G青年人才培養 上海交通大學iQOO酷客研習社正式成立
    iQOO&交大一起做次創新嘗試近日,iQOO與上海交通大學建立合作,正式成立「iQOO酷客研習社」,成為企業與高校基於雙方能力開放、共同探索人才培養的試驗場。與傳統高校社團不同,上海交通大學iQOO酷客研習社的建立,高度集合了企業的品牌、研發、人才培養能力,通過多維度能力的開放,與高校強大的學科做嫁接,共同服務學生群體做創新創業、學研探索、實習實踐,幫助在校生更好把握行業實踐前沿,讓所學所長不斷得到驗證和提升,真正成長為中國5G新青年。
  • 香港中文大學(深圳)張大鵬教授:生物特徵識別的新進展 | CCF-GAIR...
    峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智慧與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智慧和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智慧領域極具實力的跨界交流合作平臺。
  • 從MICCAI2017收錄論文一窺人工智慧醫療的最近進展 | AI研習社公開...
    此次我們請到香港中文大學博士陳浩為大家介紹「人工智慧在臨床醫學影像計算與分析中的應用」這一研究熱點,主要從方法、思路、如何結合問題解決的角度介紹了醫療影像領域重要會議MICCAI 2017的部分收錄論文。分享嘉賓陳浩是視見醫療的創始人兼首席科學家,在香港中文大學取得博士學位並獲得香港政府博士獎學金,本科畢業於北京航空航天大學並獲得金質獎章。
  • 香港中文大學:到香港高校讀研無需考試(圖)
    11月20日,北京,香港中文大學招生諮詢會在清華大學舉行。蔡代徵攝    11月20日,香港中文大學首次在北京召開研究生的招生說明會。在說明會的會場——無論是清華大學還是北京大學,過道裡都擠滿了來聽講的學生。