ConvCRF:一種結合條件隨機場與CNN的高效語義分割方法 - 機器之心Pro

2021-01-08 機器之心Pro

語義分割等結構化預測任務可以從條件隨機場等概率圖模型獲取很多優勢,但由於條件隨機場的訓練速度及訓練難度,目前研究者基本上都僅使用卷積網絡進行處理。本文提出了一種卷積條件隨機場,它能以卷積運算的方式解決 CRF 的兩個大問題,並結合 CNN 實現更好的語義分割效果。

語義圖像分割旨在為圖像中的每個像素生成分類標籤,是視覺感知中的一個重要任務。卷積神經網絡已在解決語義分割任務上取得了很好的效果 [23,6,7,40]。雖然深層神經網絡在提取局部特徵和利用小感受野進行良好預測方面效果顯著,但它們缺乏利用全局上下文信息的能力,無法直接建模預測之間的相互作用。因此,有人認為,簡單的前饋卷積神經網絡也許並不是完成類似語義分割等結構化預測任務的最佳選擇 [40,20,41]。為了解決上述問題,一些研究者成功地將卷積神經網絡的有效性與條件隨機場的建模能力相結合,以獲得更好的性能 [20,4,41]。儘管結構化模型的成功是無可爭議的,但在最近的方法和研究成果卻鮮有人問津 [37,7,40]。

我們認為,導致這一現狀的主要原因是條件隨機場的學習速度非常緩慢,且難以優化。如何為條件隨機場等結構化組件學習特徵仍然是一個開放性研究問題 [36,20],許多方法完全依賴於手動設定的高斯特徵 [17,41,31,6]。此外,條件隨機場的推斷比卷積神經網絡的推斷要慢兩個數量級,這使得基於條件隨機場的方法在許多實際應用中的運行速度很慢。而當前條件隨機場較長的訓練時間,也使得人們無法進行更加深入的研究和實驗。

為了解決這兩個問題,我們提出將條件獨立性這一強假設添加到現有的全連接條件隨機場(FullCRF)框架中 [17]。這使得我們可以將大部分推斷重新表達為可以在 GPU 上高效實現的卷積操作,我們稱之為卷積條件隨機場(ConvCRF)。反向傳播 [30] 可用於訓練 ConvCRF 的所有參數,ConvCRF 中的推斷可以在不到 10ms 的時間內完成。與 FullCRF 相比,可以獲得一到兩個數量級的速度提升。我們相信,訓練和推斷上的速度提升將大大有利於未來的研究,同時我們也希望它可以幫助條件隨機場重新成為解決結構化任務的流行方法。

卷積條件隨機場

卷積條件隨機場(ConvCRF)用條件獨立假設補充 FullCRF。如果兩個像素 i,j 的曼哈頓距離 d 可以保持 d(i, j) > k 的關係,那麼我們認為他們的標籤分布是條件獨立的。其中我們把超參數 k 稱為濾波器尺寸。

局部性假設是一個非常有力的假設,它暗示所有距離超過 k 的像素,成對相關性為零。這極大地降低了潛在成對性的複雜性。因為卷積神經網絡基於局部特徵處理可以取得很好的效果,那麼我們也可以認為該假定在卷積神經網絡上也是有效的。這使得卷積條件隨機場的理論基礎看起來很有前景,因為強大而有效的假設構成了機器學習建模的重要力量。

卷積條件隨機場中的高效信息傳遞

本文的主要貢獻之一是證明信息傳遞在卷積條件隨機場中是高效的。因此我們不需要使用 Permutohedral lattice 近似,從而可以進行高效的 GPU 計算和完整的特徵學習。為了實現這個目標,我們將信息傳遞步驟重新配置為帶截斷高斯核的卷積,並注意到這非常類似於 CNN 中的常規卷積實現。

考慮形狀為 [bs,c,h,w] 的輸入 P,其中 bs,c,h,w 分別表示批大小,類別數量,輸入高度和寬度。對於由特徵向量 f_1 ... f_d 定義的高斯核 g,我們為它定義一個大小為 [bs, h, w] 的核矩陣:

其中 θ_i 是可學習的參數。對於一組高斯核 g_1 ... g_s,我們定義經合併的核矩陣 K 為:

所有 s 個核的組合信息傳遞的結果 Q 如下所示:

這種信息傳遞操作類似於卷積神經網絡中標準的二維卷積。然而,在我們的例子中,濾波器的值取決於空間維度 x 和 y。這與局部連接層相似 [8]。與局部連接層和二維卷積不同的是,我們的濾波器的通道維度 c 是不變的,我們一般可以將這種操作看作是維度 c^2 上的卷積。

通過僅使用標準的卷積神經網絡操作來實現我們這種卷積是可能的。然而,這要求數據在 GPU 內存中重新組織好幾次,這是一個非常緩慢的過程。分析顯示 90% 的 GPU 時間開銷用於數據重組。因此,我們選擇建立一個本地的底層實現,以獲得額外 10 倍的加速。

我們可以通過類似於二維卷積(和局部連接層)來實現我們這種卷積的高效計算。第一步是平鋪輸入 P 以獲得形狀為 [bs,c,k,k,h,w] 的數據。這個過程通常被稱為 im2col,與二維卷積相同 [9]。二維卷積通過在空間維度上批量進行矩陣乘法來完成,我們用通道維度上的批量點積來代替這一步驟,其它所有步驟都是相同的。

實驗結果

圖 1:合成任務的可視化分析。特別是在最後一個例子中,我們可以在物體邊界處清楚地看到的來自 permutohedral lattice 近似的偽影。

實驗中,我們在訓練集的 200 幅留存圖像上訓練條件隨機場模型,並在官方 Pascal VOC 數據集的 1464 幅圖像上對它的性能進行評估。我們在表 2 中報告了我們的結果,圖 3 為模型輸出的可視化分析。

表 2:使用解耦訓練的條件隨機場在驗證集上的性能比較。+ C 表示模型使用卷積作為兼容性轉換,+ T 表示模型學習了高斯特徵。除了來自 DeepLab 的條件隨機場,其他模型我們都使用一元運算(unaries)。

圖 3:使用解耦訓練策略在 Pascal VOC 數據下的結果可視化。示例 2 和 4 描述了條件隨機場無法改進一元運算(unary)的失敗情況。

論文:Convolutional CRFs for Semantic Segmentation

論文地址:https://arxiv.org/abs/1805.04777實現地址:https://github.com/MarvinTeichmann/ConvCRF

對於具有挑戰性的語義圖像分割任務,最有效的模型傳統上將條件隨機場(CRF)的結構化建模能力與卷積神經網絡的特徵提取能力結合起來。然而,在最近的工作中中,使用條件隨機場進行後處理已經不再受到人們青睞。我們認為這主要是由於條件隨機場訓練和推斷速度太過緩慢以及其參數學習的難度所致。為了克服這兩個問題,我們提出將條件獨立的假設添加到全連接條件隨機場的框架中。這使得我們可以在 GPU 上高效地使用卷積操作重新進行推斷。這樣做可以將推斷和訓練加速超過 100 倍。卷積條件隨機場的所有參數都可以使用反向傳播輕鬆進行優化。為了促進 CRF 的進一步研究,我們還公開了相關的源碼。

相關焦點

  • 入門| 一文了解什麼是語義分割及常用的語義分割方法有哪些
    因此,本文討論的主題是使用深度學習方法進行有監督的語義分割。為了解決這個問題,有一些架構使用了條件隨機場(CRF),使用原始圖像中像素的相似性重新精煉 CNN 的標籤。條件隨機場案例。條件隨機場是由隨機變量組成的圖,在這種情況下,每個頂點表示:確定像素的 CNN 標籤(綠色頂點 X_i)確定像素的實際類別標籤(黃色頂點 Y_i)邊會編碼兩類信息:
  • 金字塔注意力網絡:一種利用底層像素與高級特徵的語義分割網絡
    選自arXiv機器之心編譯參與:機器之心編輯部目前很多語義分割方法在細節方面做得都不好,近日北京理工、曠視科技、北京大學機器感知重點實驗室的研究者提出金字塔形注意力網絡,它結合注意力機制和空間金字塔去提取精準的密集特徵而用於像素級標註任務,這種方法不再使用複雜化的擴張卷積和人工設計的解碼網絡。
  • 語義分割中的深度學習方法全解:從FCN、SegNet到各版本DeepLab
    原標題:語義分割中的深度學習方法全解:從FCN、SegNet到各版本DeepLab 王小新 編譯自 Qure.ai Blog 量子位 出品 | 公眾號 QbitAI 圖像語義分割就是機器自動從圖像中分割出對象區域,並識別其中的內容
  • 「計算機視覺必讀乾貨」圖像分類、檢測,語義分割等方法梳理
    新智元專欄 作者:張皓【新智元導讀】本文作者來自南京大學計算機系機器學習與數據挖掘所(LAMDA),本文直觀系統地梳理了深度學習在計算機視覺領域四大基本任務中的應用,包括圖像分類、定位、檢測、語義分割和實例分割。
  • 9102年了,語義分割的入坑指南和最新進展都是什麼樣的
    選自Medium作者:Derrick Mwiti機器之心編譯參與:Nurhachu Null,Geek AI語義分割指的是將圖像中的每一個像素關聯到一個類別標籤上的過程,這些標籤可能包括一個人、一輛車、一朵花、一件家具等等。
  • 2019 語義分割指南
    用於語義圖像分割的深度神經網絡弱和半監督學習(ICCV,2015)這篇文章提出了一種解決方法,用於面對深度卷積網絡中處理弱標記數據的難題、以及處理良好標記與未適當標記數據結合。本文應用了一個深度CNNs與全連接條件隨機場的組合。
  • 圖像語義分割之特徵整合和結構預測
    兩個發展方向特徵整合(Feature Ensembling)又分為:多尺度(multi-scale) 特徵整合多級(multi-level)特徵整合結構預測(Structure Prediction)比如之前經常使用的條件隨機場特徵整合多尺度整合PSPNet這個方法在前一段時間是 PASCAL
  • 語義分割領域開山之作:Google提出用神經網絡搜索實現語義分割
    Google 儼然已是圖像語義分割領域的高產霸主,Liang-Chieh 從 Deeplabv1- Deeplabv3+ 持續發力,還是 MobileNetV2 共同作者,如今在 NAS 領域開發處女地:基於 NAS 的語義分割模型,性能超過之前的基於 MobileNetV2 的 Network Backbone。2.
  • 突破AI和機器理解的界限,牛津CS博士143頁畢業論文學習重建和分割...
    選自arXiv作者:Bo Yang機器之心編譯讓機器擁有像人類一樣感知 3D 物體和環境的能力,是人工智慧領域的一項重要課題。機器之心對該論文的核心內容進行了簡要介紹,感興趣的讀者可以閱讀論文原文。
  • DeepLabv3+:語義分割領域的新高峰
    DeepLabv1DeepLab 是結合了深度卷積神經網絡(DCNNs)和概率圖模型(DenseCRFs)的方法。在實驗中發現 DCNNs 做語義分割時精準度不夠的問題,根本原因是 DCNNs 的高級特徵的平移不變性,即高層次特徵映射,根源於重複的池化和下採樣。
  • 圖像分割系列<->語義分割
    精選文章,第一時間送達 上期講到圖像分割(Image segmentation)根據某些規則把圖片中的像素分為不同的部分(加不同的標籤),它可分為:超像素、語義分割、實例分割、全景分割, 各有聯繫,又有區別。
  • 谷歌通過深度度量學習,提出新的語義實例分割方法
    它與目標檢測不同之處在於,輸出是表示每個對象的形狀的掩碼,而不僅僅是一個邊界框。而它與語義分割的不同之處在於,研究目標不僅僅是使用標籤(或背景)對每個像素進行分類,而且還要區分同一類別的各個實例。因此,標籤空間是沒有大小限制的(例如,假設有兩個人和一輛車,可能會標記「人-1」,「人-2」和「車-1」)。這個問題在諸如無人駕車、機器人、照片編輯等領域有許多實際應用。
  • 從全卷積網絡到大型卷積核:深度學習的語義分割全指南
    VOC2012和MSCOCO是語義分割領域最重要的數據集。  有哪些不同的解決方案?  在深度學習應用到計算機視覺領域之前,人們使用TextonForest和隨機森林分類器進行語義分割。卷積神經網絡(CNN)不僅對圖像識別有所幫助,也對語義分割領域的發展起到巨大的促進作用。
  • 機器之心獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類
    為此,機器之心專訪百度自然語言處理部技術負責人吳華、高級總監吳甜,就神經網絡機器翻譯系統的優缺點、如何獲得高質量訓練數據及百度翻譯目前進展展開話題。同時也藉此機會了解百度自然語言處理部及其開展的 NLP 技術研發工作。以下為採訪內容整理,以饗讀者。NMT、SMT 的優與缺機器之心:能請您先介紹一下百度 NLP 部門嗎?
  • CVPR 2018:新型語義分割模型:動態結構化語義傳播網絡DSSPN
    近日,來自 CMU、Petuum 等機構的研究者提出一種新型語義分割模型動態結構化語義傳播網絡 DSSPN,通過將語義概念層次明確地結合到網絡中來構建語義神經元圖。實驗證明 DSSPN 優於當前最優的分割模型。
  • 語義分割概念及應用介紹
    比如自動駕駛汽車已經逐漸成為可能,但在整個深度學習過程,需要算法識別和學習作為原始數據提供的圖像,在這一過程中,應用到了語義分割技術。下面讓我們來看看語義分割的需求是如何演變的。早期,計算機視覺的初始應用需求只是識別基本元素,例如邊緣(線和曲線)或漸變。然而,僅僅通過全像素語義分割的創造來理解像素級的圖像,它將屬於同一目標的圖像部分聚集在一起,從而擴展了語義分割的應用場景。
  • CVPR 2019 Oral 論文解讀 | 無監督域適應語義分割
    該論文提出了一種從「虛擬域」泛化到「現實域」的無監督語義分割算法,旨在利用易獲取的虛擬場景標註數據來完成對標註成本高昂的現實場景數據的語義分割,大大減少了人工標註成本。 本文是論文作者之一羅亞威為雷鋒網 AI 科技評論提供的論文解讀。
  • 深度| 2017 CV 技術報告之圖像分割、超解析度和動作識別
    選自The M Tank機器之心編譯參與:晏奇、蔣思源The M Tank 編輯了一份報告《A Year in Computer Vision》,記錄了 2016 至 2017 年計算機視覺領域的研究成果,對開發者和研究人員來說是不可多得的一份詳細材料。
  • 機器之心Pro:開發者請準備,前方有一大波更新正在接近
    1 個月前,我們發布了最新產品:人工智慧領域專業信息及數據平臺「機器之心Pro」。針對以上場景,我們最新上線了「機器之心Pro」的第五個模塊:人工智慧知識庫。人工智慧知識庫-首頁人工智慧知識庫涵蓋三類數據:知識、資源與人物。知識涵蓋:基礎概念、技術方法和技術任務;資源涵蓋:數據集、開發工具、教材、活動及會議和書籍期刊。
  • DeepLabv1 & DeepLabv2 - 空洞卷積(語義分割)
    >原文連結: https://towardsdatascience.com/review-deeplabv1-deeplabv2-atrous-convolution-semantic-segmentation-b51c5fbde92d 在本文中,回顧了DeepLabv1和DeepLabv2網絡,因為他們都使用帶孔卷積 Atrous Convolution和全連接的條件隨機場