谷歌開源語義圖像分割模型:該領域當前最優模型

2021-01-07 機器之心Pro

剛剛,谷歌開源了語義圖像分割模型 DeepLab-v3+,DeepLab-v3+結合了空間金字塔池化模塊和編碼器-解碼器結構的優勢,是自三年前的 DeepLab 以來的最新、性能最優的版本。

GitHub 地址:https://github.com/tensorflow/models/tree/master/research/deeplab

語義圖像分割任務是指將語義標籤(例如「道路」、「天空」、「人」、「狗」)分配給圖像中的每一個像素,這種技術有很多新應用,例如,Pixel 2 和 Pixel 2 XL 智慧型手機中肖像模式的合成淺景深效應,以及行動裝置的實時語義分割等。分配這些語義標籤的時候需要精準定位目標的輪廓,因此相比其他的視覺實體識別任務(如圖像級分類或邊界框級檢測等),該任務需要更高的定位準確率。

今天,谷歌開源了其最新、性能最優的語義圖像分割模型 DeepLab-v3+ [1],該模型使用 TensorFlow 實現。DeepLab-v3+ 模型建立在一種強大的卷積神經網絡主幹架構上 [2,3],以得到最準確的結果,該模型適用於伺服器端的部署。此外,谷歌還分享了他們的 TensorFlow 模型訓練和評估代碼,以及在 Pascal VOC 2012 和 Cityscapes 基準語義分割任務上預訓練的模型。

自三年前谷歌發布第一個版本的 DeepLab 模型 [4] 以來,CNN 特徵提取器、目標尺度建模技術、語境信息處理、模型訓練流程、深度學習硬體和軟體的不斷改進和優化,促使該模型升級到了 DeepLab-v2 [5] 和 DeepLab-v3 [6]。谷歌通過添加一個簡單而有效的解碼器模塊以精煉分割結果(尤其是在目標邊界處),將 DeepLab-v3 擴展為 DeepLab-v3+。他們還進一步將深度可分卷積(depthwise separable convolution)應用到金字塔型的空洞池化(Atrous Spatial Pyramid Pooling,ASPP)[5, 6] 和解碼器模塊上,以得到更快更強大的語義分割編碼器-解碼器網絡。

現代語義圖像分割系統都是建立在卷積神經網絡之上,並達到了五年前無法想像的準確率,這得歸功於方法、硬體和數據集的優化。谷歌希望通過和社區共享該系統,學界和業界能更容易地復現和提升當前最優系統,在新的數據集上訓練模型,以及為該技術開發新的應用。

論文:Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

論文連結:https://arxiv.org/abs/1802.02611

摘要:深度神經網絡使用空間金字塔池化模塊或編碼器-解碼器結構執行語義分割任務。前者通過在多個 rate、多個有效視野上用濾波器探測輸入特徵或執行池化操作,來編碼多尺度的上下文信息;後者通過逐漸恢復空間信息來捕捉更加精細的目標邊界。在這項研究中,我們將二者的優勢結合起來。具體來說,我們通過添加一個簡單有效的解碼器模塊以精煉分割結果(尤其是目標邊界),將 DeepLab-v3 擴展為本文提出的新模型 DeepLab-v3+。我們進一步探索了 Xception 模型,並將深度可分卷積應用到金字塔型的空洞池化(ASPP)和解碼器模塊上,以得到更快更強大的編碼器-解碼器網絡。我們在 PASCAL VOC 2012 語義圖像分割數據集上證明了該模型的有效性,在沒有任何後處理的情況下該模型達到了 89% 的準確率。

參考閱讀:

資源 | 從全連接層到大型卷積核:深度學習語義分割全指南

原文連結:https://research.googleblog.com/2018/03/semantic-image-segmentation-with.html

相關焦點

  • CVPR 2018:新型語義分割模型:動態結構化語義傳播網絡DSSPN
    近日,來自 CMU、Petuum 等機構的研究者提出一種新型語義分割模型動態結構化語義傳播網絡 DSSPN,通過將語義概念層次明確地結合到網絡中來構建語義神經元圖。實驗證明 DSSPN 優於當前最優的分割模型。
  • 語義分割領域開山之作:Google提出用神經網絡搜索實現語義分割
    Google 在 Cloud AutoML 不斷發力,相比較而言之前的工作只是在圖像分類領域精耕細作,如今在圖像分割開疆擴土,在 arxiv 提交第一篇基於 NAS(Neural network architecture)的語義分割模型[1](DPC,dense prediction cell)已經被 NIPS2018 接收,並且在 Cityscapes,PASCAL-Person-Part
  • 圖像分割系列<->語義分割
    這期我們就來講講語義分割(Semantic Segmantation), 語義分割是指將圖像中的每一個像素都賦予一個類別標籤,用不同的顏色表示。 二、語義分割SegNet的來源 Segnet模型由Vijat Badrinarayanan, Alex Kendall, Roberto Cipolla在2015年發表, 在FCN的語義分割任務基礎上,搭建編碼器-解碼器對稱結構,實現端到端的像素級別圖像分割。
  • 2020入坑圖像分割,我該從哪兒入手?
    這一領域已經有了哪些研究成果、資源?目前面臨什麼困境?還有哪些問題值得研究?本文將重點討論這些問題。初識圖像分割顧名思義,圖像分割就是指將圖像分割成多個部分。在這個過程中,圖像的每個像素點都和目標的種類相關聯。圖像分割方法主要可分為兩種類型:語義分割和實例分割。
  • 谷歌通過深度度量學習,提出新的語義實例分割方法
    雷鋒網了解到,谷歌研究院近日與UCLA合作,提出了一種新的語義實例分割方法:首先計算兩個像素屬於同一對象的可能性,然後將相似的像素分組在一起。其中,相似性度量是基於深度,完全卷積的嵌入模型,而分組方法是基於選擇所有與一組「種籽點」足夠相似的點,這個選擇模型是一個深度的、完全卷積的評分模型。
  • 2019 語義分割指南
    語義分割是指將圖像中的每個像素歸於類標籤的過程,這些類標籤可以包括一個人、汽車、鮮花、一件家具等。我們可以將語義分割認為是像素級別的圖像分類。例如,在有許多汽車的圖像中,分割會將所有對象標記為汽車對象。然後,一個稱為實例分割的模型能夠標記一個出現在圖像中的物體的獨立實例。
  • 如何用PyTorch進行語義分割?一個教程教會你
    正值PyTorch 1.7更新,那麼我們這次便給大家帶來一個PyTorch簡單實用的教程資源:用PyTorch進行語義分割。△圖源:stanford該教程是基於2020年ECCV Vipriors Chalange Start Code實現了語義分割,並且添加了一些技巧。
  • DeepLabv3+:語義分割領域的新高峰
    +,在語義分割領域取得新的 state-of-the-art 水平。DeepLabv1DeepLab 是結合了深度卷積神經網絡(DCNNs)和概率圖模型(DenseCRFs)的方法。在實驗中發現 DCNNs 做語義分割時精準度不夠的問題,根本原因是 DCNNs 的高級特徵的平移不變性,即高層次特徵映射,根源於重複的池化和下採樣。
  • 入門| 一文了解什麼是語義分割及常用的語義分割方法有哪些
    什麼是語義分割?語義分割是計算機視覺中的基本任務,在語義分割中我們需要將視覺輸入分為不同的語義可解釋類別,「語義的可解釋性」即分類類別在真實世界中是有意義的。例如,我們可能需要區分圖像中屬於汽車的所有像素,並把這些像素塗成藍色。
  • 從全卷積網絡到大型卷積核:深度學習的語義分割全指南
    By路雪 2017年7月14日  語義分割一直是計算機視覺中十分重要的領域,隨著深度學習的流行,語義分割任務也得到了大量的進步。本文首先闡釋何為語義分割,然後再從論文出發概述多種解決方案。本文由淺層模型到深度模型,簡要介紹了語義分割各種技術,雖然本文並沒有深入講解語義分割的具體實現,但本文簡要地概述了每一篇重要論文的精要和亮點,希望能給讀者一些指南。
  • 語義分割概念及應用介紹
    早期的計算機視覺問題只發現邊緣(線條和曲線)或漸變等元素,但它們從未完全按照人類感知的方式提供像素級別的圖像理解。語義分割將屬於同一目標的圖像部分聚集在一起來解決這個問題,從而擴展了其應用領域。注意,與其他基於圖像的任務相比,語義分割是完全不同的且先進的,例如,你設計的機器學習模型是否需要識別輸入原始平面圖像中的每個像素?
  • 英偉達開源Imaginaire:九大圖像及視頻合成方法,你學fei了嗎?
    以前的方法直接將語義布局作為輸入提供給深度網絡,然後通過卷積、歸一化和非線性層處理深度網絡。實驗表明,這種方法並不是最優的,因為歸一化層傾向於「洗去」語義信息。為了解決這個問題,研究者提出使用輸入布局,通過空間自適應的、學習的轉換來調節歸一化層中的激活函數。在幾個具有挑戰性的數據集上的實驗表明,與現有方法相比,該方法在視覺保真度和與輸入布局的對齊方面具有優勢。
  • MMSegmentation:標準統一的語義分割框架
    語義分割作為計算機視覺中一項基礎任務,同時在自動駕駛/視頻編輯等領域中有重要的應用,因此一直受到學術界和工業界的廣泛關注。在近幾年的會議中,語義分割的論文層出不窮,但是市面上一直缺乏一款能夠相對公平比較各種方法的框架。為了方便研究員和工程師們,OpenMMLab開源了一套基於 PyTorch 實現的標準統一的語義分割框架:MMSegmentation。
  • 谷歌提出移動端AutoML模型MnasNet:精度無損速度更快
    目前開發者可以使用非常多的移動端 CNN 架構,也可以在機器上訓練新穎的視覺模型並部署到手機端。但各種各樣的移動端任務可能並不能藉助已有的 CNN 架構達到非常好的效果,因此谷歌近日將神經架構搜索方法引入了輕量級的 CNN 網絡,並提出基於強化學習的 MnasNet 以自動設計移動端模型。
  • 標準統一的語義分割框架
    ,同時在自動駕駛/視頻編輯等領域中有重要的應用,因此一直受到學術界和工業界的廣泛關注。在近幾年的會議中,語義分割的論文層出不窮,但是市面上一直缺乏一款能夠相對公平比較各種方法的框架。為了方便研究員和工程師們,我們開源了一套基於 PyTorch 實現的標準統一的語義分割框架:MMSegmentation。
  • 100個深度圖像分割算法,紐約大學UCLA等最新綜述論文
    ,對現有的深度學習圖像分割研究進行梳理使其系統化,並提出6方面挑戰,幫助讀者更好地了解當前的研究現狀和思路。對近幾年深度學習圖像分割進行了全面綜述,對現有的深度學習圖像分割研究進行梳理使其系統化,並提出6方面挑戰,幫助讀者更好地了解當前的研究現狀和思路。可作為相關領域從業者的必備參考文獻。
  • 韓國科學技術院在讀博士潘飛:語義分割場景中域適應問題的研究 |...
    CV前沿講座,是智東西公開課針對計算機視覺推出的一檔講座,聚焦於計算機視覺前沿領域研究成果與進展。我們將持續邀請研究者、專家與資深開發者,為大家帶來直播講解。基於卷積神經網絡的監督學習方法近幾年在語義分割任務裡取得了顯著進展。但是,這種方法十分依賴於大量帶注釋的數據進行訓練。
  • 9102年了,語義分割的入坑指南和最新進展都是什麼樣的
    在這篇文章中,作者介紹了近來優秀的語義分割思想與解決方案,它可以稱得上是 2019 語義分割指南了。我們可以認為語義分割是像素級別的圖像分類。例如,在一幅有很多輛車的圖像中,分割模型將會把所有的物體(車)標記為車輛。但是,另一種被稱為實例分割的模型能夠將出現在圖像中的獨立物體標記為獨立的實例。這種分割在被用在統計物體數量的應用中是很有用的(例如,統計商城中的客流量)。
  • 分享一個PyTorch醫學圖像分割開源庫
    分享一位52CV粉絲Ellis開發的基於PyTorch的專注於醫學圖像分割的開源庫,其支持模型豐富,方便易用。其可算為torchio的一個實例,作者將其綜合起來,包含眾多經典算法,實用性比較強。地址在這裡:https://github.com/MontaEllis/Pytorch-Medical-Segmentation該庫特點:支持2D和3D醫學圖像分割,可以修改hparam.py文件來確定是2D分割還是3D分割以及是否可以進行多分類
  • 百度飛槳發布工業級圖像分割利器PaddleSeg
    機器之心發布機器之心編輯部近日,飛槳官方發布了工業級圖像分割模型庫 PaddleSeg,給開發者帶來誠意滿滿的三重超值驚喜:①一次性開源 15 個官方支持的圖像分割領域主流模型,大禮包帶來大滿足。②多卡訓練速度比對標產品快兩倍,工業級部署能力,時間節省超痛快。