谷歌最新語義圖像分割模型 DeepLab-v3+ 現已開源 | 軟體推介

2021-02-13 OSC開源社區

#掃描上方二維碼進入報名#

授權協議:Apache-2.0

開發語言:C/C++ Python

作業系統:跨平臺

開發廠商:Google

Google 研究團隊開源在 Tensorflow 中進行語義圖像分割(Semantic Image Segmentation)模型 DeepLab-v3+,包括 Google Pixel 2 和 Pixel 2XL 手機上的人像模式(Portrait Mode),以及 YouTube 為影片實時更換背景功能,都是這項技術的應用。

Google 研究軟體工程師 Liang-Chieh Chen 以及 Yukun Zhu 表示,語義圖像分割的主要目的是為每個像素指定語義標籤,例如路、天空、人或是狗等物體,不少的程序需要這樣的功能,像是合成淺景深效果(Synthetic Shallow Depth-of-field)效果,應用在手機 Pixel 2 和 Pixel 2XL 上提供的人像模式(Portrait Mode),能自動模糊人物的背景,作出類似單鏡頭反光相機的景深效果。

另外,在多數攝影 App 都會提供的實時影像分割(Video Segmentation),例如最近 YouTube 發表的新功能,為影片換背景的功能,也是語義影像分割的應用。

DeepLab-v3+ 在 Tensorflow 上進行,使用部署於伺服器端的卷積神經網絡(CNN)骨幹架構,以獲取最佳的結果。

除了代碼之外,研究團隊也同時公開了 Tensorflow 模型訓練以及評估程序,以及使用 Pascal VOC 2012 與 Cityscapes 資料集訓練的模型。

DeepLab-v3+ 技術是基於三年前的 DeepLab 模型,期間改進了卷積神經網絡特徵萃取器、物體比例塑造模型以及同化前後內容的技術,再加上進步的模型訓練過程,還有軟硬體的升級,從 DeepLab-v2 到 DeepLab-v3,直到現在發表的 DeepLab-v3+,效果一代比一代好。

DeepLab-v3+ 是由 DeepLab-v3 擴充而來,研究團隊增加了解碼器模組,能夠細化分割結果,能夠更精準的處理物體的邊緣,並進一步將深度卷積神經網絡應用在空間金字塔池化(Spatial Pyramid Pooling,SPP)和解碼器上,大幅提升處理物體大小以及不同長寬比例的能力,最後得到強而有力的語義分割編碼解碼器網絡。

Liang-Chieh Chen 以及 Yukun Zhu 特別提到,隨著軟硬體的升級,建構在卷積神經網路上的現代語義圖像分割功能,可以達到的水準已經遠遠超過5年前。

詳情及源碼地址獲取:

相關焦點

  • 業界 | 谷歌最新語義圖像分割模型DeepLab-v3+今日開源
    GitHub 地址:https://github.com/tensorflow/models/tree/master/research/deeplab語義圖像分割任務是指將語義標籤(例如「道路」、「天空」、「人」、「狗」)分配給圖像中的每一個像素,這種技術有很多新應用,例如,Pixel 2 和 Pixel 2 XL 智慧型手機中肖像模式的合成淺景深效應,以及行動裝置的實時語義分割等
  • 谷歌開源語義圖像分割模型DeepLab-v3+ | 附代碼
    安妮 編譯自 谷歌官方博客量子位 出品 | 公眾號 QbitAI今天,谷歌宣布開源語義圖像分割模型DeepLab-v3+。
  • 無綠幕MR特效,谷歌開源AI語義分割模型DeepLab-v3+
    (映維網 2018年03月16日)在3月出我們有報導說谷歌利用AI實現視頻的背景分離,而這涉及到語義圖像分割技術。語義圖像分割是指將諸如「道路」,「天空」,「人」,「狗」等語義標籤分配至圖像中的每一個像素,從而實現一系列的新應用,比如Pixel 2和Pixel 2XL人像模式中的合成淺層景深效果,以及實時視頻分割。
  • 利用DeepLab在Tensorflow中進行語義圖像分割
    語義圖像分割,也就是將「道路」、「天空」、「人」和「狗」等語義標籤分配給圖像中每一個像素的任務,可以實現大量的新應用,例如 Pixel 2 與
  • 如何利用DeepLab V3進行圖像語義分割
    原始圖片源自Unsplash的Melody jacob,右側為分割後圖像常用的兩種圖像分割法:首先確定圖像中的不同類,識別每個類包含的實例數。將圖像分解為多個標記區域,這些區域與模型訓練的不同類實例相關。對於本文,我將使用Google DeepLab V3分割模型的Pytorch來實現定製圖像的背景。
  • 實戰篇:使用deeplab v3用於語義分割的超詳細解析(附Pytorch源碼)
    摘要:deeplab v3+作為谷歌開源的一個性能優秀的語義分割模型,官方提供了其tensorflow版本的原始碼(
  • 開源 | 5行代碼,快速實現圖像分割
    那麼,如何優雅且體面的圖像分割?5行代碼、分分鐘實現的庫——PixelLib,了解一下。當然,如此好用的項目,開源是必須的。為什麼要用到圖像分割?雖然計算機視覺研究工作者,會經常接觸圖像分割的問題,但是我們還是需要對其做下「贅述」(方便初學者)。
  • 5行代碼,快速實現圖像分割,代碼逐行詳解,手把手教你處理圖像 | 開源
    那麼,如何優雅且體面的圖像分割?5行代碼、分分鐘實現的庫——PixelLib,了解一下。當然,如此好用的項目,開源是必須的。為什麼要用到圖像分割?雖然計算機視覺研究工作者,會經常接觸圖像分割的問題,但是我們還是需要對其做下「贅述」(方便初學者)。
  • Panoptic-DeepLab的開源PyTorch實現 | CVPR 2020
    Misc目前的一個瑕疵是這份code只「近似」復現了一個ResNet-50的結果(59.0 PQ vs 59.8 PQ on Cityscapes val)。主要原因是我用的TorchVision版本ResNet-50和TensorFlow版本不太一樣,比如在stem上,TensorFlow的版本用了3個conv3x3,而TorchVision版本則用了1個conv7x7。
  • 語義分割方向知乎、公眾號、博客有哪些大V值得關注?
    知乎作者:ycszen,作者主要是關注於圖像分割方向,而且對於圖像分割涉獵比較廣泛,包括了語義分割,視頻分割。作者有很多對於論文的簡評,可以從作者的簡評裡對論文有整體的把握和理解。已發布一系列原創文章包括:三維視覺、SLAM、深度/機器學習、深度相機、入門科普、CV方向簡介、手機雙攝、全景相機、相機標定、醫學圖像、前沿會議、機器人、ARVR、行業趨勢等。非常適合從事計算機視覺領域的人關注。
  • 語義分割最新指南2019版
    語義分割指的是將圖像中的每一個像素關聯到一個類別標籤上的過程,這些標籤可能包括一個人、一輛車、一朵花、一件家具等等。在這篇文章中,作者介紹了近來優秀的語義分割思想與解決方案,它可以稱得上是 2019 語義分割指南了。我們可以認為語義分割是像素級別的圖像分類。例如,在一幅有很多輛車的圖像中,分割模型將會把所有的物體(車)標記為車輛。
  • 圖像語義分割
    圖像語義分割是計算機視覺中十分重要的領域。圖像語義分割是圖像處理和計算機視覺技術中關於圖像理解的重要的一環。語義分割對圖像中的每一個像素點進行分類,確定每個點的類別(如屬於背景、邊緣或身體等)需要和實例分割區分開來。語義分割沒有分離同一類的實例;它關心的只是每個像素的類別,如果輸入對象中有兩個相同類別的對象,則分割本身不會將它們區分為單獨的對象。
  • 今日技點 亂彈 語義分割(Semantic Segmentation)
    在語義分割之上,也有研究在做實例級別的分割(Instance-level Segmentation)的分割,例如給場景中的每一個物體(object),比如人或者車,一個標記(label),用於區分不同的事件(instance)。但該問題不在本文的討論範圍。目前學術界主要有三個benchmark(數據集)用於模型訓練和測試。第一個常用的數據集是Pascal VOC系列。
  • 如何用PyTorch進行語義分割?一個教程教會你|資源
    正值PyTorch 1.7更新,那麼我們這次便給大家帶來一個PyTorch簡單實用的教程資源:用PyTorch進行語義分割。△圖源:stanford該教程是基於2020年ECCV Vipriors Chalange Start Code實現了語義分割,並且添加了一些技巧。
  • Semantic Segmentation Suite圖像分割開源工程
    深度學習AI美顏系列---Semantic Segmentation Suite圖像分割開源工程Semantic Segmentation SuiteGithub上的開源工程Semantic Segmentation Suite(語義分割套件),由來自美國建築智能服務公司的機器學習工程師George Seif創建,使用Tensorflow
  • 業界 | 谷歌發布MobileNetV2:可做語義分割的下一代移動端計算機視覺架構
    2017 年 4 月,谷歌發布了 MobileNet——一個面向有限計算資源環境的輕量級神經網絡。近日,谷歌將這一技術的第二代產品開源,開發者稱,新一代 MobileNet 的模型更小,速度更快,同時還可以實現更高的準確度。
  • 三個優秀的語義分割框架 PyTorch實現
    【導語】本文基於動手深度學習項目講解了FCN進行自然圖像語義分割的流程,並對U-Net和Deeplab網絡進行了實驗,在Github和谷歌網盤上開源了代碼和預訓練模型,訓練和預測的腳本已經做好封裝,讀者可以自行下載使用。
  • 語義分割丨DeepLab系列總結「v1、v2、v3、v3+」
    大採樣率的3×3空洞卷積由於圖像邊界效應無法捕獲長程信息,將退化為1×1的卷積,我們建議將圖像特徵融入ASPP。闡述訓練細節和方法。相關工作現有多個工作表明全局特徵或上下文之間的互相作用有助於做語義分割,我們討論四種不同類型利用上下文信息做語義分割的全卷積網絡。
  • 想學圖像分割,強烈建議從這5篇圖像分割算法綜述
    最近,由於深度學習模型在各種視覺應用中的成功,已經有大量旨在利用深度學習模型開發圖像分割方法的工作。本文提供了對文獻的全面回顧,涵蓋了語義和實例級分割的眾多開創性作品,包括全卷積像素標記網絡,編碼器-解碼器體系結構,多尺度以及基於金字塔的方法,遞歸網絡,視覺注意模型和對抗環境中的生成模型。
  • 圖像分割 2020 總結:結構,損失函數,數據集和框架
    圖像分割主要有兩種類型:語義分割和實例分割。在語義分割中,所有相同類型的對象都使用一個類標籤進行標記,而在實例分割中,相似的對象使用各自的標籤。圖像分割結構圖像分割的基本結構包括編碼器和解碼器。在該模型中,使用一個單獨的分支來處理圖像的形狀信息。利用形狀流來處理邊界信息。