語義分割概念及應用介紹

2021-01-09 阿里云云棲號

近年來,以深度學習為中心的機器學習技術引起了人們的關注。比如自動駕駛汽車已經逐漸成為可能,但在整個深度學習過程,需要算法識別和學習作為原始數據提供的圖像,在這一過程中,應用到了語義分割技術。下面讓我們來看看語義分割的需求是如何演變的。

早期,計算機視覺的初始應用需求只是識別基本元素,例如邊緣(線和曲線)或漸變。然而,僅僅通過全像素語義分割的創造來理解像素級的圖像,它將屬於同一目標的圖像部分聚集在一起,從而擴展了語義分割的應用場景。

識別每個像素或分組像素一起分配類別的過程可以通過以下過程:

圖像分類(image classification)——識別圖像中存在的內容;

物體識別和檢測(object recognition and detection)——識別圖像中存在的內容和位置(通過邊界框);

語義分割(semantic segmentation) ——識別圖像中存在的內容以及位置(通過查找屬於它的所有像素)

下面進入本文的主要內容:

什麼是語義分割?

語義分割是一種典型的計算機視覺問題,其涉及將一些原始數據(例如,平面圖像)作為輸入並將它們轉換為具有突出顯示的感興趣區域的掩模。許多人使用術語全像素語義分割(full-pixel semantic segmentation),其中圖像中的每個像素根據其所屬的感興趣對象被分配類別ID。

早期的計算機視覺問題只發現邊緣(線條和曲線)或漸變等元素,但它們從未完全按照人類感知的方式提供像素級別的圖像理解。語義分割將屬於同一目標的圖像部分聚集在一起來解決這個問題,從而擴展了其應用領域。

注意,與其他基於圖像的任務相比,語義分割是完全不同的且先進的,例如,

你設計的機器學習模型是否需要識別輸入原始平面圖像中的每個像素?在這種情況下,全像素語義分割標註是機器學習模型的關鍵。全像素語義分割根據其所屬的感興趣對象分配圖像中的每個像素具有的類別ID。

下面定義語義分割的類型,以便更好地理解其相關概念。

語義分割的類型

下面探索語義分割的一些應用領域,以便更好地理解這種過程的需要。

語義分割的特徵

為了理解圖像分割的特徵,我們還要與其他常見的圖像分類技術相比較。

這一次將介紹以下三類技術領域,包括圖像分割:

1)圖像分類:識別圖像是什麼;

2)圖像檢測和識別:識別圖像中的位置;

3)圖像分割:理解圖像的意義;

1.圖像分類

這類技術主要是識別圖像。例如,例如分類數字手寫體,例如「手寫一個數字,這個數字是0~9中的哪一個數字」。最初從亞馬遜發布的Amazon Rekognition也屬於此圖像分類,需要反區分「杯子、智慧型手機和瓶子」等,但現在,亞馬遜Rekognition已經將杯子和咖啡杯作為整個圖像的標籤,這樣處理後,它將不能用於分類圖像中有多個物體的場景。在這種情況下,應該將使用「圖像檢測」技術。

2.圖像檢測

這類技術主要是識別圖像中「有什麼」和「它在哪裡」。

3.圖像分割

這類技術主要是識別圖像區域。稱為語義分割的圖像分割標記由每個像素的像素指示的含義,而不是檢測整個圖像或圖像的一部分。

下面,讓我們看看語義分割具體的使用例子:

語義分割的應用

語義分割問題也可以被認為是分類問題,其中每個像素被分類為來自一系列對象類中的某一個。因此一個使用案例是利用土地的衛星影像製圖。土地覆蓋信息是重要的各種應用,如監測地區的森林砍伐和城市化等。

為了識別衛星圖像上每個像素的土地覆蓋類型(例如,城市、農業、水等區域),土地覆蓋分類可以被視為多級語義分割任務。道路和建築物檢測也是交通管理,城市規劃和道路監測的重要研究課題。

目前,幾乎沒有大規模公開可用的數據集(例如:SpaceNet),數據標記始終是分割任務的瓶頸。

自動駕駛是一項複雜的機器人任務,需要在不斷變化的環境中進行感知、規劃和執行。由於其安全性至關重要,因此還需要以最高精度執行此任務。語義分割提供有關道路上自由空間的信息,以及檢測車道標記和交通標誌等信息。

面部的語義分割通常涉及諸如皮膚、頭髮、眼睛、鼻子、嘴巴和背景等的分類。面部分割在計算機視覺的許多面部應用中是有用的,例如性別、表情、年齡和種族的估計。影響人臉分割數據集和模型開發的顯著因素是光照條件、面部表情、面部朝向、遮擋和圖像解析度的變化等。

由於服裝數量眾多,服裝解析與其他服務相比是一項非常複雜的任務。這與一般的物體或場景分割問題不同,因為細粒度的衣物分類需要基於衣服的語義、人體姿勢的可變性和潛在的大量類別的更高級別判斷。服裝解析在視覺領域中得到了積極的研究,因為它在現實世界的應用程式即電子商務中具有巨大的價值。Fashionista和CFPD數據集等一些公開的數據集促進了服裝領域的語義分割研究。

精確農業機器人可以減少需要在田間噴灑的除草劑的數量,作物和雜草的語義分割可以幫助他們實時觸發除草行為,這種先進的農業圖像視覺技術可以減少對農業的人工監測,提高農業效率和降低生產成本。


相關焦點

  • 圖像分割系列<->語義分割
    這期我們就來講講語義分割(Semantic Segmantation), 語義分割是指將圖像中的每一個像素都賦予一個類別標籤,用不同的顏色表示。 一、語義分割的概念和基礎 舉例:在對於我們人來說,給出這一幅圖,我們很容易知道圖片中那部分是貓,那些部分是落葉,那計算機怎麼是如何判別呢?
  • 2019 語義分割指南
    這種分割在計算對象數量的應用程式中非常有用,例如計算商城的行人流量。它的一些主要應用是在自動駕駛、人機互動、機器人和照片編輯/創意工具中。例如,語義分割在汽車自動駕駛和機器人技術中是至關重要的,因為對於一個模型來說,了解其所處環境中的語義信息是非常重要的。
  • CVPR 2018:新型語義分割模型:動態結構化語義傳播網絡DSSPN
    近日,來自 CMU、Petuum 等機構的研究者提出一種新型語義分割模型動態結構化語義傳播網絡 DSSPN,通過將語義概念層次明確地結合到網絡中來構建語義神經元圖。實驗證明 DSSPN 優於當前最優的分割模型。
  • 入門| 一文了解什麼是語義分割及常用的語義分割方法有哪些
    語義分割是計算機視覺中的基礎任務,我們通常會使用基於 CNN 加 CRF 的方法或直接使用對抗性的訓練實現端到端的分割。本文簡要介紹了這兩種方法及它們的特點。人類是如何描述場景的?我們可能會說「窗戶下有一張桌子」,或者「沙發右邊有一盞燈」。
  • 語義分割領域開山之作:Google提出用神經網絡搜索實現語義分割
    Google 儼然已是圖像語義分割領域的高產霸主,Liang-Chieh 從 Deeplabv1- Deeplabv3+ 持續發力,還是 MobileNetV2 共同作者,如今在 NAS 領域開發處女地:基於 NAS 的語義分割模型,性能超過之前的基於 MobileNetV2 的 Network Backbone。2.
  • 韓國科學技術院在讀博士潘飛:語義分割場景中域適應問題的研究 |...
    基於卷積神經網絡的監督學習方法近幾年在語義分割任務裡取得了顯著進展。但是,這種方法十分依賴於大量帶注釋的數據進行訓練。為了解決這種限制,通常將從圖形引擎生成自動注釋數據,並用來訓練語義分割網絡。但是,從圖形引擎裡生成的數據訓練的模型很難遷移到真實世界採集到的圖像數據。針對遷移學習的問題,目前主流的是使用域適應或遷移學習的方法來解決圖像分割任務中的遷移學習問題。
  • MMSegmentation:標準統一的語義分割框架
    語義分割作為計算機視覺中一項基礎任務,同時在自動駕駛/視頻編輯等領域中有重要的應用,因此一直受到學術界和工業界的廣泛關注。在近幾年的會議中,語義分割的論文層出不窮,但是市面上一直缺乏一款能夠相對公平比較各種方法的框架。為了方便研究員和工程師們,OpenMMLab開源了一套基於 PyTorch 實現的標準統一的語義分割框架:MMSegmentation。
  • 從全卷積網絡到大型卷積核:深度學習的語義分割全指南
    By路雪 2017年7月14日  語義分割一直是計算機視覺中十分重要的領域,隨著深度學習的流行,語義分割任務也得到了大量的進步。本文首先闡釋何為語義分割,然後再從論文出發概述多種解決方案。本文由淺層模型到深度模型,簡要介紹了語義分割各種技術,雖然本文並沒有深入講解語義分割的具體實現,但本文簡要地概述了每一篇重要論文的精要和亮點,希望能給讀者一些指南。
  • 谷歌開源語義圖像分割模型:該領域當前最優模型
    GitHub 地址:https://github.com/tensorflow/models/tree/master/research/deeplab語義圖像分割任務是指將語義標籤(例如「道路」、「天空」、「人」、「狗」)分配給圖像中的每一個像素,這種技術有很多新應用,例如,Pixel 2 和 Pixel 2 XL 智慧型手機中肖像模式的合成淺景深效應,以及行動裝置的實時語義分割等
  • DeepLabv3+:語義分割領域的新高峰
    +,在語義分割領域取得新的 state-of-the-art 水平。在實驗中發現 DCNNs 做語義分割時精準度不夠的問題,根本原因是 DCNNs 的高級特徵的平移不變性,即高層次特徵映射,根源於重複的池化和下採樣。 針對信號下採樣或池化降低解析度,DeepLab 是採用的 atrous(帶孔)算法擴展感受野,獲取更多的上下文信息。
  • 標準統一的語義分割框架
    ,同時在自動駕駛/視頻編輯等領域中有重要的應用,因此一直受到學術界和工業界的廣泛關注。在近幾年的會議中,語義分割的論文層出不窮,但是市面上一直缺乏一款能夠相對公平比較各種方法的框架。為了方便研究員和工程師們,我們開源了一套基於 PyTorch 實現的標準統一的語義分割框架:MMSegmentation。
  • 9102年了,語義分割的入坑指南和最新進展都是什麼樣的
    在這篇文章中,作者介紹了近來優秀的語義分割思想與解決方案,它可以稱得上是 2019 語義分割指南了。我們可以認為語義分割是像素級別的圖像分類。例如,在一幅有很多輛車的圖像中,分割模型將會把所有的物體(車)標記為車輛。但是,另一種被稱為實例分割的模型能夠將出現在圖像中的獨立物體標記為獨立的實例。這種分割在被用在統計物體數量的應用中是很有用的(例如,統計商城中的客流量)。
  • CVPR 2019 Oral 論文解讀 | 無監督域適應語義分割
    該論文提出了一種從「虛擬域」泛化到「現實域」的無監督語義分割算法,旨在利用易獲取的虛擬場景標註數據來完成對標註成本高昂的現實場景數據的語義分割,大大減少了人工標註成本。 本文是論文作者之一羅亞威為雷鋒網 AI 科技評論提供的論文解讀。
  • 語義分割中的深度學習方法全解:從FCN、SegNet到各版本DeepLab
    發布這篇文章的Qure.ai,是一家用深度學習來讀取醫學影像的公司,他們在官方博客上梳理了語義分割中的深度學習方法。 他們希望通過這份介紹,能讓大家了解這個已經在自然圖像處理比較成熟、但是在醫學圖像中仍需發展的新興技術。
  • 語義分割標註工具Semantic Segmentation Editor 快速安裝指南
    >,該工具專門用於創建機器學習語義分割的訓練數據,為自動駕駛研究開發的,但也可以用於標註其他類型的語義目標資料庫。它是使用React, Paper.js和three.js開發的Meteor應用程式。如果在安裝過程中仍然不能夠順利下載所需的安裝包,可以在公眾號後臺回復【分割標註】獲取下載連結,進行下載。
  • 鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社...
    近日,在雷鋒網 AI 研習社公開課上,新加坡科學設計大學在讀博士鄒炎炎就用通俗易懂的語言為大家介紹了 semantic parsing 的概念、背景以及自己在該領域的論文成果,並介紹了關於 output embedding 對於 semantic parsing 的影響。公開課回放視頻網址:http://www.mooc.ai/open/course/544?
  • SLAM的動態地圖和語義問題
    放個SLAM的標準圖:前端+後端SLAM問題是一個factor graph:基本上,語義地圖可以分為三種方法來加注語義概念:SLAM幫助語義概念;語義概念幫助SLAM;語義概念和SLAM聯合求解。系統示意圖如下:其中關鍵的segment CNN 結構如下:12.Vision-based Semantic Mapping and Localization for Autonomous Indoor Parking室內自動泊車採用語義地圖的應用。
  • 圖像語義分割之特徵整合和結構預測
    餘昌黔華中科技大學碩士研究方向為圖像語義分割知乎專欄https://zhuanlan.zhihu.com/semantic-segmentation前言近來閱讀了 PASCAL VOC 2012 排行榜上前幾的文章,包括 PSPNet 和林國省老師的幾篇論文,覺得現在在 semantic segmentation 領域對於 Multi-scale Features
  • 如何用PyTorch進行語義分割?一個教程教會你
    正值PyTorch 1.7更新,那麼我們這次便給大家帶來一個PyTorch簡單實用的教程資源:用PyTorch進行語義分割。△圖源:stanford該教程是基於2020年ECCV Vipriors Chalange Start Code實現了語義分割,並且添加了一些技巧。
  • 重新發現語義分割,一文簡述全卷積網絡
    本文利用筆記本電腦構建了一個小型全卷積網絡,詳細介紹了全卷積網絡的思路、過程等等,值得一看語義分割是一種學習如何識別圖像中對象範圍的機器學習技術。語義分割賦予機器學習系統與人類相似的理解圖像內容的能力。它促使機器學習算法定位對象的精準邊界,無論是街景圖像中的汽車和行人,還是醫療圖像中的心臟、肝臟和腎臟。