近年來,以深度學習為中心的機器學習技術引起了人們的關注。比如自動駕駛汽車已經逐漸成為可能,但在整個深度學習過程,需要算法識別和學習作為原始數據提供的圖像,在這一過程中,應用到了語義分割技術。下面讓我們來看看語義分割的需求是如何演變的。
早期,計算機視覺的初始應用需求只是識別基本元素,例如邊緣(線和曲線)或漸變。然而,僅僅通過全像素語義分割的創造來理解像素級的圖像,它將屬於同一目標的圖像部分聚集在一起,從而擴展了語義分割的應用場景。
識別每個像素或分組像素一起分配類別的過程可以通過以下過程:
圖像分類(image classification)——識別圖像中存在的內容;
物體識別和檢測(object recognition and detection)——識別圖像中存在的內容和位置(通過邊界框);
語義分割(semantic segmentation) ——識別圖像中存在的內容以及位置(通過查找屬於它的所有像素)
下面進入本文的主要內容:
什麼是語義分割?語義分割是一種典型的計算機視覺問題,其涉及將一些原始數據(例如,平面圖像)作為輸入並將它們轉換為具有突出顯示的感興趣區域的掩模。許多人使用術語全像素語義分割(full-pixel semantic segmentation),其中圖像中的每個像素根據其所屬的感興趣對象被分配類別ID。
早期的計算機視覺問題只發現邊緣(線條和曲線)或漸變等元素,但它們從未完全按照人類感知的方式提供像素級別的圖像理解。語義分割將屬於同一目標的圖像部分聚集在一起來解決這個問題,從而擴展了其應用領域。
注意,與其他基於圖像的任務相比,語義分割是完全不同的且先進的,例如,
你設計的機器學習模型是否需要識別輸入原始平面圖像中的每個像素?在這種情況下,全像素語義分割標註是機器學習模型的關鍵。全像素語義分割根據其所屬的感興趣對象分配圖像中的每個像素具有的類別ID。
下面定義語義分割的類型,以便更好地理解其相關概念。
語義分割的類型下面探索語義分割的一些應用領域,以便更好地理解這種過程的需要。
語義分割的特徵為了理解圖像分割的特徵,我們還要與其他常見的圖像分類技術相比較。
這一次將介紹以下三類技術領域,包括圖像分割:
1)圖像分類:識別圖像是什麼;
2)圖像檢測和識別:識別圖像中的位置;
3)圖像分割:理解圖像的意義;
1.圖像分類
這類技術主要是識別圖像。例如,例如分類數字手寫體,例如「手寫一個數字,這個數字是0~9中的哪一個數字」。最初從亞馬遜發布的Amazon Rekognition也屬於此圖像分類,需要反區分「杯子、智慧型手機和瓶子」等,但現在,亞馬遜Rekognition已經將杯子和咖啡杯作為整個圖像的標籤,這樣處理後,它將不能用於分類圖像中有多個物體的場景。在這種情況下,應該將使用「圖像檢測」技術。
2.圖像檢測
這類技術主要是識別圖像中「有什麼」和「它在哪裡」。
3.圖像分割
這類技術主要是識別圖像區域。稱為語義分割的圖像分割標記由每個像素的像素指示的含義,而不是檢測整個圖像或圖像的一部分。
下面,讓我們看看語義分割具體的使用例子:
語義分割的應用語義分割問題也可以被認為是分類問題,其中每個像素被分類為來自一系列對象類中的某一個。因此一個使用案例是利用土地的衛星影像製圖。土地覆蓋信息是重要的各種應用,如監測地區的森林砍伐和城市化等。
為了識別衛星圖像上每個像素的土地覆蓋類型(例如,城市、農業、水等區域),土地覆蓋分類可以被視為多級語義分割任務。道路和建築物檢測也是交通管理,城市規劃和道路監測的重要研究課題。
目前,幾乎沒有大規模公開可用的數據集(例如:SpaceNet),數據標記始終是分割任務的瓶頸。
自動駕駛是一項複雜的機器人任務,需要在不斷變化的環境中進行感知、規劃和執行。由於其安全性至關重要,因此還需要以最高精度執行此任務。語義分割提供有關道路上自由空間的信息,以及檢測車道標記和交通標誌等信息。
面部的語義分割通常涉及諸如皮膚、頭髮、眼睛、鼻子、嘴巴和背景等的分類。面部分割在計算機視覺的許多面部應用中是有用的,例如性別、表情、年齡和種族的估計。影響人臉分割數據集和模型開發的顯著因素是光照條件、面部表情、面部朝向、遮擋和圖像解析度的變化等。
由於服裝數量眾多,服裝解析與其他服務相比是一項非常複雜的任務。這與一般的物體或場景分割問題不同,因為細粒度的衣物分類需要基於衣服的語義、人體姿勢的可變性和潛在的大量類別的更高級別判斷。服裝解析在視覺領域中得到了積極的研究,因為它在現實世界的應用程式即電子商務中具有巨大的價值。Fashionista和CFPD數據集等一些公開的數據集促進了服裝領域的語義分割研究。
精確農業機器人可以減少需要在田間噴灑的除草劑的數量,作物和雜草的語義分割可以幫助他們實時觸發除草行為,這種先進的農業圖像視覺技術可以減少對農業的人工監測,提高農業效率和降低生產成本。