淺談計算機視覺中的圖像標註_易車網

2020-12-21 易車網

什麼是計算機視覺?

計算機視覺被認為是機器學習和人工智慧發展的重要領域之一。簡而言之,計算機視覺是人工智慧研究領域,致力於賦予計算機看世界和視覺解釋世界的能力。

更進一步的說,計算機視覺是一門研究如何使機器「看」的科學,就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,並進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。

計算機視覺的應用非常廣泛,從自動駕駛汽車和無人機到醫療診斷技術和面部識別軟體,計算機視覺的應用是巨大的和革命性的。

圖像標註

圖像標註是計算機視覺的一個子集,是計算機視覺的重要任務之一。圖像標註就是將標籤附加到圖像上的過程。這可以是整個圖像的一個標籤,也可以是圖像中每一組像素的多個標籤。這些標籤是由人工智慧工程師預先確定的,並被選中為計算機視覺模型提供圖像中所顯示的信息。

一個簡單的例子就是為人類標註者提供動物的圖像,並讓他們用正確的動物名稱為每個圖像進行標記。當然,標記的方法依賴於項目所使用的圖像標註類型。這些帶標籤的圖像有時被稱為真實數據,然後將被輸入計算機視覺算法。通過訓練,最後該模型將能夠從未注釋的圖像中區分不同種類的動物。雖然上面的例子非常簡單,但進一步深入到計算機視覺更複雜的領域(如自動駕駛汽車),則就會需要更複雜的圖像標註。

由於計算機視覺研究的是模仿或超越人類視覺能力的機器開發,訓練這樣的模型需要大量的帶標註的圖像。

你用來訓練、驗證和測試你的計算機視覺算法的圖像將對你的人工智慧項目的成功產生重大影響。數據集中的每張圖像都必須經過深思熟慮和準確的標記,以訓練人工智慧系統像人類一樣識別物體。圖像標註的質量越高,機器學習模型的性能就可能越好。

如果沒有圖像標註,那些令人驚嘆的計算機視覺技術都不可能實現。根據項目的不同,每個圖像上的標籤數量可能會有所不同。一些項目將只需要一個標籤來表示整個圖像的內容(圖像分類)。其他項目可能需要在單個圖像中標記多個對象,每個對象帶有不同的標籤。這些標籤通常由計算機視覺科學家或機器學習工程師預先確定。

如何進行圖像標註?

要創建帶標籤的圖像,需要三件事:

1)、圖片

2)、有人給圖片加注釋

3)、一個給圖片做標註的平臺

大多數圖像標註項目都是從尋找和培訓注釋人員來執行標註任務開始的。人工智慧是一個非常專業的領域,但人工智慧訓練數據標註並不總是必需的。雖然你需要機器學習方面的高等教育才能創造一輛自動駕駛汽車,但你不需要碩士學位就可以在圖像中畫汽車周圍的方框(邊界框注釋)。因此,大多數標註者不需要機器學習方面的學位。

但是,這些標註人員應該對每個標註項目的規範和指導方針進行全面的培訓,因為每個公司都有不同的需求。一旦標註人員接受了如何標註數據的培訓,他們就可以在專門用於標註圖像的平臺上標註成百上千的圖像。這個平臺是一個軟體,它應該具有執行特定類型標註所需的所有工具。

常用圖像標註類型

1)、2D和3D包圍框

使用2D邊框,標註者必須在他們想要在圖像中注釋的對象周圍繪製一個框。有時這些目標對象將是相同的,即「請在圖中的每輛自行車周圍畫框。」

其他時候,可能會有多個目標對象,「請在圖中每輛車、行人和自行車周圍畫框。」在這種情況下,在畫出框後,標註者將不得不從標籤列表中選擇屬性給框中的對象。

3D包圍盒也被稱為長方體,除了它們還可以顯示被標註的目標對象的大致深度之外,它們幾乎與2D包圍盒一樣。與2D邊界框標註類似,標註器在目標對象周圍繪製框,確保在對象的邊緣放置錨點。有時目標對象的一部分可能被阻擋。在這種情況下,標註器會估計目標對象阻塞邊緣的位置。

2)、圖像分類

邊界框處理在一個圖像中標註多個對象,而圖像分類是將整個圖像與一個標籤關聯的過程。一個簡單的圖像分類的例子是標記動物的類型。注釋者會得到動物的圖片,並要求他們根據動物種類對每張圖片進行分類。

把這些帶注釋的圖像數據輸入計算機視覺模型,可以讓模型了解每種動物特有的視覺特徵。理論上,該模型將能夠將新的未注釋的動物圖像歸類到適當的物種類別中。

3)、線條和樣條

線條和樣條注釋,顧名思義,就是對圖像上直線或曲線的標註。注釋人員的任務是注釋車道、人行道、電力線和其他邊界指示器。用線條和樣條標註的圖像主要用於車道和邊界識別。此外,它們也經常被用於無人機的軌跡規劃。

從自動駕駛汽車、無人機到倉庫中的機器人等等,線條和樣條標註在各種用例中都很有用。

4)、多邊形

有時,不規則形狀的目標對象不容易用邊界框或長方體來標註。多邊形注釋允許注釋器在目標對象的每個頂點上繪製點。這個注釋方法允許對對象的所有精確邊進行注釋,而不管它的形狀如何。

與邊界框一樣,帶注釋的邊緣內的像素也將被標記為描述目標對象的標籤。

5)、語義分割

邊界盒、長方體和多邊形都處理在圖像中標註單個對象的任務。而語義分割則是對圖像中每一個像素的進行標註。不需要給標註者一個要標註的對象列表,而是給他們一個分段標籤列表,以便將圖像分成幾個部分。比如,自動駕駛汽車的交通圖像語義分割就是一個很好的例子,一個典型的語義分割任務可能會要求標註者通過區別「汽車」、「自行車」、「行人」、「障礙物」、「人行道」、「機動車道」和「建築物」來分割圖像。

圖像標註的實際應用領域

1)、人臉識別

圖像標註的一個常見應用是面部識別。它包括從人臉圖像中提取相關特徵,以區分圖像中的人和物體。

利用關鍵點和地標等圖像標註技術,通過軌跡指向對人臉不同部位的不同點進行跟蹤,增強了人臉識別算法的有效性。

2)、農業技術

圖像標註技術已被應用於農業技術行業的各種任務中。通過識別病害和健康作物的圖像來檢測植物病害,可以通過使用邊界框或語義分割類型來實現。這是圖像標註在農業技術中最基本的應用之一。

3)、安全系統

圖像標註可以在安全系統中使用安全攝像頭標記物品,比如某些特定區域中的可疑包裹。通過語義分割將視頻區域劃分為受限區域和非受限區域,可以實現這一目的。圖像標註也可用於檢測某些可疑的活動。

4)、電子商務

圖像標註用於改進產品列表,還有助於確保客戶找到他們正在尋找的正確產品。這可以通過在搜索查詢和產品標題中標記各種組件的語義分割實現。

5)、機器人

圖像標註的主要應用之一是機器人技術,它幫助機器人區分周圍環境中的各種物體。

易車號作者提供文章

相關焦點

  • 淺談計算機視覺中的圖像標註
    什麼是計算機視覺?計算機視覺被認為是機器學習和人工智慧發展的重要領域之一。簡而言之,計算機視覺是人工智慧研究領域,致力於賦予計算機看世界和視覺解釋世界的能力。圖像標註圖像標註是計算機視覺的一個子集,是計算機視覺的重要任務之一。圖像標註就是將標籤附加到圖像上的過程。這可以是整個圖像的一個標籤,也可以是圖像中每一組像素的多個標籤。這些標籤是由人工智慧工程師預先確定的,並被選中為計算機視覺模型提供圖像中所顯示的信息。
  • 計算機視覺:圖像檢測和圖像分割有什麼區別?
    字幕組雙語原文:計算機視覺:圖像檢測和圖像分割有什麼區別?翻譯:雷鋒字幕組(明明知道)人工智慧中的圖像處理人工智慧對於圖像處理有不同的任務。在本文中,我將介紹目標檢測和圖像分割之間的區別。在這兩個任務中,我們都希望找到圖像中某些感興趣的項目的位置。
  • 什麼是計算機視覺?什麼是機器視覺?
    然而,小夥伴們知道視覺對於機器人是多麼難能可貴嗎?我們平時所說的計算機視覺和機器視覺又有什麼區別呢?今天小編就為大家講一講什麼是計算機視覺、什麼又是機器視覺。首先在很多文獻中,計算機視覺與機器視覺是不加區分的,但其實這兩個術語既有區別又有聯繫的。
  • 圖像識別與人工智慧圖像識別和機器視覺有什麼區別
    人工智慧領域發展到現在,ai與人工智慧、圖像識別領域、計算機視覺領域等近年來越來越多的整合和融合。首先,人工智慧在生活工作中將普遍應用;其次,人工智慧在不同的工作場景都有其應用,從金融到醫療,從服務到工廠,應用無處不在;最後,人工智慧正在與自動駕駛技術等聯繫在一起。
  • 國內外計算機圖形圖像行業發展概況與六大趨勢
    國內外計算機圖形圖像(CG)行業發展概況與六大趨勢(附報告目錄) 1、計算機圖形圖像行業概況 CG是英文Computer Graphics的縮寫,中文譯為「計算機圖形圖像」,核心概念是數碼圖像
  • 計算機視覺「奧斯卡」CVPR 2020公布收錄論文
    近日,計算機視覺領域「奧斯卡」CVPR 2020官方公布論文收錄結果,伴隨投稿數量激增,接收率開始經歷了一個持續下降的過程。今年,在6656篇有效投稿中,共有1470篇論文被接收,接收率為22%左右,相較去年25%的入選率,同比下降3%。
  • 網易AI Lab問鼎ACCV 2020細粒度網絡圖像識別賽
    近日,第十五屆亞洲計算機視覺學術會議ACCV 2020(Asian Conference on Computer Vision)國際細粒度網絡圖像識別賽公布最終成績,網易AI Lab以71.4%的準確率擊敗了來自全球的569個頂尖計算機視覺團隊,從超過1000份方案中脫穎而出
  • 競賽丨首屆CSIG圖像圖形技術挑戰賽火熱進行中
    如果參賽隊伍數量少於20支,冠亞季軍的獎金酌情減少  劉敬禹  liujingyu@deepwise.com  競賽項目三:遮擋目標和群目標檢測  競賽網址  https://house.evaluateai.cn/  目的與意義  在計算機視覺應用尤其是自動駕駛和視覺導航中
  • 衣+獲ImageNet2015計算機視覺競賽五項世界第一
    原標題:衣+獲ImageNet2015計算機視覺競賽五項世界第一   素有國際「計算機視覺奧林匹克」之稱的 ImageNet2015競賽結果揭曉。   ImageNet一直被譽為國際計算機視覺領域的「奧林匹克」。歷次競賽結果對工業界以及學術屆都會產生深遠的影響,並且作為風向標指引著未來計算機視覺的發展方向。
  • 為助計算機視覺實現新突破,谷歌發布最大人工和自然地標數據集
    圖像分類技術在過去幾年中取得了顯著的進步,這在一定程度上體現在Imagenet 分類挑戰上,機器的誤差率每年都在大幅下降。為了繼續推進計算機視覺技術的先進水平,許多研究人員現在更多地關注細粒度和實例級的識別問題,而不是識別一般實體,如建築物、山脈,當然還有貓,許多人正在設計能夠識別艾菲爾鐵塔、富士山或波斯貓的機器學習算法。然而,這一領域研究的一個重大障礙是缺乏大量帶注釋的數據集。
  • 計算機視覺/圖像處理學術速遞[11.03]
    tables連結:https://arxiv.org/abs/2011.00362【4】 Unsupervised Deep Persistent Monocular Visual Odometry and Depth Estimation in Extreme Environments標題:極端環境下無監督深度持續單目視覺裡程計與深度估計
  • 「python opencv 計算機視覺零基礎實戰」第一節
    一、學習目標安裝opencv了解什麼是計算機視覺了解讀取圖片的方法了解顯示圖片的方法二、完成opencv的helloworld程序編寫2.1 opencv是什麼要了解opencv是什麼,首先可以看那計算機視覺指的是什麼呢?計算機視覺並不是指計算機可以去查看某些東西,這個說法太過片面,並不嚴謹;計算機視覺其實是研究如何讓計算機去代替人去觀察,並且進行一些目標上的處理。在opencv中,集成了很多方法,可以讓我們開發者很容易的完成某些視覺上的操作,完成某些目標;通過opencv,可以讓我們無需了解太多的算法知識,簡便的進行開發。
  • 新的快速圖像轉手繪方法,人類水準、戶外場景
    作者們尤其希望讀者關注下面那張臥室的生成手繪圖像。其中的物體邊界線並不像初學繪畫的人那樣畫成了完全的直線。從照片生成簡筆畫或者素描樣式的手繪圖像是許多普通人都感興趣的計算機視覺任務。為了便於視覺理解及簡筆畫生成的後續研究,作者們也一併發布了這個數據集,它由一組組圖像和對應的輪廓簡筆畫組成。數據中含有 1000 張戶外場景的照片,每張照片都有 5 張對應的人類繪製的輪廓簡筆畫(一共 5000 張)。簡筆畫中的筆畫已經與照片中的邊界做過粗略的對齊,便於把人類的筆畫和照片中的邊界對應起來。
  • 頂級AI醫學影像課程,第四期:實戰中的數據標註、算法方法、算力優化
    本期課程詳情在第一期的課程中,北京大學王立威教授多次強調:單純將圖像識別技術嫁接到醫學影像上,還遠遠不夠。醫學圖像除了自身與常見圖像差異極大外,對數據的標註也有著特殊的要求,同時面臨數據稀缺、尺寸大、隱私性高、3D圖像較多等問題……這些棘手難題,使得AI在醫學影像分析的多個核心環節中,不得不做出巨大妥協。犧牲A,成就B,十分被動。
  • 計算機視覺/圖像處理學術速遞[02.15]
    hair dyeing, hairstyle translation連結:https://arxiv.org/abs/2102.06288【4】 COVID-19 detection from scarce chest x-ray image data using deep learning標題:利用深度學習從稀缺的胸部X光圖像數據中檢測冠狀病毒
  • NLP攜手Transformer跨界計算機視覺,DETR:目標檢測新範式
    但令人意外的是,Transformer 在 CV 界卻反響平平,一度認為不適合 CV 領域,直到最近計算機視覺領域出來幾篇 Transformer 文章,性能直逼 CNN 的 SOTA,給予了計算機視覺領域新的想像空間,Transformer 在計算機視覺領域的範式已經初具雛形。
  • 3D視覺CV界的終極體現形式,計算機如何「看」這個三維世界
    這些技術的背後涉及了 3D 視覺相關內容,那麼計算機是如何「看」這個三維世界的?隨著信息技術的快速發展,計算機視覺 3D 技術已經應用到了諸多領域,推動了虛擬實境(VR)、增強現實(AR)等技術的不斷進步。3D 視覺問題變得越來越重要,它提供了比 2D 更加豐富的圖像信息。
  • 淺談立體視覺
    之所以可以具備這些能力,主要依靠人眼的如下幾種機能:雙目視差(Binocular Parallax)、運動視差(Motion Parallax)、眼睛的適應性調節(Accommodation)、視差圖像在人腦的融合(Convergence)。
  • 計算機的眼睛——Computer Version
    但能真正實現計算機能夠通過攝像機感知這個世界卻是非常之難,因為雖然攝像機拍攝的圖像我們平時所見一樣,但對於計算機來說,任何圖像都只是如上圖右半邊所示的像素值排列,是一堆死板的數字。如何讓計算機從這些死板的數字裡面讀取到有意義的視覺線索,是計算機視覺應該解決的問題。然而,計算機視覺發展多年,卻依然存在著一系列難以解決的難題。