淺談計算機視覺中的圖像標註_易車網

2020-12-23 易車網

什麼是計算機視覺?

計算機視覺被認為是機器學習和人工智慧發展的重要領域之一。簡而言之,計算機視覺是人工智慧研究領域,致力於賦予計算機看世界和視覺解釋世界的能力。

更進一步的說,計算機視覺是一門研究如何使機器「看」的科學,就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,並進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。

計算機視覺的應用非常廣泛,從自動駕駛汽車和無人機到醫療診斷技術和面部識別軟體,計算機視覺的應用是巨大的和革命性的。

圖像標註

圖像標註是計算機視覺的一個子集,是計算機視覺的重要任務之一。圖像標註就是將標籤附加到圖像上的過程。這可以是整個圖像的一個標籤,也可以是圖像中每一組像素的多個標籤。這些標籤是由人工智慧工程師預先確定的,並被選中為計算機視覺模型提供圖像中所顯示的信息。

一個簡單的例子就是為人類標註者提供動物的圖像,並讓他們用正確的動物名稱為每個圖像進行標記。當然,標記的方法依賴於項目所使用的圖像標註類型。這些帶標籤的圖像有時被稱為真實數據,然後將被輸入計算機視覺算法。通過訓練,最後該模型將能夠從未注釋的圖像中區分不同種類的動物。雖然上面的例子非常簡單,但進一步深入到計算機視覺更複雜的領域(如自動駕駛汽車),則就會需要更複雜的圖像標註。

由於計算機視覺研究的是模仿或超越人類視覺能力的機器開發,訓練這樣的模型需要大量的帶標註的圖像。

你用來訓練、驗證和測試你的計算機視覺算法的圖像將對你的人工智慧項目的成功產生重大影響。數據集中的每張圖像都必須經過深思熟慮和準確的標記,以訓練人工智慧系統像人類一樣識別物體。圖像標註的質量越高,機器學習模型的性能就可能越好。

如果沒有圖像標註,那些令人驚嘆的計算機視覺技術都不可能實現。根據項目的不同,每個圖像上的標籤數量可能會有所不同。一些項目將只需要一個標籤來表示整個圖像的內容(圖像分類)。其他項目可能需要在單個圖像中標記多個對象,每個對象帶有不同的標籤。這些標籤通常由計算機視覺科學家或機器學習工程師預先確定。

如何進行圖像標註?

要創建帶標籤的圖像,需要三件事:

1)、圖片

2)、有人給圖片加注釋

3)、一個給圖片做標註的平臺

大多數圖像標註項目都是從尋找和培訓注釋人員來執行標註任務開始的。人工智慧是一個非常專業的領域,但人工智慧訓練數據標註並不總是必需的。雖然你需要機器學習方面的高等教育才能創造一輛自動駕駛汽車,但你不需要碩士學位就可以在圖像中畫汽車周圍的方框(邊界框注釋)。因此,大多數標註者不需要機器學習方面的學位。

但是,這些標註人員應該對每個標註項目的規範和指導方針進行全面的培訓,因為每個公司都有不同的需求。一旦標註人員接受了如何標註數據的培訓,他們就可以在專門用於標註圖像的平臺上標註成百上千的圖像。這個平臺是一個軟體,它應該具有執行特定類型標註所需的所有工具。

常用圖像標註類型

1)、2D和3D包圍框

使用2D邊框,標註者必須在他們想要在圖像中注釋的對象周圍繪製一個框。有時這些目標對象將是相同的,即「請在圖中的每輛自行車周圍畫框。」

其他時候,可能會有多個目標對象,「請在圖中每輛車、行人和自行車周圍畫框。」在這種情況下,在畫出框後,標註者將不得不從標籤列表中選擇屬性給框中的對象。

3D包圍盒也被稱為長方體,除了它們還可以顯示被標註的目標對象的大致深度之外,它們幾乎與2D包圍盒一樣。與2D邊界框標註類似,標註器在目標對象周圍繪製框,確保在對象的邊緣放置錨點。有時目標對象的一部分可能被阻擋。在這種情況下,標註器會估計目標對象阻塞邊緣的位置。

2)、圖像分類

邊界框處理在一個圖像中標註多個對象,而圖像分類是將整個圖像與一個標籤關聯的過程。一個簡單的圖像分類的例子是標記動物的類型。注釋者會得到動物的圖片,並要求他們根據動物種類對每張圖片進行分類。

把這些帶注釋的圖像數據輸入計算機視覺模型,可以讓模型了解每種動物特有的視覺特徵。理論上,該模型將能夠將新的未注釋的動物圖像歸類到適當的物種類別中。

3)、線條和樣條

線條和樣條注釋,顧名思義,就是對圖像上直線或曲線的標註。注釋人員的任務是注釋車道、人行道、電力線和其他邊界指示器。用線條和樣條標註的圖像主要用於車道和邊界識別。此外,它們也經常被用於無人機的軌跡規劃。

從自動駕駛汽車、無人機到倉庫中的機器人等等,線條和樣條標註在各種用例中都很有用。

4)、多邊形

有時,不規則形狀的目標對象不容易用邊界框或長方體來標註。多邊形注釋允許注釋器在目標對象的每個頂點上繪製點。這個注釋方法允許對對象的所有精確邊進行注釋,而不管它的形狀如何。

與邊界框一樣,帶注釋的邊緣內的像素也將被標記為描述目標對象的標籤。

5)、語義分割

邊界盒、長方體和多邊形都處理在圖像中標註單個對象的任務。而語義分割則是對圖像中每一個像素的進行標註。不需要給標註者一個要標註的對象列表,而是給他們一個分段標籤列表,以便將圖像分成幾個部分。比如,自動駕駛汽車的交通圖像語義分割就是一個很好的例子,一個典型的語義分割任務可能會要求標註者通過區別「汽車」、「自行車」、「行人」、「障礙物」、「人行道」、「機動車道」和「建築物」來分割圖像。

圖像標註的實際應用領域

1)、人臉識別

圖像標註的一個常見應用是面部識別。它包括從人臉圖像中提取相關特徵,以區分圖像中的人和物體。

利用關鍵點和地標等圖像標註技術,通過軌跡指向對人臉不同部位的不同點進行跟蹤,增強了人臉識別算法的有效性。

2)、農業技術

圖像標註技術已被應用於農業技術行業的各種任務中。通過識別病害和健康作物的圖像來檢測植物病害,可以通過使用邊界框或語義分割類型來實現。這是圖像標註在農業技術中最基本的應用之一。

3)、安全系統

圖像標註可以在安全系統中使用安全攝像頭標記物品,比如某些特定區域中的可疑包裹。通過語義分割將視頻區域劃分為受限區域和非受限區域,可以實現這一目的。圖像標註也可用於檢測某些可疑的活動。

4)、電子商務

圖像標註用於改進產品列表,還有助於確保客戶找到他們正在尋找的正確產品。這可以通過在搜索查詢和產品標題中標記各種組件的語義分割實現。

5)、機器人

圖像標註的主要應用之一是機器人技術,它幫助機器人區分周圍環境中的各種物體。

易車號作者提供文章

相關焦點

  • 圖像標註的基礎內容介紹
    說到圖像,計算機需要看到人類眼睛看到的東西。 例如,人類有識別和分類物體的能力。同樣,我們可以使用計算機視覺來解釋它接收到的視覺數據。這就是圖像標註的作用。 圖像標註在計算機視覺中起著至關重要的作用。圖像標註的目標是為和任務相關的、特定於任務的標籤。
  • 【新智元乾貨】計算機視覺必讀:目標跟蹤、圖像分類、人臉識別等
    本文以計算機視覺的重要概念為線索,介紹深度學習在計算機視覺任務中的應用,包括網絡壓縮、細粒度圖像分類、看圖說話、視覺問答、圖像理解、紋理生成和風格遷移、人臉識別、圖像檢索、目標跟蹤等。網絡壓縮(network compression)儘管深度神經網絡取得了優異的性能,但巨大的計算和存儲開銷成為其部署在實際應用中的挑戰。有研究表明,神經網絡中的參數存在大量的冗餘。
  • 為何計算機視覺落地難?別說我沒告訴你AI數據的重要性
    計算機視覺作為人工智慧關鍵技術之一,可廣泛應用於交通、零售、醫療、安防、金融、農業、製造業等領域,具有巨大的應用價值。根據前瞻產業研究院的統計,國內人工智慧企業中,有高達42%的企業應用計算機視覺相關技術,其次是語音和自然語言處理,分別佔比24%、19%,兩者之和才與計算機視覺佔比相當。
  • 計算機怎麼識別圖像中的直線?
    計算機是如何知道這張照片中的這條直線的?存在直線嗎?直線在哪裡?點、線、面是基本的幾何元素。歐幾裡得在《幾何原本》中寫道:直線是點朝一個方向以及反方向的無限平鋪。一條直線在圖像中,每個人一眼就能看出來。我們不僅能夠說出圖像中存在一條直線,還可以說出直線經過哪個點,以及直線的方向。
  • 計算機視覺方向簡介 | 多視角立體視覺MVS
    單目微運動生成深度圖計算機視覺方向簡介 | 深度相機室內實時稠密三維重建計算機視覺方向簡介 | 深度圖補全計算機視覺方向簡介 | 人體骨骼關鍵點檢測綜述計算機視覺方向簡介 | 人臉識別中的活體檢測算法綜述計算機視覺方向簡介 | 目標檢測最新進展總結與展望計算機視覺方向簡介 |
  • 光學預處理與計算機視覺結合,UCR學者用漩渦實現混合計算機視覺系統
    從醫學診斷到自動駕駛再到人臉識別,圖像分析在現代技術中無處不在。使用深度學習卷積神經網絡的計算機徹底改變了計算機視覺。但卷積神經網絡(convolutional neural network,CNN)通過從預訓練數據中學習來對圖像進行分類,然而這些數據通常會記住或發展某些偏見。
  • 計算機視覺的研究是如何通過感知來獲取圖像特徵的
    計算機視覺的研究是如何通過感知來獲取圖像特徵的,不同的數據集(如車輛數據集或行人數據集)數據的實時性有不同的要求。那麼如何測試已有數據集,並做目標檢測、定位、跟蹤等任務。數據集中哪些信息對於cnn來說是不重要的?
  • 斯坦福AI實驗室:如何打造基於計算機視覺的智能醫院
    很明顯,需要一種沒有RFID技術缺陷的新解決方案。計算機視覺和醫院我們在史丹福大學與Lucile Packard兒童醫院合作,開發了一種全新的先進方案來追蹤手部衛生工作:它使用前沿的計算機視覺技術,不需要臨床醫生來幹預日常工作。雖然計算機視覺已被用到醫學成像領域,但在醫院的物理空間中還沒有太多用武之地。
  • 今日Paper | TRANSFORMER結構;圖像到圖像翻譯;缺失標註目標檢測...
    REFORMER:一個高效的TRANSFORMER結構具有文本指導的圖像到圖像的翻譯解決背景重校準損失下的缺失標註目標檢測問題MLFcGAN:基於多級特徵融合的條件GAN水下圖像顏色校正from=leiphonecolumn_paperreview0221推薦原因這篇論文提出了一個新的圖像到圖像遷移方法,通過生成對抗網絡將可控因素(即自然語言描述)嵌入到圖像到圖像的遷移中,從而使文字描述可以確定合成圖像的視覺屬性。
  • 麥克阿瑟天才獎得主解碼計算機視覺「原罪」:AI 如何認識人類世界
    在此過程中,他注意到一些問題,比如作為業界標準的ImageNet數據集中,有很多圖像帶有奇怪的標籤,如今計算機視覺界中使用最多的一張女性圖像來自《花花公子》,類似這樣的數據問題以不顯眼但深刻的方式影響著AI研究、應用和AI元素越來越多的整個社會。
  • 計算機視覺的真實應用範例
    計算機視覺,無論是基於硬體還是軟體算法,大多還停留在「cool」的階段,計算機視覺的真實應用範例,它有什麼用,似乎離我們普通人還比較遠。看完這篇文章,也許你就不會這麼認為。發現雪白桌面上一張同樣雪白的 A4 紙?提前一秒預知你的動作是否存在威脅?出現危險情況時,對著鏡頭做「SOS」的手勢警察就會來幫助你? 這些太像科幻片?
  • 華為雲EI問鼎國際圖像識別領域「世界盃」
    WebVision 競賽由蘇黎世聯邦理工(ETH)、Google Research、卡耐基梅隆大學(CMU)等共同組織,是目前圖像識別領域最權威的競賽之一,被業界譽為人工智慧「世界盃」,接棒曾經推動計算機物體分類準確率超過人類的ImageNet 競賽。
  • 網易AI Lab問鼎ACCV 2020細粒度網絡圖像識別賽
    近日,第十五屆亞洲計算機視覺學術會議ACCV 2020(Asian Conference on Computer Vision)國際細粒度網絡圖像識別賽公布最終成績,網易AI Lab以71.4%的準確率擊敗了來自全球的569個頂尖計算機視覺團隊,從超過1000份方案中脫穎而出
  • 計算機視覺華人鼻祖黃煦濤過世
    美國工程院院士、中國科學院外籍院士、計算機視覺華人鼻祖黃煦濤(Thomas S. Huang)於2020年4月25日夜間在美國印第安納小女兒家過世。3個月前,其夫人Margaret也在家人陪伴下過世。
  • AlphaGo 早已擊敗圍棋冠軍,計算機視覺還是 3 歲的 「智力」
    但是現在,AlphaGo 已經擊敗圍棋冠軍,IBM Watson 也在 Jeopardy 中擊敗人類競賽者,而大多數計算機視覺軟體最多只能完成 3 歲兒童的任務……理論與實踐不斷證明,人類視覺神經非常複雜,計算機視覺實現並非易事。計算機視覺研究從上世紀 50 年代興起之後,也歷經了狂歡、冷靜,又重新燃起希望的階段。
  • 深度 歐洲計算機視覺會議(ECCV)開幕在即,搶先看Facebook將展示哪些視覺新技術(附論文)
    通過這種簡單、快速、高效的方法,這篇論文展示了本周第 14 屆歐洲計算機視覺會議(European Conference on Computer Vision(ECCV))將在阿姆斯特丹召開。作為機器視覺的頂級大會,Facebook 研究員們正在著手向他們的同輩們學習,並通過文獻、海報、把特殊興趣小組召集到專題研討會和教程中。
  • OpenAI推出DALL-E模型,一句話即可生成對應圖像
    今天,其博客宣布,推出了兩個結合計算機視覺和NLP結合的多模態模型:DALL-E和CLIP,它們可以通過文本,直接生成對應圖像,堪稱圖像版「GPT-3」。 比GPT-3更牛的東西,還真被Open AI 搞出來了。最近,OpenAI官宣了一個基於Transformer的語言模型--DALL-E,使用了GPT-3的120億參數版本。
  • 作品集遞交前必讀 康石石淺談Portfolio中的排版策略
    內容整理作品集排版,不同於書籍、雜誌,掌握好每篇文章圖版率(圖片與文字的面積比),把握整體好風格、節奏、整理過程中,有兩點需要強調:1.分類在創作作品集中的學習過程中,同學們會跟隨創作或教學進度,建立設計方法論,明確各個設計流程。在作品集完成後,同學們首先需要依據流程建立文件夾,梳理各個環節中的圖像、文字等素材資料。