什麼是計算機視覺?
計算機視覺被認為是機器學習和人工智慧發展的重要領域之一。簡而言之,計算機視覺是人工智慧研究領域,致力於賦予計算機看世界和視覺解釋世界的能力。
更進一步的說,計算機視覺是一門研究如何使機器「看」的科學,就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,並進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。
計算機視覺的應用非常廣泛,從自動駕駛汽車和無人機到醫療診斷技術和面部識別軟體,計算機視覺的應用是巨大的和革命性的。
圖像標註
圖像標註是計算機視覺的一個子集,是計算機視覺的重要任務之一。圖像標註就是將標籤附加到圖像上的過程。這可以是整個圖像的一個標籤,也可以是圖像中每一組像素的多個標籤。這些標籤是由人工智慧工程師預先確定的,並被選中為計算機視覺模型提供圖像中所顯示的信息。
一個簡單的例子就是為人類標註者提供動物的圖像,並讓他們用正確的動物名稱為每個圖像進行標記。當然,標記的方法依賴於項目所使用的圖像標註類型。這些帶標籤的圖像有時被稱為真實數據,然後將被輸入計算機視覺算法。通過訓練,最後該模型將能夠從未注釋的圖像中區分不同種類的動物。雖然上面的例子非常簡單,但進一步深入到計算機視覺更複雜的領域(如自動駕駛汽車),則就會需要更複雜的圖像標註。
由於計算機視覺研究的是模仿或超越人類視覺能力的機器開發,訓練這樣的模型需要大量的帶標註的圖像。
你用來訓練、驗證和測試你的計算機視覺算法的圖像將對你的人工智慧項目的成功產生重大影響。數據集中的每張圖像都必須經過深思熟慮和準確的標記,以訓練人工智慧系統像人類一樣識別物體。圖像標註的質量越高,機器學習模型的性能就可能越好。
如果沒有圖像標註,那些令人驚嘆的計算機視覺技術都不可能實現。根據項目的不同,每個圖像上的標籤數量可能會有所不同。一些項目將只需要一個標籤來表示整個圖像的內容(圖像分類)。其他項目可能需要在單個圖像中標記多個對象,每個對象帶有不同的標籤。這些標籤通常由計算機視覺科學家或機器學習工程師預先確定。
如何進行圖像標註?
要創建帶標籤的圖像,需要三件事:
1)、圖片
2)、有人給圖片加注釋
3)、一個給圖片做標註的平臺
大多數圖像標註項目都是從尋找和培訓注釋人員來執行標註任務開始的。人工智慧是一個非常專業的領域,但人工智慧訓練數據標註並不總是必需的。雖然你需要機器學習方面的高等教育才能創造一輛自動駕駛汽車,但你不需要碩士學位就可以在圖像中畫汽車周圍的方框(邊界框注釋)。因此,大多數標註者不需要機器學習方面的學位。
但是,這些標註人員應該對每個標註項目的規範和指導方針進行全面的培訓,因為每個公司都有不同的需求。一旦標註人員接受了如何標註數據的培訓,他們就可以在專門用於標註圖像的平臺上標註成百上千的圖像。這個平臺是一個軟體,它應該具有執行特定類型標註所需的所有工具。
常用圖像標註類型
1)、 2D和3D包圍框
使用2D邊框,標註者必須在他們想要在圖像中注釋的對象周圍繪製一個框。有時這些目標對象將是相同的,即「請在圖中的每輛自行車周圍畫框。」
其他時候,可能會有多個目標對象,「請在圖中每輛車、行人和自行車周圍畫框。」在這種情況下,在畫出框後,標註者將不得不從標籤列表中選擇屬性給框中的對象。
3D包圍盒也被稱為長方體,除了它們還可以顯示被標註的目標對象的大致深度之外,它們幾乎與2D包圍盒一樣。與2D邊界框標註類似,標註器在目標對象周圍繪製框,確保在對象的邊緣放置錨點。有時目標對象的一部分可能被阻擋。在這種情況下,標註器會估計目標對象阻塞邊緣的位置。
2)、圖像分類
邊界框處理在一個圖像中標註多個對象,而圖像分類是將整個圖像與一個標籤關聯的過程。一個簡單的圖像分類的例子是標記動物的類型。注釋者會得到動物的圖片,並要求他們根據動物種類對每張圖片進行分類。
把這些帶注釋的圖像數據輸入計算機視覺模型,可以讓模型了解每種動物特有的視覺特徵。理論上,該模型將能夠將新的未注釋的動物圖像歸類到適當的物種類別中。
3)、線條和樣條
線條和樣條注釋,顧名思義,就是對圖像上直線或曲線的標註。注釋人員的任務是注釋車道、人行道、電力線和其他邊界指示器。用線條和樣條標註的圖像主要用於車道和邊界識別。此外,它們也經常被用於無人機的軌跡規劃。
從自動駕駛汽車、無人機到倉庫中的機器人等等,線條和樣條標註在各種用例中都很有用。
4)、多邊形
有時,不規則形狀的目標對象不容易用邊界框或長方體來標註。多邊形注釋允許注釋器在目標對象的每個頂點上繪製點。這個注釋方法允許對對象的所有精確邊進行注釋,而不管它的形狀如何。
與邊界框一樣,帶注釋的邊緣內的像素也將被標記為描述目標對象的標籤。
5)、 語義分割
邊界盒、長方體和多邊形都處理在圖像中標註單個對象的任務。而語義分割則是對圖像中每一個像素的進行標註。不需要給標註者一個要標註的對象列表,而是給他們一個分段標籤列表,以便將圖像分成幾個部分。比如,自動駕駛汽車的交通圖像語義分割就是一個很好的例子,一個典型的語義分割任務可能會要求標註者通過區別「汽車」、「自行車」、「行人」、「障礙物」、「人行道」、「機動車道」和「建築物」來分割圖像。
圖像標註的實際應用領域
1)、人臉識別
圖像標註的一個常見應用是面部識別。它包括從人臉圖像中提取相關特徵,以區分圖像中的人和物體。
利用關鍵點和地標等圖像標註技術,通過軌跡指向對人臉不同部位的不同點進行跟蹤,增強了人臉識別算法的有效性。
2)、農業技術
圖像標註技術已被應用於農業技術行業的各種任務中。通過識別病害和健康作物的圖像來檢測植物病害,可以通過使用邊界框或語義分割類型來實現。這是圖像標註在農業技術中最基本的應用之一。
3)、安全系統
圖像標註可以在安全系統中使用安全攝像頭標記物品,比如某些特定區域中的可疑包裹。通過語義分割將視頻區域劃分為受限區域和非受限區域,可以實現這一目的。圖像標註也可用於檢測某些可疑的活動。
4)、電子商務
圖像標註用於改進產品列表,還有助於確保客戶找到他們正在尋找的正確產品。這可以通過在搜索查詢和產品標題中標記各種組件的語義分割實現。
5)、機器人
圖像標註的主要應用之一是機器人技術,它幫助機器人區分周圍環境中的各種物體。