在中國河北衡水,由於汙染嚴重導致化工廠停產,26 歲的小蘇帶著原先 30 多人的團隊轉行數據標註,隊員小的二十出頭,大的年近不惑,他們中的很多人都沒有高中學歷。
在印度喀拉拉邦的一座小村莊,高中輟學的Mujeeb Kolasseri領著一支200多人的團隊,為美國、歐洲、澳洲和亞洲的人工智慧公司提供數據標註服務,員工大多都是附近的村民。
小蘇公司的員工正在做一個手寫字母識別的項目,標註員需要認出一張張單據上的手寫字母,然後把這些字母標註出來,告訴計算機,哪些字母是A,哪些是B…… 這樣的工作其實並不簡單。例如手寫的 i, 可能是頂上一點加上下面一豎,也可能後面帶了一個翹起的小勾,更潦草一點的,可能看上去像數字 9,或者像小寫的z……
而Mujeeb Kolasseri公司的團隊成員,正在忙著標註自動駕駛汽車上的車載攝像頭所拍攝的照片,他們要在照片中標記出車輛、道路、信號燈、路標、障礙物以及行人的影像。除了攝像頭拍攝的照片,還有一些影像來自雷達傳感器,這些雷達傳感器能創建3D地圖,以幫助自動駕駛車輛感知其周圍的物體,但這些相對抽象的數據要比攝像頭拍攝的影像數據更難被精確標註。
伴隨著人工智慧(AI)興起的最關鍵的技術莫過於深度學習了。而作為深度學習的基礎,神經網絡是一種以輸入為導向的算法,其結果的準確性取決於接近「無窮量級」的樣本數據。
除了那些需要由高端人才完成的相對複雜的環節,深度學習中非常關鍵和非常基礎的工作就是需要有大量的樣本數據去訓練AI的「大腦」,而在進行數據訓練之前,又必須先對大量的數據進行標註,從而作為機器學習的先導經驗。因此,催生了大量數據標註公司的出現。
下面簡單談談什麼是數據標註。
要理解數據標註,首先得理解什麼是人工智慧(AI)。現階段的AI,其能力在於可以部分替代人的認知功能。
人類的認知,通常需要一個教育的過程。最簡單的例子,教2歲的寶寶認識蘋果,父母需要拿出一個蘋果到他面前,告訴他這是蘋果,將實物與名稱對應上以後,寶寶就完成了對蘋果的認知過程。
AI也一樣,我們需要向機器提供蘋果的圖片,並將圖片中的蘋果指出來,然後機器通過學習圖片中蘋果的特徵,就能夠認知蘋果了。
可是,由於世界上的蘋果有成百上千種,顏色也不盡相同,此外還有倒著放的蘋果、被要咬掉半個的蘋果或是爛掉的蘋果。所以,如果想實現任意給AI一張包含有蘋果的圖片,AI都能識別出來的話,那首先我們要讓AI見過各種類型和各種狀態的蘋果圖片才行。這就需要提供大量基礎數據(各種各樣的含有蘋果的照片)。
而數據標註的職責在於,人們提供給AI的大量圖片中,不可能只有一個蘋果,有可能是一個果籃的圖片,一棵果樹的圖片,一個水果攤的圖片,一個人拿著蘋果的圖片,或者是一張餐桌的圖片。這就需要通過數據標註,在圖片中把蘋果圈出來,之後才能作為供AI練習認知蘋果的訓練數據。
當然,實際的數據標註,絕大多數比標註圖片中的蘋果要複雜的多,但也基本不會超過有一定閱歷或生活常識的普通人所能夠理解和掌握的程度,或者他們只要稍加訓練即可從事這樣的數據標註工作。
而另一方面,一個準確率要求較高的AI項目,其所需要的經過標註的訓練數據,數量是非常大的。例如筆者的一位朋友,為了做一個車牌自動識別的項目,需要對超過5萬張包含車牌的照片進行人工數據標註。
正因為數據標註的工作難度不高,但工作量不小,更像是一個熟練工種,所以,在中國,目前的數據標註工作主要集中在河北、河南、山東、山西等勞動力密集的地區,這樣的選址能夠讓數據標註公司以更加低廉的勞動力成本去完成大量的數據標註工作。
最後再來說說幾種常見的數據標註類型,讓大家能夠更直觀形象地理解一下這項工作的具體內容。
1.屬性標註:就是最常見的給目標對象打標籤。一般是從既定的標籤中選擇數據對應的特徵屬性。如下圖:
需要給不同的人物標註出他/她的性別、膚色、人種、是否戴眼鏡、頭髮長短、頭髮顏色以及大致年齡與情緒等等。屬性標註的應用範圍非常廣,適用於文本、圖像、語音、視頻等各種類型的數據。
2.框選標註:就是框選出要識別的對象。例如行人識別,首先要先把行人的位置框選出來;車牌識別,首先要把車牌的位置框選出來,等等。如下圖:
框選標註可以作為屬性標註的基礎,例如先基於框選標註,標註出人物來,再進一步進行人物的屬性標註。框選標註重點用於圖像中的人物、物品識別等。
3.輪廓標註:相比於框選標註,輪廓標註要求標註得更加具體,邊緣更加精確。例如自動駕駛中的道路識別,需要嚴格識別出如馬路邊沿與車輛分道線等。如下圖:
輪廓標註重點用於圖像中的範圍、區域識別等。
4.描點標註:相比於輪廓標註需要把輪廓完整地描述出來,描點標註則重點標註出目標對象上細緻的特徵點。例如人臉識別、骨骼識別等等。如下圖:
描點標註重點用於圖像中的人臉特徵識別、形體動作識別等。
5.其他標註:數據標註除了上面幾種常見類型外,還有很多種類,如文本標註、語義分割等,以及一些應用於特殊場景的個性化的數據標註類型。
但幾乎所有數據標註,都並未脫離普通人進行自然與社會認知的範疇。畢竟,數據標註的目標,就是為了幫助AI去理解和認知這個我們身邊已經存在的,再熟悉不過的世界,所以對於普通人來說,自然不會是什麼難事。
本文系「科技無憂網( 微信公號ID : kejiwuyoucom )」原創,如轉載請附出處。認知網際網路,解讀新科技,助力創業創新及傳統企業轉型。