蔭蔽在人工智慧高端產業下的低端生意:數據標註是什麼?

2021-01-18 科技無憂

在中國河北衡水,由於汙染嚴重導致化工廠停產,26 歲的小蘇帶著原先 30 多人的團隊轉行數據標註,隊員小的二十出頭,大的年近不惑,他們中的很多人都沒有高中學歷。

在印度喀拉拉邦的一座小村莊,高中輟學的Mujeeb Kolasseri領著一支200多人的團隊,為美國、歐洲、澳洲和亞洲的人工智慧公司提供數據標註服務,員工大多都是附近的村民。

小蘇公司的員工正在做一個手寫字母識別的項目,標註員需要認出一張張單據上的手寫字母,然後把這些字母標註出來,告訴計算機,哪些字母是A,哪些是B…… 這樣的工作其實並不簡單。例如手寫的 i, 可能是頂上一點加上下面一豎,也可能後面帶了一個翹起的小勾,更潦草一點的,可能看上去像數字 9,或者像小寫的z……

而Mujeeb Kolasseri公司的團隊成員,正在忙著標註自動駕駛汽車上的車載攝像頭所拍攝的照片,他們要在照片中標記出車輛、道路、信號燈、路標、障礙物以及行人的影像。除了攝像頭拍攝的照片,還有一些影像來自雷達傳感器,這些雷達傳感器能創建3D地圖,以幫助自動駕駛車輛感知其周圍的物體,但這些相對抽象的數據要比攝像頭拍攝的影像數據更難被精確標註。

伴隨著人工智慧(AI)興起的最關鍵的技術莫過於深度學習了。而作為深度學習的基礎,神經網絡是一種以輸入為導向的算法,其結果的準確性取決於接近「無窮量級」的樣本數據。

除了那些需要由高端人才完成的相對複雜的環節,深度學習中非常關鍵和非常基礎的工作就是需要有大量的樣本數據去訓練AI的「大腦」,而在進行數據訓練之前,又必須先對大量的數據進行標註,從而作為機器學習的先導經驗。因此,催生了大量數據標註公司的出現。

下面簡單談談什麼是數據標註。

要理解數據標註,首先得理解什麼是人工智慧(AI)。現階段的AI,其能力在於可以部分替代人的認知功能。

人類的認知,通常需要一個教育的過程。最簡單的例子,教2歲的寶寶認識蘋果,父母需要拿出一個蘋果到他面前,告訴他這是蘋果,將實物與名稱對應上以後,寶寶就完成了對蘋果的認知過程。

AI也一樣,我們需要向機器提供蘋果的圖片,並將圖片中的蘋果指出來,然後機器通過學習圖片中蘋果的特徵,就能夠認知蘋果了。

可是,由於世界上的蘋果有成百上千種,顏色也不盡相同,此外還有倒著放的蘋果、被要咬掉半個的蘋果或是爛掉的蘋果。所以,如果想實現任意給AI一張包含有蘋果的圖片,AI都能識別出來的話,那首先我們要讓AI見過各種類型和各種狀態的蘋果圖片才行。這就需要提供大量基礎數據(各種各樣的含有蘋果的照片)。

而數據標註的職責在於,人們提供給AI的大量圖片中,不可能只有一個蘋果,有可能是一個果籃的圖片,一棵果樹的圖片,一個水果攤的圖片,一個人拿著蘋果的圖片,或者是一張餐桌的圖片。這就需要通過數據標註,在圖片中把蘋果圈出來,之後才能作為供AI練習認知蘋果的訓練數據。

當然,實際的數據標註,絕大多數比標註圖片中的蘋果要複雜的多,但也基本不會超過有一定閱歷或生活常識的普通人所能夠理解和掌握的程度,或者他們只要稍加訓練即可從事這樣的數據標註工作。

而另一方面,一個準確率要求較高的AI項目,其所需要的經過標註的訓練數據,數量是非常大的。例如筆者的一位朋友,為了做一個車牌自動識別的項目,需要對超過5萬張包含車牌的照片進行人工數據標註。

正因為數據標註的工作難度不高,但工作量不小,更像是一個熟練工種,所以,在中國,目前的數據標註工作主要集中在河北、河南、山東、山西等勞動力密集的地區,這樣的選址能夠讓數據標註公司以更加低廉的勞動力成本去完成大量的數據標註工作。

最後再來說說幾種常見的數據標註類型,讓大家能夠更直觀形象地理解一下這項工作的具體內容。

1.屬性標註:就是最常見的給目標對象打標籤。一般是從既定的標籤中選擇數據對應的特徵屬性。如下圖:

需要給不同的人物標註出他/她的性別、膚色、人種、是否戴眼鏡、頭髮長短、頭髮顏色以及大致年齡與情緒等等。屬性標註的應用範圍非常廣,適用於文本、圖像、語音、視頻等各種類型的數據。

2.框選標註:就是框選出要識別的對象。例如行人識別,首先要先把行人的位置框選出來;車牌識別,首先要把車牌的位置框選出來,等等。如下圖:

框選標註可以作為屬性標註的基礎,例如先基於框選標註,標註出人物來,再進一步進行人物的屬性標註。框選標註重點用於圖像中的人物、物品識別等。

3.輪廓標註:相比於框選標註,輪廓標註要求標註得更加具體,邊緣更加精確。例如自動駕駛中的道路識別,需要嚴格識別出如馬路邊沿與車輛分道線等。如下圖:

輪廓標註重點用於圖像中的範圍、區域識別等。

4.描點標註:相比於輪廓標註需要把輪廓完整地描述出來,描點標註則重點標註出目標對象上細緻的特徵點。例如人臉識別、骨骼識別等等。如下圖:

描點標註重點用於圖像中的人臉特徵識別、形體動作識別等。

5.其他標註:數據標註除了上面幾種常見類型外,還有很多種類,如文本標註、語義分割等,以及一些應用於特殊場景的個性化的數據標註類型。

但幾乎所有數據標註,都並未脫離普通人進行自然與社會認知的範疇。畢竟,數據標註的目標,就是為了幫助AI去理解和認知這個我們身邊已經存在的,再熟悉不過的世界,所以對於普通人來說,自然不會是什麼難事。

本文系「科技無憂網( 微信公號ID : kejiwuyoucom )」原創,如轉載請附出處。認知網際網路,解讀新科技,助力創業創新及傳統企業轉型。

相關焦點

  • 人工智慧時代下,數據標註不應該被陌生
    人工智慧時代下,數據標註不應該被陌生人工智慧的興起帶火了一系列與其相關的產業,數據標註作為其基礎產業之一,也在人工智慧的加持之下短短幾年內迎來了飛速的發展。然而對於不少人來說,數據標註仍具是一個「盲區」。
  • 人工智慧能做什麼
    「這次突如其來的疫情是人類的一場大災難,同時也是人工智慧產業發展難得的新機遇。」在前不久舉行的第二期前沿科技論壇上,中國工程院院士李國傑提出這樣一個觀點。    在李國傑看來,疫情期間表現較好的人工智慧技術應用,例如無接觸自動測體溫,疫情追蹤、摸底排查中計算機與居民的自動問答等,大多是過去有較多數據積累的應用場景,而對傳播擴散途徑檢測、病毒源頭的追溯等,由於缺少足夠多的已標註數據,效果就差一些。
  • 產業升級新動能——看AI數據如何喚醒家居的智能感知
    智能家居行業標準簡單來說就是家中智能設備進行相互溝通的「語言」,在相同的行業標準、開放平臺下,各大品牌的產品才能夠真正「溝通」。這就需要對數據的精準標註,在人工智慧時代,數據的重要性不言而喻。很多號稱擁有海量數據的公司,其實有的只是非結構化或未標註過的數據。數據標註,才是將數據轉化為AI商業價值的重要一環。
  • 大數據產業觀察 | 美國更新人工智慧研發戰略至8個重點 浙江省...
    069期三分鐘觀盡一周產業大事美國更新人工智慧研發戰略至8個重點川普政府近日對3年前頒布的《國家人工智慧研究和發展戰略計劃》進行了更新。新計劃重新評估了聯邦政府人工智慧研發投資的優先次序,指出擴大公私合作夥伴關係對美人工智慧研發至關重要。隨著新計劃的出臺,美政府人工智慧研發戰略重點也隨之擴展至8個。
  • 2020最佳人工智慧產品/平臺榜單公布,雲測數據、曠視、寒武紀入榜
    這是目前數據標註領域可達到的最高服務標準,成為AI數據服務邁入更高質時代的一大裡程碑。 據了解,雲測數據在智能駕駛領域AI數據服務領域長期保持著領先優勢。在標註工具方面,雲測數據自研了一套可以支持圖片、語音、文本等多品類的標註平臺,可滿足業內圖片通用拉框、車道線、DMS、3D點雲、2D/3D融合、全景語義分割等標註類型,支持自動駕駛、智能駕艙、自動泊車等場景數據標註。
  • 百度雲智寧波大數據產業基地開業
    浙江在線-寧波頻道6月18日訊(浙江在線記者 李華 通訊員 周紅梅 郭亦欣)6月18日下午,經過半年籌備,百度雲智·寧波大數據產業基地正式開業,首批15家百度系及上下遊大數據、人工智慧企業籤約入駐  百度雲智(寧波)基地、雲智(寧波)大數據產業運營公司總經理王洪全表示,百度雲智(寧波)基地將利用百度大數據、技術、平臺、品牌等資源集聚大數據、人工智慧相關企業,培育產業生態鏈,打造寧波智能經濟新的增長引擎;同時,將聯合專業資本對入駐的創新項目進行投資,並提供一條龍的專業服務,並為百度在寧波及周邊城市合作項目提供支撐和運營服務。
  • ...產業項目+人工智慧大數據技術研究+海外學習機會!加入Pure超爽der
    全球醫療產業政策及法規對比研究項目助理研究員招募海豚國際人才學院與美國大數據公司Pure Vision Ai Inc.共同合作 利用人工智慧大數據技術手段,擬對全球各地區包括北美,歐盟,南美,東南亞等地區的醫療產業及國家政策法規進行系列對比研究
  • 人工智慧產業「十四五」如何倍增?上海布局這幾個重點
    下一步,上海將算法技術開發和開放社區建設作為人工智慧布局的重點工作,打造國際人工智慧開發生態網絡關鍵節點。到2025年,人工智慧核心產業及相關產業規模要達到900億元。為進一步加快人工智慧產業的集聚和發展,臨港新片區同時發布了修訂後的《中國(上海)自由貿易試驗區臨港新片區集聚發展人工智慧產業若干政策》(下稱《若干政策2.0》),配套細化并迭代升級了去年發布的若干政策1.0版本。《若干政策2.0》有效期至2023年8月31日。
  • 東莞生物產業邁向全球價值鏈高端
    大科學裝置的集聚,研發機構與高新技術企業的匯聚,藉助這些高端創新資源的力量,相信將為東莞搭建生物技術產業從源頭創新、技術創新、成果轉化,到新產業孵化的全鏈條創新成果轉移轉化體系提供有力支撐。因此,在徐瑞華的帶領下,中山大學腫瘤醫院充分用好、用活臨床資源,幾乎所有門診患者都進行臨床入組篩查,這樣既參加了研究,也給病人帶來很多幫助,住在內科的病人有一半都能接受免費治療。「AI+醫療」趨勢下需關注數據安全當前,AI在醫療器械領域的應用雖然仍處於初始階段,但已顯示出強大的優勢。
  • 人工智慧大規模商用打破產業「天花板」
    如今,許多著名品牌的線下門店、大型商場超市等都應用了視覺新零售解決方案。廣州圖普網絡科技有限公司是一家人工智慧科技公司,該公司首席市場官韋光介紹,應用人工智慧解決方案後,每個缺貨的貨架會被自動拍照,所拍攝照片會被智能拼成一張完整的圖像,提示管理人員哪些貨品需要補充。
  • 【明理】家電不論是高端低端,品質質量這一關都不能忽略
    導讀 品質質量是家電廠商的生命線,不要以為做高端要把控品質,做低端就可以不顧品質。 面對國內分層的不同用戶群體,作為家電製造商來說,不同定位的品牌對應什麼樣的消費群體,高端、終端產品是未來方向,是不可或缺的。況且,隨著經濟水平的提高,高端產品的市場需求在逐步增大。 低端產品,廠家不是不可以做,但一定要是保證基本品質的低價。
  • 科大訊飛劉江任江蘇省法學會大數據與人工智慧法學研究會副會長
    會議通過了江蘇省法學會大數據與人工智慧法學研究會章程、選舉辦法、選舉工作人員名單,根據選舉辦法選舉產生第一屆理事會、常務理事會組成人員及領導班子成員。科大訊飛副總裁劉江任副會長,司法事業群副總裁雍文淵任常務理事。
  • 中低端鏡頭需求爆發 看龍頭廠商大立光策略調整帶來的產業影響
    集微網消息 在疫情及中美貿易問題的雙重影響下,今年智慧型手機市場出現中低端產品暢銷程度遠高於高端、旗艦機型的局面。 集微網從近期的採訪中了解到,在上述背景下,許多專注在高端、旗艦市場的手機供應鏈龍頭都有調整今年下半年乃至2022年銷售策略的計劃。其中,就包括近年來頗為熱門的光學鏡頭領域。
  • 用數據驅動產業智能升級,看百度智能雲數據眾包如何帶你一站「避坑」
    在這個世界,數據被認為是一種「新石油」,人工智慧被認為是新的「發動機」,二者的結合,正在推動產業完成新一輪的變革——對內,幫助企業實現精細化管理;對外,賦予企業敏銳洞察;立足未來,成為整個產業實現智能化升級的重要基礎。 當然,其前提是,企業可以更大範圍地掌握數據,更合理地處理數據和使用數據。
  • 「集邦諮詢2021存儲產業趨勢峰會」英銳集團新品英銳存儲首展圓滿...
    會議圍繞存儲產業發展趨勢,詳細解讀全球存儲產業的宏觀變化與細分市場動態,並深度分析驅動因素和熱點應用,為業者提供前瞻洞察與權威分析。本屆峰會由集邦諮詢公司執行長林啟東開幕致辭,他表示:20年來,集邦諮詢一直用最深度的數據為行業提供決策輔助與參考,已成為國際權威的科技產業研究機構。在未來,集邦諮詢將繼續保持態度和專業度,助力產業發展。
  • 人工智慧是什麼意思?人工智慧的未來趨勢
    隨著網際網路的飛速發展,人工智慧越來越走近人們的生活了,那麼人工智慧是什麼意思呢?人工智慧發展前景怎麼樣?下面人工智慧網小編帶領大家一起來了解一下人工智慧以及人工智慧的未來趨勢人工智慧是什麼?人工智慧可以對人的意識、思維的信息過程的模擬。人工智慧不是人的智能,但能像人那樣思考、也可能超過人的智能。人工智慧的發展前景業內人士指出,AI人工智慧技術的廣泛應用絕非曇花一現,疫情結束後其應用前景將更加廣闊。
  • 2020創新人工智慧平臺/品牌榜單公布,雲測數據、商湯、百度飛槳入榜
    經過海量網民投票和近百位權威專家智囊團綜合評審,雲測數據、商湯、百度飛槳深度學習平臺、影譜科技等一批優秀行業代表榮膺「2020年度創新人工智慧平臺/品牌」獎。在雲測數據入圍「2020年度創新人工智慧品牌/品牌」的背後,是雲測數據對AI數據服務質量的高度重視和一貫追求。作為國內AI數據服務頭部企業,雲測數據通過自建數據場景實驗室和數據標註基地,為智能駕駛、智慧城市、智能家居、智慧金融、新零售等眾多領域提供高質量的數據採集、數據標註服務,全方位支持文本、語音、圖像、視頻等各類型數據的處理。
  • 赫榮亮:國內大循環下我國汽車產業的三個任務
    目前,我們國家發展處在跨越工業化中等收入陷阱,產業發展處在從外向型發展模式逐步演化成以內部的產業鏈和供應鏈,汽車產業在國內大循環的發展任務下,要在消費、生產和科技三大環節,破除自主品牌認同度低、關鍵零部件環節缺失、智能化和電動化未來新興科技發展不足的發展痛點。
  • 與阿里巴巴、百度合作,峰峰95後創客搞起了人工智慧
    那說起人工智慧 在峰峰創客空間 就經營著一家人工智慧領域的 數據採集和數據標註的服務公司
  • 12位專家談AI:2021年人工智慧發展趨勢(下)
    在2021年,我預計能看到更多的人使用零樣本學習來標註數據集,並且訓練出開箱即用的分類器。相比於零樣本分類,零樣本標註的優點包括:  免費標註:不需要昂貴的標註器(比如Amazon mechanical turk)就可以管理數據集  標註引導:將一個開放式的標註任務轉變為一個簡單的真/假標註  隱私保護標註:在標註敏感數據時十分有用(比如醫療保健和遺傳數據)  通過多個來源獲取零樣本標記示例,並隨之引發的訓練集樣例多樣性