現代人工智慧依賴各種算法處理規模達數百萬的示例、圖像或文本素材。但在此之前,首先需要由工作人員在圖片數據集中手動標記出對象,再將標記完成的大量圖像交付給算法以學習模式,掌握如何準確識別對象。這類工作量極大、過程極其枯燥且耗時的手動數據標記過程,已經成為 AI 經濟體系中的重要組成部分。
在數據標註行業流行著一句話,「有多少智能,就有多少人工」。數據標註是人工智慧發展中至關重要的一環,卻常常容易被人忽視。
相對而言,數據標註是人工智慧領域「入門級」的工種,單從工作流程看,其技術含量較低,人是這項工作中最大的影響「因素」,久而久之,「勞動密集型」成為外界給數據標註行業貼上的一個標籤。低門檻吸引了眾多農民、學生、殘疾人群體加入到數據標註大軍中,在我國河南、河北、貴州、山西等地的四五線城市還出現了一些特色的「數據標註村」。
不止中國,向勞動力更充足、成本更低的地方遷移也是全球數據標註行業的發展趨勢。印度湧現了不少數據標註村,他們為美國、歐洲、澳洲和亞洲的 AI 公司服務,Facebook 就曾將部分社交內容標註的工作外包給了一家印度公司。
近日,普林斯頓大學、康奈爾大學、蒙特婁大學以及美國國家統計科學研究院共同發表的最新論文指出,這部分手動標記工作大多在美國及其他西方國家之外完成,並對全球各地的工人施以殘酷剝削。
以 Sama(原 Samasource)、Mighty AI 以及 Scale AI 等數據標記公司為例,他們主要使用 來自撒哈拉以南非洲以及東南亞地區的勞動力,每天支付給員工的薪酬僅為 8 美元(折合成人民幣為 51.6 元)。 但與此同時,這些企業每年卻能賺取數千萬美元的巨額收益。
再來看在線零工平臺 Amazon Mechanical Turk,世界各地的任何人都能夠在此登錄並執行簡單任務,快速賺取相應收益。在 2019 年之前,Mechanical Turk 僅支持使用美國本地銀行帳戶收付款,就是說在該平臺上工作、但無法使用美國銀行業務的員工根本拿不到應得的收入,而只能用自己的勞動換取 Amazon 商城禮品卡。
根據論文調查,ImageNet 已經成為人工智慧歷史上最具影響力的數據集之一,但其實現基礎依靠的卻是時薪只有區區 2 美元的零工。
此外,由於待標記數據已經由美國或其他西方國家的開發者及程式設計師進行過初篩,因此外部標記人員的介入並不能在數據集中充分體現全球文化背景。
論文提到,「同樣是拍攝自婚禮現場的新郎照片,算法識別美國新郎的準確率就遠遠高於對衣索比亞或巴基斯坦的新郎圖像分類水平。雖然這些地區有很多工人都在為 AI 系統默默做出貢獻,但系統本身對這些代表性較低的群體仍存在嚴重偏見。他們的努力付出,並不能直接令所處本地社群受益。」
研究人員們還寫道,應對這方面問題的潛在解決方案可能是將數據標記人員真正納入到 AI 開發流程當中。在破除毫無話語權的零工身份之後,工人們有望得到更公平的報酬,並憑藉自己的洞見與專業知識解決數據收集過程中的種種差異,最終提高算法產品的整體準確率。
論文還提到 Masakhane,一家致力於通過人工智慧技術保護非洲語言的組織。作為公平 AI 的典型案例,Masakhane 不會為 AI 研究人員特別創建數據,而是建立起一個紮根於非洲大陸、匯聚數據標記 - 技術研究 - 算法構建人才的整體社區。
該組織在官方網站上寫道,「我們要做的不僅僅是讓非洲民眾參與到數據生產或消費當中,而是將需求方、標記方乃至翻譯方緊密聯繫起來。」
論文指出,如果企業決定將數據標記工作納入業務流程,就應該給標記人員提供內部成長機會。
論文最後建議,「我們應該將 AI 開發視為經濟發展的前進之路。這樣一項開發活動不該只關注數據標記這類低生產率活動,而應更多強調模型開發 / 部署及研究等高生產率活動。」
雖然整個行業已經開始向著機器標註的方向前進,但這很難取代人工。
《2019 年中國人工智慧基礎數據服務行業白皮書》分析指出,2010-2016 年為數據服務行業的「初生期」,早期數據標註需求激增,加之入行門檻低,湧入了大量玩家,魚龍混雜。自 2017 年以來,伴隨著 AI 深入落地到各個應用場景中,數據標註行業了進入成長期,上層應用端的廠商對數據標註質的要求不斷提高,如自動駕駛、運動圖像、計算機視覺等領域的數據標註難度很高。
行業格局漸漸清晰,馬太效應明顯。據了解,國內從事數據標註業務公司 / 團隊約有幾百家,其中獨立做整個數據質量服務的約百餘家,能夠提供數據採標服務一體化的有幾十家,能夠提供高標準基礎數據服務的僅有十幾家。現階段,下遊 AI 算法研發單位多將業務分流給不同數據服務公司加之數據標註相關標準待完善,該行業還沒有出現大的巨頭公司。
這是一個尚未飽和的市場,同樣,這也意味著巨大的發展空間。數據標註行業已經開始進入到人機協作的階段,數據標註市場需求量仍舊很大,需要更加專業的人及高效的機器協助,機器標註所佔的比重會不斷提升,AI 技術與數據互補,通過 AI 技術提升數據效率,數據反過來服務於技術。
為降低人工成本,提高效率,不少網際網路技術公司及第三方數據服務商在開發自己的標註工具。2019 年 10 月,Google 發布了用於完整圖像標註的人機協作接口 Fluid Annotation,利用它標註圖像中每個對象和背景區域的類標籤與輪廓,可將標註數據集的創建速度提高三倍。數據標註眾包平臺也不斷湧現,京東眾智、百度眾測、figure-eight、亞馬遜的 Mechanical Turk 等。
未來,機器標註、人工輔助將成為可以預見的發展趨勢。這對「數據標註村」來說或許並不是一件好事,但機器很難完全取代人工。現階段人工標註的準確度要高於機器,機器只能跑出有一定比例的正確結果,更精確的結果仍需要人工來標註,且發揮的作用更關鍵。此外,在質檢環節,人的作用也無可替代,最終的結果要靠精細化的人工校對。
參考連結:
https://onezero.medium.com/the-a-i-industry-is-exploiting-gig-workers-around-the-world-sometimes-for-just-8-a-day-288dcce9c047
數位化時代來了,企業數位化轉型將面臨哪些能力挑戰?新晉數位化轉型階段企業如何組隊打怪?如何提升 IT 團隊技術能力以實現數位化轉型軟著陸?2 月 28 日(本周日),在極客時間企業版的直播間,香港醫管局 CIO Kevin Cai 、前美團技術負責人 馮湧、極客邦總裁 池建強將和大家一起分享自己多年帶兵打仗的心得體會,掃碼立即預約直播👇
今日薦文點擊下方圖片即可閱讀
Clubhouse 被質疑部分流量路由到中國,音頻數據也出現洩露
你也「在看」嗎?👇