AI式剝削:數據標註人員日薪低至51塊錢

2021-02-25 AI前線
最新論文指出,AI 行業正在殘酷壓榨剛剛興起的全球零工經濟體系。

現代人工智慧依賴各種算法處理規模達數百萬的示例、圖像或文本素材。但在此之前,首先需要由工作人員在圖片數據集中手動標記出對象,再將標記完成的大量圖像交付給算法以學習模式,掌握如何準確識別對象。這類工作量極大、過程極其枯燥且耗時的手動數據標記過程,已經成為 AI 經濟體系中的重要組成部分。

在數據標註行業流行著一句話,「有多少智能,就有多少人工」。數據標註是人工智慧發展中至關重要的一環,卻常常容易被人忽視。

相對而言,數據標註是人工智慧領域「入門級」的工種,單從工作流程看,其技術含量較低,人是這項工作中最大的影響「因素」,久而久之,「勞動密集型」成為外界給數據標註行業貼上的一個標籤。低門檻吸引了眾多農民、學生、殘疾人群體加入到數據標註大軍中,在我國河南、河北、貴州、山西等地的四五線城市還出現了一些特色的「數據標註村」。

不止中國,向勞動力更充足、成本更低的地方遷移也是全球數據標註行業的發展趨勢。印度湧現了不少數據標註村,他們為美國、歐洲、澳洲和亞洲的 AI 公司服務,Facebook 就曾將部分社交內容標註的工作外包給了一家印度公司。

近日,普林斯頓大學、康奈爾大學、蒙特婁大學以及美國國家統計科學研究院共同發表的最新論文指出,這部分手動標記工作大多在美國及其他西方國家之外完成,並對全球各地的工人施以殘酷剝削。

以 Sama(原 Samasource)、Mighty AI 以及 Scale AI 等數據標記公司為例,他們主要使用 來自撒哈拉以南非洲以及東南亞地區的勞動力每天支付給員工的薪酬僅為 8 美元(折合成人民幣為 51.6 元)。 但與此同時,這些企業每年卻能賺取數千萬美元的巨額收益。

再來看在線零工平臺 Amazon Mechanical Turk,世界各地的任何人都能夠在此登錄並執行簡單任務,快速賺取相應收益。在 2019 年之前,Mechanical Turk 僅支持使用美國本地銀行帳戶收付款,就是說在該平臺上工作、但無法使用美國銀行業務的員工根本拿不到應得的收入,而只能用自己的勞動換取 Amazon 商城禮品卡。

根據論文調查,ImageNet 已經成為人工智慧歷史上最具影響力的數據集之一,但其實現基礎依靠的卻是時薪只有區區 2 美元的零工。

此外,由於待標記數據已經由美國或其他西方國家的開發者及程式設計師進行過初篩,因此外部標記人員的介入並不能在數據集中充分體現全球文化背景。

論文提到,「同樣是拍攝自婚禮現場的新郎照片,算法識別美國新郎的準確率就遠遠高於對衣索比亞或巴基斯坦的新郎圖像分類水平。雖然這些地區有很多工人都在為 AI 系統默默做出貢獻,但系統本身對這些代表性較低的群體仍存在嚴重偏見。他們的努力付出,並不能直接令所處本地社群受益。

研究人員們還寫道,應對這方面問題的潛在解決方案可能是將數據標記人員真正納入到 AI 開發流程當中。在破除毫無話語權的零工身份之後,工人們有望得到更公平的報酬,並憑藉自己的洞見與專業知識解決數據收集過程中的種種差異,最終提高算法產品的整體準確率。

論文還提到 Masakhane,一家致力於通過人工智慧技術保護非洲語言的組織。作為公平 AI 的典型案例,Masakhane 不會為 AI 研究人員特別創建數據,而是建立起一個紮根於非洲大陸、匯聚數據標記 - 技術研究 - 算法構建人才的整體社區。

該組織在官方網站上寫道,「我們要做的不僅僅是讓非洲民眾參與到數據生產或消費當中,而是將需求方、標記方乃至翻譯方緊密聯繫起來。」

論文指出,如果企業決定將數據標記工作納入業務流程,就應該給標記人員提供內部成長機會。

論文最後建議,「我們應該將 AI 開發視為經濟發展的前進之路。這樣一項開發活動不該只關注數據標記這類低生產率活動,而應更多強調模型開發 / 部署及研究等高生產率活動。」

雖然整個行業已經開始向著機器標註的方向前進,但這很難取代人工。

《2019 年中國人工智慧基礎數據服務行業白皮書》分析指出,2010-2016 年為數據服務行業的「初生期」,早期數據標註需求激增,加之入行門檻低,湧入了大量玩家,魚龍混雜。自 2017 年以來,伴隨著 AI 深入落地到各個應用場景中,數據標註行業了進入成長期,上層應用端的廠商對數據標註質的要求不斷提高,如自動駕駛、運動圖像、計算機視覺等領域的數據標註難度很高。

行業格局漸漸清晰,馬太效應明顯。據了解,國內從事數據標註業務公司 / 團隊約有幾百家,其中獨立做整個數據質量服務的約百餘家,能夠提供數據採標服務一體化的有幾十家,能夠提供高標準基礎數據服務的僅有十幾家。現階段,下遊 AI 算法研發單位多將業務分流給不同數據服務公司加之數據標註相關標準待完善,該行業還沒有出現大的巨頭公司。

這是一個尚未飽和的市場,同樣,這也意味著巨大的發展空間。數據標註行業已經開始進入到人機協作的階段,數據標註市場需求量仍舊很大,需要更加專業的人及高效的機器協助,機器標註所佔的比重會不斷提升,AI 技術與數據互補,通過 AI 技術提升數據效率,數據反過來服務於技術。

為降低人工成本,提高效率,不少網際網路技術公司及第三方數據服務商在開發自己的標註工具。2019 年 10 月,Google 發布了用於完整圖像標註的人機協作接口 Fluid Annotation,利用它標註圖像中每個對象和背景區域的類標籤與輪廓,可將標註數據集的創建速度提高三倍。數據標註眾包平臺也不斷湧現,京東眾智、百度眾測、figure-eight、亞馬遜的 Mechanical Turk 等。

未來,機器標註、人工輔助將成為可以預見的發展趨勢。這對「數據標註村」來說或許並不是一件好事,但機器很難完全取代人工。現階段人工標註的準確度要高於機器,機器只能跑出有一定比例的正確結果,更精確的結果仍需要人工來標註,且發揮的作用更關鍵。此外,在質檢環節,人的作用也無可替代,最終的結果要靠精細化的人工校對。

參考連結:

https://onezero.medium.com/the-a-i-industry-is-exploiting-gig-workers-around-the-world-sometimes-for-just-8-a-day-288dcce9c047

數位化時代來了,企業數位化轉型將面臨哪些能力挑戰?新晉數位化轉型階段企業如何組隊打怪?如何提升 IT 團隊技術能力以實現數位化轉型軟著陸?2 月 28 日(本周日),在極客時間企業版的直播間,香港醫管局 CIO Kevin Cai 、前美團技術負責人 馮湧、極客邦總裁 池建強將和大家一起分享自己多年帶兵打仗的心得體會,掃碼立即預約直播👇

今日薦文

點擊下方圖片即可閱讀

Clubhouse 被質疑部分流量路由到中國,音頻數據也出現洩露

你也「在看」嗎?👇

相關焦點

  • 安心雲人事創始人姚笛演講全文:日薪的留存比月薪高出了11%
    從入職到發薪日,如果身上只有1000塊錢,藍領們怎麼能夠應付的了這期間的日常開支。看完以上調研數據,我們可以得出的一個結論是,藍領變成了稀缺和強勢的變量,在未來的行業發展中,大家都需要更好的去服務藍領用戶。
  • 2020數據標註公司排行
    大多數AI實驗室、初創型AI公司在發展初期,都需要大量的數據來訓練模型,但如果僱傭大量的人力進行數據標註,就不得不面臨這樣的處境:一是管理方面的挑戰,在研發產品的同時還要把大量精力放在管理標註人員身上;二是成本的挑戰,大量全職標註人員的薪酬對於初創型公司和研究實驗室都是一筆不小的支出。
  • 日薪1000的offer,和日薪500區別在哪?
    假如公司雙休,每個月上班時間約是22天,1000*22天=22K,日薪達到1000,只需要月薪22K以上。相應的,日薪500,月薪11K以上即可到達,想要日薪超過2000,一般有哪些要求呢?請繼續往下閱讀。
  • 數據標註師:AI學習的老師
    2020-12-24 09:51:03 來源: 有美人兮宛若清揚 舉報
  • 探秘山西數據標註基地
    探秘山西數據標註基地近年來,隨著人工智慧產業的不斷發展,數據標註作為其最重要的上遊產業之一,也迎來了飛速的發展。AI優評目前,山西人工智慧基礎產業以數據標註產業為核心,入駐的數據標註企業達到近40家,有近3000名專業的人工智慧數據標註師在其中工作,為無人駕駛、語音識別、人臉識別、地圖數據等多種場景進行標註。
  • 預、自訓練之爭:谷歌說預訓練雖火,但在標註數據上自訓練更有效
    例如,在 COCO 目標檢測數據集上,研究人員使用 1/5 的標註數據時,預訓練起到積極影響,但當使用全部標註數據時,準確率反而下降。而自訓練在所有數據集規模下都能帶來 1.3 至 3.4AP 的性能提升,即自訓練在預訓練不起作用的場景下依然有效。在 PASCAL 分割數據集上(該數據集比 COCO 小很多),儘管預訓練起到很大的作用,但自訓練帶來的性能提升更大。
  • 小語種導遊日薪千元 七類職業成今年職場新寵
    昨日,知名人才機構前程無憂發布網絡調查統計數據稱,今年,汽車銷售工程師、小語種導遊、速錄師等職業將成職場新寵。  隨著市場越來越多元化,職業劃分也越來越細化。昨日,知名人才機構前程無憂發布網絡調查統計數據稱,今年,汽車銷售工程師、小語種導遊、速錄師等職業將成職場新寵。
  • 香港建造業加薪7.9% 模板工人日薪達2500港元
    香港建造業加薪7.9% 模板工人日薪達2500港元 2017-10-18 15:52:35來源:中國新聞網作者:${中新記者姓名}責任編輯
  • 緣何600日薪難招臨時保姆?
    管家婆家政工作人員王老師說:「哪怕要求低些,工資給得高,春節期間的臨時阿姨也幾乎沒了,要麼還在東家做,要麼回老家了。」(2月2日《現代金報》)  「600日薪難招臨時保姆」,從中不難發現春節「用工荒」的厲害,不過,這現象年年相似,一方面太多的保姆要回家過年,有錢沒錢,回家過年,春節對於國人來說,是大節日,能回家過年是最佳的選擇,另一方面在城市也沒有多少歸屬感,因此,即便是工資漲到600日薪,也留不住人。
  • 用工緊缺 寒假工成「香餑餑」 企業「攬才」 日薪80元~200元
    【數據】  2017年12月兼職需求  環比增長了14%  春節臨近,餐飲行業在春節期間人員配置方面早已開始著手。據百姓網統計,2017年12月的兼職需求環比增長了14%,主要集中在餐飲和物流兩個行業。同時,當月的職位空缺數量環比上漲25%,人員缺口較大的職位有快遞、銷售、餐飲、普工技工、美容美髮等。
  • 倍賽旗下BasicFinder SaaS定義數據標註生產力工具
    數據結構化生產離不開標註工具。當前仍有很多中小企業選擇開源工具作為生產設施。開源工具多數免費,或被修修改改,或被拿來即用,因使用成本低而被青睞。但開源工具卻有不可迴避的痛點——功能和結構設計單一。如數據加工類型受限或工具不具備流程管理能力等。開源工具不具備批量化生產條件,產出效率也自然無從談起。
  • 從小作坊到大生產,AI數據標註轉捩點
    截至目前,雲測數據已擁有近千名全職數據服務人員,服務領域包括自動駕駛、智能家居、智慧城市、智能金融和新零售等領域,客戶數量已達數百級,標註業務客單價已達百萬級。誕生於矽谷的Scale AI,在短短三年內,成長為市值破十億美元的明星獨角獸,而今年的銷售額已增長至近億美元,4個月前,還宣布完成了1億美元的C輪融資。國內巨頭的增速同樣亮眼,例如Testin雲測旗下數據標註品牌「雲測數據」,業務規模量每年都在以倍數的規模增長。
  • 香港建造業模板工人日薪達2500港元 16個工種平均加薪7.9%
    2017年10月18日訊, 據香港《文匯報》消息,香港工聯會、香港建造業總工會昨日公布當地2017/18年度的薪酬,16個工種平均加薪7.9%,當中以油漆及模板工人加幅最高,均為11.1%,其中後者日薪更高達2,500元(港幣,下同);挖掘機工人及混凝土工人加幅最小,分別僅3.7%及4%。
  • 韓國2021年最低時薪提至50塊錢 漲幅創新低
    原標題:韓國2021年最低時薪提至50塊錢 漲幅創新低 摘要 【韓國2021年最低時薪提至50塊錢 漲幅創新低】據韓聯社消息,韓國最低工資委員會14日在中央政府世宗辦公樓召開第九次全體會議
  • 包工頭:一天隨便乾乾我就給300日薪,為什麼還那麼難招人?
    有包工頭表示:開出了日薪300的高工資也沒有多少人願意幹,這到底是怎麼一回事呢?還記得在前些年,農民剛出去打工的時候,多數人首選的都是去房地產相關的工地打工。在當時只要能吃得了苦,幹活努力就會有不錯的收入,甚至農民工們月薪過萬也是很常見的事兒。相比之下,去工廠裡面管得嚴格,工資也不高,並且要求還比較高,所以很多較能吃苦的人,多數都選擇去工地幹活。
  • 人工智慧背後的「人工」:數據標註時薪縮水一半,欠薪高發
    生活在貴州百鳥河小鎮上的杜珉旭,是數據服務商夢動科技公司的項目組組長,除了每天協同組員完成數據標註項目,他還會抽出時間自學python語言。西梅和杜珉旭都是AI數據標註員,這是一個需求龐大卻又曾備受爭議的職業。標註行業給算法提供大量的訓練數據。
  • 打工日薪三四百,回家卻買站票、騎摩託,2萬塊都拿不出,錢呢?
    這些年來,很多行業農民工的收入在不斷提高,尤其是最近兩年,像建築行業等,不少農民工稍微懂點技術,都能拿到日薪300乃至400以上。即使啥都不會只賣力氣,在南方的一些工地上,每天也能掙180、200以上。像筆者老家二三十歲出去打工的,日收入基本都在300以上。
  • 上海:同聲傳譯日薪7000 新增小時工工資指導價出爐
    人才的稀缺性使翻譯類薪資始終處於較高水平,如同聲傳譯每日薪水高位數可達7000元,低位數也有2500元;英、日語類高級會議口譯日薪在1500-5000之間,而一般會議口譯的日薪則在800-2500元之間。   民樂家教價位上升   受供需關係影響,民族樂器職位價位出現上升,而西洋樂器出現小幅波動。
  • 算法,即剝削
    本文從經濟學的角度,使用反壟斷理論、價格歧視及消費者剩餘理論,解釋和揭示「算法剝削」。一、數據,即權力這篇文章提到一個關鍵詞:時間失蹤。但是,人們總覺得其中有問題,又說不出哪裡出了問題,最後只能從情緒道德上譴責資本家剝削,從社會責任上呼籲資本家手下留情。其實,這不僅僅是道德問題,更是法律問題。從經濟學的角度,算法支配騎手是一種壟斷行為。這種技術性壟斷,很可能構成平臺濫用數據優勢,以及價格歧視中的大數據殺熟。