ImageNet Roulette重複了Google Photos「誤讀照片」的舊路,將一位坐在開放式的辦公位上滿臉「無辜」的小夥子,識別為叼著大菸斗的菸民,而且此時此刻還在一架飛機上。
編譯 | 奇點
公眾號 | AI星球
「這是以一隻鳥!」大部分人看到這張圖片通常以「奈秒」甚至是「皮秒」的響應速度告訴自己。
但這在計算機眼中它可能是長這樣的......
還有更誇張的,2015年,Google Photos將兩位黑人標記成了「大猩猩」。(這嘴巴確實有幾分神似)
但是,他的朋友不淡定了「天吶!我的朋友怎麼會變黑猩猩。」
在人工智慧大量邊緣端設備落地的同時,我們為即將走來的數百萬個自動化工作崗位而歡呼,但同時也忽略了目前其自身固有的缺陷:大多數的AI設備還停留在只適用於經過訓練的某一狹小領域,而且還會犯嚴重的錯誤。
計算機「眼中」的我,一個叼著菸斗的菸民
比如,2009年首次推出ImageNet項目(圖像識別)的分類實驗結果「ImageNet Roulette」背後就隱藏著莫大的樂趣:
它可以根據自身海量的數據圖片對人物、動物等實體照片進行分析、標記及識別等,未來可以讓這樣的一個標準識別機器人為你做一些滑稽的事情。
如今,ImageNet Roulette重複了Google Photos「誤讀照片」的舊路,搞了一波大事情。
一位坐在開放式的辦公位上滿臉「無辜」的小夥子,在ImageNet Roulette眼中竟然是叼著大菸斗的菸民,此時此刻還在一架飛機上。
在ImageNet Roulette眼中,這種開放式的辦公室布局與飛在數萬英尺的高空中的飛機內部布局有著不可比擬的神似性。
ImageNet是一個幫助計算機識別圖像、用於視覺對象識別軟體研究的大型可視化資料庫。
ImageNet以指出圖片中的對象為目的,手動注釋了超千萬的圖像URL,並且為其做了至少包含2萬多個分門別類。
類別細分至如典型的「氣球」、「草莓」等。且至少在一百萬個圖像中,提供了邊界框。
但在過去的十年中,ImageNet一直都是人工智慧研究人員所依賴著名的訓練數據集,ImageNet有一個「對象識別集」:
對「人物」的分類——即著名的ImageNet分類實驗,這其下包含了達2833個子類別且各個子類別下都包含了上百張圖像,每個子類別都在試圖幫助軟體完成看似不可能的人類分類任務。
但這其中卻存在明顯的短板:它通常很難去識別人。
十年前,ImageNet的開發團隊便從網際網路上抓取了數百萬張圖像,以此成為了亞馬遜機械土耳其人的世界上最大的學術用戶。
他們利用了一些零碎的人力以每分鐘平均50張圖像的速度進行抓取後分成數千個類別。
完成後,2009年著名AI研究員李飛飛做ImageNet項目交付使用時,當時的ImageNet項目已達到了空前的規模,資料庫中涵蓋了1500萬個標記圖像、2.2萬種物件(兩萬多個類別)。
ImageNet是人工智慧歷史中重要的訓練集之一,用其創造者的話來說,ImageNet背後的設計初衷就是要「繪製整個物體世界。
而此次ImageNet項目的分類實驗結果就是笑話百出的「ImageNet Roulette」。
缺陷的接盤俠:ImageNet Roulette
正如Roulette翻譯為「輪盤賭」那樣,ImageNet Roulette實實在在的接盤了ImageNet項目愚蠢的一面。
ImageNet Roulette一直都在開發人員的維護下,作為讓公眾參與理解那些機器學習系統本質抽象概念的一種方式。
研究人員Paglen說,該項目的一部分也是為了突出ImageNet項目的一些缺陷,比如會以「種族歧視」、「人格冒犯」的方式對人們進行分類。
曾在Twitter上出現的一個有趣的例子:一些男性在上傳了本人的照片後,接著就被隨機標記為「強姦嫌疑人」,據外媒表示,這其中的原因無法解釋。
Paglen對此表示除了突出ImageNet項目的一些致命缺陷外,這也是由於受到人類自身開發的原因,所導致發生的AI系統錯誤和機器學習偏見的現象。
事實上這種偏見在AI中眾所周知的問題,究其本質有著許多的根本原因。
其中就西方研發工程師來說,通常用於創建算法的訓練數據根本上是反映了工程師本人的生活和背景。
由於這些來自高收入國家的西方白人,所以潛移默化中從他們手中敲出的「算法框架」通常也具有一定的偏見性。
近年來AI偏見著名的例子之一就是面部識別算法存在著嚴重的「種族歧視」,COMPAS 算法就是個鮮明的例子,在它識別非白人用戶時會有一定程度的「算法壁壘」。
據悉,當時該算法被多個州、政府機構用於評估犯罪嫌疑人再次犯罪的風險指數,據相關數據顯示,黑人被錯誤標記「重複犯罪嫌疑人」的佔比是白人的兩倍。
當然偏見遠不止這些,谷歌會給女性用戶推送底薪廣告、亞馬遜的當日送達服務有意繞過黑人街區等。
主謀另有其人:WordNet
但據ImageNet Roulette的內部研發人員表示,ImageNet Roulette的這種對「人物分類」的缺陷,AI算法偏見可能只佔據了很小的一部分。
其大部分原因是因為它使用的WordNet模式。
如果說ImageNet Roulette是一個「缺陷的接盤俠」,那麼它使用的WordNet模式就是背後的「主謀」。
ImageNet Roulette設計之初,便旨在幫助我們了解人類在機器學習系統中的分類方式。
它使用的ImageNet數據集中,就有超過2,500個用於對人物圖像進行分類的標籤。
同時它使用了開源Caffe深度學習框架,Caffe是一個上手快、速度快、模塊化、開放性好的深度學習框架,它是由加州大學伯克利分校的 賈揚清製作,目前其就職於谷歌。
賈揚清使用Caffe深度學習框架培訓了「人」類別的圖像和標籤。當用戶在上傳圖片時,程序會首先運行面部檢測器進程來定位「目標面部」接著像進入了一個if循環:
如果發現目標臉出現,則將其發送到Caffe模型進行分類,返回原始圖像。反之程序會將整個場景發送到Caffe模型,並返回左上角帶有標籤的圖像。
儘管Caffe模型的這種清晰、高效的深度學習框架支持支持命令行、Python等接口,也可以遊走於CPU和GPU之間,但ImageNet Roulette這種背後讓人「打榜」的技術也不可避免ImageNet自身的問題。
據外媒表示,ImageNet那些關於「種族歧視」、「強姦犯」、「犯罪嫌疑人」等令人反感的類別,全部都來自WordNet。
ImageNet使用廣泛的WordNet模式的變體對「目標對象」進行分類,但WordNet模式就其本身就存在著致命的缺陷。
WordNet在普林斯頓大學認識科學實驗室的一位心理學教授的指導下進行研發,開發工作自從1985年開始,便接受了一些來自對機器翻譯有興趣的政府等機構的資助,資助金額超300萬美元。
WordNet是一個為開發者服務的龐大英語詞彙資料庫,由於其本身包含了語義信息,所以有別於通常意義上的字典。
對開發者而言,它既是一個字典,又是一個辭典,相比單純的字典或詞典都更加易於使用,且它支持自動的文本分析以及人工智慧應用。
WordNet模型的結構使其成為計算語言學和自然語言處理的有用工具。
但同時WordNet也存在著自然語言處理上致命的缺點:
1.漢語詞義翻譯存在錯誤,比如會將「abstract_entity(中文意思:抽象實體)」翻譯為「抽象派作品」;
2.WordNet詞性較少,以致於有些詞壓根就識別不出。比如:「I love you.」,WordNet可能只能識別出「love」等)
通過訓練數據集來對識別、解釋人類,人工智慧在一定的軟體基礎上可能在短時間內會因技術的缺陷、算法的偏見使人工智慧系統對人類的分類變得更加有侵略性。
可能技術本身是中立的,但一些地域的開發者在根本上會有著明顯的政治、人文的等偏向。
參考連結:
https://www.theverge.com/tldr/2019/9/16/20869538/imagenet-roulette-ai-classifier-web-tool-object-image-recognition
https://www.wired.com/story/fei-fei-li-artificial-intelligence-humanity/
https://imagenet-roulette.paglen.com/
https://www.theverge.com/2019/6/11/18661128/ai-object-recognition-algorithms-bias-worse-household-items-lower-income-countries
End
<< 滑動更多精彩內容>>
你「在看」我嗎?