1500萬個標記圖像、2萬多個分類!如今的AI圖像分類器還是「睜眼瞎」

2020-12-25 AI星球

ImageNet Roulette重複了Google Photos「誤讀照片」的舊路,將一位坐在開放式的辦公位上滿臉「無辜」的小夥子,識別為叼著大菸斗的菸民,而且此時此刻還在一架飛機上。

編譯 | 奇點

公眾號 | AI星球

「這是以一隻鳥!」大部分人看到這張圖片通常以「奈秒」甚至是「皮秒」的響應速度告訴自己。

但這在計算機眼中它可能是長這樣的......

還有更誇張的,2015年,Google Photos將兩位黑人標記成了「大猩猩」。(這嘴巴確實有幾分神似)

但是,他的朋友不淡定了「天吶!我的朋友怎麼會變黑猩猩。」

在人工智慧大量邊緣端設備落地的同時,我們為即將走來的數百萬個自動化工作崗位而歡呼,但同時也忽略了目前其自身固有的缺陷:大多數的AI設備還停留在只適用於經過訓練的某一狹小領域,而且還會犯嚴重的錯誤

計算機「眼中」的我,一個叼著菸斗的菸民

比如,2009年首次推出ImageNet項目(圖像識別)的分類實驗結果「ImageNet Roulette」背後就隱藏著莫大的樂趣

它可以根據自身海量的數據圖片對人物、動物等實體照片進行分析、標記及識別等,未來可以讓這樣的一個標準識別機器人為你做一些滑稽的事情

如今,ImageNet Roulette重複了Google Photos「誤讀照片」的舊路,搞了一波大事情。

一位坐在開放式的辦公位上滿臉「無辜」的小夥子,在ImageNet Roulette眼中竟然是叼著大菸斗的菸民,此時此刻還在一架飛機上。

在ImageNet Roulette眼中,這種開放式的辦公室布局與飛在數萬英尺的高空中的飛機內部布局有著不可比擬的神似性。

ImageNet是一個幫助計算機識別圖像、用於視覺對象識別軟體研究的大型可視化資料庫。

ImageNet以指出圖片中的對象為目的,手動注釋了超千萬的圖像URL,並且為其做了至少包含2萬多個分門別類。

類別細分至如典型的「氣球」、「草莓」等。且至少在一百萬個圖像中,提供了邊界框。

但在過去的十年中,ImageNet一直都是人工智慧研究人員所依賴著名的訓練數據集,ImageNet有一個「對象識別集」:

對「人物」的分類——即著名的ImageNet分類實驗,這其下包含了達2833個子類別且各個子類別下都包含了上百張圖像,每個子類別都在試圖幫助軟體完成看似不可能的人類分類任務

但這其中卻存在明顯的短板:它通常很難去識別人。

十年前,ImageNet的開發團隊便從網際網路上抓取了數百萬張圖像,以此成為了亞馬遜機械土耳其人的世界上最大的學術用戶。

他們利用了一些零碎的人力以每分鐘平均50張圖像的速度進行抓取後分成數千個類別。

完成後,2009年著名AI研究員李飛飛做ImageNet項目交付使用時,當時的ImageNet項目已達到了空前的規模,資料庫中涵蓋了1500萬個標記圖像、2.2萬種物件(兩萬多個類別)。

ImageNet是人工智慧歷史中重要的訓練集之一,用其創造者的話來說,ImageNet背後的設計初衷就是要「繪製整個物體世界。

而此次ImageNet項目的分類實驗結果就是笑話百出的「ImageNet Roulette」。

缺陷的接盤俠:ImageNet Roulette

正如Roulette翻譯為「輪盤賭」那樣,ImageNet Roulette實實在在的接盤了ImageNet項目愚蠢的一面。

ImageNet Roulette一直都在開發人員的維護下,作為讓公眾參與理解那些機器學習系統本質抽象概念的一種方式。

研究人員Paglen說,該項目的一部分也是為了突出ImageNet項目的一些缺陷,比如會以「種族歧視」、「人格冒犯」的方式對人們進行分類。

曾在Twitter上出現的一個有趣的例子:一些男性在上傳了本人的照片後,接著就被隨機標記為「強姦嫌疑人」,據外媒表示,這其中的原因無法解釋。

Paglen對此表示除了突出ImageNet項目的一些致命缺陷外,這也是由於受到人類自身開發的原因,所導致發生的AI系統錯誤和機器學習偏見的現象。

事實上這種偏見在AI中眾所周知的問題,究其本質有著許多的根本原因。

其中就西方研發工程師來說,通常用於創建算法的訓練數據根本上是反映了工程師本人的生活和背景。

由於這些來自高收入國家的西方白人,所以潛移默化中從他們手中敲出的「算法框架」通常也具有一定的偏見性。

近年來AI偏見著名的例子之一就是面部識別算法存在著嚴重的「種族歧視」,COMPAS 算法就是個鮮明的例子,在它識別非白人用戶時會有一定程度的「算法壁壘」。

據悉,當時該算法被多個州、政府機構用於評估犯罪嫌疑人再次犯罪的風險指數,據相關數據顯示,黑人被錯誤標記「重複犯罪嫌疑人」的佔比是白人的兩倍。

當然偏見遠不止這些,谷歌會給女性用戶推送底薪廣告、亞馬遜的當日送達服務有意繞過黑人街區等。

主謀另有其人:WordNet

但據ImageNet Roulette的內部研發人員表示,ImageNet Roulette的這種對「人物分類」的缺陷,AI算法偏見可能只佔據了很小的一部分。

其大部分原因是因為它使用的WordNet模式。

如果說ImageNet Roulette是一個「缺陷的接盤俠」,那麼它使用的WordNet模式就是背後的「主謀」。

ImageNet Roulette設計之初,便旨在幫助我們了解人類在機器學習系統中的分類方式。

它使用的ImageNet數據集中,就有超過2,500個用於對人物圖像進行分類的標籤。

同時它使用了開源Caffe深度學習框架,Caffe是一個上手快、速度快、模塊化、開放性好的深度學習框架,它是由加州大學伯克利分校的 賈揚清製作,目前其就職於谷歌。

賈揚清使用Caffe深度學習框架培訓了「人」類別的圖像和標籤。當用戶在上傳圖片時,程序會首先運行面部檢測器進程來定位「目標面部」接著像進入了一個if循環:

如果發現目標臉出現,則將其發送到Caffe模型進行分類,返回原始圖像。反之程序會將整個場景發送到Caffe模型,並返回左上角帶有標籤的圖像。

儘管Caffe模型的這種清晰、高效的深度學習框架支持支持命令行、Python等接口,也可以遊走於CPU和GPU之間,但ImageNet Roulette這種背後讓人「打榜」的技術也不可避免ImageNet自身的問題。

據外媒表示,ImageNet那些關於「種族歧視」、「強姦犯」、「犯罪嫌疑人」等令人反感的類別,全部都來自WordNet。

ImageNet使用廣泛的WordNet模式的變體對「目標對象」進行分類,但WordNet模式就其本身就存在著致命的缺陷。

WordNet在普林斯頓大學認識科學實驗室的一位心理學教授的指導下進行研發,開發工作自從1985年開始,便接受了一些來自對機器翻譯有興趣的政府等機構的資助,資助金額超300萬美元。

WordNet是一個為開發者服務的龐大英語詞彙資料庫,由於其本身包含了語義信息,所以有別於通常意義上的字典。

對開發者而言,它既是一個字典,又是一個辭典,相比單純的字典或詞典都更加易於使用,且它支持自動的文本分析以及人工智慧應用。

WordNet模型的結構使其成為計算語言學和自然語言處理的有用工具。

但同時WordNet也存在著自然語言處理上致命的缺點:

1.漢語詞義翻譯存在錯誤,比如會將「abstract_entity(中文意思:抽象實體)」翻譯為「抽象派作品」;

2.WordNet詞性較少,以致於有些詞壓根就識別不出。比如:「I love you.」,WordNet可能只能識別出「love」等)

通過訓練數據集來對識別、解釋人類,人工智慧在一定的軟體基礎上可能在短時間內會因技術的缺陷、算法的偏見使人工智慧系統對人類的分類變得更加有侵略性。

可能技術本身是中立的,但一些地域的開發者在根本上會有著明顯的政治、人文的等偏向。

參考連結:

https://www.theverge.com/tldr/2019/9/16/20869538/imagenet-roulette-ai-classifier-web-tool-object-image-recognition

https://www.wired.com/story/fei-fei-li-artificial-intelligence-humanity/

https://imagenet-roulette.paglen.com/

https://www.theverge.com/2019/6/11/18661128/ai-object-recognition-algorithms-bias-worse-household-items-lower-income-countries

End

<< 滑動更多精彩內容>>

你「在看」我嗎?

相關焦點

  • CS231N 01: 圖像分類器
    最近鄰分類器將取一張測試圖像,與每一張訓練圖像進行比較,並預測最接近訓練圖像的標籤(算法訓練和預測的時間複雜度分別為: Train O(1),predict O(N))。在上圖和右邊的圖片中,你可以看到這樣一個過程對10張測試圖像的示例結果。請注意,在10個例子中,只有3個例子檢索到了同一類的圖像,而在其他7個例子中,情況並非如此。
  • 手把手教你用PyTorch實現圖像分類器(第一部分)
    最後一個項目是用PyTorch創建一個102種不同類型的花的圖像分類器。在做這個final project的時候,很多同學都遇到了類似的問題和挑戰。當我接近完成的時候,我決定與大家分享一些在未來對他人有益的建議和見解。通過3篇短文,介紹如何實現圖像分類器的概念基礎——這是一種能夠理解圖像內容的算法。
  • 【2019年第六期文章推薦】Softmax分類器深度學習圖像分類方法應用綜述
    2 Softmax在深度學習圖像分類中的應用自Softmax分類器問世以來,其在圖像分類領域的應用越來越廣泛,基於深度學習Softmax的圖像分類算法採用神經網絡模型與Softmax分類器級聯的形式實現圖像分類[17]。
  • 圖像分類:一個更魯棒的場景分類模型
    如何根據圖像的視覺內容為圖像賦予一個語義類別(例如,教室、街道等)是圖像場景分類的目標,也是圖像檢索、圖像內容分析和目標識別等問題的基礎。但由於圖片的尺度、角度、光照等因素的多樣性以及場景定義的複雜性,場景分類一直是計算機視覺中的一個挑戰性問題。本次任務從400萬張網際網路圖片中精選出8萬張圖片,分屬於80個日常場景類別,例如航站樓、足球場等。每個場景類別包含600-1100張圖片。
  • 如何優化你的圖像分類模型效果?
    問題 下面的問題是把給定的圖片分類到下面的6個類別中去。 然後丟棄概率得分超過0.9但是預測錯誤的圖像。下面這些圖像,是模型明顯錯誤分類的。深入觀察以後,我發現這些圖像是被人工錯誤分類了。
  • ResNet - 2015年 ILSVRC 的贏家(圖像分類,定位及檢測)
    跳過連接可以實現更深入的網絡,最終ResNet成為ILSVRC 2015在圖像分類,檢測和定位方面的贏家,和MS COCO 2015檢測和分割的獲勝者。ILSVRC 2015圖像分類排名ImageNet是一個包含超過1500萬個標記的高解析度圖像的數據集,包含大約22,000個類別。 ILSVRC在1000個類別中的每一個中使用大約1000個圖像的ImageNet子集。
  • 如何用PyTorch訓練圖像分類器
    它將介紹如何組織訓練數據,使用預訓練神經網絡訓練模型,然後預測其他圖像。為此,我將使用由Google地圖中的地圖圖塊組成的數據集,並根據它們包含的地形特徵對它們進行分類。我會在另一篇文章中介紹如何使用它(簡而言之:為了識別無人機起飛或降落的安全區域)。但是現在,我只想使用一些訓練數據來對這些地圖圖塊進行分類。下面的代碼片段來自Jupyter Notebook。
  • 面對未知分類的圖像,我要如何拯救我的分類器
    但對於大多數其他人來說,這還是令人十分震驚的。所以我想解釋為什麼會發生這種情況,以及我們可以對此做些什麼。作為人類,我們習慣於對我們看到的周圍世界中的任何事物進行分類。自然而然地,我們也希望機器具有相同的能力。然而,大多數模型僅僅被訓練用來識別非常有限的物體集合,例如 ImageNet 競賽中的 1,000 種物體。
  • HALCON高級篇:圖像分類
    在訓練之後,分類器將對象的特徵與有關類別的特徵做比較,並返回最大匹配的類別。根據所選的分類器,類別的可能性或者分類的可行度等可能額外的信息將被給出。一般來說,可以區分兩種對圖像數據的分類方法。一種方法是基於單純的像素分類,並且基於顏色或者紋理去分割圖像。另一種方法則更廣泛,分類任意特徵,例如你可以基於區域特徵去分類區域,如形狀,大小,或者顏色。
  • TensorFlow圖像分類教程
    本教程旨在把一個事先被放到訓練過的類別裡的圖片,通過運行一個命令以識別該圖像具體屬於哪個類別。步驟如下圖所示:標註:管理訓練數據。例如花卉,將雛菊的圖像放到「雛菊」目錄下,將玫瑰放到「玫瑰」目錄下等等,將儘可能多的不同種類的花朵按照類別不同放在不同的目錄下。如果我們不標註「蕨類植物」,那麼分類器永遠也不會返回「蕨類植物」。
  • 深度學習: 細粒度圖像分類 (fine-grained image recognition)
    對所得到的特徵進行適當的處理之後, 用來完成分類器的訓練和預測.精細化分類識別出物體的大類別(比如:計算機、手機、水杯等)較易,但如果進一步去判斷更為精細化的物體分類名稱,則難度極大。最大的挑戰在於,同一大類別下 不同 子類別 間的 視覺差異 極小。因此,精細化分類 所需的圖像解析度 較高。
  • 基於同質區和遷移學習的高光譜圖像半監督分類
    上述這些半監督分類方法,通常假設數據的生成機制不隨環境改變,即訓練樣本和測試樣本概率分布一致或者位於同一特徵空間。若數據分布有差異會造成這些方法的分類效果變差。而我們獲得的許多有標記樣本的遙感圖像可能不滿足這個條件,直接用於構建待分類遙感圖像的分類器效果不是很理想,若重新標記新的數據來訓練模型以適應新的數據分布,代價太高且費時費力。
  • 單個半導體器件也能計算XOR,組合後還能做AI圖像分類
    ANN要實現一個異或運算,至少需要2層神經網絡。現在,來自荷蘭特溫特大學一篇登上Nature的論文,再次打破我們的認知。他們發明了一種新的矽半導體器件,利用量子力學的隧道效應,可以在單個器件上進行任意邏輯運算,當然也包括異或。他們將這種器件並行組合,用來處理機器學習中的MNIST圖像分類任務,達到了96%的準確率。
  • 詳解計算機視覺五大技術:圖像分類、對象檢測、目標跟蹤、語義分割和實例分割
    因此,可以按照下面的步驟來分解:輸入是由 N 個圖像組成的訓練集,共有 K 個類別,每個圖像都被標記為其中一個類別。然後,使用該訓練集訓練一個分類器,來學習每個類別的外部特徵。最後,預測一組新圖像的類標籤,評估分類器的性能,我們用分類器預測的類別標籤與其真實的類別標籤進行比較。
  • 使用ResNet在iOS上進行AI圖像分類
    在這裡,我們將設置您的示例應用程式,設置模型,弄清楚如何處理應用程式中的分類請求,並將轉換後的ResNet模型添加到項目中。介紹深度神經網絡在諸如圖像分類等任務上非常出色。擁有一半像樣的GPU的任何人現在都可以輕鬆獲得十年前耗資數百萬美元的結果以及整個研究團隊。但是,深度神經網絡有一個缺點。
  • 使用卷積神經網絡進行圖像分類
    深度學習中的算法以與人腦相同的方式來處理信息,但其規模很小,因為我們的大腦太複雜了(我們的大腦大約有860億個神經元)。為什麼使用CNN進行圖像分類?圖像分類通過從圖像中提取特徵,以觀察數據集中的某些模式。由於可訓練參數變得非常大,因此使用ANN進行圖像分類最終會在計算上造成很高的成本。
  • 獨家 | kaggle季軍新手筆記:利用fast.ai對油棕人工林圖像進行快速分類(附代碼)
    數據集是稱為「行星」的人造衛星新近拍攝的經加注後的衛星圖像數據集,該圖像數據集具有3米的空間解析度,每幅圖像都是基於圖像中是否存在油棕種植園進行標記的(0表示沒有油棕種植園,1表示有油棕種植園)。任務是需要訓練一個模型,該模型以衛星圖像為輸入,並輸出對油棕種植園的圖像預測的概率。競賽創建者為模型開發提供了經過標記後的訓練和測試數據集。
  • 斯坦福CS231n課程筆記翻譯:圖像分類筆記篇(上)
    評價:讓分類器來預測它未曾見過的圖像的分類標籤,並以此來評價分類器的質量。我們會把分類器預測的標籤和圖像真正的分類標籤對比。毫無疑問,分類器預測的分類標籤和圖像真正的分類標籤如果一致,那就是好事,這樣的情況越多越好。Nearest Neighbor分類器作為課程介紹的第一個方法,我們來實現一個Nearest Neighbor分類器。
  • 零基礎入門深度學習(六):圖像分類任務之LeNet和AlexNet
    02 圖像分類概述圖像分類是根據圖像的語義信息對不同類別圖像進行區分,是計算機視覺中重要的基礎問題,是物體檢測、圖像分割、物體跟蹤、行為分析、人臉識別等其他高層次視覺任務的基礎。圖像分類在許多領域都有著廣泛的應用,如:安防領域的人臉識別和智能視頻分析等,交通領域的交通場景識別,網際網路領域基於內容的圖像檢索和相冊自動歸類,醫學領域的圖像識別等。
  • VGGNet、ResNet、Inception和Xception圖像分類及對比
    人們對這個任務的興趣得益於 ImageNet 圖像數據集根據 WordNet 層次結構(目前僅有名詞)組織,其中檢索層次的每個節點包含了成千上萬張圖片。更確切地說,ImageNet 旨在將圖像分類並標註為近 22000 個獨立的對象類別。