AI存偏見和歧視?算法讓用戶喜好趨同?科學家給出證據

2020-11-30 東方網

&nbsp&nbsp&nbsp&nbspAI存在偏見和歧視,算法讓用戶喜好趨同?科學家給出了證據

&nbsp&nbsp&nbsp&nbsp或許你已經注意到了,當你在電影評分網站給剛看完的電影評完分後,網站後續給你推薦的影片風格會與你看完的電影類似。舉個更常見的例子,當你在購物網站搜索過某樣物品後,第二天推薦頁面上顯示的都是類似款。

&nbsp&nbsp&nbsp&nbsp人工智慧可以幫助商家獲得客戶喜好,但同時也在逐漸根據用戶的反饋,形成喜好偏見,讓用戶的需求同化。不僅如此,在人臉識別領域,算法自帶的歧視和偏見導致的問題,已經引發了諸多爭議。

&nbsp&nbsp&nbsp&nbsp近日,來自多所大學學者的研究結果為上述的偏見和歧視提供了證據。他們的研究論文目前已在預印本網站Arxiv上發布。

&nbsp&nbsp&nbsp&nbsp算法推薦系統會放大偏見,並讓用戶喜好趨同

&nbsp&nbsp&nbsp&nbsp推薦系統的本質是一種基於產品內容或用戶行為的信息過濾。如今,我們用的很多應用程式和網站都嵌有算法推薦系統。假如你在某視頻網站給一部電影打了高分,那麼系統就會為你推薦更多同類型的電影。如果你給系統推薦的電影也打了分,系統就會將你的反饋行為添加到系統中,這就是一種反饋循環。

&nbsp&nbsp&nbsp&nbsp但是推薦算法會受到流行性偏見(popularity bias)的影響。流行性偏見是指,一些流行的項目會被經常推薦,而其他項目會被忽略。在上面的例子中,一些電影被更多的人喜愛,獲得了更高的評分,就屬於流行的項目,或者可以叫做熱門項目,這些項目會被更多推薦給用戶,這就是流行性偏見。

&nbsp&nbsp&nbsp&nbsp流行性偏見的產生一部分源於訓練數據本身存在不同的流行度,另一部分原因來自推薦算法。隨著時間的推移,這種流行性偏見將會被加強。因為如果用戶在反饋循環中不斷為熱門電影打高分,這些電影就變得更熱門,被推薦的機率也就更大。

&nbsp&nbsp&nbsp&nbsp為了研究反饋循環對推薦系統放大偏見和其他方面的影響,來自埃因霍溫科技大學、德保羅大學和科羅拉多大學博爾德分校的研究人員在一個電影數據集上使用三種推薦算法進行了仿真,模擬推薦系統的交互過程。

&nbsp&nbsp&nbsp&nbsp作為研究數據的MovieLens 1M數據集包含了6040個用戶對3706部電影給出的1000209個評分,分數範圍在1-5之間。研究人員使用的三種推薦算法分別是:基於用戶的協同過濾(UserKNN)、貝葉斯個性化排序(BPR)和一種向所有人推薦最流行產品的算法MostPopular。

&nbsp&nbsp&nbsp&nbsp通過使用這些數據和算法進行迭代——系統不斷為用戶生成推薦列表,用戶又不斷對推薦列表中的項目進行打分,研究人員發現,隨著時間的推移,三種算法下的數據平均流行度都有所上升,但總體多樣性呈現下降,這也就證明了推薦系統在反饋循環後的偏見被放大。

&nbsp&nbsp&nbsp&nbsp流行性偏見的放大還改變了系統對用戶興趣的判斷。在所有的推薦算法中,用戶的偏好與其初始偏好之間的偏差隨著時間的推移而增加。也就是說,這將導致推薦系統為用戶做出的推薦越來越偏離用戶的真實喜好,系統推薦給你的電影將不再符合你的口味。

&nbsp&nbsp&nbsp&nbsp除此之外,由於推薦系統的偏見被放大,用戶幾乎只能接觸到流行度高的項目,只能看到那些被更多人打了高分的熱門電影。於是,在推薦系統中他們的偏好都會向一個共同的範圍集中,這就表現為用戶偏好的同質化。而反饋循環造成的偏見對少數群體用戶的影響更大。

&nbsp&nbsp&nbsp&nbsp「解決算法偏見的方法變得至關重要。因為如果處理不當,隨著時間的推移,推薦系統中一個很小的偏差也可能會被極度放大。」研究人員在論文結尾處寫道。

&nbsp&nbsp&nbsp&nbsp人臉識別用於訓練的數據存在巨大偏差

&nbsp&nbsp&nbsp&nbsp針對人臉識別算法帶來的偏見越來越受到關注。例如,能將模糊照片清晰化的PULSE算法將美國前總統歐巴馬的模糊照片「還原」出了一張白人面孔,在全美BLM運動(Black Lives Matter,黑人的命也是命)如火如荼的背景下,就引發了巨大的爭議。

&nbsp&nbsp&nbsp&nbsp人臉識別領域裡出現算法偏差和歧視,一個重要原因是用於訓練的數據集存在很大的偏差性。來自劍橋大學和中東科技大學的研究人員就從兩個用於識別人臉表情的數據集中找到了證據。

&nbsp&nbsp&nbsp&nbsp這兩個數據集分別為:RAF-DB和CelebA。其中,RAF-DB包含來自網際網路的數以萬計的圖片,這些圖片包括面部表情和屬性注釋,而CelebA擁有202599張圖像,包含10177人的40種屬性注釋。

&nbsp&nbsp&nbsp&nbsp為了確定兩個數據集存在偏差的程度,研究人員對隨機子集進行了採樣,並裁剪了圖像,以使面部在方向上保持一致。然後,他們使用分類器來衡量準確性和公平性。

&nbsp&nbsp&nbsp&nbsp理論上來說,為了讓算法保持準確和公平,這個分類器應在整個過程中提供不同的人口群體的相似結果。但實際情況並非如此。

&nbsp&nbsp&nbsp&nbsp在RAF-DB資料庫中,絕大多數的圖片來自年齡在20-39歲之間的白人。從具體的數據來看,這些圖片有77.4%來自白人,15.5%來自亞裔,而只有7.1%來自非洲裔美國人;在性別方面,女性為56.3%,男性為43.7%;在年齡上,超過一半的圖片來自20-39歲的年輕人,3歲以下和70歲以上的人甚至少於10%。

&nbsp&nbsp&nbsp&nbsp為進一步研究資料庫存在偏見的程度,研究人員分別使用了三種算法對資料庫的準確性和公平性進行評估。結果發現,在準確性方面,RAF-DB資料庫對少數族裔的識別準確性低於白人;在公平性方面,性別屬性相對更公平,為97.3%,種族和年齡的公平性相對較低,為88.1%和77.7%。

&nbsp&nbsp&nbsp&nbsp而在CelebA資料庫的圖片來源中,女性比例為61.4%,而男性只有38.6%。在年齡上,年輕人佔75.7%,明顯超過了佔比24.3%的老年人。

&nbsp&nbsp&nbsp&nbsp在準確性方面,CelebA資料庫對年輕女性的準確率為93.7%,但對老年男性的準確性較低,為90.7%。而該資料庫在性別和年齡方面的公平性表現都較好,分別為98.2%和98.1%。

&nbsp&nbsp&nbsp&nbsp許多公司曾用人臉識別軟體給面試者的情緒打分,如果整個系統都是有偏見的,對於面試者來說就意味著不公平。面部表情數據集中偏見的存也凸顯了監管的必要性。如何用法律防止技術濫用,成為未來這一領域裡值得思考的問題之一。

相關焦點

  • AI的偏見:機器就是絕對理性的麼?
    以下是我能想出的最好的定義:對於社會歧視影響下的特定任務,如果給定的人工智慧模型能夠輸出獨立於敏感性參數(例如性別、種族、性取向、宗教信仰、殘疾等)的結果,那麼這個人工智慧模型就是公平的。本文將討論人工智慧偏見,與之對應的真實例子,及其解決方法。問題人工智慧偏見是由於訓練模型的數據所固有的偏見造成的,這導致了社會歧視,進而導致平等機會的缺乏。
  • 算法習得並強化了人類偏見嗎?如何測量、分析算法中的偏見
    雖然算法在提高決策準確性方面表現出了相當大的潛力,但在某些情況下,算法可能會對特定社會群體(如女性、黑人)施加不公平對待。例如隨著深度學習和神經網絡等一系列算法的出現,人們發現本應毫無偏見的計算機也習得了人類社會中的各種偏見。在計算機視覺領域,不同性別用戶發布的圖片內容不同,導致視覺語義標註中也存在性別偏見,如在廚房中的人物總是被識別為女性。
  • AI把黑人認成了黑猩猩,如何避免AI也染上歧視惡習?
    這位大神之所以躺槍,是因為身為FB公司首席AI科學家,並且拿過圖靈獎的他,實在不忍看到AI技術遭到大眾如此誤解與貶損,於是便在推特上為PULSE算法「出頭」谷歌推出這項功能的初衷,本是為了方便用戶管理和搜索。然而,這個心智不成熟的AI,卻在實際操作中「抽風」,將一位黑人程式設計師和其女友的照片打上了「Gorilla」(大猩猩)的標籤。
  • AI將非洲人標為大猩猩 創建無偏見機器人有多難?
    在其核心領域,機器學習利用算法分析數據、提取模式以及學習和預測,並會基於收集到的見解做出決定。它已經成為我們日常生活中使用的許多技術的基石,比如搜尋引擎、面部識別應用以及數字助理等。機器學習算法獲得的數據越多,它就會變得越聰明。這也就是科技公司千方百計收集更多用戶和消費者數據的原因。但是最終,機器學習只會保持其獲得的數據那樣聰明。
  • 偏見與歧視,為何時時都在毒化社會和心靈?
    這個案例可以很清楚的說明,在哪怕是曾經加入到同盟國,對抗屠殺和清洗過大量猶太人的納粹德國的國家,對於猶太人的社會歧視也根深蒂固。請注意,這個案例中的100家度假村,都不認識瓦克絲杜撰出的「格林伯格」或「洛克伍德」。這也意味著,這兩個「人」對於度假村帶來的潛在收益和風險,至少在預訂階段是完全一致的,沒有證據顯示「格林伯格」會帶來額外的什麼病毒,以及財產等方面的風險。
  • 人工智慧也搞歧視!研究發現AI生成的藝術作品存在種族、性別偏見
    人工智慧也搞歧視!研究發現AI生成的藝術作品存在種族、性別偏見 站長之家(ChinaZ.com)12月29日 消息:隨著人工智慧技術研究不斷推薦,由算法生成的藝術作品的受歡迎程度也在持續增長。
  • 科學家首次發現蟒和蚺的「趨同進化」現象
    科學家首次發現蟒和蚺的「趨同進化」現象 2016-06-15 新華網 徐海靜 【字體:澳大利亞國立大學14日公布的一項研究結果顯示,這兩類蛇在相似的棲息環境中獨立進化出了類似的特徵,這一發現為爬行動物的「趨同進化」提供了新證據。  蟒和蚺在生物分類學中分屬不同的科,但都是體型巨大的蛇,比如網紋蟒和森蚺,都能長到近8米長。它們都用扼殺的方式殺死獵物。但實際上,它們的共同祖先生活在7000萬年前的恐龍時代。
  • 用黑科技去探究人類的大腦,解讀歧視與偏見,窺探人性的本質
    今天跟大家聊一聊,心理學家們是如何利用高科技,技術手段來研究人們大腦中的偏見與歧視的,那麼這項研究是由康奈爾大學和紐約大學的心理學家們完成,並發表在社會心理學頂尖雜誌《the journal of personality and social psychology(人格與社會心理學雜誌)》上面的。
  • 要求的哥清除或遮蓋文身,無關歧視和偏見
    要求的哥清除或遮蓋文身,無關歧視和偏見 2020-09-22 01:28:45 責任編輯:於曉 2020年09月22日 01:28 來源:新京報參與互動   要求的哥清除或遮蓋文身,無關歧視和偏見
  • 歧視和偏見所逼迫,申公豹原來也是個熱血青年
    ,於是做出了這種聯合龍族,掉包魔丸和靈珠逆天行事的事情。如果不是他,李靖和殷夫人生下的孩子哪吒會成為大英雄,像自己的父親一樣守護著陳塘關的百姓。 但也就是因為天庭對妖魔成精的偏見,元始天尊覺得他心術不正心存邪念,就沒有將十二金仙的位置留給申公豹
  • 如今的AI圖像分類器還是「睜眼瞎」
    Paglen對此表示除了突出ImageNet項目的一些致命缺陷外,這也是由於受到人類自身開發的原因,所導致發生的AI系統錯誤和機器學習偏見的現象。事實上這種偏見在AI中眾所周知的問題,究其本質有著許多的根本原因。其中就西方研發工程師來說,通常用於創建算法的訓練數據根本上是反映了工程師本人的生活和背景。
  • AI 將非洲人標記為大猩猩:機器學習之路還有多長?
    在其核心領域,機器學習利用算法分析數據、提取模式以及學習和預測,並會基於收集到的見解做出決定。它已經成為我們日常生活中使用的許多技術的基石,比如搜尋引擎、面部識別應用以及數字助理等。機器學習算法獲得的數據越多,它就會變得越聰明。這也就是科技公司千方百計收集更多用戶和消費者數據的原因。但是最終,機器學習只會保持其獲得的數據那樣聰明。
  • 韓AI聊天機器人被疑洩露用戶信息 被迫銷毀資料庫和算法
    韓國AI聊天機器人Iruda人民網訊 近日,在韓國引起熱議的AI聊天機器人「Iruda」因被質疑洩露用戶信息,再次站上輿論的風口浪尖。1月15日,Iruda的開發公司宣布將銷毀Iruda資料庫和深度學習算法。
  • 「深度」價格歧視、選擇偏見、數據洩露,人工智慧這樣「看透」你
    移動網際網路初期,曾經掀起過一波由網際網路巨頭瓜分零售端市場所引發的價格歧視,主要是通過微信搶紅包等補貼式價格歧視策略搶佔市場,「掌上專享」、「手機特惠」等非常常見。而今時今日精明的商家推出的就是AI化價格歧視。AI化動態定價可以根據用戶數據、供求關係精準推算出支付意願,當然這也會使那些不精明的消費者支付更多。
  • 你認為AI對你會有偏見嗎
    原因在於訓練機器識別假新聞的資料庫中充滿了人類的偏見,因此,訓練而成的人工智慧也不可避免地帶上了刻板印象。 人類偏見是人工智慧界普遍存在的沉痾。ImageNetRoulette數字藝術項目通過使用AI分析描述用戶上傳的圖片,揭示出了這一嚴峻問題。本期全媒派獨家編譯《紐約時報》對ImageNetRoulette項目的評論,為你呈現人工智慧背後的「隱形偏見」。
  • AI 也有種族「偏見」?
    生成這些圖像的程序是一種叫做 PULSE 的算法,該算法使用一種稱為「升級」的技術來處理視覺數據。這種技術就像你在電視和電影中看到的畫面,通過「放大和增強」使視覺效果更強。但是,不像好萊塢大片中的特效畫面,軟體不能無中生有地產生新的數據。 為了將低解析度圖像轉換為高解析度圖像,軟體必須使用機器學習來填補空白。
  • 它只是看出了你的偏見
    近期,一份來自史丹福大學的研究聲稱,他們的算法可以通過對照片中人物的表情、動作和神態進行分析,推斷出人物的性取向。但批評家卻認為,這只是披上了人工智慧外衣的偽科學和面相學。這些早已被西方科學世界摒棄的落後觀念,如今在新科技的掩飾下,重新抬頭。
  • 研究發現深海熱液甲殼動物趨同進化的表型及分子證據
    該研究首次發現深海熱液甲殼動物趨同進化的表型及分子證據,揭示白色體色和化能合成營養代謝的關鍵遺傳機制,為揭秘深海物種環境適應的獨特機制提供新的理論依據。趨同進化是進化生物學領域的研究熱點,指親緣關係較遠的生物因棲居於相同的生活環境而演化形成相似的形態特徵或生理表型的現象。通過趨同進化研究,可揭示物種適應特殊環境的生物學本質。
  • AI 算法已趨同?億分之一的人臉識別辨識度意味著什麼?
    各項算法之間有沒有區別?隨著AI熱潮的湧現,各家AI公司都會頻繁參加一些業界的比賽以證明自己的算法實力,以人臉識別算法為例,可以看到各AI公司在LFW等類似的計算機視覺比賽中都取得99.xx%的成績。於是人們會問:AI算法是否已經趨同了?如果算法精度差別不大(只有幾個百分點),是否意味著創業公司的技術已經同質化了,沒有技術創業的核心競爭力了呢?但實際上,這是典型的認知誤區。
  • 偏見是自身價值體系的反射——讀《偏見的本質》
    一個存有偏見的人,會給一個群體貼上沒有根據的標籤,然後把自己不喜歡的那些人歸入這個群體,並且不斷強化對這個群體的負面評價,從而形成刻板印象。奧爾波特指出,偏見的兩大基本要素,錯誤的泛化和敵意,都是人類心理自然而普遍的本質。 為了簡化世界,快速識別相關的對象,人類需要分類。分類會給歸類到其中的事物浸染上相同的概念意義和感情色彩。