AI存在偏見和歧視,算法讓用戶喜好趨同?科學家給出了證據

2020-08-07 澎湃新聞

澎湃新聞記者 王心馨 實習生 何青怡

或許你已經注意到了,當你在電影評分網站給剛看完的電影評完分後,網站後續給你推薦的影片風格會與你看完的電影類似。舉個更常見的例子,當你在購物網站搜索過某樣物品後,第二天推薦頁面上顯示的都是類似款。

人工智慧可以幫助商家獲得客戶喜好,但同時也在逐漸根據用戶的反饋,形成喜好偏見,讓用戶的需求同化。不僅如此,在人臉識別領域,算法自帶的歧視和偏見導致的問題,已經引發了諸多爭議。

近日,來自多所大學學者的研究結果為上述的偏見和歧視提供了證據。他們的研究論文目前已在預印本網站Arxiv上發布。

算法推薦系統會放大偏見,並讓用戶喜好趨同

推薦系統的本質是一種基於產品內容或用戶行為的信息過濾。如今,我們用的很多應用程式和網站都嵌有算法推薦系統。假如你在某視頻網站給一部電影打了高分,那麼系統就會為你推薦更多同類型的電影。如果你給系統推薦的電影也打了分,系統就會將你的反饋行為添加到系統中,這就是一種反饋循環。

但是推薦算法會受到流行性偏見(popularity bias)的影響。流行性偏見是指,一些流行的項目會被經常推薦,而其他項目會被忽略。在上面的例子中,一些電影被更多的人喜愛,獲得了更高的評分,就屬於流行的項目,或者可以叫做熱門項目,這些項目會被更多推薦給用戶,這就是流行性偏見。

流行性偏見的產生一部分源於訓練數據本身存在不同的流行度,另一部分原因來自推薦算法。隨著時間的推移,這種流行性偏見將會被加強。因為如果用戶在反饋循環中不斷為熱門電影打高分,這些電影就變得更熱門,被推薦的機率也就更大。

為了研究反饋循環對推薦系統放大偏見和其他方面的影響,來自埃因霍溫科技大學、德保羅大學和科羅拉多大學博爾德分校的研究人員在一個電影數據集上使用三種推薦算法進行了仿真,模擬推薦系統的交互過程。

作為研究數據的MovieLens 1M數據集包含了6040個用戶對3706部電影給出的1000209個評分,分數範圍在1-5之間。研究人員使用的三種推薦算法分別是:基於用戶的協同過濾(UserKNN)、貝葉斯個性化排序(BPR)和一種向所有人推薦最流行產品的算法MostPopular。

AI存在偏見和歧視,算法讓用戶喜好趨同?科學家給出了證據

MovieLens數據集的初始流行性分布

通過使用這些數據和算法進行迭代——系統不斷為用戶生成推薦列表,用戶又不斷對推薦列表中的項目進行打分,研究人員發現,隨著時間的推移,三種算法下的數據平均流行度都有所上升,但總體多樣性呈現下降,這也就證明了推薦系統在反饋循環後的偏見被放大。

流行性偏見的放大還改變了系統對用戶興趣的判斷。在所有的推薦算法中,用戶的偏好與其初始偏好之間的偏差隨著時間的推移而增加。也就是說,這將導致推薦系統為用戶做出的推薦越來越偏離用戶的真實喜好,系統推薦給你的電影將不再符合你的口味。

除此之外,由於推薦系統的偏見被放大,用戶幾乎只能接觸到流行度高的項目,只能看到那些被更多人打了高分的熱門電影。於是,在推薦系統中他們的偏好都會向一個共同的範圍集中,這就表現為用戶偏好的同質化。而反饋循環造成的偏見對少數群體用戶的影響更大。

AI存在偏見和歧視,算法讓用戶喜好趨同?科學家給出了證據

隨著迭代次數增加,項目平均流行度上升(左),總體多樣性下降(右)

「解決算法偏見的方法變得至關重要。因為如果處理不當,隨著時間的推移,推薦系統中一個很小的偏差也可能會被極度放大。」研究人員在論文結尾處寫道。

人臉識別用於訓練的數據存在巨大偏差

針對人臉識別算法帶來的偏見越來越受到關注。例如,能將模糊照片清晰化的PULSE算法將美國前總統歐巴馬的模糊照片「還原」出了一張白人面孔,在全美BLM運動(Black Lives Matter,黑人的命也是命)如火如荼的背景下,就引發了巨大的爭議。

AI存在偏見和歧視,算法讓用戶喜好趨同?科學家給出了證據

圖片來源:Twitter網友@chicken3gg

人臉識別領域裡出現算法偏差和歧視,一個重要原因是用於訓練的數據集存在很大的偏差性。來自劍橋大學和中東科技大學的研究人員就從兩個用於識別人臉表情的數據集中找到了證據。

這兩個數據集分別為:RAF-DB和CelebA。其中,RAF-DB包含來自網際網路的數以萬計的圖片,這些圖片包括面部表情和屬性注釋,而CelebA擁有202599張圖像,包含10177人的40種屬性注釋。

為了確定兩個數據集存在偏差的程度,研究人員對隨機子集進行了採樣,並裁剪了圖像,以使面部在方向上保持一致。然後,他們使用分類器來衡量準確性和公平性。

理論上來說,為了讓算法保持準確和公平,這個分類器應在整個過程中提供不同的人口群體的相似結果。但實際情況並非如此。

在RAF-DB資料庫中,絕大多數的圖片來自年齡在20-39歲之間的白人。從具體的數據來看,這些圖片有77.4%來自白人,15.5%來自亞裔,而只有7.1%來自非洲裔美國人;在性別方面,女性為56.3%,男性為43.7%;在年齡上,超過一半的圖片來自20-39歲的年輕人,3歲以下和70歲以上的人甚至少於10%。

為進一步研究資料庫存在偏見的程度,研究人員分別使用了三種算法對資料庫的準確性和公平性進行評估。結果發現,在準確性方面,RAF-DB資料庫對少數族裔的識別準確性低於白人;在公平性方面,性別屬性相對更公平,為97.3%,種族和年齡的公平性相對較低,為88.1%和77.7%。

AI存在偏見和歧視,算法讓用戶喜好趨同?科學家給出了證據

RAF-DB資料庫中的數據分布

而在CelebA資料庫的圖片來源中,女性比例為61.4%,而男性只有38.6%。在年齡上,年輕人佔75.7%,明顯超過了佔比24.3%的老年人。

在準確性方面,CelebA資料庫對年輕女性的準確率為93.7%,但對老年男性的準確性較低,為90.7%。而該資料庫在性別和年齡方面的公平性表現都較好,分別為98.2%和98.1%。

AI存在偏見和歧視,算法讓用戶喜好趨同?科學家給出了證據

CelebA資料庫中的數據分布

許多公司曾用人臉識別軟體給面試者的情緒打分,如果整個系統都是有偏見的,對於面試者來說就意味著不公平。面部表情數據集中偏見的存也凸顯了監管的必要性。如何用法律防止技術濫用,成為未來這一領域裡值得思考的問題之一。

責任編輯:李躍群

校對:張亮亮

相關焦點

  • AI存偏見歧視?算法讓用戶喜好趨同?科學家給出證據
    AI存在偏見和歧視,算法讓用戶喜好趨同?科學家給出了證據或許你已經注意到了,當你在電影評分網站給剛看完的電影評完分後,網站後續給你推薦的影片風格會與你看完的電影類似。舉個更常見的例子,當你在購物網站搜索過某樣物品後,第二天推薦頁面上顯示的都是類似款。
  • AI正學會所有偏見!精華與糟粕通吃,算法偏見更難辨認也更持久
    但谷歌的一項新發明極大推進了人工智慧從文本材料中學習的速度,也使解決機器偏見問題迫在眉睫。 10 月 25 日,谷歌宣布利用 BERT 來優化搜尋引擎,已經使英語搜索結果的匹配度提高了 10% 左右。未來,谷歌還會推出學習其他語言和國家的算法。
  • 算法,隱藏的偏見
    谷歌人工智慧科學家蒂姆特·格布魯(Timnit Gebru)是一名非洲裔美國人,她表示對楊立昆的言論感到「失望」。格布魯多年來一直倡導人工智慧領域的公平和道德,因倡導消除面部識別系統和其他人工智慧算法中的種族和性別偏見而聞名。
  • 如何讓算法解釋自己為什麼「算法歧視」?
    人類把選擇乃至決策的權力拱手交給AI,在享受著由此產生的便利的同時,卻又不自覺地生發出自身及世界將被AI支配的恐懼心理。這種恐懼表徵於各種科幻電影和著作之中,「作為工具的AI反過來統治人類」成為大量影視作品經久不衰的主題;另一方面也漸顯於現實社會的諸多反思話語之中,當下對算法偏見、算法歧視以及對算法侵害隱私和社會關係的指責,無一不顯現出人類對這項革命性技術的恐懼。
  • AI也會種族歧視?智能算法竟把黑人看成黑猩猩
    這位大神之所以躺槍,是因為身為FB公司首席AI科學家,並且拿過圖靈獎的他,實在不忍看到AI技術遭到大眾如此誤解與貶損,於是便在推特上為PULSE算法「出頭」辯護。谷歌推出這項功能的初衷,本是為了方便用戶管理和搜索。然而,這個心智不成熟的AI,卻在實際操作中「抽風」,將一位黑人程式設計師和其女友的照片打上了「Gorilla」(大猩猩)的標籤。
  • 當AI是一名種族主義者:「中立」的算法暗藏歧視
    「現今世界,人工智慧掌控著機會、自由和信息獲取權,而它可能正在固化種族和性別等方面的歧視,並且威脅到我們的醫療和經濟系統,甚至影響司法公正。」算法正義聯盟的網站寫道。這一算法結果的解釋是,人工智慧學會了歧視女性應聘者,因為它的學習材料來自該公司10年來的簡歷數據,這10年以來,被錄用的候選者大部分是男性,性別差距在軟體開發等技術崗位上尤為明顯。亞馬遜公司回應表示,從未僅以人工智慧系統來篩選應聘者,但路透社在報導中指出,招聘人員能獲得人工智慧系統給出的建議。
  • 人工智慧也搞歧視!研究發現AI生成的藝術作品存在種族、性別偏見
    人工智慧也搞歧視!研究發現AI生成的藝術作品存在種族、性別偏見 站長之家(ChinaZ.com)12月29日 消息:隨著人工智慧技術研究不斷推薦,由算法生成的藝術作品的受歡迎程度也在持續增長。
  • 推文照片預覽有種族偏見?Twitter回應:將開源算法
    智東西(公眾號:zhidxcom)編| 張之珮智東西9月22日消息,針對多名用戶稱推文預覽存在種族歧視的問題,Twitter回應,將展開更多調查並公開算法原始碼,歡迎用戶查看算法、提出意見。也有網友認為,出現這一情況是因為算法更傾向於提取圖像中的亮度高和色彩密度大的區域,並不是「偏見」。
  • 大數據時代的算法歧視及其法律規制
    數據是算法的依託,本身具有客觀中立性,但人為設計的算法卻不可避免地隱含偏見。如在就業領域,某些特殊群體在崗位推送和篩選上時常受到搜尋引擎的差別對待;再如在市場營銷方面,網際網路平臺通過大數據分析消費者的購買或瀏覽記錄,對用戶進行「畫像」後,根據其喜好程度、收入水平的不同,在提供相同質量的商品或服務的情況下,分別實施「差異化定價」。此類在算法自動化決策中產生的不公平現象,被稱為算法歧視或算法偏見。
  • 算法是如何造成偏見的?
    首先,人工智慧業界對算法偏見是否有一個標準定義?算法偏見到底是指什麼?肖仰華:關於算法偏見的具體定義,不同專家的看法不一樣。總體而言,算法偏見其實不單單是指算法的偏見,或者人工智慧的偏見,任何技術總歸會存在一定的局限性,導致結果存在一定的偏見。
  • 張濤:自動化系統中算法偏見的法律規制
    (1)輸入數據導致的偏見 如前文所述,在實踐中廣泛使用的學習算法有一個重要特徵,即需要輸入大量數據進行「學習」。因此,導致算法偏見的一個重要原因是向算法提供的訓練數據(training data)或輸入數據(input data)本身存在偏見,即所謂的「偏見進,偏見出」。
  • AI的偏見是無法扭轉的悲劇
    研究人員說,這些工具是建立在反映治安、指控和司法裁決的大數據上的,而這些現有的數據本身就存在種族歧視因素。"這些問題不能用技術修復來解決,"他們說。隨著AI應用實踐的增加,算法的偏見日益受到重視。除了新澤西州,上個月,基於同樣的擔憂,俄亥俄州最高法院從一份擬議中的保釋改革名單中刪除了採用風險評估工具的建議。
  • 「法治天地」大數據時代的算法歧視及其法律規制
    數據是算法的依託,本身具有客觀中立性,但人為設計的算法卻不可避免地隱含偏見。如在就業領域,某些特殊群體在崗位推送和篩選上時常受到搜尋引擎的差別對待;再如在市場營銷方面,網際網路平臺通過大數據分析消費者的購買或瀏覽記錄,對用戶進行「畫像」後,根據其喜好程度、收入水平的不同,在提供相同質量的商品或服務的情況下,分別實施「差異化定價」。此類在算法自動化決策中產生的不公平現象,被稱為算法歧視或算法偏見。
  • 算法習得並強化了人類偏見嗎?如何測量、分析算法中的偏見
    雖然算法在提高決策準確性方面表現出了相當大的潛力,但在某些情況下,算法可能會對特定社會群體(如女性、黑人)施加不公平對待。例如隨著深度學習和神經網絡等一系列算法的出現,人們發現本應毫無偏見的計算機也習得了人類社會中的各種偏見。在計算機視覺領域,不同性別用戶發布的圖片內容不同,導致視覺語義標註中也存在性別偏見,如在廚房中的人物總是被識別為女性。
  • 2017,AI偏見為何如此受關注?
    但直到2017年,人們對AI算法偏見的公眾意識似乎才達到了一個臨界點。或許機器學習通過其自身的算法設定了我們每天上下班途中收聽的歌單,甚至在有漏洞的社交媒體算法中通過假新聞影響總統選舉。與此同時,越來越多對AI偏見的關注在除技術領域和學術界之外得到了證實和重新傳播。可喜的是,現在我們看到了針對AI算法偏見的具體措施。
  • AI社會學|傲慢與偏見:歐巴馬怎麼「變白」了?
    許多年之後,當我們追溯AI社會學的編年史,2020年深度學習大牛、Facebook 首席 AI 科學家楊樂昆(Yann LeCun)和 Google AI科學家蒂妮特·葛卜路(Timnit Gebru)在推特上進行的「算法偏見大辯論」也許仍然是值得記錄的一筆。
  • 俄羅斯出了款風靡西方的AI變臉App,卻把美國政客嚇壞了
    Snapchat也曾推出過一個「Yellowface」濾鏡,能夠讓用戶「變成」黃種人,也因涉及到種族歧視而遭到抗議和抵制。由於人工智慧是通過機器學習,利用大量數據讓計算機自己學習,從而形成算法。因此,前期數據集的偏差、價值觀,以及人類行為都會體現在最後的算法上。
  • 「可怕的實驗」似乎表明Twitter的裁剪工具是有種族偏見的
    但一名畢業程式設計師的實驗似乎顯示出種族偏見。推特發誓要調查此事,但在一份聲明中表示:「我們的團隊在發布模型之前進行了偏見測試,在我們的測試中沒有發現種族或性別偏見的證據。」「很明顯,從這些例子中我們需要做更多的分析。
  • 如何規制算法歧視?
    傳統法律監管方式作用式微,算法歧視成為平等權保護的困境,這警醒我們需要探索算法歧視背後的原理和規律,以尋找算法歧視挑戰下平等權保護的危機原因與應對方案。由於算法決策應用的廣泛性,算法歧視也隨之散布於很多領域。經過考察就業、價格、信用等三種常見的算法歧視可知,我國現行法律對算法歧視不能提供有效的救濟。結合全國人大立法規劃,我國對算法歧視應採取個人信息保護法和合理算法標準相結合的綜合治理路徑。
  • 算法中的性別歧視,應被看見被糾正
    本版插圖:小麗「如何避免算法中的偏見和歧視」「AI時代,女性如何向前一步」等話題,在剛剛召開的「世界網際網路大會·網際網路發展論壇」上,引起了普遍關注。算法是以數學方式或計算機代碼表達的意見,由算法模型和數據輸入決定著預測的後果。隨著人工智慧時代的加速到來,我們將生活在一個算法無所不在的世界,尤其是隨著算法決策開始介入並主導人類社會事務,算法對我們的生活和未來都將產生不可估量的影響。基於此,由於算法偏見可能帶來的法律與倫理風險也開始引起人們重視。