機器學習:亟須糾正的4大類「偏差」

2020-12-25 電子產品世界

  偏見是指個人對他人或其他群體所持有的缺乏充分事實依據的認識和態度,而機器學習中的偏差則是由缺乏足夠的特徵和用於訓練模型的相關數據集不全面引起的。機器學習算法在訓練中嚴格按照其數學構造和數據執行任務,準確完成人類所輸入的內容,因此,機器學習模型的偏差通常是由設計和收集相關數據的人的「偏見」造成的。

本文引用地址:http://www.eepw.com.cn/article/201810/393626.htm

  數據科學家在構建算法並對機器學習進行訓練時,源自其本身某種程度的偏見會不可避免地蔓延到AI模型中,比較幸運的是,機器學習的偏差能夠被檢測和規避。不過,相關的研究人員仍需保持警惕。本文總結了需要了解和防範的4種不同類型的機器學習偏差以供參考。

  1. 樣本偏差

  樣本偏差是訓練數據的問題。當用於訓練模型的數據不能準確地表現模型將運行的環境時,就會產生樣本偏差。沒有任何一種算法可以與整個宇宙環境的數據交互,並在這個宇宙環境中被訓練,所以,選擇一個足夠大且具備代表性的宇宙子集來減輕樣本的偏差成為一門科學。儘管這門科學容易理解,但並非所有的數據科學家都接受過抽樣技術的訓練。

  舉一個自動駕駛汽車的例子。當訓練一個在白天和夜晚都能使汽車自動駕駛的算法時,如果只選取了白天的數據進行訓練,這就等於在模型中引入了樣本偏差,用白天和夜晚的數據訓練算法才可以消除樣本偏差的來源。

  2. 偏見偏差

  偏見偏差是由受文化和刻板印象影響的數據所引發的結果。可以想像一下,假設有一個計算機視覺算法正在接受訓練來理解工作中的人們,而該算法暴露於數以千計的訓練數據圖,其中許多圖像顯示的是正在寫代碼的男性和在廚房幹活的女性,那麼,該算法很可能會將編碼員等同於男性,將家務員等同於女性。這就是偏見偏差,因為很顯然女性也能夠寫代碼,而男人也可以做飯。

  這裡的問題是,被選取的訓練數據有意識地或無意識地反映了社會的刻板印象。要避免這樣的情況出現,可以忽略性別和職業之間的統計關係,並使算法接觸均衡分布的示例。這顯然需要對刻板印象和偏見足夠敏感,而這則取決於人類對模型設定的表達行為的預期,僅靠數學無法克服這類偏差。負責標記和注釋訓練數據的工作人員必須接受相關的訓練,以避免他們將自己對社會的偏見或刻板印象引入到訓練數據中。

  3. 計量偏差

  如果用於觀察或測量的設備存在問題,這會使系統價值失真,這種偏差趨向於使數據朝某個特定的方向偏離。例如,用帶有彩色濾光片的相機拍攝的每幅訓練數據圖像都會出現顏色完全失真的情況,如此,用於訓練算法的圖像數據實際上也沒有系統地表現出算法將運行的環境。

  這種偏差無法通過簡單地擴大數據收集來避免,有效的途徑是,選取多個測量裝置並讓接受過訓練的人員來比較這些裝置的輸出內容。

  4. 算法偏差

  最後一種類型的偏差與數據無關,屬於算法的數學性質。一方面,具備高方差的模型可以很容易擬合到訓練數據中並能接納複雜性,然而,這種模型對雜訊(又稱噪音noise)十分敏感;另一方面,具備高偏差的模型則更加剛硬,對數據和噪聲的變化不那麼敏感,但容易丟失複雜性。因此,數據科學家需要在這兩個屬性之間達到適當的平衡。



  數據科學家能通過了解這四種類型的AI偏差構建出更好模型和選取更好的訓練數據。AI算法是由人類構建的,訓練數據也是由人類收集、篩選、標記和注釋的,因此,數據科學家需要敏銳地識別出這些偏差,並使用一種貫徹和迭代的方式來不斷測試模型,並吸納訓練有素的研究員協助,最終規避這些機器學習的偏差。


相關焦點

  • 蘋果手機地圖定位不準怎麼糾正 修復iPhone定位偏差調整方法
    怎麼糾正蘋果定位偏差?蘋果手機的定位功能是眾多手機品牌中可以說比較好的了,但是有的時候也會出現偏差不準,那麼大家知道怎麼糾正蘋果定位偏差嗎?相信還有很多用戶還不是很清楚,下面就快和小編一起看看吧!
  • 山東官方回應合村並居爭論:沒大拆大建,糾正偏差不搞一刀切
    6月17日上午,山東省政府新聞辦召開新聞發布會,針對山東「合村並居」工作,山東省自然資源廳黨組書記、廳長李琥介紹說,「目前,農村社區建設還處在探索推進階段,沒有下指標派任務,沒有大規模的大拆大建。比如,去年以來全省批覆實施增減掛鈎項目114個,涉及村莊268個。今年將在縣域層面基本完成村莊布局工作,有條件、有需求的村莊實現村莊規劃應編盡編。」
  • 日本推出治療近視的產品:鏡片圖像投影糾正焦點偏差!
    據介紹,日本窪田製藥研發的這款眼鏡會將該企業自主開發的影像投影到視網膜上,來糾正焦點偏差。但是該眼鏡的具體原理沒有公開。它通過鏡片將用於治療的圖像投影到患者眼睛內,而患者不會注意到投影的圖像,因此可以在正常從事生活和學習的同時接受治療。近視患者每天要持續佩戴1個小時至1個半小時左右。該眼鏡從去年7月起進入了臨床試驗。
  • 8種常見機器學習算法比較
    偏差&方差在統計學中,一個模型好壞,是根據偏差和方差來衡量的,所以我們先來普及一下偏差和方差:偏差:描述的是預測值(估計值)的期望E』與真實值Y之間的差距。偏差越大,越偏離真實數據。 如果是小訓練集,高偏差/低方差的分類器(例如,樸素貝葉斯NB)要比低偏差/高方差大分類的優勢大(例如,KNN),因為後者會過擬合。
  • 日本將推出治近視眼鏡:每天戴一個小時糾正焦點偏差
    據介紹,日本窪田製藥研發的這款眼鏡會將該企業自主開發的影像投影到視網膜上,來糾正焦點偏差。但是該眼鏡的具體原理沒有公開。
  • 機器學習十大算法都是何方神聖?
    雷鋒網(公眾號:雷鋒網)按:機器學習與人工智慧變得越來越熱。大數據原本在工業界中就已經炙手可熱,而基於大數據的機器學習則更加流行,因為其通過對數據的計算,可以實現數據預測、為公司提供決策依據。
  • 威斯康辛大學《機器學習導論》2020秋季課程完結,課件、視頻資源已...
    課程總共由七個部分組成:第一部分:簡介L01:什麼是機器學習1.1 課程概述:「Stat 451:機器學習導論(FS 2020)」的簡介1.2 什麼是機器學習:機器學習的定義,以及機器學習與編程的關係1.3 機器學習的類別:討論了機器學習的三大類
  • 杉數科技CTO王子卓:4大案例告訴你,如何用機器學習玩轉企業大數據...
    因此,本期公開課,雷鋒網邀請到杉數科技CTO王子卓博士來進行主題為「如何利用機器學習做運籌優化與智能決策」的分享。以運籌優化與智能決策為例,王子卓表示,大數據要產生實質價值,必須真正提升決策質量。規律性分析能夠從海量數據中發掘出規律,但是找到規律並不自然而然帶來決策方案,所以運籌優化學和機器學習,就是將實際中決策問題轉化為數學模型,並用高效的優化算法求解。
  • 機器學習十大算法都是何方神聖?看完你就懂了
    雷鋒網按:機器學習與人工智慧變得越來越熱。大數據原本在工業界中就已經炙手可熱,而基於大數據的機器學習則更加流行,因為其通過對數據的計算,可以實現數據預測、為公司提供決策依據。跟我們生活息息相關的最常見機器學習算法包括電影推薦算法、圖書推薦算法。這些算法都是基於你的電影觀看記錄或圖書購買記錄來給你做推薦的。
  • 亞馬遜機器學習服務Amazon SageMaker又添九項新功能
    使用 Amazon SageMaker Clarify進行偏差檢測和模型解釋Amazon SageMaker Clarify 在整個機器學習工作流中提供偏差檢測,使開發人員能夠在其模型中實現更大的公平性和更高的透明度。一旦開發人員為訓練和推理準備了數據,就需要儘量確保數據沒有統計偏差,並且模型預測是透明的,以便可以解釋模型特徵是如何預測的。
  • 分享最適合新手入門的10種機器學習算法
    最常見的機器學習類型是學習映射Y=f(X),用它來預測Y的值。這被稱為預測建模或預測分析,我們的目標是做出最準確的預測。 對於想了解機器學習基礎知識的新手,以下是數據科學家最常用的10種機器學習算法。 1.線性回歸 線性回歸也許是數據科學和機器學習中最知名、最好理解的算法了吧。
  • 你的機器學習模型為什麼會出錯?奉上四大原因解析及五條改進措施
    不論哪一種,當模型選定之後,下一步就是利用大量的現有數據對相關的機器學習算法進行訓練,探究既定的輸入數據和預想的輸出結果之間的內在關係。但這時可能會出現一種情況:訓練結果能夠成功應用於原始輸入和輸出,可一旦有新的數據輸入就不行了。或者說得更直白一點,應該怎樣評估一個機器學習模型是否真的行之有效呢?
  • 比價軟體酒水家電類掃碼價有偏差 豆漿機掃碼價才4元
    超市商品酒水、家電有差價記者體驗三款軟體均不準其中——掃碼查價豆漿機才4元▲「我查查」掃碼顯示物美九陽豆漿機價格為4.58元依靠著為人們提供「比價」服務,各類掃碼比價軟體興起。昨日下午,《法制晚報》記者體驗手機應用中最火的三款比價軟體發現,在眾多比價品類中,酒水、家電類部分出現偏差。
  • 機器學習速查表(cheatsheet)資源匯總分享
    本文收集整理了機器學習相關速查表(Machine Learning Cheatsheet),包含機器學習、Python、Numpy、Pandas、Matplotlib、線性代數、微積分、統計學、概率論等相關速查表。
  • 亞馬遜雲服務(AWS) 為機器學習擴圈 觸及每一位AI工作者
    Swami主題演講中表示,「機器學習是我們這一代人能遇到最具顛覆性的技術之一,目前已經有超過10萬客戶在使用AWS的機器學習服務,很多客戶已經將機器學習用於其核心業務。」 AWS大中華區雲服務產品管理總經理顧凡介紹說,「亞馬遜利用機器學習技術已經有20多年時間,這是AWS機器學習服務的深厚源泉。AWS在2016年開始發力,在雲上提供機器學習服務。
  • 清華大學崔鵬:探索因果推理和機器學習的共同基礎
    崔鵬是清華大學長聘副教授,於2010年獲得清華大學博士學位,研究興趣包括大數據環境下的因果推理與穩定預測、網絡表徵學習,及其在金融科技、智慧醫療及社交網絡等場景中的應用。他在數據挖掘和多媒體領域的著名會議和期刊上發表了100多篇論文,並先後獲得7項國際會議及期刊最佳論文獎。
  • 不止發力機器學習領域 AWS或許還隱藏著更大野心
    目前,隨著雲計算、5G、大數據以及物聯網等新型技術不斷發展,人工智慧已經不僅僅停留在概念階段,也是越來越多出現在普通人身邊,成為一股不可忽視的科技力量。面對此趨勢,有眾多企業已經布局在人工智慧領域中。在德勤發布的白皮書上,還有一項數據值得關注,在人工智慧的眾多分支領域中,機器學習已經成為核心的研究領域之一,目前,有89%的人工智慧專利和40%的人工智慧範圍內相關專利為機器學習範疇。但隨著機器學習使用的增加和複雜性的增加,培訓模型的成本和時間對企業來說是一個挑戰。
  • 射擊運動常見問題及糾正方法
    下面就為大家科普一下,射擊過程中的的常見問題及糾正方法。1、 抵肩、貼腮位置不正確。射擊時,射手若不能正確地抵肩、貼腮,就會產生偏差。在通常情況下,抵肩過低易打低;抵肩過高易打高。貼腮用力過大易打左高。糾正時,要反覆體會正確的抵肩位置,並通過他人摸、推的方法檢查抵肩位置是否正確;強調貼腮要自然。
  • 預測缺陷、工業分揀、故障感知 機器學習正在大舉入侵製造業!
    根據日本工業領域人工智慧專家Tomi的觀點,機器學習變革製造業主要有五種方式:  (1)代替肉眼檢查作業,實現製造檢查的智能化和無人化  例如工程巖體的分類,目前主要是通過有經驗的工程師通過仔細鑑別來判斷,效率比較低,並且不同的人有不同的判斷偏差。
  • 機器學習中的時間序列預測概述
    在正常的機器學習問題中,我們通過觀察值來進行預測,預測往往與時間因素無關。在某些情況下,機器學習也可以預測未來的結果,但這將同等對待所有過去的觀察結果。然而,時間序列數據集是完全不同的。在此模型中,當前與平均值的偏差取決於過去與平均值的偏差。移動平均線對於預測長期趨勢非常有用。移動平均線用MA(q)表示,其中q為移動平均線窗口的大小,也稱為移動平均線的階數。