神經網絡和人一樣懶惰,都喜歡走捷徑?

2020-10-10 數據派THU


來源:AI科技大本營


本文
約4800字,建議閱讀10+分鐘捷徑學習是當前ML模型與人類智能之間最具標誌性的差異。

以下為譯文:


人工智慧會很快取代放射科醫生嗎?最近,研究人員訓練了一個深度神經網絡對乳腺癌進行分類,其準確度達到了85%。當與其他三種神經網絡模型結合使用時,最終的集成方法達到了出色的99%的分類準確度,可以與經過多年訓練的放射專家相媲美。

上述關於乳腺癌的分類結果是正確的,但有一點小問題:研究人員沒有使用最先進的人工深度神經網絡,而是訓練「自然」神經網絡——更準確地說,是用四隻鴿子來診斷乳腺癌。

2018年,加利福尼亞大學的研究員發現鴿子對乳腺組織的顯微圖像很敏感,還能夠準確通過乳腺X光片鑑別良性、惡性乳腺癌腫瘤,經過15天的訓練之後,鴿子們對乳腺癌病理切片和醫學影像的判斷正確率就提升到了85%左右。

然而,鴿子從未被視為醫學成像的未來,大公司也沒有砸錢建大規模養鴿場:與我們對深度神經網絡(DNNs)的期望相比,我們對鴿子並沒抱太大期望。

在許多方面,DNN確實沒有辜負宣傳和人們的希望:它們在整個社會,行業和科學領域的成功都是不可否認的,而且新的突破仍然會在幾個月(甚至幾周)的時間就能實現。但是,看似脫節的失效案例仍在不斷發生著:DNN在識別物體方面達到了超人的性能,但是即使很小的看不見的變化或不同的背景和環境也可能使預測完全偏離。DNN可以為圖像生成合理的標題,但是,令人擔憂的是,DNN可以在不真正查看該圖像的情況下這樣做。DNN可以準確識別人臉,但對少數群體的人臉識別錯誤率卻非常高。DNN可以根據簡歷預測聘用決策,但是算法在選擇的過程中卻會出現偏見。

如何調和DNN超出人類的表現,同時卻可能會犯下荒謬錯誤之間的偏差呢?我們認為,許多失敗案例不是個例,而是和DNN會無意識地遵循「捷徑」策略有關。雖然表面上是成功的,但稍微發生些許偏差,這些策略通常會以失敗告終。

「捷徑」是指在標準基準上表現良好,但在更具挑戰性的測試條件上表現差的決策規則。「捷徑」出現的情況多種多樣,在數據集和應用程式領域中無處不在。比如:

從原則上講,捷徑學習並不是一種新現象,它有很多不同的術語名稱,例如「協變移位學習 」、「反因果學習」、「數據集偏差」、「坦克傳奇 」和「聰明漢斯效果」等。 我們在這裡討論捷徑學習如何結合深度學習的問題,以及我們可以做些什麼來更好地理解和使用捷徑學習。


一、什麼是捷徑?


機器學習中,模型能夠學習的解決方案受數據、模型體系結構、優化器和目標函數的約束。然而,這些約束往往會允許不止一個解決方案,通常有很多不同的方法來解決同一個問題。捷徑是在典型測試集上表現良好,但在不同情況下失敗的解決方案,暴露出與我們的意圖不符的現象。

舉一個例子,當在簡單的星月數據集上訓練時(頂行),標準的神經網絡(三層,完全連接)可以輕鬆地對新的類似樣本(數學上稱為i.i.d.測試集)進行分類。但是,在稍有不同的數據集(o.o.d.測試集,最下面一行)上對其進行測試揭示了一種捷徑策略:網絡已學會將對象位置與類別相關聯。在訓練過程中,星星總是顯示在圖片的右上角或左下角;月亮則顯示在左上角或右下角。這種模式仍然存在於來自i.i.d.測試集(中間一行)的樣本中,但在o.o.d.測試圖像(下排)中不存在,從而暴露了捷徑現象。這裡最重要的一點是,在訓練設置約束下,位置和形狀都是有效的解決方案,因此,沒有理由期望神經網絡更喜歡其中一個。然而,人類具有使用物體形狀的強烈直覺。就像這個例子看起來那樣,對抗性例子,偏向機器學習模型,缺乏領域通用性和輸入略有變化引起的失效等都可以理解為捷徑學習現象的實例。

例如,研究人員開發了一種機器分類器,能夠從多家醫院的X光掃描中成功檢測出肺炎,但是對於來自新醫院的掃描,它的性能卻出人意料地低:該模型意外地學會了以近乎完美的精確度識別特定的醫院系統(例如,通過在掃描中檢測到醫院特定的金屬標記,請參見左圖)。加上醫院的肺炎患病率,它在訓練過程中就可以達到相當好的預測,而根本無需了解太多肺炎的知識。分類器沒有學習如何「理解」肺炎,而是選擇了最簡單的解決方案,僅查看標記類型。


二、深度學習之外的捷徑學習

通常,這樣的失敗案例可以被視為機器學習算法不可信任的原因。然而,生物學學習者也遇到非常相似的失敗模式。在牛津大學實驗室的一項實驗中,研究人員觀察到,老鼠可以僅根據細微的色差學習到穿越複雜迷宮的方法,這非常令人驚訝,因為老鼠的視網膜僅具有基本的視覺能力,視力非常差。深入研究這個奇怪的現象,我們會發現原來老鼠欺騙了研究人員:他們在實驗中根本沒有使用視覺系統,而是僅僅通過迷宮壁上使用的彩色塗料的氣味來區分顏色。一旦控制了氣味,老鼠們卓越的顏色辨別能力就消失了。

動物通常以一種意想不到的方式解決一個實驗範式(即數據集),而未使用人們真正感興趣的能力,從而迷惑實驗者。對人類來說,這凸顯了想用比人類現有方式更複雜的方式來解決一項艱巨的挑戰是多麼的困難。當然,在Marr的實驗實現層面,老鼠和人的顏色辨別能力可能存在差異。但是在算法級別上,通常會默認一個假設,即類人的表現意味著類人的策略(或算法)。這種「相同的策略假設」同樣存在於深度學習:即使DNN單元與生物神經元不同,但如果DNN成功識別出物體,那麼似乎可以很自然地認為它們是像人類一樣使用通過物體的形狀來識別物體。因此,我們需要區分實驗對象在一個數據集的性能表現與獲取能力之間的聯繫,在將「物體識別」或「語言理解」等高級能力賦予機器之前,我們要非常謹慎,因為通常有一個更簡單的解釋:


可以歸因於捷徑學習時,切勿使用高級能力進行解釋。


三、捷徑學習需要我們改變基準測量的方式

從歷史上看,機器學習研究主要由基準驅動,基準測試通過在任務和數據集的固定組合上對算法進行評估,使算法具有可比性。這種模式在很短的時間內就引領了該領域的巨大進步。但這並非沒有缺點。一方面,它為研究人員提供了強大的動力,使其可以將精力更多地集中在改進現有基準的新穎算法的開發上,而不是了解他們的算法或基準。然而,這種對理解的忽視,恰恰讓是讓捷徑學習成為深度學習中普遍存在問題的部分原因。


讓我們看一個著名的例子:ImageNet 數據集和挑戰賽創建於2009年,作為一種新的衡量對象識別進度、算法識別和分類對象能力的方法。由於ImageNet規模巨大,它本身是一個未解決的問題,沒人膽敢挑戰。它的多樣性和規模為當前的深度學習革命鋪平了道路。Krizhevsky等人2012年的論文和挑戰賽的耀眼成績證明了具有學習權重的深層神經網絡可以用獨特的方式處理這種複雜性(而不是當時普遍的手工調整圖像分析方法)。在接下來的幾年中,ImageNet成為ImageNet基準測試進步和性能提升的推動力,成為計算機視覺進步的代名詞。

直到最近幾年,隨著越來越多的DNN失效案例的出現,這種情況才開始慢慢改變。所有這些失效案例背後的一個主要原因是,儘管ImageNet具有規模和多樣性,但它並不需要真正的對象識別,從某種意義上說,模型必須正確地識別和分類我們用作標籤的前景對象。相反,在許多情況下,對象的背景、紋理或其他對人類不太明顯的捷徑可以很好地被識別。如果比場景中的主要對象更容易識別背景,網絡通常會學習利用這一點進行分類。

這種行為所引起的後果,是神經網絡泛化能力的失敗。下圖左側是人們期望模型進行泛化的幾個方向。不管是手繪的黑白的還是彩色的門牌號,5都是5。同樣,在姿態、紋理或背景上的輕微變形或變化也不會影響我們對圖像中主要對象的預測。相比之下,DNN很容易被欺騙。有趣的是,這並不意味著DNN完全不能泛化:事實上,在對人類幾乎沒有意義的方向上,它們還是可以很好地泛化。下圖的右側顯示了一些例子,從一些可理解的(置亂圖像以僅保留其紋理)到完全不可理解。

導致捷徑學習和隨後的泛化失效的關鍵問題是我們對任務的理解與它實際上激發學習的模型之間的差異。我們如何減輕這個問題並提供對捷徑學習的洞察力?當前大多數基準測試的主要缺點是,它們會測試訓練集中相同數據分布的圖像(iid測試)。這種類型的評估僅需要一種較弱的泛化形式。但是,我們需要強大的歸納能力,這些能力大致與我們的直覺相吻合。為了測試這些,我們需要良好的分布外測試(ood測試),這些測試應具有明顯的分布變化,明確定義的預期解決方案,並提供模型學習捷徑的節點。

但還不止於此:當模型變得越來越好時,它們會學習利用微妙的捷徑,因此我們預測,基準測試也會越來越強。這種「滾動基準」可以確保我們在模型開發過程中不會失去對最初目標的跟蹤,而會不斷地將精力重新集中在解決我們真正關心的潛在問題上,同時加深我們對建模管道與模型之間相互作用的理解。


四、跨過捷徑實現理解,該怎麼做?

科學的目標就是理解。儘管深度學習作為一門工程學科在過去幾年中取得了長足的進步,但深度理解作為一門科學學科,在理解控制機器學習如何從數據中提取模式的原理和局限性方面仍非常落後。更加深入地理解捷徑學習不僅關乎當前機器學習的應用,未來還可能有助於跨學科研究,如與經濟學(通過獎勵意外的「捷徑」行為來設計不會危及長期成功的管理激勵措施)、法律(創建沒有「漏洞」捷徑機會的法律)交叉融合的機會。但是,必須指出,我們可能永遠不會完全解決捷徑學習。模型始終以減少的信息為基礎來做出決策,因此泛化失敗不可避免:受捷徑學習影響而失敗將會是常態,而不是意外。為了深入理解捷徑學習,或減輕它的影響,我們有五個建議:

1. 連接點:捷徑學習無處不在

捷徑學習似乎是生物學和人工學習系統的普遍特徵。深度學習中的許多問題都與捷徑學習有關——模型利用數據集捷徑機會,僅選擇一些預測特徵而不是仔細考慮所有可用證據,因此因各種原因失敗。受影響區域之間的「連接點」很可能會促進發展,並且在各個應用場景中產生極有價值的影響。

2. 認真解讀結果

發現捷徑通常意味著,一個看似複雜的數據集可以用簡單的方案解決。我們認為,在將諸如「對象識別」或「語言理解」之類的高級功能歸因於機器之前,我們需要格外小心,因為通常會有更簡單的解釋。

3. 測試分布外的泛化表現

評估iid測試數據的模型性能(就像當前大多數基準測試一樣)不足以區分預期的和意外的(捷徑)解決方案。因此,分布外的測試是必須要做的。

4. 了解是什麼讓解決方案易於學習

DNN總是學習最簡單的問題解決方案,但是要了解哪種解決方案更簡單(從而容易學習),則需要弄清結構(體系結構)、經驗(訓練數據)、目標(損失函數)和學習(優化)的影響,以及對這些因素之間相互作用的透徹理解。

5. 首先弄清楚是否真的要解決這個問題

捷徑的存在意味著,無論任務是否得到充分證實,DNN都會找到解決方案。例如,系統可能試圖根據敏感的人口統計學(例如膚色或種族)或僅根據外表,用捷徑來評估信用分數。這很令人擔憂,因為當將機器學習用於不明確或有害的任務時,可能會強化錯誤的假設和有問題的關聯。捷徑方式可以使此類可疑任務看起來完美可解決。但是,DNN具有高性能處理任務或基準的能力永遠無法證明任務的存在或潛在假設。因此,在評估一項任務是否可以解決時,我們首先需要問:是否真的要解決這個問題?如果答案是yes,、應該用AI來解決嗎?

捷徑學習是當前ML模型與人類智能之間最具標誌性的差異。但具有諷刺意味的是,正是這種對「作弊」的偏愛,使神經網絡看起來幾乎和人類又相像了幾分:誰還沒有過在考試前偷懶背材料,而不是花時間去真正理解的經歷?誰從來沒有試圖在一項法規中尋找漏洞,而不是堅持法律的精神?最後,神經網絡也許和(懶惰的)人類並沒有什麼不同……

本觀點基於以下論文:

Geirhos,R.,Jacobsen,JH,Michaelis,C.,Zemel,R.,Brendel,W.,Bethge,M.&Wichmann,FA(2020)。深度神經網絡中的快捷學習。arXiv預印本arXiv:2004.07780。

作者簡介:


Dr.Jörn-HenrikJacobsen,圖賓根大學博士後,在阿姆斯特丹大學獲得博士學位,研究廣泛涉獵學習有用的含義和世界的通用表示形式,特別關注分布外的概括,無監督表示學習,穩定性保證和算法偏差。

Robert Geirhos,德國馬克斯·普朗克國際智能系統研究學院的博士,獲得蒂賓根大學計算機科學專業碩士學位,專注於人類和計算機視覺研究。

Claudio Michaelis,國際馬克斯·普朗克智能系統研究學院博士,獲康斯坦茨大學碩士學位,興趣領域為理解人工神經網絡。

原文連結:

https://thegradient.pub/shortcuts-neural-networks-love-to-cheat/


編輯:晏斕輝


——END——

想要獲得更多數據科學領域相關動態,誠邀關注清華-青島數據科學研究院官方微信公眾平臺「 數據派THU 」。歡迎大家評論區討論和留言~

相關焦點

  • 神經網絡其實和人一樣懶惰,喜歡走捷徑......
    最近,研究人員訓練了一個深度神經網絡對乳腺癌進行分類,其準確度達到了85%。當與其他三種神經網絡模型結合使用時,最終的集成方法達到了出色的99%的分類準確度,可以與經過多年訓練的放射專家相媲美。上述關於乳腺癌的分類結果是正確的,但有一點小問題:研究人員沒有使用最先進的人工深度神經網絡,而是訓練「自然」神經網絡——更準確地說,是用四隻鴿子來診斷乳腺癌。
  • 人的思想一旦無所事事,出現懶惰,就好像一條絲線打了死結
    這裡分享的是不一樣的情感時尚美……點讚收藏轉發三連支持作者多寫點,記得關注,隨時回家欣賞什麼也不想做?也不知道想做什麼?也沒有要緊的事做,想做的事情可能又不能如願以償。你就這樣在那乾耗著。盤點心境,心境不算太差,也不枯寂,但也不覺得暢達。這是什麼味?我不知道。你有過這樣的經歷嗎?
  • 比爾·蓋茨曾說:我更喜歡懶惰的人。懶是高智商的表現嗎?
    比爾·蓋茨曾說:我更喜歡懶惰的人,因為這些傢伙總是能夠找到更簡單的方法來解決問題。所以,這句話的重點在後半部分,這裡的「懶惰」更多的是指肢體上的懶惰,並不是大腦的懶惰。那麼,肢體懶惰是高智商的表現嗎?研究人員們找到了一些學生,通過他們對特定觀點的認可程度對他們進行判定,當然,這些特點觀點很大程度上代表著他們的懶惰程度以及大腦活躍程度,比如「我很享受不斷伴隨新解決方案的任務」和「我只會考慮我需要考慮的事情」。
  • 比爾·蓋茨曾說:我更喜歡懶惰的人。懶是高智商的表現嗎?
    比爾·蓋茨曾說:我更喜歡懶惰的人,因為這些傢伙總是能夠找到更簡單的方法來解決問題。所以,這句話的重點在後半部分,這裡的「懶惰」更多的是指肢體上的懶惰,並不是大腦的懶惰。那麼,肢體懶惰是高智商的表現嗎?美國佛羅裡達州某大學的研究者們通過實驗證實了這一觀點:懶惰是高智商的表現。
  • DeepMind解密黑箱第一步:原來神經網絡的認知原理和人類是一樣的!
    論文被ICML接受後,DeepMind的研究員們又寫了一篇通俗的介紹文章讓更多的人理解他們的方法和效果。以下為雷鋒網(公眾號:雷鋒網) AI 科技評論對DeepMind介紹文章的翻譯。人類已經教會了深度神經網絡做許多驚人的事情,從識別和推理圖像中的物體,到在Atari遊戲和圍棋中發揮出超越人類的水平,不一而足。
  • 短文 | 懶惰的人總是在耗損時光
    他追求賭博和娛樂,希望這就算是祈禱和節慾的生活。他聽任他的心追求色慾,驕傲和貪財,但希望這就算是留心天上的事,是積聚財寶在天上。「懶惰人羨慕,卻無所得。殷勤人必得豐裕」(箴13:4)。「懶惰人的心願,將他殺害,因為他手不肯作工」(箴21:25)。
  • 神經網絡原來是這樣和數學掛鈎的
    將神經元的工作在數學上抽象化,並以其為單位人工地形成網絡,這樣的人工網絡就是神經網絡。將構成大腦的神經元的集合體抽象為數學模型,這就是神經網絡的出發點。對於用神經網絡實現的人工智慧,人們只需要簡單地提供數據即可。神經網絡接收數據後,就會從網絡的關係中自己學習並理解。如此看來,神經網絡似乎有一些不可思議的邏輯。
  • 神經網絡和深度學習簡史(全)
    而且,和之前一樣,這一思想從大腦研究汲取了靈感:根據Hubel和Wiesel的層級模型,視覺皮層中的神經網絡具有一個層級結構:LGB(外側膝狀體)→樣品細胞→複雜細胞→低階超複雜細胞->高階超複雜細胞。低階超複雜細胞和高階超複雜細胞之間的神經網絡具有一個和簡單細胞與複雜細胞之間的網絡類似的結構。
  • 人工智慧神經網絡和生物大腦有什麼區別 神經網絡將如何發展
    Zador的論文標題為「對純學習以及人工神經網絡可以從動物大腦學到的知識的批判」,解釋了為何擴大AI算法的當前數據處理能力將無法幫助提高狗的智能,更不用說人類了。Zador解釋說,我們需要的不是從頭開始學習一切的AI,而是像有機物一樣具有內在能力的算法可以與學習經驗相輔相成。
  • 什麼是人工智慧神經網絡? 神經網絡是怎麼應用到各領域的?|什麼|...
    歷史上,科學家還設計過多層的神經網絡,每一層都會對前一層傳來的結果進行再次加工,目的是模擬出一種「深思熟慮」的感覺,但最後發現結果準確度並沒有提高,有的時候還會陷入誤區,就像人容易朝著一個思路越陷越深,最後鑽牛角尖了一樣。隨著技術進步,讓這一問題得到改善。現在,最厲害的神經網絡技術不但已經非常接近人腦,還排除了很多人腦自身存在的低效的思維方式。
  • 對人工神經網絡「開刀」,利用神經科學消融法檢測人工神經網絡
    但大部分人認為,黑箱問題需要被解決,當我們將神經網絡應用到一些對安全性,穩定性要求很高的行業,如醫療,我們就必須進行精準控制,出現錯誤或問題時,我們要對內部結構進行分析改正,這時黑箱問題就希望得到解決。
  • 「五十親三人,如引火上身」:若靠近這4人,半輩子努力都白費了
    很多人,年過半百,但是在中老年交替之春卻不知道觀察和自己親近的周邊的人,識人不善,和一些對自己毫無益處甚至大有損害的人在一起,導致自己半輩子的努力都毀於一旦。因為他們的世界觀已至此,帶給你的更多是懶惰和走捷徑的思維。第三種人:本事不大,還喜歡四處吹捧的人這些人,明明年紀到了一定的地步,卻還是不死心,不想在眾人面前失去面子,所以他們酷愛炫耀,酷愛吹噓自己,只是為了一個名聲和口舌之快。
  • 有道nmt神經網絡_有道神經網絡翻譯(nmt) - CSDN
    Weaver發表《翻譯備忘錄》,第一次正式提出機器翻譯的思想,到傳統的基於短語的機器翻譯(PBMT:Phrase-Based Machine Translation),再到當今基於遞歸神經網絡(RNN:recurrent neural network)技術的神經網絡翻譯(NMT:Neural Machine Translation)的各種翻譯機和翻譯軟體的出現。
  • 研究發現聰明的人更懶惰,這是一種高智商的生物行為
    研究發現聰明的人更懶惰,但是懶惰的人不一定就是聰明人。比爾蓋茨曾說過,自己更喜歡懶惰的人,因為這些傢伙總是能找到更加簡單的方法來解決問題。懶惰的人都基本缺少鍛鍊,這樣也非常不好。 人類因為懶惰,馴養了牛,來為我們耕田。
  • 初識人工神經網絡
    而神經元突起又分為樹突(dendrite)和軸突(axon)兩種,樹突具有接受刺激並將衝動傳入細胞體的功能,軸突的主要是將神經衝動由胞體傳至其他神經元或效應細胞。神經元是神經系統最基本的結構和功能單位,在整個大腦中神經元只有大概10%,其餘部分都是神經膠質。我們都知道計算機的核心是處理器,處理器由大量的電晶體(transistor)構建而成。
  • 神經網絡算法原理_神經網絡算法的應用_神經網絡算法實例說明
    神經網絡是一種模擬人腦結構的算法模型。其原理就在於將信息分布式存儲和並行協同處理。雖然每個單元的功能非常簡單,但大量單元構成的網絡系統就能實現非常複雜的數據計算,並且還是一個高度複雜的非線性動力學習系統。   神經網絡的結構更接近於人腦,具有大規模並行、分布式存儲和處理、自組織、自適應和自學能力。
  • 懶惰如生鏽的鐵,腐蝕人的智慧
    現代人容易犯懶惰的毛病,但如果你能將其克服,也許只需要堅持那麼一下下——堅持一下,不給自己任何理由和藉口,也許你就真的克服了。印竹說勤奮是一條神奇的線,可以串起無數的珍珠;而懶惰如生鏽的鐵,可以腐蝕人的智慧。
  • 一種兼具神經網絡高效性和高斯過程靈活性的方法——神經過程
    在今年的ICML上,研究人員提出了不少有趣的工作,其中神經過程(NPs)引起了許多人的注意,它基於神經網絡概率模型,但又可以表示隨機過程的分布。這意味著NPs結合了兩個領域的元素: 深度學習:神經網絡是靈活的非線性函數,可以直接訓練 高斯過程:GP提供了一個概率框架,可用於學習非線性函數的分布 兩者都有各自的優點和缺點。
  • BP神經網絡
    其實在其他領域也是一樣,隨著神經網絡學習資料庫的範圍變大,學習程度的深入,使得神經網絡在更多領域得到運用,神經網絡正在成為一種有效的工具。由於財務風險預警的複雜性以及對決策的重要影響,國內外有大量的研究預測工作,採用各種方法來優化財務風險預警模型。
  • 深度學習背後的基礎-神經網絡揭秘
    最近, 深度學習三傑獲得了計算機界最重要的圖靈獎, 它們的貢獻都集中在對深度學習的根據神經網絡的理論突破。 今天我們看到的所有和人工智慧有關的偉大成就, 從阿法狗到自動駕駛, 從海量人臉識別到對話機器人, 都可以歸功於人工神經網絡的迅速崛起。那麼對於不了解神經網絡的同學如何入門? 神經網絡的技術為什麼偉大, 又是什麼讓它們這麼多年才姍姍走來?