AI 競賽沒有意義,模型實際不可用,冠軍全憑運氣?

2021-01-12 雷鋒網

近日,一個大型的新的 CT 腦數據集被發布,其目的是訓練模型來檢測顱內出血。由此,Luke Oakden-Rayner 寫了一篇名為《AI competitions don’t produce useful models》的博文,這篇文章在社交媒體上引發了激烈討論。

文章作者 Luke Oakden-Rayner 認為,AI 比賽不會催生在實際中可用的好的模型,其意義到底在哪裡?」Luke Oakden-Rayner 的文章如下。

到目前為止,這個比賽的數據集看起來還不錯,儘管我還沒有詳細研究(魔鬼經常出現在細節中)。

該數據集是為一場競賽而發布的,和往常一樣,它在 Twitter 上掀起了一股友好的競爭風氣:

當然,這也引起了很多人的質疑。有人認為,比賽就像擲硬幣,全看運氣。只要有些人的模型和其他人相比更符合數據集,就可以獲得高分。

有人認為「既然有一個不變的測試集,你怎麼能過度適合?」,也有人認為「所提出的解決方案決並不打算直接應用」。

隨著討論的進行,我意識到,雖然我們「都知道」競爭結果在臨床意義上有點可疑,但我從來沒有真正看到一個令人信服的解釋——為什麼會這樣。

我希望通過這篇文章告訴你,為什麼比賽並不能構建真正意義上有用的人工智慧系統。

讓我們開始討論吧

辯論不是一件錯誤的事情

那麼什麼是醫學人工智慧競賽呢?以下是一些選項:

讓團隊嘗試解決臨床問題

讓團隊探索如何解決問題並嘗試新的解決方案

讓團隊建立一個在競賽測試集中表現最好的模型

浪費時間

現在,我並沒有那麼疲倦,我跳到最後一個選項(怎樣才能讓時間花得有價值是一個問題,臨床效用只是一個考慮因素)。

但前三個選項呢?這些模型是否適用於臨床任務,它們是否帶來了廣泛適用的解決方案和足夠的新穎性,或者它們只是在競賽中表現良好,而不是在現實世界中?

(劇透:我要為後者辯護)。

好的模型與壞的模型

我們是否應該期待這場競賽會產生好的模型?讓我們看看組織者怎麼說。


酷!完全同意!缺乏大型、標記良好的數據集是構建有用的臨床人工智慧的最大障礙,因此該數據集應該會有所幫助。

但是說數據集是有用的並不是說這個競賽會產生好的模型。

因此,為了定義我們的術語,我們假設一個好的模型是一個可以在沒有遇到過的數據上檢測出腦出血情況的模型(模型對數據沒有認知)。

與之相反,一個壞的模型指的是不能在未遇到的數據中檢測出腦出血的模型。

這些定義是沒有爭議的。我相信大賽組織者同意這些定義,他們更希望自己的參賽者構建出好的模型,而不是壞的模型。事實上,他們顯然是以一種旨在推廣優秀模型的方式來舉辦比賽的。

這還不夠。

Epi vs ML,戰鬥!

如果學術上的爭論這麼可愛就好了

ML101(這裡擬人化了)告訴我們,控制過度擬合的方法是使用一個保持測試集,它裡面是模型訓練期間沒有見過的數據。這模擬了醫生在臨床環境中看到新病人的情況。

ML101 還認為,保持數據只適用於對一個模型進行測試。如果你測試多個模型,那麼即使你沒有將測試信息洩漏到你的開發過程中,你的最佳結果可能也只是一個異常值,它只是偶然地比你的最差結果好。

因此,如今的競賽組織者只會製作出具有持久性的測試集,並且只允許每個團隊在數據上運行他們的模型一次。在 ML101 看來,這樣問題就解決了。獲勝者只測試了一次,所以沒有理由認為他們的模型是靠著異常情況得到這個結果的,他們有最好的模型。

別那麼快,夥計。

讓我給你介紹一下 Epidemiology 101,他聲稱自己有一枚神奇的硬幣。

Epi101 告訴你擲硬幣 10 次。如果你得到 8 個或更多的人頭,這就證實了硬幣是魔法(雖然這個斷言顯然是胡說八道,但你還會跟著玩,因為你知道 8/10 人頭等於一個公平硬幣的 p 值<0.05,所以它一定是合法的)。

在你不知道的情況下,Epi101 對另外 99 個人做了同樣的事情,所有人都認為他們是唯一一個測試硬幣的人。你認為接下來會發生什麼?

如果硬幣是完全正常的,而不是魔法,大約 5 個人會發現硬幣是特別的。這看起來似乎很明顯,但要從個人的角度來考慮——這 5 個人都只做了一次測試。根據他們的說法,他們有統計上顯著的證據表明他們持有一枚「魔法」硬幣。

現在想像一下你不是在擲硬幣。假設你們都在一個競賽測試集中運行一個模型。與其懷疑你的硬幣是不是魔法,你反而希望你的模型是最好的,因為這將為你贏得 25000 美元。

當然,你只能提交一個模型。如果多餘一個,那就是作弊。其中一個模型可以表現得很好,這相當於擲一個公平的硬幣得到 8 個人頭,只是一個偶然事件。

多重假設檢驗

當然,我們在 Epi101 硬幣上看到的效果也適用於我們的競賽。由於隨機性,有些模型的性能會優於其他模型,即使實際上它們都是一樣好的。從數學上來看,到底是一個團隊測試了 100 個模型還是 100 個團隊並不重要。

即使某些模型在某種意義上比其他模型要好,除非你真的相信贏家是唯一能夠使用 ML-wizard 的,否則你必須接受,至少其他一些參與者會取得類似的結果,因此冠軍能夠獲勝只是因為他們運氣好。真正的「最佳表現」將在某個地方重新出現,可能高於平均水平,但低於勝利者。

Epi101 提到,這種效應被稱為多重假設檢驗。在競賽中,你會有很多假設——每個參與者都比其他所有人都好。對於 100 個參與者,有 100 個假設。

其中一個獨立的假設可能會告訴我們有一個具有統計學意義的贏家(p<0.05)。但綜合來看,即使獲勝者的計算「獲勝」p 值小於 0.05,也並不意味著我們只有 5% 的機會做出不合理的決定。事實上,如果這是硬幣翻轉(這個更容易計算,但不是完全不同)遊戲,我們將有超過 99% 的機會出現一個或多個人會「贏」,並擲出了 8 個人頭的情況!

這就是人工智慧競賽的贏家:一個在擲硬幣時碰巧得到 8 個人頭的人。

有趣的是,雖然 ML101 非常清楚,運行 100 個模型,選擇效果最好的一個將導致過度適合,但是他們很少討論這種「過度擬合的人群」。當你意識到幾乎所有的 ML 研究都是對經過對公共數據集進行過度測試得到的,你會覺得這一點非常奇怪……

那麼我們如何處理多重假設檢驗呢?一切都歸結於問題的原因,那就是數據。Epi101 告訴我們,任何測試集都是目標群體的有偏版本。在這種情況下,目標人群是「所有 CT 頭部成像的患者,有或沒有顱內出血」。讓我們來看看這種偏差是如何產生的,舉一個假設人口很少的演示例子:

在這個人群中,我們有相當合理的「臨床」病例組合。腦內出血 3 例(可能與高血壓或中風有關),外傷性出血 2 例(右側硬膜下出血,左側硬膜外出血)。

現在,讓我們對這個總體進行採樣,以構建我們的測試集:

隨機地,我們最終會有大部分額外的軸(大腦本身以外)出血。一個在這個測試中表現良好的模型不一定能在真實的病人身上發揮作用。事實上,你可能會期待一個模型,它真正擅長識別軸外出血。

但 Epi101 不僅指出了問題,他還給出了一個解決方案。

如此強大

只有一種方法可以得到一個無偏的測試集——如果測試集包括了整個人群!這樣的話,無論哪種模式在測試中表現良好,它在實踐中也會是最好的,因為你在所有可能的未來患者身上都測試了它(這看起來很困難)。

這就引出了一個非常簡單的想法——隨著測試集的增大,測試結果變得更加可靠。我們實際上可以預測測試集是如何使用功率計算的。

這些是功率曲線。如果你粗略地了解你的「勝出」模型比下一個最佳模型要好多少,你可以估計你需要多少個測試用例才能可靠地證明它是更好的。

所以要想知道你的模型是否比競爭對手好 10%,你需要大約 300 個測試用例。您也可以看到,隨著模型之間的差異越來越小,所需病例的數量呈指數增長。

我們把這個付諸實踐吧。如果我們看看另一個醫學人工智慧競賽,即 SIIM-ACR 氣胸分割挑戰賽,我們會發現在排行榜的頂端,骰子得分(介於 0 和 1 之間)的差異可以忽略不計。請記住,這個比賽有 3200 個案例(這是大概的,他們對骰子分數的貢獻並不都一樣)。

所以前兩名之間的差值是 0.0014… 讓我們把它扔進一個樣本量計算器。

好的,為了顯示這兩個結果之間的顯著差異,您需要 92 萬個病例。

但為什麼停在那裡?我們甚至還沒有討論多重假設檢驗。即便只有一個假設,只有兩個參與者,就需要這麼多的案例。

如果我們看看排行榜,有 351 支隊伍提交了意見。規則規定他們可以提交兩個模型,所以我們不妨假設至少有 500 個測試。這肯定會產生一些異常值,就像 500 人擲硬幣一樣。

Epi101 就像緊急救護一樣。多重假設檢驗在醫學上非常普遍,特別是在基因組學等「大數據」領域。在過去的幾十年裡,我們一直在學習如何處理這個問題。處理這個問題最簡單可靠的方法叫做 Bonferroni 校正。

Bonferroni 校正非常簡單:將 p 值除以測試次數,以找到一個「統計顯著性閾值」,該閾值已針對所有這些額外的硬幣翻轉進行了調整。在這種情況下,我們做 0.05/500。我們的新 p 值目標是 0.0001,任何比這更差的結果都將被視為支持零假設(即競爭對手在測試集上的表現同樣出色)。我們把它插到我們的功率計算器上。

酷!它只增加了一點…一個有意義的結果需要 260 萬個病例。

現在,你可能會說這裡很不公平,排行榜的頂端一定有一小群優秀的模型,他們彼此之間沒有明顯的不同。好吧,我們誇大一點。如果我把第 1 名和第 150 名做比較,肯定沒人會抱怨吧?

所以需要的數據還是比我們現有的多。事實上,我必須去看第 192 名和第 1 名的差距,以找到樣本大小足以產生「統計上顯著」差異的結果。

但也許這只是氣胸的特殊性引起的特殊挑戰?那麼其他比賽呢?

在 MURA,我們有一個 207 張 x 光片的測試集,有 70 個團隊提交了「每月不超過兩個的模型」,所以我們可以大概地說,提交了 100 個模型。根據這些數字,「第 1 名」的模型只對第 56 位及以下名次的模型來說有統計意義上的差別。

在 RSNA 肺炎檢測挑戰賽中,共有 3000 張測試圖像,350 個團隊各提交一個模型。第 1 名只與第 30 名及以下相比效果顯著。

如果真的要把貓放在鴿子中間,那把什麼放在藥中間呢?

當我們在 ImageNet 結果中從左到右移動時,同比的改善速度會減慢(效果大小會減小),在數據集上測試的人數也會增加。我真的無法估計數字,但是根據我們對多重測試的了解,真的有人認為 2010 年中期的 SOTA 不是過擬合了?

那麼比賽是為了什麼?

他們顯然不能可靠地找到最好的模型。它們甚至沒有真正揭示出構建優秀模型的有用技術,因為我們不知道百餘個模型中的哪一個模型實際使用了一個好的、可靠的方法,而哪一個方法恰好適合未充分利用的測試集。

你和比賽組織者交談…他們大多會說比賽是為了宣傳。我想這就夠了。

人工智慧競賽是有趣的,它可以推動社區建設,人才發掘,品牌推廣,吸引外界的注意力。

但人工智慧競賽並不是為了開發有用的模型。

via:https://lukeoakdenrayner.wordpress.com/2019/09/19/ai-competitions-dont-produce-useful-models/

雷鋒網雷鋒網雷鋒網(公眾號:雷鋒網)

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 揭穿AI競賽真實面目:各種冠軍模型根本沒用,Kaggle受益者挺身反駁
    又或者它們只在競賽中表現出色,而不適用於現實世界?(劇透:我認為是後者)。好模型和壞模型我們是否應該期望競賽能產生好模型呢?讓我們看看其中一位組織者是怎麼說的。如果你測試多個模型,那麼即使你沒有欺騙並將測試信息洩漏到開發過程中,那麼最佳結果也可能是一個異常值,這個異常值只比你偶然得到的最差結果好。因此,今天的競賽組織者會製作出一個留出的測試集,並且只允許每個團隊在數據上運行一次模型。問題解決了,ML101說。獲勝者只測試了一次,所以沒有理由認為他們的是異常值,他們只是擁有最好的模型。別急,夥計。
  • 京東AI研究院獲QuAC機器閱讀理解競賽冠軍,模型能力業界領先
    圖 1QuAC 挑戰賽官方成績榜單(https://quac.ai)目前,QuAC 是人機多輪對話交互領域複雜度最高的數據集,要求模型具備強大的上下文語義理解、指代推理、省略語義恢復和知識推理等能力,這也吸引了全球頂級科研院所和企業研究機構參加。
  • NIPS 2017 | 清華大學人工智慧創新團隊在AI對抗性攻防競賽中獲得冠軍
    清華大學張鈸院士帶領的人工智慧創新團隊在 NIPS 2017 AI 對抗性攻防競賽中獲得冠軍(指導教師:朱軍、胡曉林、李建民、蘇航
  • 清華大學團隊包攬三項冠軍,NIPS 2017對抗樣本攻防競賽總結
    攻擊者對模型所知道的並不多,但是可以探測或者查詢模型,比如使用一些輸入,觀察模型的輸出結果。這種場景有很多的變種,比如攻擊者知道模型結構,但是不知道參數的值,或者攻擊者甚至連模型架構都不知道;攻擊者可能能夠觀測到模型輸出的每個類別的概率,或者攻擊者只能夠看到模型輸出最可能的類別名稱。無探針的黑盒攻擊。
  • 清華朱軍團隊包攬三項冠軍 | NIPS 2017對抗樣本攻防競賽總結(附學習資料)
    其中清華大學博士生董胤蓬、廖方舟、龐天宇及指導老師朱軍、胡曉林、李建民、蘇航組成的團隊在競賽中的全部三個項目中得到冠軍。我們把這篇比賽總結的主要內容編譯如下。攻擊者對模型所知道的並不多,但是可以探測或者查詢模型,比如使用一些輸入,觀察模型的輸出結果。這種場景有很多的變種,比如攻擊者知道模型結構,但是不知道參數的值,或者攻擊者甚至連模型架構都不知道;攻擊者可能能夠觀測到模型輸出的每個類別的概率,或者攻擊者只能夠看到模型輸出最可能的類別名稱。無探針的黑盒攻擊。
  • IPFS&Filecoin太空競賽的意義
    美西時間2020年8月24日下午3點,中國時間8月25日早上6點,Filecoin太空競賽啟動。我參與了太空競賽的一些測試工作,期間有一些不成熟的思考,總結下來,與諸君分享。第二階段圍繞「空間」展開,主要是驗證全網複製證明的最大容量。太空競賽是Filecoin測試網真正意義上的二階段測試。
  • NIPS 2017競賽全回顧:「NIPS史上最長Workshop」有何魅力?
    本次的NIPS大會新增了五個官方競賽,大會方也專門設置了一個專門的Competition Workshop環節進行相關的總結研討。整個Workshop按五個競賽分為五部分,內容設置上大致相同,即在1小時45分鐘內,首先由競賽主辦方講解競賽事宜、解讀本次比賽的意義和比賽中的一些趣事、宣布結果;然後由1-3支優勝隊伍講解他們的競賽思路及做法,最後是相關的演講及討論。
  • 號碼隨機全憑運氣 徐州彩民喜獲雙色球791萬元大獎
    我呀,是前陣子一直出差,這不剛回來就忙不迭地來領獎啦!」據悉,老李購彩時間將近20年,絕對是位資深彩民了。當初,他在朋友的影響下開始接觸彩票,涉獵範圍主要是雙色球和刮刮樂。多年來,他一直選擇購買福彩,主要是看中了福彩的公益屬性,既可以做善事又可以收穫中獎的喜悅。
  • AutoML在IEEE-ISI World Cup 2019競賽中的應用:冠軍團隊DeepBlue...
    雷鋒網 AI 科技評論按,近日,IEEE ISI 2019 國際大數據分析競賽結果出爐,今年的競賽包括企業投資價值評估和法律訴訟類型預測兩個賽題,來自深蘭科技北京 AI 研發中心的 DeepBlueAI 團隊分別取得了一項冠軍和一項季軍的優異成績,本文作者羅志鵬(深蘭科技北京 AI 研發中心),他為雷鋒網 AI 科技評論獨家撰寫了該團隊在企業投資價值評估賽題中的算法思路與技術細節分享
  • 西電人工智慧學子斬獲2019 IGARSS數據融合競賽冠軍
    由西電人工智慧學院焦李成教授指導的兩支學生隊伍在2019IEEEGRSS數據融合競賽中獲得了優秀成績,其中,連彥超、馮拓、周金柳隊伍獲得了3D點雲分類挑戰賽冠軍,賈美霞、李艾瑾、吳兆陽隊伍獲得了同賽道亞軍。兩支隊伍均受邀在大會上作專題報告。第39屆國際地球科學與遙感大會競賽專場報告由圖像分析與數據融合技術委員會主席Dr.
  • AI積木、自動駕駛、AI聽診、AI科幻……DeeCamp2020 冠軍項目揭秘...
    瀏覽器版本過低,暫不支持視頻播放AI 積木創作平臺——「方仔照相館」不知道你有沒有玩過塑造角色的遊戲?本次競賽,共有10支隊伍向自動駕駛賽道發起挑戰。最終,Faster&Better團隊以讓人震撼的技術實力摘得競賽總冠軍,「西天取經」團隊則榮膺賽道冠軍。
  • KPL戰隊呈現兩極分化,不同分檔的戰隊相遇,獲勝全憑運氣?
    大鵝的季後賽之路卻以兩連敗收場,一手好牌打的稀爛,創造了常規賽冠軍的季後賽最差戰績。 而本次秋季賽賽程前半段,LGD大鵝並沒有表現出過人之處,一直處於積分榜的中下遊,但是誰也沒有想到LGD大鵝在常規賽末尾發力,在僅剩一場比賽的時候,直接排名第五,追平了一支排名第四位的久競戰績,僅僅以淨勝分落後。
  • AI算法瞬間學習理解96種語言 斬獲國際權威競賽冠軍
    AI算法瞬間學習理解96種語言 斬獲國際權威競賽冠軍打破語言藩籬,重建巴別塔是人類的遠古夢想,如今全球化語境下,更是一種當務之急。如何做到多語言交流和跨語義理解,也是人工智慧的"聖杯"課題。最近,百度人工智慧模型ERNIE-M,取得自然語言領域最新進展,它通過一個算法可以學習並同時掌握 96 門語言,不僅刷新5項經典多語言理解任務的世界最好成績,還一舉超越谷歌、微軟、臉書,問鼎國際權威多語言理解評測榜單 XTREME,邁出人工智慧領域自然語言處理技術的突破性一步,並在相關真實工業場景中落地,發揮出實際應用價值。
  • 吳博:目標檢測集成框架在醫學圖像 AI 輔助分析中的應用 | AI 研習...
    而醫學圖像的分類也非常具有現實意義,比如可以判斷人是有病還是無病、以及是哪類病,像 Nature、Science 雜誌就發表過皮膚癌、胸片、眼底照等醫學場景的圖像分類模型。但在實操過程中,我們發現將醫學影像當成一個分類問題來處理,任務設置未免過於宏大和粗放。
  • ISI World Cup 2019國際大數據分析競賽 金山AI Lab團隊摘得桂冠
    本次會議開啟前,IEEE特別發起了國際大數據分析競賽(IEEE ISI World Cup 2019),來自來自中國、美國、巴基斯坦、英國、德國等 7 個國家的企業、高校共 363 支隊伍, 1001 名選手參戰,金山AI Lab團隊以大比分優勢在Mission2 比賽中奪得冠軍,應邀參加了如期舉行的國際會議。
  • ...VTT競賽蟬聯冠軍?人民大學金琴老師分享奪冠經驗 | ACMMM 2017
    值得一提的是,來自人民大學的衛冕冠軍金琴團隊是在去年舉行的第一屆MSR-VTT奪得冠軍後,今年再度取得了主觀人工評測和客觀性能評測的雙冠軍。一方面不同主題下視頻中不同模態的貢獻度不一樣,例如音樂類視頻中音頻信號比較關鍵而在運動類視頻中視覺動作更為重要,另一方面在不同主題下使用的詞彙和表達方式會不一樣,因此不能用同一模型刻畫出句子的多樣性。
  • 深蘭科技:我們是如何拿下今年 KDD CUP AutoML 賽道冠軍的?
    此外,選擇合適的機器學習模型和超參數也需要強大的機器學習專業知識作為支撐。此次競賽針對時序關係型數據的 AutoML 挑戰賽,希望讓更多的數據科學家和開發者加入其中,集思廣益,從而讓 AutoML 更好地利用時序關係型數據,提升模型的預測性能,讓 AutoML 解決方案能夠更加符合實際應用的需求。
  • 「中國法研杯」相似案例匹配競賽結果出爐,冠軍方案關鍵點詳解
    其中,基於大會開展的中國法研杯相似案例匹配評測競賽,由來自支付寶的 AlphaCourt 團隊摘得桂冠,這是一支致力於搭建屬於支付平臺的「網際網路法院」的隊伍。本次大賽中,他們充分運用了數據挖掘、深度學習、神經網絡等方法,實現了對「多篇法律文書的相似度計算與判斷」等任務的多模型融合、優化以及可視化探索,最終以 71.88 的優績,奪下了本次大賽冠軍!
  • 看過CVPR 2018 workshop 後,發現有一個我不認識的 Lady Gaga
    此外,由於沒有可用的數據集,人們並沒有對真實場景下的偽裝進行全面研究。針對現狀,在此次研討會上,主辦方舉辦了這場偽裝人臉識別競賽,參賽者將被要求展示他們在自然環境資料庫中對偽裝後的人臉的識別情況。優秀的算法組將被受邀提交論文,選中的論文會在 workshop 上進行演示。此外,沒有參加比賽的相關研究人員也可以提交論文。
  • 史蒂夫科爾,是運氣還是實力?
    有人說勇士隊有五星全明星,給我都能帶勇士隊進入總決賽,實力差距太明顯,教練作用就不是很大了。那麼是否真如網友評論一樣,科爾只是運氣好呢,讓小編l來給大家分析一波。球員時期,1996-98賽季作為公牛球員三連冠,1999年和2003年作為馬刺球員拿兩冠,這五次實屬撿人頭髮育,科爾分別碰上了喬丹和鄧肯,想不拿冠軍都難!執教勇士時期則是對這位冠軍教頭的真正考驗!那時的庫裡球探甚至認為不能打NBA;那時的湯普森還不是佛光普照;那時的格林還只是個無腦的噴子。