機器學習正遭遇「可重複性危機」,或已成「鍊金術」?

2020-12-13 雷鋒網

雷鋒網 AI 科技評論按:機器學習以其特有的優勢逐漸在科學研究中得到大量應用,然而,其內在的「黑箱」特點也帶來了一系列問題,有研究者認為正是機器學習的這種不可解釋性導致了當下科學研究的「可重複性危機」——如果科學不可重複,那我們是否還能稱之為真正的科學嗎?與此同時,更有研究者聲稱機器學習已經成為一種「鍊金術」。本文基於機器學習所帶來的「可重複性危機」,從「是什麼」「為什麼」以及「下一步該如何做」三個層次進行了闡述,為這一危機尋找出路:可重複性和可解釋性的機器學習模型。

一、什麼是「可重複性危機」?

「如今科學界的研究人員普遍意識到存在一種「可重複性危機」(Reproducibility Crisis)。我敢說,這其中很大一部分都來源於機器學習技術在科學中的應用。」—— 摘自萊斯大學統計與電氣工程系教授 Genevera Allen

機器學習方法正在取代傳統的統計方法,越來越普遍地被應用到科學研究過程中,這會給科學界及其對知識的追求帶來什麼影響呢? 一些人認為,正是機器學習技術的「黑箱」導致了科學研究的「可重複性危機」。畢竟,如果科學不可重複,那我們是否還能稱之為真正的科學嗎?

(聲明:本文是我自己基於參考文獻中所參考的材料發表的一些觀點。這是學術界的一個有爭議的領域,歡迎大家進行建設性辯論。)

科學過程的生命周期

機器學習(ML)在科學研究中似乎已經無處不在,甚至在很多領域中已經替代了傳統的統計方法。雖然通常來說,ML技術更易於用作分析的一項工具,但它內在的「黑箱」特點給科學家在追求真理的過程中造成了一些嚴重的問題。

科學界的「可重複性危機」是指是指驚人數量的研究結果無法在另一組科學家團隊進行的同一個實驗中實現重複。這可能就意味最初的結果是錯誤的。一項研究表明,在全世界所有進行過的生物醫學研究中,有多達 85% 的研究結果都是徒勞無獲的。

關於「可重複性危機」的爭論可能是學術界中最接近機器學習和統計學學科間的鬥爭的一次爭論。

一位人工智慧研究員甚至在一篇科學文章中聲稱,機器學習已經成為一種「鍊金術」。(相關閱讀連結:https://www.sciencemag.org/news/2018/05/ai-researchers-allege-machine-learning-alchemy?)

他關於這個話題的一些論文和博客文章,都非常值得一讀,比如:「大型尺度核機器的隨機特徵」,文章連結為:https://people.eecs.berkeley.edu/~brecht/papers/07.rah.rec.nips.pdf

ML成為了科學研究一項很好的補充,使其在研究中的應用變得不可避免。ML可以被視為一個工程任務——就像一條集建模、調參、數據預處理和與元素優化於一體的流水線。ML 的目的就是尋找最優解或最優預測,而這屬於科學研究的一項子集。

機器學習的類型和算法本身就是科學研究的議題。與過去的統計方法一樣,現在研究者們正在撰寫大量各類 ML 算法和 ML 算法子類相關的科研論文。

2019年 2 月,Genevera Allen 在美國科學進步協會(AAAS)上發出了一個嚴重警告:科學家們正在學習基於機器學習算法來發現數據中的模式,即使這些算法只是專注於在另一個實驗中無法重複的噪音。

這一挑戰涉及多個學科,因為機器學習在天文學、基因組學、環境科學和醫療保健等多個領域都被應用於獲取發現。

其中,Genevera Allen 使用的最主要的例子是基因組數據,這些數據通常是數據量非常巨大的數百 GB 或數個 TB 的數據集。她指出,當科學家使用自己不太了解的 ML 算法對基因組圖譜進行聚類分析時,常常會出現似是而非、不可重複的結果。

直到另一個團隊進行了類似的分析研究,並得出了完全不同的結果,這才使得之前的結果變得有爭議且被人質疑。這其中可能有多種原因:

缺乏算法知識對數據缺乏了解對結果的曲解二、造成「可重複性危機」的原因

1、算法知識的欠缺

缺乏算法知識的現象在機器學習應用領域顯得極為普遍。如果你不明白一個算法是如何產生結果的,那又怎麼能確定它有沒有作弊,或者其得到的變量間相關性的結果實際上是虛假的呢?

由於參數太多(深度神經網絡通常有數百萬個參數),這是神經網絡中的一大問題。而實際上用於記數的不僅僅有參數,還有超參數,包括學習率、初始化策略、迭代次數和網絡結構等項。

僅僅意識到自己缺乏算法知識是不足以解決這個問題的。如果不同研究的論文中使用的是不同的網絡,你又如何將這些結果進行比較?由於高維神經網絡損失函數的動態結構圖具有高度複雜性,即使只增加一個額外變量或改變一個超參數也會對結果產生顯著的影響。

2、對數據缺乏了解

缺乏數據知識也是一個巨大的難題,但這一問題可以延伸到傳統的統計技術方法。數據採集中的誤差——如量化誤差、測量不確定性和智能體變量的使用,這是主要的問題。

次優數據也常常會造成一些問題,但是了解什麼樣的數據適合使用什麼樣的算法也是非常重要的,並且這一選擇可能會對結果產生重大影響。一次簡單的回歸檢驗就可以很輕鬆地證明這一點。

通常地,在實驗中會出現參數多於數據點的現象(這在基因組學中是非常正常的,因為我們有很多基因,很少數據點),如果我們使用線性回歸方法,那麼我們選擇的正則化方式會嚴重影響被視作為重要的參數。

如果我們使用套索回歸( LASSO Regression),該回歸方法趨向於將明顯不重要的變量統統變為零,從而從回歸中將它們消除並提供一些變量選擇。

如果我們使用嶺回歸( Ridge Regression),該回歸方法傾向於將這些不重要的參數縮小到足夠小,以至於它們可以忽略不計,但同時將它們從數據集中刪除也是有必要的。

如果我們使用彈性網絡回歸( Elastic Net Regression,套索回歸和嶺回歸的組合),我們將再次得到非常不同的答案。

如果我們不使用任何回歸,那麼由於我們有比數據點更多的變量,算法顯然會使得數據過擬合,因此算法將繁瑣地對所有數據點進行擬合。

顯然,在線性回歸中,可以通過置信區間、p-檢驗等統計測試來評估它的準確性。然而,對於神經網絡來說,這些評估方式只能是一種奢侈的幻想,是不存在的。那麼我們怎樣才能確定我們通過神經網絡得來結論的準確性如何呢?我們目前所能做的就是詳細的陳述模型的架構和超參數,並將代碼開源,以供其他科學家進行分析或對這個模型重新使用。

3、對結果的誤解

對結果的誤解在科學界很常見。其中一個原因是相關性並不意味著因果關係,一般來說,兩個變量A和B可能存在關聯的原因有以下幾點:

1)A可能是由B的出現引起的

2)B可能是由A的出現引起的

3)A和B可能是由另一個混雜變量C引起的

4)A和B可能是偽相關性

兩值間的相關性很容易顯現出來,但產生這種結果的原因很難確定。通過在谷歌上輸入偽相關性,你可以找出一些看起來非常有趣但明顯十分荒謬的具有統計意義相關性例子,比如:

這些似乎都是十分荒謬的相關性例子,但我想指出的是,如果將這些變量放到提供給機器學習算法進行訓練的數據集中,則該算法不會考慮所述因果關係的有效性或者提出任何問題,而是很輕易地接受此相關性作為因果變量。從這個角度看,該算法很可能是不準確或者錯誤的,因為軟體只負責識別出僅存於該數據集而不是現實世界中的模式。

偽相關性的出現,正是由於人們越來越普遍地使用一些具有成千上萬個變量的大型數據集。而近幾年來,偽相關性發生的頻率也變得驚人的多。

如果我有上千個變量和數百萬個數據點,那麼這些數據之中不可避免的會出現相關性。算法可以鎖定這些因素並將其認定為因果關係,從而有效地執行無意識的 p-hacking,而 p-hacking 是一項還沒有在學術界得到認可的技術。

1、什麼是 p-hacking

p-hacking的做法包括獲取數據集以及儘可能全面地搜索其中具有統計學意義的相關性,並將這些相關性視為科學有效。

你擁有的數據越多,就越有可能在兩個變量之間找到偽相關性。

通常來說,科學研究包括了提出假設、收集數據以及通過對數據進行分析以確定假設是否有效。p-hacking 所做的是先進行一個實驗,然後通過既得實驗結果形成事後假設來解釋它們所獲得的數據。這樣做本身是沒有惡意的,但是有些時候,科學家們這麼做僅僅是為了讓他們能夠發表更多的論文。

2、增強相關性

機器學習算法的另一個問題是算法必須能夠做出預測,這就好比算法不能在最後說「我什麼都沒找到」。這種算法框架的脆弱性意味著,無論最終特徵結果多不合適,它總能找到某種可以用來解釋數據的方法(需要在算法和數據正確設置的前提下實現,否則可能無法收斂)。

目前,我還沒聽過哪個機器學習算法能夠返回用戶並告訴他們數據是不合適的,這項工作已經被暗定為科學家的任務——而這並不是什麼公平的假設。

「那為什麼還使用機器學習呢?」

這是一個很好的問題。機器學習使數據集的分析變得簡易,並且 ML 算法可以幫助用戶進行大量的工作。在由於數據集太大而無法使用標準統計技術進行有效分析的領域中,這一點就變得彌足珍貴。儘管它加速了科學家的工作進度,但是機器學習在預測質量上存在的問題足以抵消機器學習帶來的生產效率上的提高。

三、下一步可以做什麼?

機器學習的前景也並非完全黯淡無光。傳統統計方法和數據集也一直存在著類似的問題,只是在機器學習中這些問題由於大型數據集和算法的大量使用而被放大了。這些數據集和算法可以自動找到數據的相關性,與傳統技術相比,使得我們更難對找到的相關性進行解釋。同時,上述這种放大也暴露了科學研究過程中有待克服的弱點。

然而,研究者也在開展下一代機器學習系統的相關工作,以確保它能夠評估其預測的不確定性,以及解決它的不可再現性。

話雖這麼說,正如只有愚昧的工人才會將他失敗的原因歸咎於他們使用的工具,科學家們在使用機器學習算法時也需要格外小心,以確保他們的研究結果得到證實和檢驗。同行評審流程的設計初衷就是為了確保這一點,而這同時也是每個研究人員的責任。研究人員需要弄清他們使用的技術並了解其局限性;如果他們不具備這些專業知識,那麼去一趟統計系與某位教授進行一次交流將會讓我們都收益匪淺。

Rahimi(他認為 ML是一種 「鍊金術」方法)提供了一些建議來判斷哪種算法最為有效,在何時最佳。他指出,研究人員應進行消融研究, 即將參數依次移除,以評估其對算法的影響。 Rahimi 還呼籲進行切片分析,即分析一個算法的性能,以了解對該算法在某些方面的改進會使其消耗其他方面的成本。最後,他建議運行設置了具有各種不同超參數的算法,並應匯報這些算法的所有性能。這些技術將使用 ML 算法對數據提供更強大的分析。

由於科學研究過程的性質,一旦解決了這些問題,就可以最終發現並糾正以前發現的認為是準確的錯誤關係。準確的判斷當然經受得起時間的考驗。

四、結語

由於最終結果缺乏可重複性,機器學習方法在科學學術界確實存在問題。然而,科學家們已經意識到了這些問題,並且正在朝著更具可重複性和可解釋性的機器學習模型推進相關工作,而一旦實現這一目標,神經網絡將會迎來真正意義上的突破。

Genevera Allen 強調了機器智能面臨的一個基本問題:數據科學家仍然不了解機器學習所採取的機制。科學界必須共同努力,以便了解這些算法究竟是如何工作的,以及如何最有效地使用它們,以確保使用這種數據驅動的方法最終得出可靠的、可重複的科學有效的結論。

就連聲稱機器學習是「鍊金術」的 Rahimi 也對其潛力充滿希望。他說,「正是由於原始的鍊金術才有了後面的冶金學、藥物製造、紡織染色以及我們現代的玻璃製造工藝技術的發明。此外,鍊金術士也認為,他們可以將普通的金屬轉化為黃金,而水蛭是治癒疾病的好方法。」

正如物理學家Richard Feynman1974年在加州理工學院的畢業典禮上所說,

「科學的第一個原則是你不能愚弄自己,然而你自己卻是最容易被愚弄的人。」

參考文獻:

[1] https://science-sciencemag-org.ezp-prod1.hul.harvard.edu/content/sci/365/6452/416.full.pdf

[2] https://research.fb.com/wp-content/uploads/2019/05/The-Scientific-Method-in-the-Science-of-Machine-Learning.pdf?

[3] https://bigdata-madesimple.com/machine-learning-disrupting-science-research-heres/

[4] https://biodatamining.biomedcentral.com/track/pdf/10.1186/s13040-018-0167-7

[5] https://www.sciencemag.org/news/2018/05/ai-researchers-allege-machine-learning-alchemy

[6] https://www.sciencedaily.com/releases/2019/02/190215110303.htm

[7] https://phys.org/news/2018-09-machine-scientific-discoveries-faster.html

[8] https://www.americanscientist.org/blog/macroscope/people-cause-replication-problems-not-machine-learning

[9] https://www.datanami.com/2019/02/19/machine-learning-for-science-proving-problematic/

[10] https://www.quantamagazine.org/how-artificial-intelligence-is-changing-science-20190311/

[11] https://ml4sci.lbl.gov/

[12] https://blogs.nvidia.com/blog/2019/03/27/how-ai-machine-learning-are-advancing-academic-research/

[13] https://towardsdatascience.com/a-quick-response-to-genevera-allen-about-machine-learning-causing-science-crisis-8465bbf9da82#--responses

[14] https://www.hpcwire.com/2019/02/19/machine-learning-reproducability-crisis-science/

By Matthew Stewart, PhD Researcher

via https://towardsdatascience.com/the-machine-learning-crisis-in-scientific-research-91e61691ae76雷鋒網雷鋒網

相關焦點

  • ICLR 再聚焦「AI鍊金術」,不同的是一些解決思路浮出水面
    Rahimi 在當時的發言中指出,計算機通過反覆試驗來學習的機器學習算法已經成為了一種「鍊金術」——研究人員不清楚為什麼某些算法有效而其他算法不可行,也沒有嚴格的標準來選擇模型結構。圖丨三維圖展示「隨機梯度下降法(SGD)」通過試錯的方式尋找最低點來優化算法的過程「AI 鍊金術」問題與 AI 的可重複性問題截然不同,可重複性問題是指由於實驗環境的不一致,研究人員無法復現彼此的結果;它也不同於機器學習中的
  • 解決可重複性危機:元分析還是預註冊?
    心理學的可重複性危機激起了相關研究人員的反思,許多心理學家提出了自己的一些解決方法,目前最主流的方法是預註冊重複實驗和元分析方法。那麼,哪種方法更好呢?其實,這兩種方法都有其自身的優勢和缺點,結合起來更能有益於可重複性問題的解決。我們要如何進行結合呢?
  • 做實驗室裡的Github,Labstep想為實驗科學的「可重複性危機」提供...
    在過去的幾年內,「可重複性危機」這一概念在實驗科學領域的引起了越來越多的關注。自然雜誌在2016年進行的調查顯示,在 1576 名研究者中,有 70% 表示有過無法重複他人論文中的實驗的經歷,50%表示他們曾無法重現他們自己的實驗結果。
  • 心理學的危機:為什麼超六成的實驗無法重複?
    可重複性是科學之所以成為科學的一項重要定義。然而,最近一期科學(Science)雜誌上刊登的一篇論文顯示,研究者嘗試重現發表在三份頂級心理學期刊上的100項研究,結果超過六成無法成功再現。[1]事實上,心理學實驗的可重複性近年來在學界受到了極大的關注,而大量實驗無法復現的現象不僅引發了對這一領域是否存在學術不端的廣泛討論,整個學科的合法性也受到了一定程度的挑戰。研究心理學為什麼需要做實驗?行為科學(Behavioral Science)主要指代研究人或動物行為的學科。
  • 韓春雨論文的可重複性問題,要怎麼「科學解決」?
    科研結果的可重複性問題,再一次成為學界和公眾熱議的話題。已發表的結果,怎麼會不可重複?事實上,雖然科學界反思了這麼多年「可重複性」的問題,但這麼些年中,真的具備可重複性的實驗並不多——事實上,許多年輕的科研人員在實驗室中需要學習的第一課就是:許多看起來高大上的文章都是錯的,或者只對了一部分。這並不是導師們信口雌黃。
  • 美國德州農工大學胡俠教授:機器學習的可解釋性與自動機器學習 |...
    胡俠教授表示,機器學習要被各行各業普遍接受和應用,前提是要具有可解釋性。賦予機器學習可解釋性是一個非常難的問題。第一,可解釋性沒有明確的定義,可能是系統的可解釋性,也可能是預測結果的可解釋性,甚至可能是系統中某一個部分的可解釋性。第二,如果做深度學習的可解釋工作,現有的深度學習系統千千萬,我們沒辦法對每一個系統都做。
  • 韓春雨論文的可重複性問題,怎樣「科學解決」?  科學人
    科研結果的可重複性問題,再一次成為學界和公眾熱議的話題。事實上,雖然科學界反思了這麼多年「可重複性」的問題,但這麼些年中,真的具備可重複性的實驗並不多——事實上,許多年輕的科研人員在實驗室中需要學習的第一課就是:許多看起來高大上的文章都是錯的,或者只對了一部分。這並不是導師們信口雌黃。
  • 備受委屈的鍊金術
    他在今年(2011年)於華盛頓召開的美國科學發展協會會議上指出,現代人將「鍊金術士」等同於「江湖騙子」的原因之一。一方面是冶金術,製藥術,和玻璃製造術等實用知識,另一方面是古希臘分析世界,為世界構建理論的方法,也即哲學。二者相結合便產生了鍊金術。當埃及在七世紀落入伊斯蘭軍隊之手時,阿拉伯學者接受並發展了海爾梅思想(也即鍊金術的理論,傳說海爾梅是鍊金術的始祖),並且在12世紀學術復興之時,將其傳到了歐洲。
  • 淺談機器學習模型的可解釋性和透明性
    打開APP 淺談機器學習模型的可解釋性和透明性 YuZhang 發表於 2021-01-05 14:02:28 XAI 主要解決以下問題
  • 榮格理論中的「夢」與「鍊金術」【多圖】
    然其書雖繁言累詞,其論述於象徵符號亦多有所展析,然其主要內容實多重複。簡而言之,榮格鍊金術思想的特色乃是他從心理學的角度看鍊金術,不應當說:鍊金術的基本問題就是分析心理學的基本問題;九轉丹成實即個體化之完成;煉丹過程之種種變化實即意識與無意識(尤其是集體無意識)的諸種變形。《太乙金華宗旨》一書幫助榮格了解鍊金術,厥功甚偉。
  • 機器學習的可解釋性成熱點
    本屆ICML最佳論文的主題是,利用影響函數理解黑箱預測。機器學習中的一個關鍵問題就是,系統為何做出某種預測?我們不僅需要表現優異的模型,更需要可解釋的模型。理解了模型如何做出決策,也就能進一步改善它。更重要的是,要讓機器學習應用於現實中的重要問題,比如醫療診斷、做出決策、災難響應,我們就需要一個能被人類理解和信任的系統。
  • 科學網—科學家關注心理學實驗可重複性
    Brian Nosek 圖片來源:維吉尼亞大學 目前,人類基因組技術、火星車和大腦創新計劃等大型研究合作正變得越來越常見它們的目標是測試心理科學的再現性。 這些合作的首個顯著結果於近日發表,心理學家長舒一口氣,他們的領域只有相對較小的瑕疵:13個實驗中有10個可以重複。再現性是科學的咒語。對大部分研究而言,如果一個研究結果不能被其他實驗室重複,那麼其可信性就遭到了破壞。如果多個實驗室都無法重複,那麼原始結論就無效。
  • DNF休亞的鍊金術實驗室怎麼用 休亞的鍊金術實驗室玩法攻略
    首頁 > 部落 > 關鍵詞 > DNF最新資訊 > 正文 DNF休亞的鍊金術實驗室怎麼用 休亞的鍊金術實驗室玩法攻略
  • 伊斯坦堡「易主」,埃爾多安的正發黨遭遇執政以來最大危機
    伊斯坦堡「易主」,埃爾多安的正發黨遭遇執政以來最大危機 澎湃新聞記者 喻曉璇 2019-04-18 20:38 來源
  • 科學家關注心理學實驗可重複性—新聞—科學網
    Brian Nosek 圖片來源:維吉尼亞大學 目前,人類基因組技術、火星車和大腦創新計劃等大型研究合作正變得越來越常見,但是這種大型合作在心理學上並不常見它們的目標是測試心理科學的再現性。 這些合作的首個顯著結果於近日發表,心理學家長舒一口氣,他們的領域只有相對較小的瑕疵:13個實驗中有10個可以重複。再現性是科學的咒語。對大部分研究而言,如果一個研究結果不能被其他實驗室重複,那麼其可信性就遭到了破壞。如果多個實驗室都無法重複,那麼原始結論就無效。
  • 「精品」機器學習模型可解釋的重要及必要性
    其實,模型的可解釋性是很容易做到的,難點在於研究員是否對模型有深入的思考和理解。介紹機器學習領域在過去十年中發生了顯著的變化。從一個純粹的學術和研究領域方向開始,我們已經看到了機器學習在各個領域都有著廣泛的應用,如零售,技術,醫療保健,科學等等。
  • 首爾及周邊地區學生恢復「網課」,衛生部門:韓國正遭遇大危機
    新華社資料圖因近期新冠疫情反彈,韓國首都首爾及其周邊地區學生26日起只能居家上「網課」,而今年將要「高考」的學生仍可到校遭遇大危機韓國衛生部門稱,韓國正遭遇今年初疫情暴發以來最大危機。韓國先前抗疫被視為成功,但8月中旬以來每日新增病例保持三位數。韓國在新冠病例減少的情況下從5月20日起分階段重新開學。
  • 相信你的模型:初探機器學習可解釋性研究進展
    但如今人們不僅關注於機器人執行任務的準確和效率,更希望理解其決策的原因和行動,從而判斷是否信任答案,而這正也是可解釋人工智慧(XAI)所要研究的問題。XAI 主要解決以下問題:對於使用者而言某些機器學習模型如同黑盒一般,給它一個輸入,決策出一個結果。比如大部分深度學習的模型,沒人能確切知道它決策的依據以及決策是否可靠。
  • 機器學習: 心理學&管理學研究的新篇章?
    近年來,「可重複性危機」對很多傳統心理學研究結果提出了質疑,也提高了心理學研究對於方法學/量化統計分析的重視程度。應對可重複性危機,除了採用更加嚴謹的研究設計、恰當的統計方法進行數據分析和正確解讀結果之外,伴隨著更多更大量可及的數據資源和機器學習/統計學習等的興起,心理學/管理學研究也正在逐步發展出新的篇章——數據導向,從數據中探索規律與趨勢,以期達成預測的目的。
  • 如何進行可重複性研究?
    簡介:何謂可重複性研究 ?地質學家約翰·克拉伯特 (John Claerbout) 將「可重複研究」定義為「其他科學家複製 (論文) 」的可能性。我們的目標是通過提供建議,方法和工具來提高研究的可重複性。先前的論文試圖將可重複性研究的概念界定為一套適用於特定情況和軟體的精確規則或原則 (Gentzkow & Shapiro, 2014; Sandve et al. , 2013; Hinsen, 2015) 。