創建新理論解釋運行原因,MIT研究者探索深度網絡基礎理論問題

2020-12-25 機器之心Pro

選自Psychology Today

作者:Cami Rosso

機器之心編譯

編輯:陳萍、杜偉

在本文中,來自 MIT 的研究者探討了關於深度學習中非常基礎的問題,包括網絡的近似能力、優化的動態規律和強泛化能力等。

人工智慧(AI)的復甦很大程度上歸功於深度學習在模式識別方面的快速發展。深度神經網絡架構的構建一定程度上受到了生物大腦和神經科學的啟發。就像生物大腦的內部運行機制一樣,深度網絡在很大程度上無法得到解釋,沒有一個統一的理論。對此,來自麻省理工學院(MIT)的研究者提出了深度學習網絡如何運行的新見解,有助於人們揭開人工智慧機器學習的黑匣子

論文地址:https://cbmm.mit.edu/sites/default/files/publications/PNASlast.pdf

論文作者 Tomaso Poggio、Andrzej Banburski 和 Quianli Liao 來自 MIT 大腦、心智和機器中心(Center for Brains, Minds and Machines, CBMM),其中 Tomaso Poggio 是 MIT 計算神經學科「大家」,也是深度學習理論研究的先鋒。他們創建了一種新的理論來解釋深度網絡的運行原因,並於 2020 年 6 月 9 日在 PNAS(美國國家科學院院刊)上發表了他們的研究成果。

Tomaso Poggio

值得強調的是,這篇論文的 editor 是 Stanford 理論大咖 David L. Donoho,他的研究方向主要包括諧波分析、信號處理、深度學習以及壓縮感知。

研究者重點探究了深度網絡對某些類型的多元函數的近似,這些函數避免了維數災難現象,即維數準確率與參數量成指數關係。在應用機器學習中,數據往往是高維的。高維數據的示例包括面部識別、客戶購買歷史、病人健康檔案以及金融市場分析等。

深度網絡的深度是指計算的層數——計算層數越多,網絡越深。為了闡明自己的理論,三位研究者檢驗了深度學習的近似能力、動態優化以及樣本外性能

深度網絡的近似能力

對於一般的範例如下:為了確定一個網絡的複雜性,使用函數 f (x ) 表示,理論上應當保證一個未知目標函數 g 的近似達到給定的準確率(> 0)。特別地,深度網絡在近似函數方面比淺層網絡具備更好的條件。這兩種類型的網絡都使用相同的操作集——點積、線性組合、單一變量的固定非線性函數、可能的卷積和池化。

如下圖 1 所示,網絡中的每個節點對應於要近似的函數的圖中的節點。結果發現,深度網絡具有比淺層網絡更好的近似能力。

研究者發現通過具有局部層級的深度卷積網絡,指數成本消失,並再次變得更加線性。然後證明了對於特定類型的複合函數,卷積深度網絡可以避免維數災難。這意味著,對於具有局部層級問題,例如圖像分類,淺層網絡與深度網絡之間的差距是指數級的。

「在近似理論中,無論是淺層網絡還是深度網絡,都在以指數代價近似連續函數,然而,我們證明了對於某些類型的組合函數,卷積型的深度網絡(即使沒有權重共享)可以避免維數災難」,研究者表示。

優化的動態規律

之後該團隊解釋了為什麼參數過多的深度網絡在樣本外數據上表現良好。該研究證明對於分類問題,給定一個用梯度下降算法訓練的標準深度網絡,那麼重要的是參數空間的方向,而不是權重的範數或大小。

參考文獻 27 的最新結果說明了在二元分類線性網絡的特殊情況下過擬合的明顯缺失。他們證明了最小化損失函數,如 logistic 函數、交叉熵和指數損失函數等會使線性可分離數據集的最大邊值解漸近收斂,不受初始條件的影響,也不需要顯式正則化。這裡該研究討論了非線性多層深度神經網絡(DNN)在指數型損失下的情況,如下圖 2 所示:

左圖顯示了在數據集(CIFAR-10)相同、初始化不同的網絡上,測試與訓練交叉熵損失的對比,結果顯示在訓練集上產生的分類誤差為零,但測試誤差不同;右圖顯示了在相同的數據、相同的網絡上測試與訓練損失的對比。

研究者這樣描述:「在描述經驗指數損失最小化的特徵時,我們考慮的是權重方向的梯度流,而不是權重本身,因為分類的相關函數對應於歸一化網絡。動態歸一化權值與單位範數約束下最小化損失的約束問題等價。特別地,典型動態梯度下降與約束問題具有相同的臨界點。」

這意味著深度網絡上的動態梯度下降與那些對參數的範數和大小都有明確約束的網絡等價——梯度下降收斂於最大邊值解。研究者發現了線性模型的相似性,在這種模型中,向量機收斂到偽逆解,目的是最小化解的數量。

事實上,研究者假定訓練深度網絡的行為是為了提供隱式正則化和範數控制(norm control)。科學家們把深度網絡的這種能力歸因為泛化,而無需對正則化項或權重範數進行明確的控制,而對於數學計算問題,則表明不管在梯度下降中是否存在強制約束,單位向量(從梯度下降的解中計算)保持不變。換言之,深度網絡選擇最小範數解,因此具有指數型損失的深度網絡的梯度流具有局部最小化期望誤差。

「我們認為,這項研究結果特別有趣,因為它可能解釋了深度學習領域出現的最大謎團之一,即卷積深度網絡在一些感知問題上的不合理有效性」,研究者寫道。

隨著應用數學、統計學、工程學、認知科學以及計算機科學跨學科的交融,研究者開發了一種關於為什麼深度學習有效的理論,它可能會促進新的機器學習技術的發展,並在未來加速人工智慧的突破。

相關焦點

  • 宇宙是一個圖網絡?「全球最聰明的人」剛為物理基礎理論指出新道路
    但雖然已經完成了大量工作,但我們仍然沒有一套真正的物理學基礎理論。經過長期思考與探索,沃爾夫勒姆認為自己已找到了通往物理學基礎理論的道路,建立了一個範例和框架(包含大量實用計算工具)。在此之後這一體系還需要更多人的努力,但其目標是極具吸引力的:看看我們是否能夠最終獲得宇宙基本原理的答案。
  • Deepmind "預測地圖"論文背後:神經科學或將助力深度學習迎來新突破
    雖然這個理論解釋了許多神經生理學發現,但並不完全解釋為什麼海馬體也參與其他功能,包括記憶,關係推理和決策等。我們認為,海馬體用它們預測到的未來狀態來展示代表每一種情況。例如,如果你要下班回家(你當前的狀態),你的海馬體可能會預測你很可能很快會通勤回家,到學校接孩子,或者更長遠一點——到家了。
  • 牡丹江師範學院法學院法學基礎理論「課程思政」的創新探索
    原標題:牡丹江師範學院法學院法學基礎理論「課程思政」的創新探索牡丹江師範學院法學院在「課程思政」立體化育人的過程中展開新的探索,結合全國首家「校園審判庭」的建設和與社會協同共建的發展規劃,先後推出了「憲法第一課」「憲法宣講全校行」「校園審判在身邊」等活動,將法學專業的理論教育與實踐中的價值觀塑造深度結合,以確保法學教育的「課程思政」
  • 專訪MIT教授Tomaso Poggio:表達、優化與泛化——數學視角裡的深度...
    他的論文非常好辨認——命名方式簡單粗暴如同長篇系列小說的就是他,《深度學習理論 II》,《深度學習理論 IIIb》……這個編號系統來自他對深度學習理論問題進行的拆分:在 Poggio 看來,深度學習理論研究問題分為三類:第一類是表達(representation)問題:為什麼深層網絡比淺層網絡的表達能力更好?
  • 神經網絡讓計算機自我進化,自我探索,超越深度學習算法
    傳統上,它們被用來解決特定的問題。在每一代中,在某些指標上表現出最好的解決方案,比如控制一個兩腿機器人的能力,被選中並產生後代。雖然這些算法已經取得了一些成功,但它們的計算能力可能比深度學習等其他方法更強,深度學習近年來大受歡迎。踏腳石原理超越了傳統的進化方法。它不針對特定的目標進行優化,而是對所有可能的解決方案進行創造性的探索。
  • 筑波大學發現新理論,完美解釋超導電流為何沒有電阻也會消失
    此次研究提出的新理論表明,應該認為「超導電流是通過貝裡連接形成的集體模式所產生的迴路電流集合」。另外他還發現,拉什巴型自旋軌道相互作用可能對貝裡連接的產生非常重要。目前的超導標準理論經常被指出在解釋超導電流方面存在問題。此次的成果為應該如何變更基礎理論以解決這個問題提供了一個指南。隨著標準理論改變,還有望明確長期以來一直不清楚的銅氧化物高溫超導的機制。
  • 結合神經網絡,提升ImageNet分類準確率且可解釋
    BAIR公布神經支持決策樹新研究,兼顧準確率與可解釋性。隨著深度學習在金融、醫療等領域的不斷落地,模型的可解釋性成了一個非常大的痛點,因為這些領域需要的是預測準確而且可以解釋其行為的模型。然而,深度神經網絡缺乏可解釋性也是出了名的,這就帶來了一種矛盾。
  • 研究論文 | 我國旅遊業線上與線下企業的競合理論構建 ——基於紮根理論的探索性研究
    這一問題在學術研究領域很難找到答案,因為學術界關於線上與線下旅遊企業間競合模式、競合機制以及競合理論的研究相對缺乏。為了彌補這一不足,本研究根據對國內具有代表性的線上、線下旅遊企業的深度訪談內容,運用基於紮根理論的文本分析方法,探索在線旅行社與傳統旅行社的競合機制,構建開放式競合理論模型,以期改善旅遊企業之間的競爭與合作現狀,創建互惠互利、共享多贏的價值鏈,實現旅遊業的可持續發展。
  • 深度學習不再是煉丹術!谷歌給出首個神經網絡訓練理論證明
    最新發布的一篇論文給出了首個關於深度神經網絡訓練相關的理論證明,實驗觀察結果也為初步解釋梯度下降強於貝葉斯優化奠定了基礎。這些觀察結果也構成了一個理論框架基礎,可以用來初步解釋長期以來困擾深度學習研究界的一個難題:梯度下降究竟在哪些情況下,具體是如何優於貝葉斯優化?
  • 深度|如何在 CV 模型的性能和可解釋性之間尋求平衡?
    在理論上也有些解釋,比如函數擬合?其實今天到現在大家還不認可這個東西已經解決了,或者從理論的角度還沒有一個很好的解釋,為什麼?至少沒有像SVM那樣,有一個很強大的理論框架。或許我們更需要一個新的理論框架去解釋今天我們用的CNN這些東西。我們作為做計算機視覺的人,不見得就是把最難的問題或者最根本的問題真的要完全解決。
  • 教育技術學理論五問-中國社會科學網
    在信息技術時代教育學理論重建背景下,教育技術學要繼續發揮學科的優勢,以教育與技術的交叉視域,從形而上的本體論、形自體的認識論、形而下的方法論,深度探究新時代教育的本質與規律,為重建符合信息化時代特徵的教育學理論體系作出新貢獻。
  • 普林、DeepMind新研究:結合深度學習和符號回歸,從深度模型中看見...
    但深度神經網絡可以高效學習高維空間中的模式。那麼,問題來了,我們可以兼二者之所長嗎?來自普林斯頓大學和 DeepMind 等機構的研究者提出了一種通用方法,通過引入強歸納偏置來提取深度模型的符號表示。該方法的工作原理是:首先在監督設置下訓練 GNN,同時鼓勵稀疏潛在表示,然後對學得模型的組件應用符號回歸,從而提取顯式物理關係。
  • 深度學習進入晶片領域,揭秘寒武紀神經網絡處理器
    這對於論文寫作提出了很高的要求,而中國大陸研究者往往在英文論文寫作上不佔優勢。但這裡存在一個矛盾:緊跟多變的國際學術圈熱點,論文不容易在頂級會議上發表;而探討的問題若不是國際學術圈熱點,論文同樣很難在頂級會議上發表。面對這個矛盾,我們的看法是:研究者應該堅持自己的學術理想,重視論文但不為論文發表所左右;同時盡力宣傳自己的研究方向,推動這個方向被國際學術圈的主流認可。
  • 心理理論的發展與演化
    研究者認為,個體能夠對自我、他人或其他物種的心理狀態進行歸因,這種推斷系統之所以被視為一種理論,一方面是因為這些內部狀態無法被直接觀察,另一方面是因為這一推斷系統可用於解釋和預測行為。40多年來,來自社會心理學、認知心理學、發展心理學、臨床心理學以及人類學領域的學者嘗試從不同角度去探究和解釋心理理論的認知機制和演化淵源。這一重要的心理能力是否為人類獨有?
  • 機器學習研究者的養成指南,吳恩達建議這麼讀論文
    其主要原因在於,本身研究問題的潛力就不大:到底該任務能有 10% 的改善還是 10 倍的提升?經常會有研究者做看起來很合理,但卻只能小幅度提升某項指標的工作。在更大的目標下做增量研究(10% 的提升)是最有效的。
  • 根據深度對達爾文進化理論的解釋,生命應該是不朽的
    根據深度對達爾文進化理論的解釋,生命應該是不朽的,為什麼幾十年後就死了?人的生命之所以會持續幾十年,只是因為人的某些外在的原因,才應該說是人的一種永恆的毒藥。達爾文進化解釋了什麼他們之所以提出這樣的觀點,是因為他們對達爾文的進化理論進行了深入的解讀,從本質上講,人類可能是不朽的生物,如果我們看達爾文的進化理論,在自然選擇的過程中,我們會把優秀的基因保留下來,一代一代地傳下去,這些顯性性狀會在繁殖越來越強的過程中出現。
  • MIT重磅研究:基於人工神經網絡,探索抑制神經元的生物學意義
    MIT 研究者們證明,通過使用理論計算機科學的相關工具,他們的模型能夠讓一定配置的抑制性神經元遵循「競爭學習規則」,並獲得最有效的結果。這其中原因何在?真相就在於該模型能夠對抑制性神經元在大腦中的行為進行預測,而這也成為了計算分析輔佐神經科學研究的絕佳例子。這一新發現在本周的理論計算機科學變革會議上公布。
  • 深度學習教父辛頓:未來神經網絡可以重建人腦意識
    問題的關鍵就是如何改變權重。 主持人:你什麼時候開始理解到神經網絡的運行與大腦相似? 辛頓:從一開始神經網絡就是按這樣的方式設計的,和大腦運行機制相似。 主持人:所以說,到了職業生涯的某個階段,你開始理解大腦是如何運作的。當時你可能只有12歲,也可能是25歲。不過你是什麼時候做出決定,準備參照大腦設計計算機的? 辛頓:大體正確。
  • 揭開弦理論的真面目:弦理論是解釋宇宙所有問題的終極理論嗎?
    將弦理論的26維的時空「調整」為超弦理論的10維時空後,就「解決」了弦理論推導出的超光速的「快子」問題,讓弦理論從一個弦的假說變成一個解釋微觀世界的量子理論。聽起來是不是很簡單? 寫物理科普可以很簡單,只要照本宣科,將一個理論用通俗化的語言表述就可以矇混過關。但是,要把一個理論解釋清楚,就沒那麼簡單了。
  • MIT&豐田稱靠簡單地圖和視覺可讓無人車適應新環境
    為了將更加類似人類的推理能力賦予自動駕駛汽車,MIT 創建了一個系統,可使自動駕駛汽車在僅使用簡單地圖和視覺數據的情況下,在新型複雜環境中運行。人類司機很擅長在之前未見過的道路上駕駛汽車,他們使用的是觀察能力和簡單的工具。人類會將周圍事物與 GPS 設備提供的信息進行匹配,以確定自己所在位置和目的地位置。而這項對人類很基礎的推理能力對自動駕駛汽車來說卻非常困難。