北京大學王立威教授:機器學習理論的回顧與展望(四)

2020-12-07 雷鋒網

雷鋒網[AI科技評論]按:本文根據王立威教授在中國人工智慧學會AIDL第二期人工智慧前沿講習班*機器學習前沿所作報告《機器學習理論:回顧與展望》編輯整理而來,雷鋒網在未改變原意的基礎上略作了刪減。

王立威

立威,在北京大學教授主要研究領域為機器學習。在包括COLT, NIPS,JMLR, PAMI等權威會議期刊發表論文60餘篇。2010年入選 AI’s 10 to Watch,是首位獲得該獎項的亞洲學者。2012年獲得首屆國家自然科學基金優秀青年基金,新世紀優秀人才。任 NIPS 等權威會議 Area Chair,和多家學術期刊編委。以下為王立威教授所做的現場演講的第四部分,主要覆蓋Algorithmic Stability的介紹。

| 算法穩定性

我們接下來談談第三個比較重要的學習理論,叫Algorithmic Stability(算法穩定性)。

算法穩定性是什麼?

剛剛我們談到了機器學習理論的發展,從最開始幾乎不關心算法,只考慮模型的複雜度,慢慢到Margin,實際上已經和算法有關,而Algorithmic Stability其實完全就是探討算法性質,我這個算法究竟具備了一個什麼樣的特點,從而導致我們能夠有一個好的泛化能力。

什麼叫做Algorithmic Stability呢?我們還是從比較宏觀的角度來考慮,細節大家回去以後自己去看。簡而言之,怎樣的算法是stable的?它的核心是說,當算法用一個訓練數據集可以訓練出一個結果,假如我的訓練數據集有1萬個數據,我把其中9999個都保持不變,就把其中的1個數據換成一個新的,那麼這個時候你的學習算法學出來的分類器會不會有一個顯著的變化?如果沒有顯著的變化,那麼這個學習算法是stable的。如果有顯著變化,我們說這個算法是不stable的。

Algorithmic Stability,就是從定量的角度上來刻畫以下的關係:當換掉其中一個訓練數據時,算法學出來的結果會有多大的改變。

穩定的算法會有更好的泛化能力

大家覺得,是比較stable的算法會有更好的泛化能力呢,還是說一個不stable的算法有比較好的泛化能力呢?從直覺上思考一下,顯然是stable的算法有很好的泛化能力。

我還拿最開始的「胡克定律」來說明。如果是一個線性的模型,訓練數據更換一個,其實這條直線不會有顯著的變化;如果我有100個數據,用99階多項式來匹配這100個數據,假如把這100個數據換掉一個,我相信新的99階多項式可能就會發生重大的改變。所以大家要從新的角度,也就是算法的穩定性來刻畫。

算法穩定性理論是一個很定量的描述:如果我的算法具有一個什麼樣的程度的穩定性,那麼算法的生成範圍就能有什麼樣的表徵,我們就能給出一個數學領域的嚴謹描述,一個定量的刻畫。具體的內容我就跳過去了。

SVM與SGD,算法穩定性如何?

我在講這個算法穩定性比較新的內容之前,先說一說一些很傳統的算法,有一些是穩定性很好的。

舉個例子,SVM的穩定性很好。SVM可以從數學上證明,如果換掉其中的一個訓練數據,其實你得到的結果通常發生的改變是比較小的,是1/√n的級別,n是數據的量。如果改變一個數據只是1/√n級別的變化,那麼它的算法穩定性很好。什麼樣的算法穩定性很不好呢?比如說以前有一個算法叫決策樹(decision tree),假如換掉其中一個數據,有可能決策樹就完全變掉了。

所以從這個算法說回今天我們最常用的方法上。今天大家很多人都在用深度學習(Deep Learning),訓練深度學習,大家是用什麼樣的算法在訓練Deep Learning呢?最常用的算法就是SGD(隨機梯度下降)。我們來問問大家,SGD這個算法究竟是一個stable的算法還是一個不stable的算法?你從直覺上先想一下,梯度下降(GD)是在當前求它的梯度,沿梯度下降的方向走一小步。由於我求GD很費勁,所以我們從隨機角度入手,對某一個數據點求一個梯度,這就是一個SGD。

SGD這個算法有沒有穩定性呢?這是2016年去年的一個結果(上圖),SGD這個算法具有一定的穩定性,如果你在一個convex function上用SGD它的穩定性相當好。通常大家都知道,深度學習的損失函數是非凸的,而仍然可以證明SGD是具有一定的穩定性的,雖然在理論上可能暫時還證明不出來它具有非常高的穩定性,但是它能有一個還不錯的穩定性,在實際中它是不是有穩定性?我認為如果是做研究的老師、同學們其實可以去思考這個問題,這個如果做深度學習是一個比較重要的成果。

深度學習算法

接下來我們可以簡單地總結一下深度學習算法。很多深度學習做應用的人會覺得,傳統的機器學習理論無法解釋今天深度學習的成功,因為今天的深度學習在很多方法跟傳統的機器學習理論看上去是矛盾的。

我舉個例子,今天大家用的這個深度學習的網絡,它的VC Dimension是多少?數學上可以證明,如果用全連接的網絡,它的VC Dimension基本上就是它的編的數目,可是今天我們用的網絡,通常編的數目是我們訓練數據要高一個數量級,編的數目就是我們參數的個數,所以實際上我們是在一個什麼樣的模型中間去學習呢?是在一個VC Dimension大概是10倍於訓練數據的空間在做,這跟我們之前提到,你的訓練數據 10倍於VC Dimension的空間做,是不一樣的。在VC Dimension是訓練數據10倍的情況下,如果你用training error最小化這樣的簡單的算法,是不能指望得到任何好的成果的。所以從我個人的角度來看,深度學習之所以能在VC Dimension是數據量的10倍的複雜度的模型裡學習,並且能夠取得成功,極大地依賴於SGD的算法。

如果大家設計了一個優化算法,我給你一個數據,給你一個參數個數為訓練數據量10倍的網絡,而且你找到了全局最優解,我可以負責任地告訴大家,你最後的效果一定是很差的。所以我們今天的深度學習我認為之所以能做好,正是由於它沒有找到全局最優解,如果真的能找到,這個性能就壞掉了,或者說必須換成小的網絡才有可能。所以SGD這個算法啟發大家的一點是,如果從做研究的角度講,還有沒有更好地滿足前面講的方法?

我再談一點可能跟應用結合更緊密的方面。如果有做深度學習這種實驗經驗的老師、同學們,不知道大家是怎麼做的,反正我的一些學生的經驗是這樣的:毫無疑問,深度學習的訓練是最困難的,經常會發生以下幾個現象中的一個或者多個。

  • 第一,過擬合。我一訓練,training error很快下降了,但是一測試發現,測試數據集和訓練數據集的差別巨大,什麼原因呢?由於深度學習通常用的網絡或者模型是非常複雜的,所以你一旦要在整個模型中找到一個training loss非常低的點,或者說你SGD在走的這條路徑當中,實際上算法穩定性是有一定概率意義的,可能你這次走壞了,沒走好,實際上stability就不存在了,這是第一種現象。在今天的深度學習中,過擬合還是一個非常常見的現象。

  • 第二種,training loss的問題。你訓練很長時間就是不降下來,這是什麼原因呢?我個人認為,這個原因就是,SGD由於是隨機的,實在是沒有找到一個loss,能夠下降到可接受的點,比如說在很平坦的區域就卡在那兒了,大家看到有很多做深度學習應用的研究者,比如Bengio,給了很多這樣的報告,經常出現訓練不下降了,是因為你可能陷在一個很平坦的區域,在很大的一個領域裡面你的training loss幾乎沒有什麼變化,這個結論是不是真的對?我認為還不一定完全正確,還需要有更多的研究。

  • 還有其他一些現象,比如不同的超參數得到的訓練結果差異非常大,大家知道深度學習裡面有很多超參數要去調,你的這個數不一樣,訓練的結果完全不一樣,所以這些都可以從理論學習的層面去研究,不僅研究,而且希望能夠對大家未來能夠有一切指導性,就是我如何能夠設計這個算法,使其達到最終比較好的目的。如果從學術的角度來講,這應該也是一個很值得探討的問題,從應用的角度來講,對於提高我們訓練的效率是很有價值的。

大家可能都知道,如果你是一個做深度學習經驗豐富的研究者,和一個剛入門的人,對於同樣的問題,即使你拿到同樣的代碼,其實你想調出同樣的結果,需要花的時間差異是巨大的,所以這些方面是很值得深入探討的一些問題。

關於算法穩定性和SGD具體的算法,為什麼它具有穩定性,我想數學上就不用太多講了,大家可以再思考一下。現在SGD有很多不同優化的算法,你能不能從算法穩定性的角度去想一想,這幾種不同的方法誰的stability更好,誰的更差?

其實我認為還是有點區別的,你如果對這些有一個認識,可能不是說直接幫助你解決問題,但它會幫助你加快在訓練速度,變成一個很有經驗的研究者。還有前面談到的drop out,從stability的角度探討一下,它能否對泛化起作用?實際上也是有可能的,我們完全有可能從很多種不同的角度去看待這個問題。

| 關於深度學習算法的一些討論

最後談一個學術界很多人都在討論,特別是深度學習的學術界,大概大家都知道深度學習有三位最有影響的研究者,Hinton、LeCun和Bengio,現在也在研究所謂的深度學習 loss surface。也就是說,我們的目標是想優化學習一個網絡,那學習網絡過程其實就是在試圖將損失最小化,那麼我們能不能把loss這個函數,當然是非常非常高維的函數,(你有多少個參數,函數就是多少),我能不能分析一下在這個高維空間中我這個loss function到底長什麼樣?

有很多人寫論文證明loss surface對於深度網絡是沒有壞的local minima,比如去年的一篇NIPS的oral paper。但是大家特別是做研究的想一想,其實你稍微思考一下應該能明白,這是根本不可能的,顯然結論是不正確的。

很簡單的例子:你這個網絡的最優點,在整個空間裡面的數目是非常之大的,因為網絡它有很高的對稱性。比如說我這樣一個網絡,我的參數設置是最優,我把這些參數隨便做一個置換(permutation),也是最優,具有這樣性質的非凸函數,存在局部極小值。所以loss surface這裡面可研究的內容很多,沒有現在大家想像的這麼簡單。

那麼,如果大家想做研究開發新的方法,前面我們講了,一個是現在遇到問題是防止過擬合,還有一種情況是走到一個地方很平坦不下降了,你遇到這種地方怎麼讓它儘快的跑出來,能夠讓它下降。

這是從算法穩定性的角度介紹一下我個人認為可以去研究的一些點,對深度學習和泛化、機器學習理論,覺得有趣的點可以研究。

最後總結一下,我覺得我們必須得坦率地承認,我們的學習理論目前為止對深度學習有一個很好的解釋,過去的VC理論、Margin Theory,還有算法穩定性等等都不能很完美地解釋,雖然算法穩定性我認為有一部分解釋了,但是我們應該採取的態度,至少從我的角度來看,不是說就認為學習理論就沒有意義了,我覺得還是有意義的,它一定在經過進過更深入研究以後能夠幫助我們更好地產生insight,設計出更好的學習算法,也許有一天,深度學習可能不是最好的方法,甚至被淘汰了,我認為這完全是有可能的,但是還會有新的更好的方法。

我的報告就到這裡。謝謝大家!

關於王教授及其他教授的主題報告,敬請期待雷鋒網(公眾號:雷鋒網)的後續報導。

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 北京大學王立威教授: AI 醫學影像的現狀、機遇與挑戰
    近日,雷鋒網(公眾號:雷鋒網)AI掘金志邀請了北京大學王立威教授文字內容只是冰山一角,觀看全程視頻課程,請點擊連結:http://www.mooc.ai/open/course/339王立威教授作為首位獲得AI's 10 to Watch獎的亞洲學者,同時也是LUNA和天池AI醫療大賽冠軍隊導師,從人工智慧研究者的角度出發,為500多位資深醫療人工智慧人士做了120分鐘的深度分享和學員互動問答。
  • 「深度學習與統計學理論」研討會成功舉辦
    來自國內知名院校的四位優秀統計學者應邀就各自最新的理論成果進行了分享與探討,為線上、線下共同參與的逾500位高校師生與業界人士帶來了一場絕佳的思想學術盛宴。受「深度學習」與「統計學」這兩種建模文化差異討論的啟發,張教授提出了闡述機器學習的三要素:Prediction, Computation與Representation。以Prediction為最終目的,將Computation作為問題求解的途徑,從「Representation」角度來詮釋機器學習。
  • 圖機器學習有多大神力?一文帶你回顧2020,展望2021
    消息傳遞(Message Passing)威爾·漢密爾頓(Will Hamilton),麥吉爾大學(McGill University)助理教授,Mila CIFAR主席,GraphSAGE一書作者表示:「2020年,圖機器學習領域開始接受消息傳遞範式的基本限制。這些限制包括所謂的「瓶頸」問題、過度平滑的問題,以及表徵能力方面的理論限制。
  • 講座預告 | 北京大學現代農學院教授王金霞:中國灌溉管理改革40年...
    中國農業大學經濟管理學院中國灌溉管理改革40年的回顧與展望時間:2020年8月4日(周二)16:00-17:30地點:騰訊會議 357 347 336匯報人:北京大學現代農學院王金霞教授主持人:孟婷
  • 清華、北大教授同臺激辯:腦科學是否真的能啟發AI?
    >主持人: 劉嘉(智源首席科學家,清華大學教授) 嘉賓: 吳思(智源研究員,北京大學教授) 陳良怡(智源研究員,北京大學教授) 孫茂松(智源首席科學家,清華大學教授) 王立威(智源研究員
  • 「印·跡:館藏版畫十二年回顧展」北京大學賽克勒博物館展出
    展覽開幕式現場2018年11月16日,「印·跡:館藏版畫十二年回顧展」在北京大學賽克勒考古與藝術博物館開幕。本次展覽集中展出了北京大學外國語學院專業教授、賽克勒博物館名譽顧問唐納德·斯通教授捐贈的版畫精品。北京大學校長郝平、副校長陳寶劍、北京大學外國語學院英語系主任高峰楓教授、考古文博學院院長、賽克勒博物館館長孫慶偉教授等出席開幕式。受邀參加開幕式的嘉賓還有來自清華大學、國家博物館等機構的同仁和賽克勒博物館之友。
  • 【光明理論·「十三五」展望十五】專家縱論「十三五」規劃新意
    【光明理論·「十三五」展望十五】  盤古智庫學術委員、國務院發展研究中心研究員 吳慶  「十三五」規劃建議對當前以「新常態」為特徵(速度變化、結構調整、和動力轉換)的經濟形勢作出了正確判斷
  • 北京大學2015年十大新聞
    9月15日,「新文化運動百年——回顧與展望」紀念大會在北京大學舉行。來自教育部、首都高校的領導和專家學者齊聚一堂,回顧新文化運動的發展歷程,探討新文化運動的歷史經驗,展望新形勢下大學的文化建設與未來發展。校黨委書記朱善璐在會上發表了主旨報告,回顧了新文化運動的歷程與意義,也對學校的未來建設提出了新要求。
  • —— 藝術學理論學科展望
    作者簡介:李心峰,深圳大學文化產業研究院特聘教授、中國藝術研究院研究員  一、藝術學升門再認識  深圳大學文化產業研究院於2020年6月2日舉辦的「藝術學升門十年:未來的展望」網絡學術論壇可謂適逢其時
  • 清華大學計算機科學與技術系朱軍教授:機器學習裡的貝葉斯基本理論...
    周志華教授擔任學術主任,前來授課的嘉賓均為中國機器學習界一流專家、資深科研人員和企業精英,包括:耿新、郭天佑、劉鐵巖、王立威、葉傑平、於劍、餘揚、張長水、鄭宇、朱軍。來自清華大學計算機科學與技術系的朱軍副教授做了題為《貝葉斯學習前沿進展》的開場分享課。總共2個小時時長的課程,內容主要分為三大部分:貝葉斯基本理論、模型和算法;可擴展的貝葉斯方法;深度生成模型。
  • 「百年工學 再續輝煌」——北京大學工學門110周年暨工學院重建15...
    北京大學黨委書記邱水平、校長郝平、副校長黃如,國家自然科學基金委原主任、中國科學院院士楊衛,教育部高等教育教學評估中心主任範唯,中國科學院院士陳十一、陸夕雲、芮筱亭、魏悅廣,中國工程院院士金國藩、向錦武,美國國家工程院院士張東曉,北京大學工學院力學與工程科學系元老教授陳耀松,北京大學工學院教授、原力學與工程科學系系主任蘇先樾,北京大學工學院化工系1952屆校友段淑貞,北京大學部分院系和職能部門負責人
  • 第四屆北京大學-臺灣大學信息科學技術論壇舉行
    2017年4月25-26日,臺灣大學電機資訊學院電機工程學系陳銘憲教授/院長、電機工程學系林清富教授到訪北京大學信息科學技術學院。作為北京大學「臺灣大學日」的重要活動之一,第四屆北大-臺大信息科學技術論壇於25日下午在北京大學理科二號樓2135會議室舉行。
  • 「特約綜述」華東理工大學王輔臣教授:煤氣化技術在中國:回顧與展望
    為了總結煤氣化技術在我國發展的正反兩方面經驗,梳理發展脈絡,展望未來方向。《潔淨煤技術》編輯部邀請華東理工大學潔淨煤技術研究所王輔臣教授撰寫綜述《煤氣化技術在中國:回顧與展望》。3結語與展望3.1 結 語煤氣化技術起源於西方,在我國也有150多年的應用和發展歷史。
  • 會議回顧 | 「重訪列斐伏爾:法國理論與中國道路」全國學術研討會...
    2019年6月1日,南京大學馬克思主義社會理論研究中心、南京大學哲學系主辦的「重訪列斐伏爾:法國理論與中國道路」全國學術研討會在南京大學召開。6月1日上午大會舉行開幕式,開幕式由南京大學哲學系劉懷玉教授主持,南京大學馬克思主義社會理論研究中心主任、哲學系教授張異賓致大會歡迎辭。張異賓教授代表主辦方向學界各位專家學者的到來表示問候。接著,張異賓教授簡要地回顧了國內列斐伏爾研究的思想史歷程,肯定了此次學術會議在國內列斐伏爾研究的重要歷史節點性意義。
  • 關注科技,關注首屆國際理論計算機聯合大會!
    國際理論計算機聯合大會由北京大學與中國工業與應用數學學會(CSIAM)、中國計算機學會(CCF)、國際計算機學會中國委員會(ACM China Council)聯合主辦,北京大學前沿計算研究中心承辦。
  • 【思想中國】謝地坤:外國哲學研究七十年回顧與展望
    為展示70年來我國哲學社會科學發展所取得的輝煌成就、烘託學術界百家爭鳴之良好氛圍、勾勒各學科研究前景與發展趨勢,《思想中國》欄目推出《70年哲學社會科學學科發展回顧與展望》系列文章,並按照哲學社會科學學科分類,約請各領域權威專家撰寫文章,簡要回顧成就與不足,重在對構建新時代中國特色哲學社會科學學科體系、學術體系、話語體系作出探索。