周志華:機器學習有這兩大派別,新人入門別跟錯隊

2021-03-02 雷鋒網

雷鋒網按:繼移動網際網路之後,人工智慧技術已經席捲全球。2017 年 3 月 3 日,中國人工智慧學會(CAAI)將舉辦 AIDL2《機器學習前沿》會議,邀請了南京大學的周志華教授擔任學術負責人,他屆時也將在會議上發表致辭。而在今年 7 月份的 GAIR 大會上,雷鋒網也將邀請周志華教授進行主題演講的分享。

周志華教授是 ACM Fellow(美國計算機學會會士),AAAS Fellow(美國科學促進會會士),AAAI Fellow(國際人工智慧學會會士),IEEE Fellow(國際電氣電子工程學會會士),IAPR Fellow(國際模式識別學會會士)。中國人工智慧學會機器學習專業委員會前任主任,南京大學計算機軟體新技術國家重點實驗室常務副主任。在一流國際期刊和頂級國際會議發表論文 100 餘篇,被引用逾兩萬次,H-index 73,被列入計算機領域 H-index 最高的前 100 位學者。

機器學習作為近年來非常火的一個概念,關注者追隨者甚眾,然而它的淵源及由來卻鮮有人知曉。在這篇周志華老師寫就的文章中,雷鋒網 (公眾號:雷鋒網) 將帶領大家一睹機器學習的兩大派別,領略其在歷史長河中的變遷和進步。本文由雷鋒網編輯,並做了不改動原意的修改。

機器學習現在是一大熱門,研究的人特多,越來越多的新人湧進來。不少人其實並沒有真正想過,這是不是自己喜歡搞的東西,只不過看見別人都在搞,覺著跟大伙兒走總不會吃虧吧。

問題是,真有個「大伙兒」嗎?就不會是「兩夥兒」、「三夥兒」?如果有「幾夥兒」,那到底該跟著「哪夥兒」走呢?

很多人可能沒有意識到,所謂的 machine learning community,現在至少包含了兩個有著完全不同的文化、完全不同的價值觀的群體,稱為 machine learning 「communities」 也許更合適一些。

第一個 community,是把機器學習看作人工智慧分支的一個群體,這群人的主體是計算機科學家。現在的「機器學習研究者」可能很少有人讀過 1983 年出的「Machine Learning: An Artificial Intelligence Approach」這本書。這本書的出版標誌著機器學習成為人工智慧中一個獨立的領域。它其實是一部集早期機器學習研究之大成的文集,收羅了若干先賢(例 如 Herbert Simon,那位把諾貝爾獎、圖靈獎以及各種各樣和他相關的獎幾乎拿遍了的科學天才)的大作,主編是 Ryszard S. Michalski(此君已去世多年了,他可算是機器學習的奠基人之一)、Jaime G. Carbonell(此君曾是 Springer 的 LNAI 的總編)、Tom Mitchell(此君是 CMU 機器學習系首任系主任、著名教材的作者,機器學習界沒人不知道他吧)。Machine Learning 雜誌的創刊,正是這群人努力的結果。這本書值得一讀。雖然技術手段早就日新月異了,但有一些深刻的思想現在並沒有過時。各個學科領域總有不少東西,換了新裝之後又粉墨登場,現在熱火朝天的 transfer learning,其實就是 learning by analogy 的升級版。

人工智慧的研究從以「推理」為重點到以「知識」為重點,再到以「學習」為重點,是有一條自然、清晰的脈絡。人工智慧出身的機器學習研究者,絕大部分 是把機器學習作為實現人工智慧的一個途徑,正如 1983 年的書名那樣。他們關注的是人工智慧中的問題,希望以機器學習為手段,但具體採用什麼樣的學習手段,是基於統計的、代數的、還是邏輯的、幾何的,他們並不 care。這群人可能對統計學習目前 dominating 的地位未必滿意。靠統計學習是不可能解決人工智慧中大部分問題的,如果統計學習壓制了對其他手段的研究,可能不是好事。這群人往往也不 care 在文章裡 show 自己的數學水平,甚至可能是以簡化表達自己的思想為榮。人工智慧問題不是數學問題,甚至未必是依靠數學能夠解決的問題。人工智慧中許多事情的難處,往往在於我們不知道困難的本質在哪裡,不知道「問題」在哪裡。一旦「問題」清楚了,解決起來可能並不困難。

第二個 community,是把機器學習看作「應用統計學」的一個群體,這群人的主體是統計學家。和純數學相比,統計學不太「乾淨」,不少數學家甚至拒絕承認統計學是數學。但如果和人工智慧相比,統計學就太乾淨了,統計學研究的問題是清楚的,不象人工智慧那樣,連問題到底在哪裡都不知道。在相當長時間裡,統計學家和機器學習一直保持著距離。慢慢地,不少統計學家逐漸意識到,統計學本來就該面向應用,而機器學習天生就是一個很好的切入點。因為機器學習雖然用到各種各樣的數學,但要分析大量數據中蘊涵的規律,統計學是必不可少的。統計學出身的機器學習研究者,絕大部分是把機器學習當作應用統計學。他們關注的是如何把統計學中的理論和方法變成可以在計算機上有效實現的算法,至於這樣的算法對人工智慧中的什麼問題有用,他們並不 care。

這群人可能對人工智慧毫無興趣,在他們眼中,機器學習就是統計學習,是統計學比較偏向應用的一個分支,充其量是統計學與計算機科學的交叉。這群人對統計學習之外的學習手段往往是排斥的,這很自然,基於代數的、邏輯的、幾何的學習,很難納入統計學的範疇。

兩個群體的文化和價值觀完全不同。第一個群體認為好的工作,對於第二個群體而言可能覺得沒有技術含量,但第一個群體可能恰恰認為,簡單的才好,正因為很好地抓住了問題本質,所以問題變得容易解決。第二個群體欣賞的工作,第一個群體可能覺得是故弄玄虛,看不出他想解決什麼人工智慧問題,根本就不是在搞人工智 能、搞計算機,但別人本來也沒說自己是在「搞人工智慧」、「搞計算機」,本來就不是在為人工智慧做研究。兩個群體各有其存在的意義,應該寬容一點,不需要去互較什麼短長。但是既然頂著 Machine Learning 這個帽子的不是「一夥兒」,而是「兩夥兒」,那麼要「跟進」的新人就要謹慎了,先搞清楚自己更喜歡「哪夥兒」。

引兩位著名學者的話結尾,一位是人工智慧大獎得主、一位是統計學習大家,名字我不說了,省得惹麻煩:

相關焦點

  • 南京大學LAMDA所長周志華:機器學習的現狀與未來
    (原標題:南京大學LAMDA所長周志華:機器學習的現狀與未來)
  • 周志華《機器學習》西瓜書出全新視頻課啦!
    號主推薦:周志華老師的《機器學習》可以說是中文機器學習最經典的學習資料之一、強烈推薦!
  • 機器學習 周志華版 PDF 高清電子書
    《機器學習》,清華大學出版社出版,作者:周志華。《機器學習》是計算機科學與人工智慧的重要分支領域。
  • 周志華老師《機器學習》西瓜書學習筆記
    【導讀】周志華《機器學習》又稱西瓜書是一本較為全面的書籍,書中詳細介紹了機器學習領域不同類型的算法(例如:監督學習、無監督學習、半監督學習、強化學習
  • 周志華最新演講:防止AI界的「中興事件」,透露南大AI學院全新人才培養模式
    「機器學習是智能化時代的關鍵,它將賦予這個時代『芯』和『魂』」。」在近日於深圳舉辦的2018中國人工智慧大會上,周志華教授這樣表述機器學習在新時代的重要性。他呼籲國內關注研發新的機器學習模型算法、晶片和平臺,以避免未來在AI領域造成GPU、TensorFlow等國外平臺獨大的局面,再次釀出第二個「中興事件"。
  • 周志華《機器學習》西瓜書精煉版筆記來了!16 章完整版
    》無疑是機器學習的必讀書籍。本書作為該領域的入門教材,在內容上儘可能涵蓋機器學習基礎知識的各方面。 為了使儘可能多的讀者通過本書對機器學習有所了解, 作者試圖儘可能少地使用數學知識. 然而, 少量的概率、統計、代數、優化、邏輯知識似乎不可避免。對於這本書,我是非常推薦的。但是對於很多初學者或者數學基礎不是特別紮實的同學們來說,想要完整、清晰地弄懂這本書其實並不容易。
  • 周志華:關於機器學習的一點思考
    整理:肖琴、聞菲【新智元導讀】機器學習如今大獲成功的原因有哪些?周志華教授表示,當前機器學習成功的背後,實際上離不開三點:1)有效的深度模型,現階段基本上就是深度神經網絡;2)存在強監督信息,也即數據都要有標註,而且越精準越好;3)學習的環境較為穩定。
  • 《周志華機器學習詳細公式推導版》完整PDF首發!1.1w+標星開源項目pumpkin-book
    關於本書《南瓜書 Pumpkin-Book》由開源組織Datawhale發起,團隊成員謝文睿、秦州牽頭,針對國內機器學習經典教材--周志華老師的《機器學習》,將教材中難以理解的公式做了解析,對跳躍性較大的公式做了推導,幫助大家解決機器學習中的數學難題。
  • 【西瓜書】周志華《機器學習》學習筆記與習題探討(一)
    【西瓜書】周志華《機器學習》學習筆記與習題探討(一)學習算法:機器學習所研究的主要內容,是關於在計算機上從數據中產生「模型」的算法,即「學習算法」。假設空間:機器學習中可能的函數構成的空間稱為「假設空間」。版本空間:一個與訓練集一致的「假設集合」。歸納偏好:機器學習算法在學習過程中對某種類型假設的偏好。任何一個有效的機器學習算法必有其歸納偏好。
  • 周志華教授:如何做研究與寫論文?
    本文整理了著名人工智慧學者周志華教授《做研究與寫論文》的PPT(時間比較早,但方法永遠不會過時)。其詳細介紹了關於為什麼要做研究?如何做研究,選擇研究方向、選擇研究課題(Topic),學習領域知識、選期刊投稿、稿件處理過程、寫高水平論文的方法與技巧等方面的知識,是一份非常優秀的做研究和寫論文指南,值得每個人細讀!
  • 周志華:滿足這三大條件,可以考慮不用深度神經網絡
    周志華介紹了他所領導的團隊提出的 gcforest 方法,稱該方法有良好的跨任務表現、自適應的模型複雜度等優勢。 而對於 gcforest 研究的重要意義,正如周志華在分享中表示的那樣,深度學習是一個黑屋子,以前大家都知道它裡面有深度神經網絡,現在我們把這個屋子打開了一扇門,把 gcforest 放進來,我想以後可能還有更多的東西,這是這個工作從學術科學發展上更重要的價值所在。
  • 周志華《機器學習》課後習題解析(第一章)緒論
    周志華老師的《機器學習》(西瓜書)一書,沒有公布答案,於是我們從網上搜集了各題目的答案,供大家參考。參考答案 第一章 緒論 1.1.表1.1中若只包含編號為1,4的兩個樣例,試給出相應的版本空間。假設數據集有
  • 一文讀懂機器學習中的正則化
    而整個目標函數(原問題+正則項)有解若且唯若兩個解範圍相切。從上圖可以很容易地看出,由於L2範數解範圍是圓,所以相切的點有很大可能不在坐標軸上,而由於L1範數是菱形(頂點是凸出來的),其相切的點更可能在坐標軸上,而坐標軸上的點有一個特點,其只有一個坐標分量不為零,其他坐標分量為零,即是稀疏的。所以有如下結論,L1範數可以導致稀疏解,L2範數導致稠密解。
  • 周志華:「數據、算法、算力」人工智慧三要素,在未來要加上「知識...
    但是,把模型「做大」要付出高昂的成本代價。因此,他認為,在人工智慧研究上,學術界和工業界適宜有不同的分工:把「對性能的追求」交給工業界,學術界回到本源,做「探路」和「思考未來」的事情。如何將「機器學習「與「邏輯推理」相結合,是人工智慧領域的「聖杯問題」,以往的努力有的是「重推理」,有的是「重學習」,另一側未能充分發揮力量。
  • 周志華:「數據、算法、算力」,人工智慧三要素在未來還要加上...
    前幾年,「大數據時代」是一個熱詞。大家都知道,大數據本身並不必然意味著大價值。數據是資源,要得到資源的價值,就必須進行有效的數據分析。在今天,有效的數據分析主要依靠機器學習算法。
  • 南大周志華:第一批人工智慧本科生學的是「硬核課程」
    南京大學人工智慧學院院長周志華南京大學人工智慧學院院長周志華教授曾評價,首批學生的素質很高,具有「聰明、踏實、勤奮」的共同特質。一年過去,這批「天之驕子」學習了哪些課程?有什麼收穫?近日,部分學生接受了南都採訪,吐露了他們的學習感受。
  • 【書單推薦】機器學習入門書單
    這本書最大的優勢就是裡面沒有理論推導和複雜的數學公式,是很不錯的入門書。目前中文版已經脫銷,對於有志於這個領域的人來說,英文的pdf是個不錯的選擇,因為後面有很多經典書的翻譯都較差,只能看英文版,不如從這個入手。還有,這本書適合於快速看完,因為據評論,看完一些經典的帶有數學推導的書後會發現這本書什麼都沒講,只是舉了很多例子而已。
  • 大數據給機器學習帶來了什麼影響?
    但是自然界現象千變萬化,王珏教授認為「哪有那麼多獨立同分布?」這就引來了下一個問題:「獨立同分布」條件對於機器學習來講真的是必需的嗎?獨立同分布的不存在一定是一個不可逾越的障礙嗎?  無獨立同分布條件下的機器學習也許只是一個難題,而不是不可解決的問題。我有一個「胡思亂想」。認為前些時候出現的「遷移學習」也許會對這個問題的解決帶來一線曙光。
  • 周志華團隊:深度森林挑戰多標籤學習,9大數據集超越傳統方法
    你怎麼看這一深度森林的最新應用,來新智元 AI 朋友圈和AI大咖們一起討論吧。 2017年,南京大學機器學習與數據挖掘研究所(簡稱LAMDA 團隊)的周志華教授與他的團隊,提出了「深度森林」(Deep forest):一種基於樹的方法,拓展了深度學習的體系。
  • 職場裡,你是不是那個站錯隊的人?
    今天他是個什麼狀態,十年後依舊是這個老樣子,不會有太大的變化和改觀。這樣的人,大的作為不會有,小的事情看不起,他們就這麼渾渾噩噩我稱這類人為站錯隊的人,其實他們的處境很尷尬。是啊,或許連他們自己都搞不清這到底是為什麼。筆者所在的單位是個文化單位,可依舊有那麼一批通過各種關係安排進來的人。