不!機器學習才不只是統計學的美化!

2021-01-08 大數據文摘

大數據文摘出品

編譯:JIN、Hope、蔣寶尚

題圖上這張在社交媒體上瘋狂傳播的惡搞漫畫博得了不少轉發,這似乎暗示著,對機器學習的炒作熱度開始消退。然而,機器學習真的只是被美化的統計學嗎?

哈佛大學數據科學碩士、機器學習從業者Joe Davison認為,遠不止如此。

他從統計學和機器學習分別出發,對比了兩者的不同之處,希望讓人們正確認知機器學習和人工智慧。這篇博客在海外科技網站Medium上獲得了超過7.4k的認同。

一起來看看

越來越多的人都開始認為機器學習真的沒有什麼可值得興奮的,它只不過是對老舊的統計技術的重新包裝罷了。

然而問題是,事實並非如此。

可以看出,深度學習傳播的狂熱分子不流行了。甚至是那些站在科學頂端的專家們,現在對使用這個術語都失去了極大的熱情,僅剩些許懊惱,反而更傾向於淡化現代神經網絡的力量,避免讓大量群眾認為 import keras 能夠克服每一個障礙。

就像Yann LeCun所說的那樣,雖然深度學習已經超過機器學習成為新的流行詞,但是這種對態度的過度矯正導致了人們對人工智慧的發展、未來和實用性產生了不良的懷疑。另外,現在流傳著人工智慧冬季即將逼近的說法,從這一點就可以預見,人工智慧研究會像過去幾十年那樣停滯不前。

本文不是要反對人工智慧冬季的說法,也並非要爭論機器學習的發展都應歸功於某一個學術團體而非其他。本文論述的目的在於要正確的評估機器學習。人工智慧可見的發展不僅僅局限於大型計算機和更優的數據集。近期在深度神經網絡及其相關領域的成功,正說明了機器學習代表著科學技術進步的最前沿。

機器學習!=統計學

「當你集資時,需要人工智慧。當你招聘時,需要機器學習。當你執行任務時,需要邏輯回歸。」—推特網友

正如標題所說,本文主要強調機器學習不只是統計學的美化。當然,這種「統計學的美化」觀念的形成是不無道理的,因為在機器學習中廣泛使用了統計學的概念,如回歸、權重、偏差、模型等等。

另外,許多模型都近似於統計函數:由邏輯組成的分類模型的softmax輸出;將訓練圖像分類器的過程處理為邏輯回歸。

雖然,單從技術角度來說,這種觀念思路是正確的,但將整個機器學習簡單歸化為統計學的附屬物就太過一概而論了。統計學是數學領域,涉及對數據的理解和解釋。機器學習則只是一類計算算法(所以,它其實誕生於計算機科學)。

在許多情況下,這些算法在幫助理解數據方面完全無用,並且只能在無法解釋的預測模型中發揮一些作用。在某些情況下,例如在強化學習中,算法甚至根本不會使用到已有的數據集。此外,在圖像處理的情況下,將像素作為特徵,將圖像作為數據集的處理方式也只不過是開始時的延申。

當然,這並非意味著機器學習的發展就全都歸功於計算機科學家,而非統計學家。像任何研究領域一樣,機器學習今天的成功是多個學術領域共同努力的結果,而統計學和數學則是貢獻最大的領域。

然而,如果要正確評估機器學習方法的強大影響力和潛力,首先就需要糾正錯誤觀念:人工智慧的現代發展也不過是老舊的統計技術有了更大的計算機和更好的數據集。

機器學習不需要高級統計學知識

這裡我想說,在學習機器學習期間,我有幸參加了一個深度學習技術的精彩課程,這是我本科計算機科學課程的一部分。在我們指定的項目中,就有一個是在TensorFlow中執行和訓練Wasserstein GAN。

當時,我僅僅只上過一門統計導論的選修課,並且大部分內容我也已經忘記了,此次看來,我的統計技能並不是很強。但是,我依舊能夠讀懂一篇關於最新的生成機器學習模型的論文,並且能夠從頭執行,實現操作,並通過在MS Celebs數據集上訓練,從而生成非常有說服力的虛假圖像。

整個課程中,我的同學和我成功地訓練了癌組織圖像分割,神經網絡機器翻譯,基於字符的文本生成和圖像樣式轉換,所有這些都只使用了過去幾年發明的機器學習的最新技術。

但是,如果你問我,或是那個班級的大多數學生,如何計算人口方差,或者定義邊緣概率,我們對此一無所知。

這似乎就與人工智慧僅僅是對古老統計技術的重塑的說法有些不符了。

必須承認的一點的是,在深度學習課程中,機器學習專家可能確實比計算機科學的本科生有更紮實的統計學基礎。除此之外,一般而言,信息理論需要對數據和概率有很強的理解能力,所以我建議,如果你有興趣成為數據科學家或機器學習工程師,最好能夠學習統計學知識,發展統計技能,培養統計直覺。

但現在依然存在的問題是:如果機器學習僅僅只是統計學的附屬物,那麼為什麼沒有統計學背景的人同樣能夠深入理解機器學習的前沿概念呢?

另外還應該承認的一點是,許多機器學習算法需要比大多數神經網絡技術更強的統計學和概率學背景,但是這些方法通常被稱為統計機器學習或統計學習,以此來減少統計學的色彩,將其與常規的統計學區分開。

同時,在近年來機器學習大熱的創新技術中,大多數都屬於神經網絡領域,所以可以說,機器學習並不是統計學。

當然,機器學習也並非獨樹成林。實際上,任何人想要很好的應用機器學習,都會面臨各類數據處理的問題,因此,擁有對統計數據的理解力也是很有必要的。這並非說機器學習決不會使用到統計概念,同樣也不能一概而論地說機器學習就是統計學。

機器學習=映射+評估+優化

客觀來說,我和同班同學在算法、計算複雜性、優化方法,微積分、線性代數甚至一些概率方面都有很強的基礎。我認為,上面提到的知識都與我們所處理的問題相關,高級統計學則無法解決這些問題。

機器學習是一類計算算法,它採用迭代「學習」的方法向某個函數逼近。華盛頓大學計算機科學教授Pedro Domingos提出了構成機器學習算法的三個組成部分:映射、評估和優化。

映射(Representation)就是把輸入從一個空間轉化到另一個更加有用的空間。在卷積神經網絡中,原始像素對於區分貓狗的作用不大,因此我們把這些像素映射到另一個空間中(例如從softmax輸出的邏輯值),使其能夠被解釋和評估。

評估(Evaluation)的本質就是損失函數。你的算法是否有效地把數據轉化到另一個更有用的空間?你在softmax的輸出與在one-hot編碼的分類結果是否相近?你是否正確預測了展開文本序列中下一個會出現的單詞(文本RNN)? 你的潛在分布離單位高斯(VAE)相差多少?這些問題的答案可以告訴你映射函數是否有效;更重要的是,它們定義了你需要學習的內容。

優化(Optimization)是拼圖的最後一塊。當你有了評估的方法之後,你可以對映射函數進行優化,然後提高你的評估參數。在神經網絡中,這通常意味著使用一些隨機梯度下降的變量來根據某些定義的損失函數更新網絡的權重和偏差。 這樣一來,你就擁有了世界上最好的圖像分類器(2012年,傑弗裡·辛頓就是這樣做到的)。

在訓練圖像分類器時,除了需要注意定義合適的損失函數之外,映射函數輸出值是邏輯值並不會有太大的影響。邏輯回歸等這些統計術語為我們討論模型空間提供了有用的詞彙,但是它們並沒有將優化問題重新定義為數據理解問題。

深度學習技術

深度神經網絡進一步忽視了統計學的理念,簡直是淋漓盡致。完全連接的節點由權重和偏差組成,似乎也還好,但是卷積層是什麼原理?調整激活函數?塊的標準化?殘差層?隨機忽略?記憶和注意機制?

這些創新對於高性能深度學習網絡至關重要,但是它們遠無法與傳統統計技術相提並論(因為它們可能壓根就不是統計技術)。

對1億個變量進行回歸,沒問題?

我還要指出深度學習網絡和傳統統計模型的一個差別,就是它們的規模問題。深度神經網絡的規模是巨大的。VGG-16 ConvNet架構具有1.38億個參數。如果一個學生告訴導師要進行一個具有超過1億變量的多重線性回歸,他會有什麼反應?這是很荒謬的。因為VGG-16不是多重線性回歸,它是一種機器學習手段。

新的前沿

在過去的幾年裡大家可能花了無數的時間去閱讀論文、帖子和文章,看到機器學習能夠做很多很炫酷的事情。其實,深度學習比以前的這些技術不僅更加有效,而且它幫助我們解決了完全不一樣的全新的問題。

在2012年以前,涉及非結構化數據和半結構化數據的問題是非常有挑戰性的,可訓練的CNN和LSTM在使這個任務邁進了一大步。它們在計算機視覺、自然語言處理、語音識別等領域已經取得了非常可觀的成果,並且在人臉識別、自動駕駛和人機對話等領域取得了長足的進步。

其實,大多數的機器學習算法最終還是落實到用模型對數據進行擬合,這能夠被認為是一個統計過程。宇宙飛船本質來說也就是帶翅膀的飛行機器,但是我們卻沒有看到有人嘲弄美國宇航局20世界對太空探索的激情,沒有人認為這是對飛機的過度誇張化。

就像太空探索那樣,深度學習的到來並沒有解決世界上的所有問題。在很多領域我們還能夠看到有巨大的差距,尤其是在「人工智慧」領域。深度學習為我們攻堅複雜非結構化數據的問題做出了顯著貢獻。機器學習仍舊是世界技術進步和革新的前沿。這不僅僅是牆上帶著閃亮框架的一個裂縫

相關焦點

  • 機器學習與統計學的爭論,有意義嗎?
    有的學者認為機器學習只是統計學披了一層光鮮的外衣。而另一些討論則認為涉及使用邏輯回歸或者廣義線性模型(GLM)的可以稱作機器學習;否則就不是。還有一些觀點認為:是否執行元分析或許是區分兩個領域的一個標準。 但,爭論兩者之間的邊界,真的有意義嗎?如果對這個問題進行嚴肅地思考,或許我們會發現,答案是否定的。
  • 機器學習開發者的現代化路徑:不需要從統計學微積分開始
    【編者按】機器學習算法的傳統學習路徑,是從統計學、概率論、線性代數、微積分等多種數學知識開始,但專業程式設計師、機器學習愛好者、MachineLearningMastery.com網站大拿Jason Brownlee博士認為這種自下而上的方法停留在算法層面,沒有考慮到軟體開發和交付,不適合專業程式設計師,他在一篇文章中面向程式設計師介紹了一種有別於傳統的機器學習入門攻略
  • 範劍青:統計學+金融界的傳奇人物
    學生們把這位學術大牛列入了統計學必讀,說「任何一篇涉及高維降維的論文,都不可能不引用Fan的文章」——從2001年第一次排名以來,範劍青的論文引用次數就一直位列世界數學家排名榜的前十名。「什麼叫fundamental的貢獻?這就是。」一位統計學學生感慨道。讓理論照進現實應用,是範劍青的學術生涯離不開的兩個字。
  • 機器學習是什麼
    講解對象:機器學習是什麼作者:融水公子 rsgz對象:機器學習是什麼英文名:machine learning又稱:預測分析(predictive analytics)或統計學習(statistical learning)實質
  • 大數據時代,統計學專題及常見問題 - CSDN
    機器學習 Machine Learning:提供數據分析的能力,機器學習是大數據時代必不可少的核心技術,道理很簡單:收集、存儲、傳輸、管理大數據的目的,是為了「利用」大數據,而如果沒有機器學習技術分析數據,則「利用」就無從談起。
  • 聽聽這位老教授多年心血練就的最實用統計學
    不過大多數統計學出身的學者推崇數學模型驅動的路子,在他們看來,直接從一堆實際數據出發做預測分析的「野路子」,是登不了學術的大雅之堂的。因此相當多的統計學者並沒有積極投身機器學習的研究、教學和應用中,與機器學習界的交流也遠遠不夠。吳喜之教授則走的是一條實用應用之路。吳喜之教授是我國著名的統計學家,退休前在中國人民大學統計學院任統計學教授。
  • 有些問題問的不是統計學問題,而是人腦思考問題的不同方式
    這一點也不樂觀。畢竟圖像的抽象力、語音信息的理解能力、甚至每個人的抽象回憶力都是有區別的。但是,它們肯定是某一種類似於「暗號」的東西。比如,我們現在有一個機器用身份證號碼給身邊的人發簡訊,利用我們的生物特徵、聲紋分析信息,來判斷哪些人是我們的親朋好友,什麼時候我們去過他們的家。機器學習方法的本質是統計學方法,那麼我們可以把它看作有通用規律的統計學問題。
  • 重統計學但不唯統計學,PARAGON-HF研究再解讀
    在臨床實踐中,要深刻分析循證研究並繼之以執行,才可以轉化為真正的患者獲益。新型冠狀病毒肺炎(COVID-19)流行期間,學習不能停。大家也都注意到,包括瑞德西韋、羥氯喹在內的很多藥物在體外試驗中表現出了對新冠病毒的抑制作用,但在臨床研究結果出來之前,沒有一種藥物敢宣稱對COVID-19真正有效。
  • 機器學習最佳統計書籍推薦
    幾乎每一個機器學習項目中都離不開統計方法。所以需要基礎的統計相關基礎知識和方法對機器學習和AI必不可少。我們說AI不是神話,AI是數學算法,說明紮實數學基礎是做AI的必須,而統計學知識尤其是如此。這意味著重要的是要牢固掌握統計學主要發現的基礎和相關統計方法的工作知識。
  • 觀點| 我們該如何學習機器學習中的數學
    數學在機器學習中非常重要,不論是在算法上理解模型代碼,還是在工程上構建系統,數學都必不可少。通常離開學校後很難有機會靜下心學習數學知識,因此我們最好能通過閱讀小組或讀書會等形式營造環境,並專注學習那些在實踐中常常需要用到的數學知識。數學達到什麼水平才可以開始機器學習?人們並不清楚,尤其是那些在校期間沒有研究過數學或統計學的人。
  • 關於數據科學中數學和統計學的完全指南
    數學和統計學對學習數據科學至關重要,因為這些學科構成了所有機器學習算法的基礎。成為一名數據科學家,除了對程式語言要有很好的了解,還必須要掌握機器學習算法、數據驅動方法。但數據科學並不只涉及這些領域。在本文中,您將了解數學和統計學對數據科學的重要意義以及如何將其用於建立機器學習模型。
  • 2020年上海市統計學研究生暑期學校招生簡章
    範劍青18:30-21:30雙邊市場的理論、應用和挑戰朱宏圖7月15日08:30-11:30數據科學時代中的統計學:希望與挑戰何旭銘14:00-17:00機器學習基礎張志華06、授課專家目前為國際一流期刊研究領域:高維統計、機器學習、大數據科學、經濟學、金融學、生物信息等。
  • 機器學習萌新必學的Top10算法
    原作 James LeRoot 編譯自 KDuggets量子位 報導 | 公眾號 QbitAI在機器學習領域裡,不存在一種萬能的算法可以完美解決所有問題,尤其是像預測建模的監督學習裡。機器學習算法,指的是要學習一個目標函數,能夠儘可能地還原輸入和輸出之間的關係。然後根據新的輸入值X,來預測出輸出值Y。精準地預測結果是機器學習建模的任務。So,Top10機器學習算法,了解一下。
  • 統計學與大數據具有哪些聯繫
    首先,統計學是大數據的三大基礎學科之一,所以統計學與大數據之間的關係還是非常密切的,但是這也導致一部分人產生了一定的誤解,認為大數據就是統計學,統計學就是大數據。實際上,雖然在大數據時代背景下,統計學的知識體系產生了一定程度的調整,但是統計學本身的理念與大數據還是具有一定區別的,統計學注重的是方式方法,而大數據則更關注於整個數據價值化的過程,大數據不僅需要統計學知識,還需要具備數學知識和計算機知識。從另一個角度來說,統計學為大數據進行數據價值化奠定了一定的基礎。
  • 統計學知識大梳理(終極篇)
    如果你相信自己能成為比爾蓋茨,那讀書對你確實沒意義,同樣,這只是小概率事件,基本不會發生在你身上。既然統計學這麼厲害,這麼牛逼,這麼重要。作為統計學專業的我,我就忍不住要給大家好好梳理下統計學的知識框架,並且帶著大家一點一點的學習下統計學和概率論的知識。在今後的關於統計學的文章中,我努力實現以下幾個小目標。
  • 「深度學習與統計學理論」研討會成功舉辦
    作為近年來人工智慧發展最迅猛的領域之一,深度學習通過分層網絡獲取分層次的特徵信息,除了在圖像、語音等領域裡獲得了比較成功的應用之外,也為統計學理論的研究創新打開了新的契口。2020年11月19日上午,由北京大學光華管理學院商務統計與經濟計量系主辦的「深度學習與統計學理論」研討會在北大光華成功舉辦。
  • 徵服統計學01|什麼是統計分布?
    ❝之前讀書期間學的概率統計什麼的都忘得七七八八了,工作中也常在用,一直想系統再學習下,苦於無好的教材,最近發現了一個有趣的統計學課程(「 StatQuest!」 )現在決定站在巨人的肩膀上系統梳理一遍統計學基礎知識,希望能學到最後~~~。 StatQuest!
  • 機器學習:Python中的四種機器學習技巧
    機器學習技術與算法眾所周知,機器學習是技術和算法的結合。但在開始關注技術和算法之前,讓我們看看它們是否是同一個東西。技術是解決問題的一種方法,這是一個非常通用的術語。 但是,當我們說我們有一個算法時,意思是我們有一個輸入,並希望從中得到一定的輸出,明確規定了實現目標的步驟。
  • 統計學 5 個基本概念,你知道多少?
    從高的角度來看,統計學是一種利用數學理論來進行數據分析的技術。象柱狀圖這種基本的可視化形式,會給你更加全面的信息。但是,通過統計學我們可以以更富有信息驅動力和針對性的方式對數據進行操作。所涉及的數學理論幫助我們形成數據的具體結論,而不僅僅是猜測。
  • 統計學是什麼?| 統計學七支柱
    自誕生至今,統計學的工作內容經歷了翻天覆地的變化:從極端強調「統計學家僅收集數據而不分析」,轉變為從計劃到分析的所有研究階段皆積極尋求與科學家的合作。並且,統計學工作者面對不同的科學領域時,需要相應調整自身角色:在某些應用中,我們接受基於數學理論推導的科學模型;而某些應用中,我們構建如牛頓力學體系一樣穩定的模型。