一文解析統計學在機器學習中的重要性(附學習包)

2020-12-17 搜狐網

大數據文摘授權轉載自數據派THU

編譯:陳之炎

統計是一組工具,你可以使用這些工具來探求數據方面的重要問題。

你可以使用描述性統計方法將原始觀測數據轉換為你可以理解和共享的信息,也可以使用推斷統計方法,通過數據的小樣本對整個域進行推理。

在這篇文章中,你將明晰為什麼統計對於通用應用和機器學習如此重要,並大致了解各種可用的方法。

本文中你將了解到:

統計通常被認為是應用機器學習領域的先決條件。

我們需要利用統計將觀測結果轉化為信息,並回答有關觀測樣本的問題。

統計是數百年來開發的一組工具,用於匯總數據和量化給定觀測樣本的域的屬性。

那我們開始吧!

統計是必備的先決條件

機器學習和統計是兩個密切相關的研究領域,統計學家把機器學習稱為「應用統計」或「統計學習」,而不是以計算機科學為主來命名。

對於初學者而言,機器學習的前提是他應具備一定的統計學背景。我們可以用挑選櫻桃的例子來做個解釋。

請先看一本流行的實用機器學習書《應用預測建模》中的一句話:

」讀者應掌握一些基本統計知識,包括方差、相關、簡單線性回歸和基本假設檢驗(如p值和檢驗統計)「

——《應用預測建模》

2013年 第7頁

流行書籍《統計學習入門》中也有這樣的例子:

」我們期望讀者至少有一門統計學基礎課程。「

——《統計學習介紹及其在R語言中的應用》

2013年 第9頁

即使統計學不是先決條件,但還是需要一些簡單的先導知識,正如廣為人知的《編程集體智慧》一書的引語所言:

「這本書並不認為你事先就知道[…]或統計學[…] 但是,掌握一些三角學和基本統計知識將有助於你理解算法。」

——《編程集體智慧:構建智能Web 2.0應用程式》

2007年 第13頁

為了能夠更好地理解機器學習,需要對統計學有一些基本的概念。

欲知其中緣由,我們首先必須明白為何要了解統計學領域的知識。

為什麼要學統計學?

單獨的原始觀察數據只是數據,它們還不是信息或知識。

有了原始數據,那麼接下來的問題是:

什麼是最常見或可預期的觀測?

觀測的限制條件是什麼?

數據是什麼樣子的?

雖然這些問題看起來很簡單,但必須回答這些問題,才能將原始觀察的數據轉化為我們可以使用和分享的信息。

除了原始數據,我們還可以設計實驗來採集觀測數據。根據這些實驗結果,我們可能獲得更為複雜的問題,例如:

哪些變量是最相關的?

兩個實驗的結果有什麼不同?

數據中的差異是真實的還是噪聲的結果?

這類問題很重要,其結果對項目、利益相關者和有效決策都很重要。

我們需要用統計方法來找到數據問題的答案。

這樣看來,我們需要利用統計方法,不但用它來了解用於訓練機器學習模型的數據,而且用它來解釋測試不同機器學習模型的結果。

這只是冰山一角,因為預測建模項目的每一步都需要用到統計方法。

什麼是統計學?

統計學是數學的一個子領域。

它指的是處理數據和使用數據回答問題的方法集合。

統計學是對疑難問題進行數值猜想的藝術。[…]這些方法是幾百年來由那些為自己的問題尋找答案的人開發出來的。

——《統計》第四版

2007年 第13頁

由於該領域採用抓斗袋的方法來處理數據,對於初學者來說,它可能看起來大而無形。統計方法和其他研究領域的方法之間很難區分開來。通常,一種技術既可以是一種經典的統計方法,也可以是一種用於特徵選擇或建模的現代算法。

雖然統計知識並非沒有深奧的理論知識,但從統計與概率的關係中得出的一些重要、容易理解的定理,可以提供有價值的理論基礎。

舉兩個例子:大數定律和中心極限定理。

第一個可以幫助我們理解為什麼較大的樣本往往更好,第二個定理為我們比較樣本之間的期望值(例如:平均值)提供基礎。

當涉及我們在實踐中使用的統計工具時,可以將統計領域分為兩大類:

描述性統計用於總結數據

推理統計用於從數據樣本中得出結論

"統計數據使研究人員能夠從大量的採集到的信息或數據,從中總結出典型的經驗。[…]統計數據也用導出關於群體間普遍差異的結論。[…]統計數據也可以用來判斷兩個變量的得分是否相關,並進行預測。"

——《統計概述》 第三版

2010年 第9—10頁

描述統計(學)

描述性統計是指將觀察到的原始數據匯總成我們可以理解和共享的信息的方法。

通常,我們認為描述性統計是對數據樣本統計值的計算,以便總結數據樣本的屬性,例如共同的期望值(例如平均值或中值)和數據的價差(例如方差或標準偏差)。

描述性統計還涵蓋利用圖形方法對數據樣本進行可視化。圖表和圖形可以提供對觀測的形狀或分布以及變量的相關做出定性理解。

推斷統計

推斷統計是一個有意思的名稱,它是通過從一組較小的被稱為樣本的觀察數據進行量化從而提煉出域或總體屬性的方法。

通常,我們認為推斷統計是從總體分布中估計出特徵值,如期望值或價差的估計等等。

可以利用複雜的統計推斷工具來量化給定觀測數據樣本的概率。這些工具通常被稱為統計假設檢驗工具,其中檢驗的基本假設稱為零假設。

有許多推斷統計方法的例子,為增加測試數據的正確性,我們可以對假設的範圍做出限定。

延展閱讀

如果你想深入研究,本節將提供更多關於該主題的資源。

書籍

《應用預測建模》,2013年

《R語言應用程式統計學習導論》,2013年

《編程集智能:構建智能Web 2.0應用程式》,2007年

《統計》,第四版,2007年

《統計:統計推斷的簡明課程》,2004年

《簡明統計》,第三版,2010年。

文章

維基百科上的統計

門戶:維基百科上的統計

維基百科上的統計文章列表

維基百科上的數理統計

維基百科上的統計歷史

維基百科的描述性統計

對維基百科的統計推斷

總結

在這篇文章中,你已明晰為什麼統計在機器學習中如此重要,對於機器學習,統計提供了許多通用且可行的方法。

具體而言,總結如下:

統計通常被認為是機器學習領域的先決條件。

我們需要統計數據來將觀測結果轉化為信息,並回答有關觀測樣本的問題。

統計是數百年來開發的一組工具,用於匯總數據和量化給定觀測樣本的域的屬性。

相關焦點

  • 獨家 | 一文讀懂機器學習中的貝葉斯統計學
    在本文中,我們將深入探討貝葉斯統計的神秘世界以及它的一些原則,Bernstein-von Mises定理和Cromwell規則,以及用它們分析現實世界的機器學習問題。 「貝葉斯統計之所以困難,是因為思考是困難的」 - Don Berry
  • 機器學習與統計學的本質差異
    統計學是數據的數學研究。除非您有數據,否則無法進行統計。統計模型是數據的模型,用於推斷數據中的關係或創建能夠預測未來值的模型。通常,這兩者是相輔相成的。因此,實際上我們需要討論兩件事:首先,統計數據與機器學習有何不同,其次,統計模型與機器學習有何不同。為了使其更加明確,有許多統計模型可以進行預測,但預測準確性並不是它們的優勢。
  • 乾貨|機器學習中值得反覆翻閱的小抄20+(內附資源下載)
    寫在前面:機器學習(Machine Learning)有很多方面,本文中網羅的是這個學習領域中各種各樣的「小抄」,它們簡明扼要地列出了給定主題的關鍵知識點,正在進行機器學習的小夥伴可以保存下來,在平時的學習中進行翻閱查詢,文末附詳細資源獲取方式。
  • 一文讀懂機器學習!
    01 機器學習分類傳統機器學習機器學習可以理解成是生產算法的算法。需要人來先做特徵提取,然後在把特徵向量化後交給機器去訓練。傳統機器學習分為 監督學習 和 無監督學習。深度學習深度學習是基於深度神經網絡的學習(DNN)。深度學習可以自動提取特徵。
  • 北大張志華:機器學習就是現代統計學
    在5月 9日的北京智源人工智慧研究院主辦的「智源論壇——人工智慧的數理基礎」系列報告中,北京學的張志華教授對機器學習和數學工程的內在關係進行了闡述。在報告中,他提到:統計為求解問題提供了數據驅動的建模途徑;概率論、隨機分析、微分方程、微分流形等工具可以引入來研究 AI 的數學機理等等。
  • 觀點| 我們該如何學習機器學習中的數學
    人們並不清楚,尤其是那些在校期間沒有研究過數學或統計學的人。本文的寫作目的是介紹構建機器學習產品或進行相關學術研究所必需的數學背景,以及數學在工程和研究中的重要性。這些建議是根據我和機器學習工程師、研究者和教育者交流而得到的,當然也有我自己在機器學習研究和業界工作中的個人經驗。
  • 一文介紹機器學習中基本的數學符號
    在機器學習中,你永遠都繞不過數學符號。通常,只要有一個代數項或一個方程符號看不懂,你就完全看不懂整個過程是怎麼回事了。這種境況非常令人沮喪,尤其是對於那些正在成長中的機器學習初學者來說更是如此。如果你能了解一些基本的數學符號以及相關的小技巧,那你就在看懂機器學習方法的論文或書籍描述上前進了一大步。在本教程中,你將學到機器學習技術描述中遇到的基本數學符號。
  • 一文讀懂機器學習中的正則化
    在算法中使用正則化的目的是防止模型出現過擬合。一提到正則化,很多同學可能馬上會想到常用的L1範數和L2範數,在匯總之前,我們先看下LP範數是什麼鬼。範數簡單可以理解為用來表徵向量空間中的距離,而距離的定義很抽象,只要滿足非負、自反、三角不等式就可以稱之為距離。LP範數不是一個範數,而是一組範數,其定義如下:pp的範圍是[1,∞)[1,∞)。
  • 機器學習、數據科學、人工智慧、深度學習和統計學之間的區別!
    作者:Vincent Granville,來源:機器之心 在本文中,數據科學家與分析師 Vincent Granville 明晰了數據科學家所具有的不同角色,以及數據科學與機器學習、深度學習、人工智慧、統計學、物聯網、運籌學和應用數學等相關領域的比較和重疊。
  • 讀書 │這是統計學最好的入門書!(附免費下載)
    現在大部分人在高中或大學裡學習的統計學實際上是在計算機發明之前用筆和紙運算的,統計學為當時的計算技術所限,現在人們依然沿用這些方法,因為這是最初使用的方法,習以為常,很難改變。 相信上過統計學導論課程的人對於諸如「正態分布」、「T分布」、「最小二乘回歸」這些術語不陌生。
  • 機器學習太難?一文帶你掌握機器學習的必備基礎知識
    雖然機器學習聽起來很複雜,但實際上是相當簡單的概念。為了更好地理解它,讓我們在文本中解讀這幾個概念:機器學習是什麼、發展歷程、內部原理和重要性。機器學習的核心是,「用算法解析數據,從中學習,然後對某些事物做出決定或預測。」這意味著,你無需明確地編程計算機來執行任務,而是教計算機如何開發算法來完成任務。機器學習主要有三種類型,它們各有優缺點,分別是:監督學習,無監督學習和強化學習。
  • 10個必學的學習包,機器學習的乾貨趕緊收藏了!
    如果說高等數學是人工智慧的基礎和大前提,那麼機器學習就是真正把知識技術轉化為生產力和產品的重要實用型環節了。但機器學習是一門多學科的交叉專業,涵蓋概率論,統計學,近似理論和複雜算法等知識,使用計算機為工具並致力於真實實時的模擬人類學習方式,並將現有內容進行實時結構劃分來有效提高學習效率。算法決定了機器如何解釋大數據。執行機器學習的算法會影響學習的結果。
  • 《機器學習》周志華版西瓜書(附下載連接)
    機器學習技術進來被越來越多的人所關注,一本好的入門書籍可以幫助新入門的小夥伴少走很多彎路。
  • 小白python機器學習之路(一)
    在學習的過程中,我會根據自己學習的理解勇敢而魯莽地下結論,也許會受到批評,不過批評也是進步的動力,有什麼不滿意的就儘管來吧!好吧,最後再囉嗦一句,讀書比看視頻、聽live能夠學到更多。什麼是機器學習?好麼,一上來就要回答終極問題?對的,就是這麼直接,理解了什麼是機器學習,才能更好的學習機器學習。(怎麼像是繞口令。。)
  • 入門 | 一文介紹機器學習中基本的數學符號
    在機器學習中,你永遠都繞不過數學符號。通常,只要有一個代數項或一個方程符號看不懂,你就完全看不懂整個過程是怎麼回事了。這種境況非常令人沮喪,尤其是對於那些正在成長中的機器學習初學者來說更是如此。如果你能了解一些基本的數學符號以及相關的小技巧,那你就在看懂機器學習方法的論文或書籍描述上前進了一大步。
  • 教程 | 一文讀懂自學機器學習的誤區和陷阱(附學習資料)
    不要試圖掌握所有的相關數學知識再開始學習在很多相關的回答中,我都一再強調不要試圖補足數學知識再開始學習機器學習。有些書籍雖然是經典,比如Tom Mitchell的《機器學習》,但因為其出版已經超過20年,還是不建議大家購買。在這篇文章中我所推薦的書籍和課程都相對比較經典,同時屬於緊跟時代潮流的。入門階段我推薦了1門課程和2本書,進階階段推薦了1本書,深度學習推薦了1門課程一本書,高級階段推薦了2本額外書籍。2.
  • 臨床研究的新風口——利用機器學習方法建立和驗證預測模型 | 瘋狂統計學2.0
    《瘋狂統計學》一書由此橫空出世,好評如潮。然而,高階的統計學方法和資料庫的利用需要因地制宜,廣大科研初學者的迷思更多在於「科研思路從何而來」「如何推進一項SCI論文研究」。為予廣大讀者指點迷津,製作能夠「快樂做學術」的科研指導圖書,AME出版社決定廣納各路SCI第一作者(歡迎廣大讀者參與作者陣營,投稿方式下拉至文末查閱),分享從開題到結題的SCI發表經驗,彙編為《瘋狂統計學(第二版)》。下文為新書《瘋狂統計學(第二版)》中關於「臨床研究新風口——利用機器學習方法建立和驗證預測模型」的精彩篇章,請各位讀者盡情享閱。
  • 一文讀懂機器學習
    本文以圖文的形式對模型算法中的集成學習,以及對集中學習在深度學習中的應用進行了詳細解讀。機器學如果只需要一個數字,則可以將對角線上的元素之和除以矩陣中所有元素的總和,這就是所謂的準確性accuracy,我們將看到它並不是評估機器學習算法結果的唯一方法。我們不僅可以測量準確性,還可以做更多分析結果的工作。
  • 機器學習中的數學,這是一份新鮮出爐的熱門草稿
    對成功的機器學習算法的背後機制感興趣的從業者需要學習如下必備知識:編程知識和數據分析工具;大規模計算和相關框架;數學和統計學知識,以及機器學習如何在其上構建。在大學裡,機器學習的基礎課程會先花時間介紹部分必備知識。由於歷史原因,機器學習課程通常屬於計算機科學系,學生通常接受過前兩項必備知識領域的訓練,但對數學和統計學知識可能涉獵不多。目前的機器學習教科書嘗試用一兩章的篇幅覆蓋背景數學知識,可能在書的開頭或者是附錄。
  • 機器學習中的數學到底難不難
    本文轉載自【微信公眾號:機器學習算法與Python精研,ID:AITop100】經微信公眾號授權轉載,如需轉載與原文作者聯繫很多人學了Python,嚮往著機器學習和深度學習,但總是感覺數學是自己最薄弱的一塊,因此不敢動手,不知道怎麼學習,那麼機器學習中哪些數學是需要我們掌握的呢