盤點機器學習和統計模型的差異

2022-01-05 數盟

【數盟(dataunion.org)致力於成為最卓越的數據科學社區,聚焦於大數據、分析挖掘、數據可視化領域,業務範圍:線下活動、在線課程、獵頭服務】

國內唯一的數據可視化在線課程!勁爆價299¥!23個課時,1105分鐘!課程了解點擊文末『閱讀原文』~

出處:微信公眾號_Datartisan數據工匠(shujugongjiang)

在各種各樣的數據科學論壇上這樣一個問題經常被問到——機器學習和統計模型的差別是什麼?

這確實是一個難以回答的問題。考慮到機器學習和統計模型解決問題的相似性,兩者的區別似乎僅僅在於數據量和模型建立者的不同。這裡有一張覆蓋機器學習和統計模型的數據科學維恩圖。

在這篇文章中,我將盡最大的努力來展示機器學習和統計模型的區別,同時也歡迎業界有經驗的朋友對本文進行補充。

在我開始之前,讓我們先明確使用這些工具背後的目標。無論採用哪種工具去分析問題,最終的目標都是從數據獲得知識。兩種方法都旨在通過分析數據的產生機制挖掘 背後隱藏的信息。

兩種方法的分析目標是相同的。現在讓我們詳細的探究一下其定義及差異。

定義

機器學習:一種不依賴於規則設計的數據學習算法。

統計模型:以數學方程形式表現變量之間關係的程式化表達

對於喜歡從實際應用中了解概念的人,上述表達也許並不明確。讓我們看一個商務的案例。

商業案例

讓我們用麥肯錫發布的一個有趣案例來區分兩個算法。

案例:分析理解電信公司一段時間內客戶的流失水平。

可獲得數據:兩個驅動-A&B

麥肯錫接下來的展示足夠讓人興奮。盯住下圖來理解一下統計模型和機器學習算法的差別。

從上圖中你觀察到了什麼?統計模型在分類問題中得到一個簡單的分類線。 一條非線性的邊界線區分了高風險人群和低風險人群。 但當我們看到通過機器學習產生的顏色時, 我們發現統計模型似乎沒有辦法和機器學習算法進行比較。 機器學習的方法獲得了任何邊界都無法詳細表徵的信息。這就是機器學習可以為你做的。

機器學習還被應用在YouTube 和Google的引擎推薦上, 機器學習通過瞬間分析大量的觀測樣本給出近乎完美的推薦建議。 即使只採用一個16 G 內存的筆記本,我每天處理數十萬行的數千個參數的模型也不會超過30分鐘。 然而一個統計模型需要在一臺超級計算機跑一百萬年來來觀察數千個參數。

機器學習和統計模型的差異:

在給出了兩種模型在輸出上的差異後,讓我們更深入的了解兩種範式的差異,雖然它們所做的工作類似。

所屬的學派
產生時間
基於的假設
處理數據的類型
操作和對象的術語
使用的技術
預測效果和人力投入

以上提到的方面都能從每種程度上區分機器學習和統計模型,但並不能給出機器學習和統計模型的明確界限。

分屬不同的學派

機器學習:計算機科學和人工智慧的一個分支,通過數據學習構建分析系統,不依賴明確的構建規則。 統計模型:數學的分支用以發現變量之間相關關係從而預測輸出。

誕生年代不同

統計模型的歷史已經有幾個世紀之久。但是機器學習卻是最近才發展起來的。二十世紀90年代,穩定的數位化和廉價的計算使得數據科學家停止建立完整的模型而使用計算機進行模型建立。這催生了機器學習的發展。隨著數據規模和複雜程度的不斷提升,機器學習不斷展現出巨大的發展潛力。

假設程度差異

統計模型基於一系列的假設。例如線性回歸模型假設:

(1) 自變量和因變量線性相關 (2) 同方差 (3) 波動均值為0 (4) 觀測樣本相互獨立 (5) 波動服從正態分布

Logistics回歸同樣擁有很多的假設。即使是非線性回歸也要遵守一個連續的分割邊界的假設。然而機器學習卻從這些假設中脫身出來。機器學習最大的好處在於沒有連續性分割邊界的限制。同樣我們也並不需要假設自變量或因變量的分布。

數據區別

機器學習應用廣泛。 在線學習工具可飛速處理數據。這些機器學習工具可學習數以億計的觀測樣本,預測和學習同步進行。一些算法如隨機森林和梯度助推在處理大數據時速度很快。機器學習處理數據的廣度和深度很大。但統計模型一般應用在較小的數據量和較窄的數據屬性上。

命名公約

下面一些命名幾乎指相同的東西:

公式:

雖然統計模型和機器學習的最終目標是相似的,但其公式化的結構卻非常不同

在統計模型中,我們試圖估計f 函數 通過

因變量(Y)=f(自變量)+ 擾動 函數

機器學習放棄採用函數f的形式,簡化為:

輸出(Y)——> 輸入(X)

它試圖找到n維變量X的袋子,在袋子間Y的取值明顯不同。

預測效果和人力投入

自然在事情發生前並不給出任何假設。 一個預測模型中越少的假設,越高的預測效率。機器學習命名的內在含義為減少人力投入。機器學習通過反覆迭代學習發現隱藏在數據中的科學。由於機器學習作用在真實的數據上並不依賴於假設,預測效果是非常好的。統計模型是數學的加強,依賴於參數估計。它要求模型的建立者,提前知道或了解變量之間的關係。

結束語

雖然機器學習和統計模型看起來為預測模型的不同分支,但它們近乎相同。通過數十年的發展兩種模型的差異性越來越小。模型之間相互滲透相互學習使得未來兩種模型的界限更加模糊。

原文連結:

http://www.analyticsvidhya.com/blog/2015/07/difference-machine-learning-statistical-modeling/

原文作者:TAVISH SRIVASTAVA

翻譯: F.xy

關於我們 ID:DataScientistUnion

數盟網站:www.dataunion.org

數盟微博:@數盟社區

數盟微信:DataScientistUnion

數盟【大數據群】272089418

數盟【數據可視化群】 179287077

數盟【數據分析群】 174306879

(長按可關注)


點擊[閱讀原文] 國內唯一的數據可視化課程


相關焦點

  • 機器學習與統計學的本質差異
    我經常聽到關於這個主題的幾個含糊的陳述,最常見的是這些話:"機器學習和統計學之間的主要區別在於它們的目的。機器學習模型旨在使最準確的預測成為可能。統計模型被設計用於推斷變量之間的關係。"雖然這在技術上是正確的,但它沒有給出特別明確或令人滿意的答案。機器學習和統計之間的主要區別確實是它們的目的。
  • 如何通俗解釋科學假設、統計假設和機器學習假設?
    作為一個機器學習領域的初學者來說,假設這個詞的概念可能讓他們會產生困惑,有時會產生歧義,比如在統計領域我們會有假設檢驗,而在科學領域我們又會有科學假說。這些定義互有關聯,卻不盡相同。假設是一種對事物的解釋。它是一種憑藉經驗和知識所提出的猜測性想法,需要一定的評估依據。一個好的假設是可驗證的,驗證結果有可能是對的,也可能是錯的。
  • 如何正確區分科學假設、統計假設和機器學習假設?
    作為一個機器學習領域的初學者來說,假設這個詞的概念可能讓他們會產生困惑,有時會產生歧義,比如在統計領域我們會有假設檢驗,而在科學領域我們又會有科學假說。這些定義互有關聯,卻不盡相同。假設是一種對事物的解釋。它是一種憑藉經驗和知識所提出的猜測性想法,需要一定的評估依據。一個好的假設是可驗證的,驗證結果有可能是對的,也可能是錯的。
  • 機器學習中的模型評估
    我們使用評估指標來比較不同的模型。需要模型評估指標來量化模型性能。評估指標的選擇取決於給定的機器學習任務(例如分類、回歸、排名、聚類、主題建模等)。在本文中,我們將重點介紹兩種主要的監督學習模型回歸和分類。它表示實際值和預測值之間的樣本標準差。在數學上,它是使用公式計算的:
  • 機器學習中的判別式模型和生成式模型
    如今已經進入2020年了,5G的時代已經到來,而機器人應用將更加的廣泛,下面就讓我們去了解機器人在學習中的兩類模型,這文章告訴兩種類型的區別,推薦給對機器人感興趣的朋友們閱讀!在機器學習中,對於有監督學習可以將其分為兩類模型:判別式模型和生成式模型。
  • 最重要的算法和統計模型,數據專家指南
    我為一些有追求的數據專家整理了一個簡短的指南,特別是關注統計模型和機器學習模型(有監督學習和無監督學習);這些主題包括教科書、畢業生水平的統計學課程、數據科學訓練營和其它培訓資源。(其中有些包含在文章的參考部分)。
  • 機器學習模型選擇如此簡單
    機器學習的討論經常會涉及到的問題是:什麼機器學習模型才是最好的?是邏輯回歸模型,隨機森林模型,貝葉斯方法模型,支持向量機模型?抑或是神經網絡模型?每個人似乎都有自己心中最愛!但這些討論試圖把機器學習的挑戰縮減為單個問題,而這對機器學習的初學者帶來了特別嚴重的誤解。
  • Matlab機器學習:統計與機器學習工具箱
    統計與機器學習工具箱;2. 8046頁的PDF文檔下載。MathWorks的關於該工具箱的超詳細用戶手冊:Statistics and Machine Learning Toolbox User's Guide。MathWorks公司有很多屬於機器學習分支的軟體包,提供用於數據分析的高質量算法以及用於可視化圖形工具。
  • 深度學習與機器學習:了解差異
    -------機器學習和深度學習都可以發現數據模式,但是它們涉及截然不同的技術機器學習和深度學習都是人工智慧的形式。準確地說,深度學習是機器學習的一種特定形式。機器學習和深度學習都從訓練和測試模型開始,並經過優化找到一個權重使模型效果更好。
  • 機器學習中的模型漂移(Model Drift)簡介
    當今,機器學習模型已經成為商業決策的主要驅動因素,和其他商業策略一樣,這些機器學習模型需要隨著時間的推移而進行修改,其背後的技術原因是「模型漂移」。雖然大多數課程、文章和帖子都描述了機器學習(ML)生命周期(從收集數據開始到部署機器學習模型結束),但是它們往往忘記了機器學習生命周期中一個非常重要的特性,即模型漂移。模型漂移的本質意思是指目標變量和自變量之間的關係隨時間而變化。由於這種漂移,模型會變得不穩定,並且隨著時間的推移預測會不斷出錯。
  • Airbnb欺詐預測機器學習模型設計:準確率和召回率的故事
    Airbnb信任和安全小組通過構建機器學習模型進行欺詐預測,本文介紹了其設計思想。假想模型是預測某些虛擬人物是否為「反面人物」,基本步驟:構建模型預期,構建訓練集和測試集,特徵學習,模型性能評估。為了減少此類欺詐行為,信任和安全小組的數據科學家構建了不同種類的機器學習模型,用來幫助識別不同類型的風險。想要獲得我們模型背後更多的體系結構信息,請參考以前的文章 機器學習風險系統的設計。在這篇文章中,我對機器學習的模型建立給了一個簡短的思維過程概述。
  • 機器學習數學精華:4個角度輕鬆搞定概率統計
    那恐怕不行,機器學習中的核心思想和大量核心應用都是構建在這些知識的基礎上的:面對一個統計樣本,你想估計出你感興趣的參數,極大似然估計以及有偏性無偏性你能不掌握?如果不巧碰上包含隱變量的場景,EM 迭代的思想你可是躲都躲不開;想進行語音識別?隱馬爾可夫模型你不可不會;想對一句話進行詞性標註?
  • 機器學習從入門到進階丨統計學習的關鍵概念
    機器學習是通過軟體應用程式實現統計學習技術的一種體現。 這在實踐中意味著什麼?統計學習是指讓我們能夠更好地理解數據的工具和技術。那麼理解數據意味著什麼?這些都是學習和準備未知測試的過程或者工具。 機器學習也使用類似的概念進行學習。數據一般是有限的,因此在使用數據時需要謹慎。
  • 淺談機器學習模型的可解釋性和透明性
    打開APP 淺談機器學習模型的可解釋性和透明性 YuZhang 發表於 2021-01-05 14:02:28 XAI 主要解決以下問題
  • 【收藏】不可不知的七大統計模型
    還需要注意的是:如果總體樣本的顯著性差異不是特別大的時候,使用的時候也要注意! 三、分類 1、概述 分類是一種典型的有監督的機器學習方法,其目的是從一組已知類別的數據中發現分類模型,以預測新數據的未知類別。
  • 機器學習從入門到進階②丨統計學習的關鍵概念
    在本系列的第一篇文章中,談及了數據科學的關鍵概念和過程。在這篇文章中,會更深入一點。首先,將定義什麼是統計學習(Statistical Learning )。然後,將深入到統計學習的關鍵概念,了解統計學習。
  • 機器學習模型訓練全流程!
    本文用手繪圖的方式講解了機器學習模型構建的全流程。周末在家無聊閒逛github,發現一個很有趣的開源項目,作者用手繪圖的方式講解了機器學習模型構建的全流程,邏輯清晰、生動形象。同時,作者也對幾張圖進行了詳細的講解,學習之後,收穫很多,於是將其翻譯下來,和大家一起學習。
  • 為什麼90%的機器學習模型從未應用於生產?
    時代變幻莫測,僅僅增加客戶體驗流暢度和沉浸感並不能減輕企業的壓力。在這種情況下,投入數十億美元開發可以改進產品的機器學習模型就可以理解了。但有一個問題。公司不能只是把錢砸在數據科學家和機器學習工程師身上,就希望可以有奇蹟發生。據 VentureBeat 報導,大約 90% 的機器學習模型從未投入生產。
  • 數據分析技術:決策樹分析;機器學習入門模型
    決策樹分析從上面介紹的內容可知,決策樹分析適用於有明確的研究對象分類結果,研究每種類別群體的屬性特點和性質,換種說法就是通過建立模型,可以通過某個研究對象身上的屬性特點,判斷該研究對象最可能落在那個分類群體中。決策樹分析在很多行業中應用得非常廣泛,同時也是機器學習中最基礎也是應用最廣泛的算法模型。
  • 已經證實提高機器學習模型準確率的八大方法
    本文將分享 8 個經過證實的方法,使用這些方法可以建立穩健的機器學習模型。希望我的知識可以幫助大家獲得更高的職業成就。 正文 模型的開發周期有多個不同的階段,從數據收集開始直到模型建立。這些特徵可能會更好地解釋訓練集中的差異變化。因此能改善模型的準確率。 假設生成對特徵工程影響很大。好的假設能帶來更好的特徵集。這也是我一直建議在假設生成上花時間的原因。特徵工程能被分為兩個步驟: 特徵轉換:許多場景需要進行特徵轉換: A) 把變量的範圍從原始範圍變為從 0 到 1 。這通常被稱作數據標準化。