一文理清:大數據、數據挖掘、數據分析、數理統計之間的關係

2021-02-08 經管之家



一、基於大數據的數據分析方法

二、大數據分析常用工具一覽

三、數理統計與數據挖掘的區別與聯繫

四、大數據時代企業該如何布局,個人該如何選擇?

                             

 

基於大數據的數據分析方法的理論基礎是數據挖掘和分布式計算原理。大數據具有海量、快速、多樣化和有價值四個方面的重要特徵,其海量特性使得數據分析時不可能用單臺機器完成而是需要多臺機器同時運算,也就是所謂的分布式運算。在大數據時代,大數據技術需要解決兩個難題:一是海量數據在多臺機器上的存儲;二是解決如何對多臺機器上存儲的數據進行計算分析。大數據技術的基本原理還是聚類、分類、主題推薦等數據挖掘算法的內容,在基於大數據的數據分析方法中,有很多方法都是對原有算法的改進,將原來單機實現的算法改成多臺機器的分布式計算。簡單地說,基於大數據的數據分析方法就是分析工具不一樣的數據分析方法,有的也加入了數理統計的思想。

 

 

1.Hadoop大數據生態平臺


Hadoop 是一個能夠對大量數據進行分布式處理的軟體框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。Hadoop 是高效的,因為它以並行的方式工作,通過並行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數據。此外,Hadoop 依賴於社區伺服器,因此它的成本比較低,任何人都可以使用。

 

2.Spark,大數據分析的「瑞士軍刀」

 

Spark 也是 Apache 基金會的開源項目,它由加州大學伯克利分校的實驗室開發,是另外一種重要的分布式計算系統。它在 Hadoop 的基礎上進行了一些架構上的改良。Spark 與 Hadoop 最大的不同點在於,Hadoop 使用硬碟來存儲數據,而 Spark 使用內存來存儲數據,因此 Spark 可以提供超過Hadoop100 倍的運算速度。但是,由於內存斷電後數據會丟失,Spark 不能用於處理需要長期保存的數據。目前 Spark 完成了大部分的數據挖掘算法由單機到分布式的改造,並提供了較方便的數據分析可視化界面。

 

3.Storm,實時大數據處理工具

 

Storm 是 Twitter 主推的分布式計算系統,它由 BackType 團隊開發,是 Apache 基金會的孵化項目。它在 Hadoop 的基礎上提供了實時運算的特性,可以實時地處理大數據流。不同於 Hadoop 和Spark,Storm 不進行數據的收集和存儲工作,它直接通過網絡實時地接收數據並且實時地處理數據,然後直接通過網絡實時地傳回結果。

 

 

1.  數理統計與數據挖掘的聯繫

 

從兩者的理論來源來看,它們都來源於統計基礎理論,因此它們的很多方法在很多情況下都是同根同源的。例如,概率論和隨機事件是統計學的核心理論之一,統計分析中的抽樣估計需要應用該理論,而數據挖掘技術的樸素貝葉斯分類就是這些統計理論的發展和延伸。


有的時候兩者的一些方法還會出現混淆的情況,例如,主成分分析和回歸分析。從嚴格意義上講,這兩種分析方法都屬於數理統計分析方法,但在數據挖掘實戰應用中也常常會用到這種方式,從這個角度講,主成分分析和回歸分析也是數據挖掘商業實戰中常用的一種分析技術和數據處理技術。

 

2.數理統計與數據挖掘的區別

 

更普遍的觀點認為,數據挖掘是數理統計的延伸和發展,如果一定要加以區分,它們又有哪些區別呢?數據挖掘在如下幾個方面與數理統計存在比較明顯的差異。數理統計的基礎之一就是概率論,在對數據進行數理統計分析時,分析人員常常需要對數據分布和變量間的關係作假設,確定用什麼概率函數來描述變量間的關係,以及如何檢驗參數的統計顯著性。但是,在數據挖掘的應用中,分析人員不需要對數據分布做任何假設,數據挖掘中的算法會自動尋找變量間的關係。因此,相對於海量、雜亂的數據,數據挖掘技術有明顯的應用優勢。


數理統計在預測中的應用常表現為一個或一組函數關係式,而數據挖掘在預測應用中的重點在於預測的結果,很多時候並不會從結果中產生明確的函數關係式,有時候甚至不知道到底是哪些變量在起作用,又是如何起作用的。最典型的例子就是「神經網絡」挖掘技術,它裡面的隱蔽層就是一個「黑箱」,沒有人能在所有的情況下讀懂裡面的非線性函數是如何對自變量進行組合的。在實踐應用中,這種情況常會讓習慣數理統計公式的分析師或者業務人員感到困惑,這也確實影響了模型在實踐應用中的可理解性和可接受度。


在實踐應用中,數理統計常需要分析人員先作假設或判斷,然後利用數據分析技術來驗證該假設是否成立。但是,在數據挖掘中,分析人員並不需要對數據的內在關係做任何假設或判斷,而是會讓挖掘工具中的算法自動去尋找數據中隱藏的關係或規律。兩者的思維方式並不相同,這給數據挖掘帶來了更靈活、更寬廣的思路和舞臺。


雖然上面詳細闡述了數理統計與數據挖掘的區別,但是在企業的實踐應用中,我們不應該硬性地把兩者割裂開來,其實它們也無法割裂,沒有哪個分析師會說:「我只用數據挖掘技術來分析」或者「我只用數理統計技術來分析」。正確的思路和方法應該是:針對具體的業務分析需求,先確定分析思路,然後根據這個分析思路去挑選和匹配合適的分析算法、分析技術,而且一個具體的分析需求一般都會有兩種以上不同的思路和算法可以去探索,最後可以根據驗證的效果和資源匹配等一系列因素進行綜合權衡,從而決定最終的思路、算法和解決方案。

 

 

數據分析師應對上述每種不同的數據分析方法都要了解,因為不同的數據分析方法適用的場景是不一樣的,能解決的數據分析目標也是不一樣的,例如生物行業用數理統計最多,電商行業用數據挖掘較多,當電商行業的數據量很大時,就要用基於大數據的數據挖掘算法了。在學習具體的數據分析方法時,主要要了解其使用的場景,當你在做具體的數據分析時就知道選擇哪一種分析方法了。另外,在選擇數據分析方法時,不要熱衷於高深的方法,「不管白貓黑貓,抓住老鼠就是好貓」,要用最簡單方法把問題解決,有的時候用最簡單的描述性統計方法能解決問題,就不要用數據挖掘算法了。


對於是否使用大數據分析方法,這個需要看企業的性質和將來的發展方向,一般不是所有的企業都具有進行大數據分析的可能,企業管理者不應迷失在大數據面前,而應根據自己的實際業務確立商業目標,有選擇地獲取數據,然後進行分析。面對大數據時代的到來,國內的數據分析師們最需要做的是和企業的管理部一起,探討如何給企業的現在和未來做一個好的規劃,看自己是否具有大數據分析的可能,如果有,則如何實現從現有的小數據分析向大數據分析轉型,從人才到數據的準備,這些都需要有一個充分的思考過程才能確定。


如果你個人想要:

系統學Hadoop、Spark大數據分析技術!
著重掌握機器學習算法與實際業務的結合!
為個人長技、為企業增值!

但你卻,經常想著如何快速學習大數據?

 

如果你的企業還是:

不知道如何統籌大數據部門工作的開展!
苦於海量數據的存儲與數據價值的挖掘!
不懂得大數據怎樣與業務結合進行建模!

但你卻,經常思考企業數據如何變現?




那麼你就是《CDA-Hadoop大數據分析周末班》第十期(北京3月25日開課/上海4月1日開課)邀請的人!短期集訓,大數據利器全覆蓋,CDA +Oracle雙認證,offer任你挑!


(PS:北京班提前一個月立減500的優惠截止本周六,倒計時4天,欲報從速!)


另外如果想要脫產學習,還有3個月《CDA大數據分析就業班》第六期,(3月5號開課)2個月基礎課程加1個月選修課程全面學會大數據技能!諮詢詳情請查看文末聯繫方式。


這次你離成為大數據分析師只差一步之遙!點擊「原文連結」開啟你2017的大數據分析之路吧!

 


座機:010-53675708(大數據周末班)

QQ:2934810528

微信:Neumann_zzx

郵箱:cdas3@pinggu.org

 

微信:13718534278(大數據就業班)

QQ:2881989712

郵箱:zhangwei@pinggu.org



相關焦點

  • 教育大數據:考核評價數據分析、挖掘與應用
    高校應建設基於大數據的教學分析與質量監控系統,在考核評價數據挖掘利用方面進行重點研究,開展精準化的學習診斷、分析和績效評估,進而對教育教學工作給予客觀科學的評價和指導。《教育大數據:考核評價數據分析、挖掘與應用》著者團隊長期致力於研究挖掘考核評價數據的深層價值,從一門課程、一個專業、一類群體、一所學校的視角,深入解析考核評價數據分析挖掘的系統設計、模型構建、算法驗證、拓展應用的全過程,旨在提供一些可操作、可移植、可推廣的典型應用案例。
  • 數據挖掘中所需的概率論與數理統計知識(一)
    相信,每一個學過概率論與數理統計的朋友都有必要了解數理統計學簡史,因為,只有了解各個定理.公式的發明歷史,演進歷程.相關聯繫,才能更好的理解你眼前所見到的知識,才能更好的運用之。本文結合高等數學上下冊、微積分概念發展史,概率論與數理統計、數理統計學簡史等書,對數據挖掘中所需的概率論與數理統計相關知識概念作個總結梳理。
  • 統計數據挖掘在知客CRM中的應用分析
    一、統計學與數據挖掘的關係數據挖掘與統計學都試圖從數據中發現某種結構,從而得到有價值的信息,所以從數據挖掘誕生時起,就與統計學有了不可分割的聯繫。統計學、資料庫和人工智慧共同構成數據挖掘技術的三大支柱。
  • 大數據之數據挖掘
    說道「大數據」這一詞,現在許多人都明白它的意思,但對於大數據專業未來要從事的相關工作可能就不是很清楚了,下面我們就為大家介紹一下大數據要從事的工作之一
  • 秒懂數據統計、數據挖掘、大數據、OLAP的區別
    在大數據領域裡,經常會看到例如數據挖掘、OLAP、數據統計等等的專業詞彙。如果僅僅從字面上,我們很難說清楚每個詞彙的意義和區別。今天,我們就來通過一些大數據在高校應用的例子,來為大家說明白—數據挖掘、大數據、OLAP、數據統計的區別。
  • 小叮噹數據挖掘(一):初識數據挖掘
    這個概念一出,便招來眾多人士的議論,下面小叮噹就為您爆料一下議論的「內幕新聞」---inside stories!所謂「內幕」就是,由於不同領域需求不同,許多人認為「數據挖掘」一詞似乎並不能準確解釋提取信息這一過程。
  • 數據挖掘入門:校園數據的分析與挖掘
    對國防生選拔培養來說,選培辦成立的時間不長,對國防生培養的分析判斷往往根據經驗,分析結果有時並不能滿足實際管理應用。採用數據挖掘這一科學的分析方法,來發現並分析影響國防生培養的規則或模式,幫助選培辦掌握國防生發展的趨勢,確定教育管理的重點方向。特別是國防生的流失問題,是實際工作開展中的重點和難點問題。
  • 數據分析:關於社會統計學與數理統計的區別,看完長見識了
    關於社會統計學與數理統計的區別一、從歷史發展方面看它們之間的區別  社會統計學自古以來就有,它的歷史有3000多年,大到國家財政分配,小到百姓生活方面的各種統計,無所不在。它是一項廣泛的社會實踐活動形式,「統而計之」就是人們對統計的初步認識。它屬於社會科學。
  • Excel作為一種強大的數據挖掘工具,數據分析是做什麼的
    日常使用的Excel就是一款卓越的數據挖掘工具。讓我們一起學習Excel吧!根據數據挖掘的目的、數據性質、規模和預算等情況,選擇適當的工具完成工作。數據挖掘的目的是什麼呢?Excel作為一種強大的數據挖掘工具,具備以下五大功能:①函數、②圖表、③數據分析、④數據透視表、⑤規劃求解。為什麼說上述功能是「數據挖掘工具」呢? 下面分別介紹各自的功能並說明與數據挖掘之間的關係。
  • 乾貨 面向大數據的時空數據挖掘
    時空數據挖掘作為一個新興的研究領域,正致力於開發和應用新興的計算技術來分析海量、高維的時空數據,發掘時空數據中有價值的信息。  面向大數據的時空數據挖掘的挑戰  儘管時空數據挖掘研究在近幾年引起了人們的廣泛關注並得到快速發展,但與傳統數據挖掘相比,時空數據挖掘研究還遠未成熟。
  • 數據分析和數據挖掘的區別——Smartbi
    目前,物聯網,人工智慧,大數據,數據分析的不斷發展讓各行各業積累了很多數據,特別是在現在這個網際網路的時代,數據一直在逐漸增大。這一過程也是質量管理體系的支持過程。在實用中,數據分析可幫助人們作出判斷,以便採取適當行動。數據分析的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操作成為可能,並使得數據分析得以推廣。數據分析是數學與計算機科學相結合的產物。 數據挖掘:又譯為資料探勘、數據採礦。它是資料庫知識發現中的一個步驟。
  • 數據分析基礎內容介紹 — 模型、工具、統計、挖掘與展現
    第四層是Data Mining數據挖掘層,數據挖掘與數據分析(統計分析)有什麼區別呢,數據分析往往是統計量和算法比較清楚,數據挖掘往往是目標不是很清楚,在實現目標的過程中採用什麼方法不能確定,所以數據挖掘比數據分析難度要高很多。
  • 大數據_數據挖掘技術分類及應用
    數據挖掘技術從一開始就是面向應用的,它不僅是面向特定資料庫的簡單檢索查詢調用,而且要對這些數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理,以指導實際問題的求解,企圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動進行預測。
  • 詳解—澳洲信息系統、商業分析、數據分析、統計
    其核心是數據挖掘和數據分析,與現在的網際網路及大數據(BigData)相聯,主要是利用高深的技術、模型和算法進行數據挖掘和商業分析,服務的公司都是像IBM、Google、百度、騰訊、阿里這樣的網際網路公司。
  • 數據挖掘與預測分析術語總結
    分析型客戶關係管理(Analytical CRM/aCRM)用於支持決策,改善公司跟顧客的互動或提高互動的價值。針對有關顧客的知識,和如何與顧客有效接觸的知識,進行收集、分析、應用。大數據(Big Data)大數據既是一個被濫用的流行語,也是一個當今社會的真實趨勢。
  • 大數據分析與數據分析的根本區別在哪裡?
    如今大數據分析和數據分析火爆,要說時機,可謂處處都是時機,關鍵要明了的一點是,大數據分析和數據分析兩者的根本區別在哪裡,只有真正了解了,才會知曉更加適合自己的領域是大數據分析師還是數據分析師。畢竟職場如戰場,時間就是生活,不容兒戲,更不容怠慢。下面我來好好告訴大家兩者的本質區別到底是什麼!
  • 大數據採集之大數據挖掘流程及方法總結
    一、數據挖掘對象 根據信息存儲格式,用於挖掘的對象有關係資料庫、面向對象資料庫、數據倉庫、文本數據源、多媒體資料庫、空間資料庫、時態資料庫、異質資料庫以及Internet等。
  • 常見的大數據開發幾種數據分析手段
    3.聚類  聚類是根據數據的內在性質將數據分成一些聚合類,每一聚合類中的元素儘可能具有相同的特性,不同聚合類之間的特性差別儘可能大的一種分類方式,其與分類分析不同,所劃分的類是未知的,因此,聚類分析也稱為無指導或無監督的學習。
  • 帆軟|探索性分析/數據挖掘/大數據大並發FineBI5.0更新
    FineBI 5.0可以說是真正能夠覆蓋「個人數據分析」到「企業數據價值挖掘」的數據分析平臺。  新版本賦予了其4類特性:數據分析挖掘、數據處理、大數據高性能、企業級數據管控。也就是說,在這一版本中,如果你想預測未來的銷售額,你想智能地給用戶群分類,或者你想知道簡訊發給哪個用戶獲得的反饋可能性比較大,將會成為現實。此外,我們將時間序列算法和聚類算法和圖表分析相結合,不用寫任何算法代碼只需要簡單的拖拖拽著就可以立馬看到預測和聚類的結果。
  • 什麼叫數據挖掘_數據挖掘技術解析
    數據挖掘是一個多學科交叉領域,涉及神經網絡、遺傳算法、回歸、統計分析、機器學習、聚類分析、特異群分析等,開發挖掘大型海量和多維數據集的算法和系統,開發合適的隱私和安全模式,提高數據系統的使用簡便性。   數據挖掘與傳統意義上的統計學不同。統計學推斷是假設驅動的,即形成假設並在數據基礎上驗證他;數據挖掘是數據驅動的,即自動地從數據中提取模式和假設。