一、基於大數據的數據分析方法
二、大數據分析常用工具一覽
三、數理統計與數據挖掘的區別與聯繫
四、大數據時代企業該如何布局,個人該如何選擇?
基於大數據的數據分析方法的理論基礎是數據挖掘和分布式計算原理。大數據具有海量、快速、多樣化和有價值四個方面的重要特徵,其海量特性使得數據分析時不可能用單臺機器完成而是需要多臺機器同時運算,也就是所謂的分布式運算。在大數據時代,大數據技術需要解決兩個難題:一是海量數據在多臺機器上的存儲;二是解決如何對多臺機器上存儲的數據進行計算分析。大數據技術的基本原理還是聚類、分類、主題推薦等數據挖掘算法的內容,在基於大數據的數據分析方法中,有很多方法都是對原有算法的改進,將原來單機實現的算法改成多臺機器的分布式計算。簡單地說,基於大數據的數據分析方法就是分析工具不一樣的數據分析方法,有的也加入了數理統計的思想。
1.Hadoop大數據生態平臺
Hadoop 是一個能夠對大量數據進行分布式處理的軟體框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。Hadoop 是高效的,因為它以並行的方式工作,通過並行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數據。此外,Hadoop 依賴於社區伺服器,因此它的成本比較低,任何人都可以使用。
2.Spark,大數據分析的「瑞士軍刀」
Spark 也是 Apache 基金會的開源項目,它由加州大學伯克利分校的實驗室開發,是另外一種重要的分布式計算系統。它在 Hadoop 的基礎上進行了一些架構上的改良。Spark 與 Hadoop 最大的不同點在於,Hadoop 使用硬碟來存儲數據,而 Spark 使用內存來存儲數據,因此 Spark 可以提供超過Hadoop100 倍的運算速度。但是,由於內存斷電後數據會丟失,Spark 不能用於處理需要長期保存的數據。目前 Spark 完成了大部分的數據挖掘算法由單機到分布式的改造,並提供了較方便的數據分析可視化界面。
3.Storm,實時大數據處理工具
Storm 是 Twitter 主推的分布式計算系統,它由 BackType 團隊開發,是 Apache 基金會的孵化項目。它在 Hadoop 的基礎上提供了實時運算的特性,可以實時地處理大數據流。不同於 Hadoop 和Spark,Storm 不進行數據的收集和存儲工作,它直接通過網絡實時地接收數據並且實時地處理數據,然後直接通過網絡實時地傳回結果。
1. 數理統計與數據挖掘的聯繫
從兩者的理論來源來看,它們都來源於統計基礎理論,因此它們的很多方法在很多情況下都是同根同源的。例如,概率論和隨機事件是統計學的核心理論之一,統計分析中的抽樣估計需要應用該理論,而數據挖掘技術的樸素貝葉斯分類就是這些統計理論的發展和延伸。
有的時候兩者的一些方法還會出現混淆的情況,例如,主成分分析和回歸分析。從嚴格意義上講,這兩種分析方法都屬於數理統計分析方法,但在數據挖掘實戰應用中也常常會用到這種方式,從這個角度講,主成分分析和回歸分析也是數據挖掘商業實戰中常用的一種分析技術和數據處理技術。
2.數理統計與數據挖掘的區別
更普遍的觀點認為,數據挖掘是數理統計的延伸和發展,如果一定要加以區分,它們又有哪些區別呢?數據挖掘在如下幾個方面與數理統計存在比較明顯的差異。數理統計的基礎之一就是概率論,在對數據進行數理統計分析時,分析人員常常需要對數據分布和變量間的關係作假設,確定用什麼概率函數來描述變量間的關係,以及如何檢驗參數的統計顯著性。但是,在數據挖掘的應用中,分析人員不需要對數據分布做任何假設,數據挖掘中的算法會自動尋找變量間的關係。因此,相對於海量、雜亂的數據,數據挖掘技術有明顯的應用優勢。
數理統計在預測中的應用常表現為一個或一組函數關係式,而數據挖掘在預測應用中的重點在於預測的結果,很多時候並不會從結果中產生明確的函數關係式,有時候甚至不知道到底是哪些變量在起作用,又是如何起作用的。最典型的例子就是「神經網絡」挖掘技術,它裡面的隱蔽層就是一個「黑箱」,沒有人能在所有的情況下讀懂裡面的非線性函數是如何對自變量進行組合的。在實踐應用中,這種情況常會讓習慣數理統計公式的分析師或者業務人員感到困惑,這也確實影響了模型在實踐應用中的可理解性和可接受度。
在實踐應用中,數理統計常需要分析人員先作假設或判斷,然後利用數據分析技術來驗證該假設是否成立。但是,在數據挖掘中,分析人員並不需要對數據的內在關係做任何假設或判斷,而是會讓挖掘工具中的算法自動去尋找數據中隱藏的關係或規律。兩者的思維方式並不相同,這給數據挖掘帶來了更靈活、更寬廣的思路和舞臺。
雖然上面詳細闡述了數理統計與數據挖掘的區別,但是在企業的實踐應用中,我們不應該硬性地把兩者割裂開來,其實它們也無法割裂,沒有哪個分析師會說:「我只用數據挖掘技術來分析」或者「我只用數理統計技術來分析」。正確的思路和方法應該是:針對具體的業務分析需求,先確定分析思路,然後根據這個分析思路去挑選和匹配合適的分析算法、分析技術,而且一個具體的分析需求一般都會有兩種以上不同的思路和算法可以去探索,最後可以根據驗證的效果和資源匹配等一系列因素進行綜合權衡,從而決定最終的思路、算法和解決方案。
數據分析師應對上述每種不同的數據分析方法都要了解,因為不同的數據分析方法適用的場景是不一樣的,能解決的數據分析目標也是不一樣的,例如生物行業用數理統計最多,電商行業用數據挖掘較多,當電商行業的數據量很大時,就要用基於大數據的數據挖掘算法了。在學習具體的數據分析方法時,主要要了解其使用的場景,當你在做具體的數據分析時就知道選擇哪一種分析方法了。另外,在選擇數據分析方法時,不要熱衷於高深的方法,「不管白貓黑貓,抓住老鼠就是好貓」,要用最簡單方法把問題解決,有的時候用最簡單的描述性統計方法能解決問題,就不要用數據挖掘算法了。
對於是否使用大數據分析方法,這個需要看企業的性質和將來的發展方向,一般不是所有的企業都具有進行大數據分析的可能,企業管理者不應迷失在大數據面前,而應根據自己的實際業務確立商業目標,有選擇地獲取數據,然後進行分析。面對大數據時代的到來,國內的數據分析師們最需要做的是和企業的管理部一起,探討如何給企業的現在和未來做一個好的規劃,看自己是否具有大數據分析的可能,如果有,則如何實現從現有的小數據分析向大數據分析轉型,從人才到數據的準備,這些都需要有一個充分的思考過程才能確定。
如果你個人想要:
系統學Hadoop、Spark大數據分析技術!
著重掌握機器學習算法與實際業務的結合!
為個人長技、為企業增值!
但你卻,經常想著如何快速學習大數據?
如果你的企業還是:
不知道如何統籌大數據部門工作的開展!
苦於海量數據的存儲與數據價值的挖掘!
不懂得大數據怎樣與業務結合進行建模!
但你卻,經常思考企業數據如何變現?
那麼你就是《CDA-Hadoop大數據分析周末班》第十期(北京3月25日開課/上海4月1日開課)邀請的人!短期集訓,大數據利器全覆蓋,CDA +Oracle雙認證,offer任你挑!
(PS:北京班提前一個月立減500的優惠截止本周六,倒計時4天,欲報從速!)
另外如果想要脫產學習,還有3個月《CDA大數據分析就業班》第六期,(3月5號開課)2個月基礎課程加1個月選修課程全面學會大數據技能!諮詢詳情請查看文末聯繫方式。
這次你離成為大數據分析師只差一步之遙!點擊「原文連結」開啟你2017的大數據分析之路吧!
座機:010-53675708(大數據周末班)
QQ:2934810528
微信:Neumann_zzx
郵箱:cdas3@pinggu.org
微信:13718534278(大數據就業班)
QQ:2881989712
郵箱:zhangwei@pinggu.org