初學者:快速了解數據分析

2021-02-15 愛數據原統計網

作者:小陳同學

來源:http://www.woshipm.com/data-analysis/4199052.html

編輯導語:大數據是網際網路發展到一定階段的必然產物,身處於大數據時代的我們每天都會活在一連串的數據裡。因此,為了高效併合理地運用這些數據,數據分析行業迅速崛起。到現在,越來越多的人看到了數據分析的未來和前景,本文作者總結了初學者應該掌握的數據分析知識,幫助你快速掌握數據分析技巧。

數據或信息只是一串原始的數字或字符,數據量的增加會導致各種需求的增加。

比如我們需要對數據執行檢查,進行數據清理,轉換以及數據建模,通過這些方式來達到我們需要的目的,得出相應的結論,做出正確的決策——我們把這一系列過程稱為數據分析。

在統計應用中,數據分析可以又分為探索性數據分析(EDA)驗證性數據分析(CDA)。這二者的區別在於——EDA著重於發現數據中的新特徵,而CDA著重於確認或否定現有的假設。

探索性數據分析可以理解為一種用於找到數據間的模式相關性的分析。就像是「參考答案」的獲取,這種「參考答案」有且不限於一個。

場景包括典型的「啤酒尿布」這類數據挖掘應用,工具包括SAS、SPSS這類數據挖掘軟體以及R語言這類語言工具。

優點是有可能從一堆貌似雜亂無章的數據中找到一些相關性和模式來輔助決策;缺點是找到一些無意義的相關性,比如所有擁有結婚證的用戶都結過婚。

驗證性數據分析是當你知道了用什麼分析模型和算法,目前需要對已有的數據計算出響應結果,更類似一種「準確答案「的獲取。

應用場景就是基於多維數據倉庫的OLAP分析應用。在企業應用最廣泛的就是EPM(Enterprise Performance Management)包括全面預算,商業智能等應用。

在企業應用最廣泛的就是

EPM(Enterprise Performance Management)包括全面預算,商業智能等應用。

與"啤酒尿布」這種探索性數據挖掘應用相比,OLAP分析的結果只能是唯一的準確答案。

比如通過企業計算出的利潤率只能是一個數字,任何一家企業都不可能得出「利潤率有可能是13.2%」這樣的答案,一旦確定了一個數字,那這個數字就必然只有對和錯兩種結果,不存在第三種的可能性。

這類系統包括Oracle Hyperion、IBM Cognos以及智達方通Intcube EPM,這些都是基於多維數據倉庫的OLAP分析工具平臺。


1. 確立目標

無論何時發生任何需求,我們首先都需要確定業務目標,評估情況,確定數據挖掘目標,然後根據需求生成項目計劃。在此階段定義業務目標。

2. 尋找數據

對於進一步的過程,我們需要收集初始數據,描述和探索數據,最後驗證數據質量以確保它包含我們所需的數據。從各種來源收集的數據將根據其應用和此階段對項目的需求進行描述,這也稱為數據瀏覽,對於驗證所收集數據的質量是必要的。

3. 數據整理

從最後一步收集的數據中,我們需要根據需要選擇數據,對其進行清理,構造以獲取有用的信息,然後將其整合在一起。

最後,我們需要格式化數據以獲取適當的數據。選擇數據,清理數據並將其集成為最終確定的格式,以便在此階段進行分析。

4. 數據建模

收集數據後,我們對其進行數據建模。為此,我們需要選擇一種建模技術,生成測試設計,構建模型並評估構建的模型。建立數據模型以分析數據中各種選定對象之間的關係,建立測試用例以評估模型,並在此階段對數據進行測試和實施。

5. 數據評估

在這裡,我們評估最後一步的結果,檢查錯誤範圍,並確定接下來要執行的步驟。我們評估測試用例的結果,並回顧此階段的錯誤範圍。

6. 部署

我們需要計劃部署,監視和維護,並生成最終報告並審查項目。在此階段,我們將部署分析結果,這也稱為審查項目。

1. 描述性分析

通過描述性分析這一手段,我們可以分析和描述數據的特徵。這是一個處理信息匯總的好方法。描述性分析與視覺分析相結合,為我們提供了全面的數據結構。

在描述性分析中,我們處理過去的數據以得出結論,並以儀錶板的形式展現出來。在企業中,描述性分析多用於確定關鍵績效指標或KPI以評估企業績效。

2. 預測分析

藉助預測分析,我們可以確定未來的結果。基於對歷史數據的分析,我們甚至可以預測未來。它利用描述性分析來生成有關未來的預測,藉助技術進步和機器學習,能夠獲得有關未來的預測性見解。

預測分析是一個複雜的領域,需要大量數據來熟練地執行預測模型及其調整從而獲得較為準確的預測,這需要我們精通機器學習並開發有效的模型。

3. 診斷分析

有時,企業需要對數據的性質進行批判性思考,並深入了解描述性分析。為了找到數據中的問題,我們需要對一些分析進行診斷。

通過診斷分析,我們可以診斷通過數據顯示的各種問題。企業使用此技術來減少損失並優化績效,企業使用診斷分析的一些示例包括:


4. 規範分析

規範分析結合了以上所有分析技術的見解嗎,它被稱為數據分析的最終領域,規範分析使公司可以根據這些數據結論制定相關決策

規範分析需要大量使用人工智慧,以方便公司做出謹慎的業務決策,像Facebook、Netflix、Amazon和Google之類的大公司正在使用規範分析來制定關鍵業務決策。

此外,金融機構也逐漸利用這種技術來增加進行決策。

基於數據分析目前良好的發展前景,各界也出現了許多好用的功能種類豐富的數據分析工具。既有面向開源的又有用戶友好型的,而以下這些工具是目前市面上比較常用且好評率較高的:

1. R

該工具是用於統計和數據建模的領先分析工具。R可以在UNIX、Windows和Mac OS等各種平臺上編譯和運行,它還提供了根據用戶要求自動安裝所有軟體包的工具。

2. Python

Python是一種開源的,面向對象的程式語言,易於閱讀,編寫和維護。它提供了各種機器學習和可視化庫,例如 Scikit-learn、TensorFlow、Matplotlib、Pandas、Keras等。

它還可以在任何平臺上進行組裝,例如SQL Server、MongoDB資料庫或JSON。


3. Tableau

這是一個免費軟體,可連接到任何數據源,例如Excel、公司數據倉庫等。然後通過網絡實時更新創建可視化效果、地圖、儀錶板等。

4. QlikView

該工具提供內存中數據處理,並將結果快速傳遞給最終用戶。它還提供數據關聯和數據可視化功能,數據壓縮到其原始大小的近10%。

5. SAS

一種用於數據處理和分析的程式語言和環境,該工具易於訪問,並且可以分析來自不同來源的數據。

6. Excel

此工具是數據分析中使用最廣泛的工具之一。該工具通常用於客戶的內部數據,它  通過透視表的預覽來分析匯總數據的任務。

7. RapidMiner

一個功能強大的集成平臺,可以與任何數據源類型(例如Acess、Excel、Microsoft SQL、Tera數據、Oracle、Sybase等)集成。該工具主要用於預測分析,例如數據挖掘、文本分析、機器學習。

8. KNIME

Konstanz Information Miner(KNIME)是一個開放源數據分析平臺,可讓您分析和建模數據。利用可視化編程的優勢,KNIME通過其模塊化數據管道概念提供了一個報告和集成平臺。


9. OpenRefine

也稱為GoogleRefine,此數據清理軟體將幫助您清理數據以進行分析,用於清除凌亂的數據,轉換數據以及從網站解析數據。

10. Apache Spark

最大的大型數據處理引擎之一,該工具在Hadoop群集中執行應用程式的內存速度快100倍,磁碟速度快10倍,該工具在數據管道和機器學習模型開發中也很流行。


倫敦霍亂的數據追蹤:

圖片來自網絡

約翰·斯諾(John Snow)(不是權力遊戲的角色)是一位英國醫生,他使用數據收集和數據分析來追蹤倫敦市中心霍亂暴發的根源,得出的結論是霍亂是由「水中的媒介」傳播的」,而不是通過「不良空氣」傳播的公認理論。

斯諾利用數據收集來追蹤霍亂的暴發,原因是兩家自來水公司從泰晤士河中抽取了水,而這些水幾乎沒有經過過濾。

他指出,一個巨大的雙盲實驗落入了他的大腿:

「不分男女,從各個年齡段,各個階層,不同階層,到三十萬,從紳士到窮人分為兩組,沒有他們的選擇,並且在大多數情況下,沒有他們的知識;一組被供應含有倫敦汙水的水。其中,任何可能來自霍亂患者的東西,另一組的水中完全不含這種雜質。」

斯諾對後續數據和其他工作的分析導致倫敦和其他城市的水和廢物管理發生根本變化,挽救了許多生命,並為全球公共衛生做出了重大貢獻。

數據分析師收集,處理和執行大型數據集的分析。無論大小,每個企業都會生成並收集數據,這些數據可以採用客戶反饋、客戶、物流、市場研究等形式。

我認為作為一名數據分析師,至少得具備以下這些技能:

數據分析師首要的就是用數字說話:因此很明顯,數學是成為數據分析師的重要組成部分,線性代數和微積分的知識是將業務問題轉換為數學表達式所必需的。

概率和統計:這些事想要成為數據分析師的必備技能,為了得出準確的結論,我們需要知道事件發生的可能性,也就是概率。為了進行推論和解釋數據,我們必須了解如何應用各種統計測試和技術。

編程:絕對是數據分析的最重要組成部分之一。因此,學習一種或多種程式語言,例如Python、Java、SQL、R來進行數據管理和探索是必要的。

成為一名數據分析師還不僅僅如此,以上只是必不可少的技能而已。

從根本上講,學習如何成為數據分析師與在任何行業中謀求職業生涯一樣——努力工作與成功成正比,僅僅靠天賦是不夠用的。一旦你成為了一名數據分析師,你將可能體驗以下職責:

與技術團隊,管理層和/或數據科學家一起制定目標;

從主要和次要來源挖掘數據;

清理和解剖數據以擺脫不相關的信息;

使用統計工具和技術分析和解釋結果;

查明數據集中的趨勢和模式;

確定新的流程改進機會;

提供管理數據報告;

設計,創建和維護資料庫和數據系統;

解決代碼問題和與數據有關的問題。

路漫漫其修遠兮,關於數據分析的路道阻且長,最終我們仍需要自驅動去不斷學習汲取知識,這樣才能學好數據分析。

相關焦點

  • SAS數據分析:快速了解並處理企業數據的必備技能
    同時SAS系統具有使用靈活方便、功能齊全、編程能力強且簡單易學、數據處理和統計分析融為一體、擴張性和適用性強等優點。經管之家將於2017年6月17日舉辦SAS數據統計分析師的培訓。零基礎學習,使您能夠快速有效的了解和處理企業數據要求,在最短的時間內獲得最高效的學習。(1)數據管理。
  • 論文分析,如何快速選出正確分析方法?
    甚至有時候,即使分析出結果,還是會擔心自己的方法用得不對,影響了分析結果。針對這種情況,SPSSAU總結出一套方法選擇流程,幫助大家快速搞定方法選擇難關,早日脫離論文苦海。數據分析也是如此,分析前制定一個分析框架,可以幫助我們快速捋清思路,不至於漫無目的地亂分析,同時也能節省很多時間。當然,對於初學者來說,制定一個完整的分析框架比較困難,建議大家多參考一些領域內的專業文獻,看看其他人是如何設計分析的。
  • 為初學者提供的63個免費的數據科學學習資源
    要想成為數據科學家,你將面臨一個艱巨的挑戰。不僅要掌握機器學習等技術,還要學會商業分析。但是,回報也是豐厚的。此外,你還會解決許多有趣的問題,可以掌握新的、有影響力的技術。本文分享了63個免費的數據科學學習資源,這些資源專門為初學者而準備。目錄如下:1.
  • 數據分析-numpy庫快速了解
    數組對象可以去掉元素間運算所需的循環,使一維向量更像單個數據 設置專門的數組對象,經過優化,可以提升這類應用的運算速度觀察:科學計算中,一個維度所有數據的類型往往相同 數組對象採用相同的數據類型,有助於節省運算和存儲空間具體可以看下面一個例子:(來源嵩天老師案例)3.numpy庫怎麼使用先安裝numpy
  • 數據不夠?生信分析幫你湊!學會深度挖掘快速發文章
    這個時候需要的是生信分析——深度的數據挖掘和分析處理,可以幫助臨床醫生不耗費大量的時間通過實驗攢數據,而是通過數據處理得到自己想要的信息,更快速地發文章。 學習哪種生信分析的工具?
  • 學習Python數據分析的正確姿勢
    呆鳥云:這裡推薦閱讀 Sean 的譯本《利用Python進行數據分析·第2版》,想要快速了解,也可以參考 DataCamp 的 Numpy 與 Pandas 速查表,點擊連結可以下載呆鳥為大家精心製作的高清中文版哦!
  • 適用於初學者和高級程式設計師的10本最佳SQL書籍
    無論您是全職開發人員還是數據科學愛好者,您都必須在職業生涯中的某個時候與SQL握手。 SQL將幫助您快速分析數據,編寫查詢以高效地準備,過濾,排序,組織數據等等。這本書對初學者和中級學習者都有好處。 作者提出了許多查詢,作為您在現實生活中會遇到的情況的示例。 將其用作快速參考,以查找與您在項目中面臨的問題類似的查詢。 從閱讀序言開始,如果您想了解基礎知識,請在開始閱讀本書之前通讀附錄。2.
  • 初學者該如何快速入門Python?這可能是最詳細的學習攻略了!
    :在解決上述問題之前,我們不妨先來了解下Python 到底是什麼?Python的生態圈相當豐富,囊括了多個方向,常見的我們可以利用Python進行網絡爬蟲、文本分析、機器學習、數據挖掘等工作,可大大提高我們的工作效率。幾乎主流的網際網路企業都在使用Python作為其主流開發語言!!!
  • 想學數據分析?一小時快速入門Python 了解一下!
    LIVE #2:   10/24 數據科學讀書會 Book 8 - 數據分析必會計算機數據結構與算法 第四講在前沿的數據科學與數據分析領域中,計算機科學和統計學融合在一起。作為數據科學家,我們使用統計原理來編寫代碼,這樣我們就可以有效地探索手頭的問題。因此,至少需要對數據結構、算法等有一個基本的了解,這樣我們就可以更有效地編程並理解我們所使用的工具。
  • 解讀數據挖掘與數據科學之間鮮為人知的區別
    然而,儘管人們對數據科學的工作越來越感興趣,但並不知道如何從事這個職業。因此應該了解數據科學的職業生涯,這其中包括了解不同數據流程之間的差異。一些行業網站和大學正在提供有關數據科學的學習課程。然而,對於初學者來說,他們對於如何入門以及如何選擇有效的路徑並不總是很清楚。因為數據技術領域中一些相似的領域存在顯著的差異。
  • 電路圖符號大全,(初學者必了解)
    電路圖符號大全,(初學者必了解)  電氣原理圖是電氣系統圖的一種。
  • 精品數據分析課程推薦
    A:可以的,聯繫網易雲課堂的客服即可入門第一門:數據分析第一堂課   這門課的特點:系統性學習(理論+工具+實戰)、內容更接地氣(整合萬名初學者的難點梳理而成,有2位經驗豐富的實戰從業者合力而成)、通俗易懂(由淺入深、上線連貫、課件風趣好懂
  • 快速掌握SPSS數據分析
    無非就是數據類型的區別後,就能理解應該用什麼樣的分析方法,對應著分析方法無非是找一些參考資料進行即可。甚至在線網頁SPSS軟體直接可以將數據分析結果指標人工智慧地分析出來,這有多難呢?本文章將周老師(統計學專家)8年的數據分析經驗濃縮,便於讓不會數據分析的同學,在學習數據分析的過程中可以少走彎路,樹立數據分析價值觀,以及以數據進行決策的思維意識,並且可以快速的掌握數據分析。
  • 新手如何快速入門數據分析?
    CDA數據分析研究院原創作品, 轉載需授權隨著網際網路迅猛發展,各大公司沉澱了很多的數據,如何找出藏在這些數據背後的規律,利用這些數據來給公司創造價值,作為一個新手面對這些問題的時候,你是不是考慮怎麼快速學習數據分析呢?
  • 作為速寫初學者,如何在短時間內快速突破速寫寫生瓶頸期
    如其本名,草圖速寫是一種較為快速的寫生方法。這是中國的原始詞彙,是素描的一種形式。那麼,如何提高速寫寫生的技術?以下部分就有九方畫室為大家介紹速寫初學者突破模式瓶頸的方法。作為速寫初學者,掌握節奏和流程是很重要的。小人的動畫練習是迅速學習速寫的最佳方法.可以看到伯裡曼人的身體結構中動態的速寫,這是高度概括的線條描繪人體的動態。線畫人體動態插入的線並不那麼複雜,但整體角色的動態必須與運動傾向一致。在多個繪畫和多重觀察的前提下,線和線條穿插之間的關係被自動調整。
  • 大數據分析學習建議
    在數據價值越來越受到重視的今天,大數據分析師也成為企業發展不可獲取的重要人才,企業要想從大數據當中獲得發展先機,那麼就需要引進大數據分析師人才。而大數據分析師,對專業技能的掌握,是入行的關鍵。今天的大數據分析師培訓視頻分享,我們就來給大家一些大數據分析學習建議。
  • 學習數據分析,這些超好用的數據分析工具你必須知道!
    這款工具常由新一代數據科學家使用,因為其屬於一款業務開發平臺且能夠快速完成大規模數據的理解與分析。 Rapidminer 作為另一款大數據處理必要工具,Rapidminer屬於一套開源數據科學平臺,且通過可視化編程機制發揮作用。
  • 數據分析案例及新手如何學習數據分析
    買家行為數據分析,可以幫助商家快速準確的對所有有過交易(也可以設置條件為有過諮詢)的客戶進行歸類。對其採購行為進行分析梳理,通過對客戶的篩選分層,針對性的跟進和了解買家需求。使得數據變換一種展示形態或展示類型,來更直觀的幫助商家了解店鋪。如詢盤分析、價格段分析、客戶行為分析等。數據是幫助商家了解自身狀況和衡量自身好壞的得力工具。
  • Excel作為一種強大的數據挖掘工具,數據分析是做什麼的
    在簡單了解了數據分析是做什麼的之後,簡單給初學者說幾句重要的話,其實初學者完全沒必要掌握複雜的操作,也不需要具備高深的專業知識,更下需花費高額費用。日常使用的Excel就是一款卓越的數據挖掘工具。讓我們一起學習Excel吧!根據數據挖掘的目的、數據性質、規模和預算等情況,選擇適當的工具完成工作。數據挖掘的目的是什麼呢?
  • 數據分析師-快速掌握SQL基礎
    SQL技能是數據分析師的必備技能,作者在之前的文章《你不知道的數據分析師》中也提到了,數據分析師50%的時間都在寫SQL。本文將從一道數據分析師的SQL面試題開始分析講解,期間,會涉及到SQL的基礎操作和分析函數的使用等知識點,然後為大家總結出了一份快速掌握SQL基礎的指南,希望能夠幫助到SQL初學者。這是一道來自百度數據部門的面試題,主要考察row_number的使用。題目:SQL語句如何查詢各用戶最長連續登錄天數?如圖左邊是源表User,右邊是需要達到的查詢結果。