探索性數據分析(EDA),你會使用嗎?

2021-01-08 電子產品世界

  所謂探索性數據分析(Exploratory Data Analysis,以下簡稱EDA),是指對已有的數據(特別是調查或觀察得來的原始數據)在儘量少的先驗假定下進行探索,通過作圖、制表、方程擬合、計算特徵量等手段探索數據的結構和規律的一種數據分析方法。特別是當我們對這些數據中的信息沒有足夠的經驗,不知道該用何種傳統統計方法進行分析時,探索性數據分析就會非常有效。探索性數據分析在上世紀六十年代被提出,其方法由美國著名統計學家約翰·圖基(John Tukey)命名。

本文引用地址:http://www.eepw.com.cn/article/113459.htm

  EDA的出現主要是在對數據進行初步分析時,往往還無法進行常規的統計分析。這時候,如果分析者先對數據進行探索性分析,辨析數據的模式與特點,並把它們有序地發掘出來,就能夠靈活地選擇和調整合適的分析模型,並揭示數據相對於常見模型的種種偏離。在此基礎上再採用以顯著性檢驗和置信區間估計為主的統計分析技術,就可以科學地評估所觀察到的模式或效應的具體情況。

  所以概括起來說,分析數據可以分為探索和驗證兩個階段。探索階段強調靈活探求線索和證據,發現數據中隱藏的有價值的信息,而驗證階段則著重評估這些證據,相對精確地研究一些具體情況。在驗證階段,常用的主要方法是傳統的統計學方法,在探索階段,主要的方法就是EDA,下面我們重點對EDA做進一步的說明。

  EDA的特點有三個:一是在分析思路上讓數據說話,不強調對數據的整理。傳統統計方法通常是先假定一個模型,例如數據服從某個分布(特別常見的是正態分布),然後使用適合此模型的方法進行擬合、分析及預測。但實際上,多數數據(尤其是實驗數據)並不能保證滿足假定的理論分布。因此,傳統方法的統計結果常常並不令人滿意,使用上受到很大的局限。EDA則可以從原始數據出發,深入探索數據的內在規律,而不是從某種假定出發,套用理論結論,拘泥於模型的假設。

  二是EDA分析方法靈活,而不是拘泥於傳統的統計方法。傳統的統計方法以概率論為基礎,使用有嚴格理論依據的假設檢驗、置信區間等處理工具。EDA處理數據的方式則靈活多樣,分析方法的選擇完全從數據出發,靈活對待,靈活處理,什麼方法可以達到探索和發現的目的就使用什麼方法。這裡特別強調的是EDA更看重的是方法的穩健性、耐抗性,而不刻意追求概率意義上的精確性。

  三是EDA分析工具簡單直觀,更易於普及。傳統的統計方法都比較抽象和深奧,一般人難於掌握,EDA則更強調直觀及數據可視化,更強調方法的多樣性及靈活性,使分析者能一目了然地看出數據中隱含的有價值的信息,顯示出其遵循的普遍規律及與眾不同的突出特點,促進發現規律,得到啟迪,滿足分析者的多方面要求,這也是EDA對於數據分析的的主要貢獻。

  值得一提的是,正因為EDA更強調直觀及圖形顯示,所以它採用了很多創新的可視化技術,目前這些可視化技術已經有了很好的實現載體,目前最為主流的探索性數據分析軟體是以圖形效果好、交互性強、易學易用著稱的統計發現軟體JMP。即使不具備統計學基礎的分析者也能在JMP的幫助下,輕鬆地發現數據、擬合以及殘差的規律,獲得意想不到的發現,為後續的分析啟發思路、指明方向。

  下面,用一個典型的小案例來說明EDA的實際應用。

  我們為了對全球經濟的發展趨勢和世界頂級公司的經營狀況做一些研究,可以從公共網站上下載數據(如http://www.forbes.com/lists中的福布斯2000強名單),用JMP略作整理之後可以得到如表一所示的數據表,其中包含了上榜公司的名稱、所屬行業、所屬國家、上榜年份、上榜排名、市場價值、資產額、銷售額、利潤額等9個變量,總計14000條記錄(每年2000條,從2004年至2010年共7個年度)。現在的問題是:數據有了,其中到底隱藏著怎樣的有價值的信息呢?我們又如何發現這些信息呢?

  有人說:既然是連續型數據,又包含時間變量,應該用時間序列方法進行分析!的確,時間序列可以告訴我們變量隨時間的變化,然而實際中我們所希望和可以得到的有價值的信息,往往遠不止「隨時間變化」這麼簡單,更何況,需要分析這些商業數據的用戶常常並不清楚什麼是「時間序列分析」方法。


相關焦點

  • 從電影中看:探索性數據分析思維應用
    為什麼死者的錶針會指到一點一刻?謀殺發生在那個時間嗎?還是在那個時間之前?或是之後?能確信殺手不止一個人嗎?死者身上的刀傷還有其它解釋嗎?這些是否也是你的疑問?或者說,在聽過各位乘客的回答後,你是否也產生了一些疑問?如果答案是「yes」,恭喜你,你已經在做探索性分析了!EDA——探索性數據分析探索性數據分析(EDA)是數據分析過程的第一部分。
  • 數據分析領域的探索性數據分析究竟是什麼?
    我們經常討論數據分析和Bl科學方面:執行複雜查詢所需的計算和算法。當然,Bl的很大一部分是數學,在一般情況下理解數據需要計劃如何在一端構建分析結構,在另一端解釋結果,在一些人眼中這是一種藝術形式。什麼是探索性數據分析?探索性數據分析(EDA)是數據分析過程的第一步。
  • 數據分析?從一開始你就錯了!探索性數據分析套路解讀
    第一次接觸在Coursera網站的這門ExploratoryData Analysis課程裡,這是一整套「數據分析課程」的其中一門,主要介紹了如何運用R語言對數據進行探索性的發現,將數據用簡單的圖示表示以便於更好的發現數據的潛在特徵。完成課程之初,並不以為這是數據分析過程中一個關鍵的步驟,在做項目時只是簡單的跑跑summary語句大概看看分布,之後還是我行我素。
  • 如何使用Pandas-Profiling進行探索性數據分析
    當開始一個新的機器學習項目時,獲得機器學習數據集之後的第一步就是要了解它。我們可以通過執行探索性數據分析(EDA)來實現這一點。這包括找出每個變量的數據類型、目標變量的分布、每個預測變量的不同值的數量、數據集中是否有重複值或缺失值等。進行EDA探索機器學習數據集的過程往往是非常耗時的。什麼是Pandas-Profiling?
  • 探索性因素分析與驗證性因素分析的差異
    研究者的假定是每個指標變量都與某個因子匹配,而且只能通過因子載荷憑知覺推斷數據的因子結構。驗證性因子分析的主要目的是決定事前定義因子的模型擬合實際數據的能力,以試圖檢驗觀測變量的因子個數和因子載荷是否與基於預先建立的理論的預期一致。驗證性因子分析的主要目的是決定事前定義因子的模型擬合實際數據的能力,以試圖檢驗觀測變量的因子個數和因子載荷是否與基於預先建立的理論的預期一致。
  • 驗證性因子分析與探索性因子分析的區別 | 附:量表編制步驟
    最近有老師問驗證性因子分析和探索性因子分析的區別,是不是在做量表的時候需要做驗證性因子分析?那麼是在什麼時候做?很明顯,編制量表的時候一定是需要做驗證性因子分析的。1.在進行探索性因子分析的時候,量表條目最終能形成幾個條目是未知的。
  • 探索性測試和手工測試的比較和分析
    在這個簡單的遊戲中有兩個策略至關重要:1.你要根據前面問題的答案來分析和設計下一個問題。第一個問題可能不著邊,但是第二個問題會讓你跟接近你想要的答案。第三個會更加靠近,以此類推。2.僅僅根��前面問題的答案來設計下一個問題可以最終幫你猜對數字,但是要想用最少的問題來猜對數字不僅要根據前面問題的答案,而且需要對問題本身其它知識加以綜合運用使用其它策略和技術。
  • Pandas自動進行探索性數據分析,節省可視化和理解數據的時間
    根據Wikipedia的說法,探索性數據分析(EDA)是一種分析數據集以總結其主要特徵的方法,通常使用視覺方法。因此,EDA是理解基礎數據,變量分布及其相關性的過程。這使得EDA成為構建任何統計模型之前任何數據科學過程中的第一步。
  • 探索性因子分析
    探索性因子分析(EFA)數據要求:等距數據;樣本規模是指標的10
  • 38萬條數據,用Python分析保險產品交叉銷售相關因素!
    CDA數據分析師 出品 作者:真達、Mika數據:真達 【導讀】今天的內容是一期Python實戰訓練,我們來手把手教你用Python分析保險產品交叉銷售和哪些因素有關。例如,你每年要為20萬的健康保險支付2000元的保險費。那麼你肯定會想,保險公司只收取5000元的保費,這種情況下,怎麼能承擔如此高的住院費用呢? 這時,「概率」的概念就出現了。例如,像你一樣,可能有100名客戶每年支付2000元的保費,但當年住院的可能只有少數人,(比如2-3人),而不是所有人。通過這種方式,每個人都分擔了其他人的風險。
  • 2.0 探索性因子分析
    探索性因子分析法(Exploratory Factor Analysis,EFA)是一項用來找出多元觀測變量的本質結構
  • 14個超有趣的數據分析項目,數據集都給你整理好啦
    項目分為三種類型: 可視化項目 探索性數據分析(EDA)項目 預測建模 可視化項目 最容易上手的就是數據可視化, 以下
  • python編程中探索性數據分析詳解,看完就會
    我們可以用Splunk來探索數據。或者我們可以得到一個簡單的提取並在Python中擺弄這些數據。在Python中運行不同的實驗似乎比試圖在Splunk中進行這種探索性的操作更有效。主要是因為我們可以無所限制地對數據做任何事。我們可以在一個地方創建非常複雜的統計模型。理論上,我們可以在Splunk中做很多的探索。它有各種報告和分析功能。但是...
  • 常見的四種數據分析方法
    當開始數據分析項目時,通常首先分別分析每個變量,以描述擁有的數據並評估其質量,接下來的步驟是探索變量之間存在的關係。這些關係可能會導致對數據所代表的總體得出某些推論或結論。結論可能會導致數學模型預測當前不在數據集中的數據結果。但是,在導致決策或行動步驟之前,數據分析無效。
  • 探索性數據分析的圖形化探索
    1.圖形化探索圖形化探索又稱為可視化描述,通過圖表的形式將數據的各個特徵呈現出來,不同的圖有著各自的優勢和缺陷,在實際運用過程中可以綜合使用進行數據的分析:累積分布圖箱型圖條形圖餅圖散點圖圖形化探索相比於數位化的探索結果看起來更直觀,更能反應數據分布的特點
  • 效度分析完整總結!你一定要知道的分析流程
    操作方法:首先確定效標,計算問卷得分,使用pearson相關分析,考察實測得分與效標得分兩組數據的相關性。判斷標準:相關係數越大,代表相關性越高,效度越高。(3)結構效度問卷結構效度分析的常用方法有兩種:探索性因子分析、驗證性因子分析。正常情況下,針對量表數據的效度分析,均需要使用探索性因子分析進行效度的驗證說明,並且配合內容效度進行綜合說明。
  • SPSS有話說:如何得出問卷或量表的結構或維度——探索性因素分析
    探索性因素分析是依據樣本數據,根據變量間相關性的大小對變量進行分組,每組內的變量之間存在較高相關性,意味著這些變量背後有共同的制約因素,用這些公共因子來代替原始的眾多變量的過程。簡單來說,就是探索問卷的結構或維度。探索性因素分析也是在心理測驗編制過程中用來檢驗測驗結構效度的一種非常重要和有效的分析方法,通過檢驗變量(因子)與題項的對應關係。
  • 怎樣提升數據分析能力,數據分析的正確步驟
    現階段數據分析以統計為主,如用戶量、使用時間點時長和使用頻率等。一是需要識別用戶,二是記錄行為容易引起程序運行速度,三是開發成本較高。 2.產品缺乏核心指標,這需要分析人員足夠的了解產品。產品有了核心指標,拆分用戶操作任務和目的,分析才會有目的,否則拿到一堆數據不知如何下手。
  • 如何提升數據分析能力,數據分析的正確步驟
    現階段數據分析以統計為主,如用戶量、使用時間點時長和使用頻率等。一是需要識別用戶,二是記錄行為容易引起程序運行速度,三是開發成本較高。2.產品缺乏核心指標,這需要分析人員足夠的了解產品。產品有了核心指標,拆分用戶操作任務和目的,分析才會有目的,否則拿到一堆數據不知如何下手。
  • 從數據可視化到交互式數據分析
    但這裡的主要區別在於,在解釋性的可視化中,作者已經知道了可視化的內容(在執行了一些分析之後),而在分析學中,可視化的主要價值是幫助人們第一時間理解數據。人們已經使用了一百萬個名字來定義此活動。最新和最時尚的名字是數字科學,更具體地說是數據科學的一部分,稱為「探索性數據分析」,這是幾十年前偉大的約翰·圖基(John Tukey)發明的術語。