從電影中看:探索性數據分析思維應用

2021-01-08 人人都是產品經理

在電影《東方快車謀殺案》中,神探波洛利用探索性分析的思維方式完美破案,而在日常工作中,我們也可以利用該思維解決難題。

現在已經進入DT時代,海量、混亂的數據不斷湧來,我們需要理清頭緒,探尋數據間的內在聯繫,這就好像偵探辦案,雖然人們總形容偵探「目光犀利、嗅覺敏銳」,似乎偵探是條犬科動物。然而偵探本人通常不會僅僅靠著自己的眼睛和鼻子辦事兒。

她的做法看起來科學得多——將所有能夠搞到的證據搜集到一起,所有能拿到的數據拿到手裡,然後在其中尋找規律。

在《東方快車謀殺案》中,波洛偵探完美地為我們演示了一遍如何收集證據與數據,然後從中獲得洞察。在一個下著雪的深夜,一個男人離奇而死。沒有目擊證人,身上的刀疤參差不齊,就連宿在附近車廂的偵探本人也沒有在慘案發生時發現端倪。

不過,就像在旅途中也要保持得體裝扮一樣,波洛偵探面臨謎題,表現得同樣有條不紊。

首先,他挨個盤問了列車上的每一位乘客,不管對方人設是冷靜縝密、還是神經兮兮。然後,他將這些人的語言與行為如拼拼圖一般,拼在了一起,並理出了一個時間線。在這個過程中,他不斷地思考:

哪些信息能支持自己的假設?哪些信息互相矛盾?我還需要回答什麼問題?還有——之後我需要做什麼,才能回答這些問題?

「想來你對我這種詢問方式很不以為然。」波洛偵探對瑪麗說:「你原來想的不是這種,而是英國式的。凡事都該準備停當——擺出事實,按部就班。可是小姐,我這人倒有點兒與眾不同。首先我得先見見證人,摸清他或她的脾性,然後再相應地提出問題來。」

波洛列出的問題足足有10條:

繡著首字母H的手帕,是誰的?菸斗通條,是誰的?誰穿鮮紅色、繡著龍的睡衣?誰把自己偽裝成列車員,男人還是女人?為什麼死者的錶針會指到一點一刻?謀殺發生在那個時間嗎?還是在那個時間之前?或是之後?能確信殺手不止一個人嗎?死者身上的刀傷還有其它解釋嗎?

這些是否也是你的疑問?或者說,在聽過各位乘客的回答後,你是否也產生了一些疑問?如果答案是「yes」,恭喜你,你已經在做探索性分析了!

EDA——探索性數據分析

探索性數據分析(EDA)是數據分析過程的第一部分。 在這個階段有幾件重要的事情要做,但歸結起來就是:

弄清楚數據是什麼;建立你想問的問題以及如何表達它們,提出最好的展示和操作數據的方式,以得出重要的見解。

EDA與IDA的區別:

探索性數據分析有別於初始性數據分析(initial data analysis – IDA)。

初始性數據分析的聚焦點是分析鑑別統計模型和科研假設測試所需的條件是否達到,以保證驗證性分析的可靠性。在這個分析過程中對不符合條件的數據進行缺值填補、數據轉換、異常值捨棄等處理以增強分析的準確性。探索性數據分析包含初始性數據分析,但它的出發點不僅是確定數據質量,而且更重視從數據中發現數據分布的模式(Patten)和提出新的假設。

你在探索 – 尋找線索。 就像波洛做的那樣,通過定量和可視化的方法,你不僅梳理出趨勢和模式,還能發現偏離模型,離群值和意想不到的結果——它們也很重要。你現在發現的東西將幫助你決定提出的問題,研究領域,以及下一步採取的措施。

一切發現 符合假設的、不符合假設的,都是為了最後一步一步地走向真相

過去,在以抽樣統計為主導的傳統統計學中,探索性數據分析對驗證性數據分析有著支持和輔助的作用。但由於抽樣和問卷都是事先設計好的,對數據的探索性分析是有限的。到了大數據時代,海量數據從多種渠道源源不斷地湧現出來,已不受分析模型和研究假設的限制,如何從中找出規律、並產生分析模型和研究假設成為新挑戰。

這時候,探索性數據分析在對數據進行概括性描述、發現變量之間的相關性以及引導出新的假設方面大顯身手。正如美國探索性數據分析創始人約翰懷爾德杜克所說:

面對那些我們堅信存在或不存在的事物時,『探索性數據分析』代表了一種態度,一種方法手段的靈活性,更代表了人們尋求真相的強烈願望。

CDA——驗證性數據分析

通常,偵探結案並不是故事的結束,還需要將罪犯以及罪證交給法庭,進行審判。

我們將這個「審判」的過程稱為驗證性數據分析。

驗證性數據分析是您使用傳統統計工具(例如顯著性,推斷和置信度)來評估證據的部分。

在這一點上,你真的在挑戰你的假設。驗證性數據分析的很大一部分就是對事物進行量化,比如,你所建立的模型的任何偏離都可能偶然發生,在什麼時候需要開始質疑你的模型呢?

CDA的內容:測試假設,以特定精確度產生估計,回歸分析和方差分析。

驗證性和探索性數據分析的使用

實際上,探索性的和驗證性的數據分析不是一個接一個地進行,而是不斷地交織在一起,幫助您創建最好的分(破)析(案)模(套)型(路)。

我們舉一個例子來說明實踐中的EDA與CDA。

場景:最近幾個月,流失用戶的數量一直在激增。產品一直在保持更新,性能也算穩定,活動也沒停,這種流失簡直稱得上是一樁密室丟人案了。究竟發生了什麼?

發現問題:密室丟人案,比密室殺人案更讓運營感到棘手的案件

你開始利用數據探索原因(EDA)。你調取了這些流失用戶的所有數據然後開始尋找線索。在用了各種餅柱線氣泡樹從不同角度分析了數據之後,你發現丟失的用戶大多都是在同一個月內註冊的。

鎖定異常:雖然每個月註冊的用戶都有流失,但很容易看出7月的問題

經過仔細調查,你發現在這個月中,雖然產品一直在保持更新,性能也算穩定,活動也沒停,但是你們自己卻把常用的CRM系統給換了。結果,一部分客戶沒有收到產品的入門教程。

現在你產生了一個大(合)膽(理)的假設:這些人是因為沒有得到入門教程而流失的。要想停止這個死亡遊戲,必須連夜派發入門教程大禮包!

但首先,你需要確定這個原因是正確的。根據探索性數據分析,你現在可以建立一個新的預測模型,以比較收到教程和沒收到教程的差異率。 這根植於驗證性數據分析。

結果顯示了兩者之間的廣泛相關性。成功破案了!

探索性數據分析和大數據

21世紀的作案團夥可以像水滴融入大海一樣藏身於龐大的數據池中。整個偵探遊戲變得非常艱巨。要保證自己能夠實時訪問所有需要的信息,讓數據跑得跟思路一樣快,讓案子破的時候「兇手」還沒跑遠——這對於銷售、運營、產品、財務、HR等各種工作模塊都至關重要。

為什麼偵探小說這麼火?

因為我們都需要知道答案,並對探索答案過程中的智力挑戰而感到驚心動魄。

那為什麼,不讓數據偵探成為你的「第二人格」?

本文由 @數據觀 原創發布於人人都是產品經理。未經許可,禁止轉載

題圖來自《東方快車謀殺案》劇照,來源於百度派

相關焦點

  • 數據分析領域的探索性數據分析究竟是什麼?
    我們經常討論數據分析和Bl科學方面:執行複雜查詢所需的計算和算法。當然,Bl的很大一部分是數學,在一般情況下理解數據需要計劃如何在一端構建分析結構,在另一端解釋結果,在一些人眼中這是一種藝術形式。什麼是探索性數據分析?探索性數據分析(EDA)是數據分析過程的第一步。
  • 探索性數據分析(EDA),你會使用嗎?
    所謂探索性數據分析(Exploratory Data Analysis,以下簡稱EDA),是指對已有的數據(特別是調查或觀察得來的原始數據)在儘量少的先驗假定下進行探索,通過作圖、制表、方程擬合、計算特徵量等手段探索數據的結構和規律的一種數據分析方法。
  • 數據分析?從一開始你就錯了!探索性數據分析套路解讀
    但這樣倉促操作的後果並不像想像中高效,很多次在模型結果差的離譜時,回過頭才發現原來數據中的很多「不良」記錄也被用到的分析過程中。有時回過頭再仔細推敲一遍時,很多特徵之間的關係是顯而易見的,然而我卻在運用模型時沒有重點關注。我開始思考,難道沒有一組「套路」可以操作?讓探索數據的過程更有章法。在走了很多彎路之後,我學習到了「探索性數據分析」(EDA)這樣一個概念。
  • 探索性因素分析與驗證性因素分析的差異
    研究者的假定是每個指標變量都與某個因子匹配,而且只能通過因子載荷憑知覺推斷數據的因子結構。驗證性因子分析的主要目的是決定事前定義因子的模型擬合實際數據的能力,以試圖檢驗觀測變量的因子個數和因子載荷是否與基於預先建立的理論的預期一致。驗證性因子分析的主要目的是決定事前定義因子的模型擬合實際數據的能力,以試圖檢驗觀測變量的因子個數和因子載荷是否與基於預先建立的理論的預期一致。
  • SPSSAU數據分析思維培養系列2:分析方法
    在完成數據準備和清理工作後,就要進入到正式分析階段,而選擇什麼樣的數據分析方法進行分析是關鍵。想要進行科學和系統化的數據分析,分析方法的思維是必備項。本文為SPSSAU數據分析思維培養的第2篇文章,將分別從數據類型談起,剖析數據應該如何分析,包括數據的基礎描述,數據質量的判斷。
  • 探索性因子分析
    探索性因子分析(EFA)數據要求:等距數據;樣本規模是指標的10
  • 驗證性因子分析與探索性因子分析的區別 | 附:量表編制步驟
    最近有老師問驗證性因子分析和探索性因子分析的區別,是不是在做量表的時候需要做驗證性因子分析?那麼是在什麼時候做?很明顯,編制量表的時候一定是需要做驗證性因子分析的。1.在進行探索性因子分析的時候,量表條目最終能形成幾個條目是未知的。
  • Pandas自動進行探索性數據分析,節省可視化和理解數據的時間
    根據Wikipedia的說法,探索性數據分析(EDA)是一種分析數據集以總結其主要特徵的方法,通常使用視覺方法。因此,EDA是理解基礎數據,變量分布及其相關性的過程。這使得EDA成為構建任何統計模型之前任何數據科學過程中的第一步。
  • 如何使用Pandas-Profiling進行探索性數據分析
    當開始一個新的機器學習項目時,獲得機器學習數據集之後的第一步就是要了解它。我們可以通過執行探索性數據分析(EDA)來實現這一點。這包括找出每個變量的數據類型、目標變量的分布、每個預測變量的不同值的數量、數據集中是否有重複值或缺失值等。進行EDA探索機器學習數據集的過程往往是非常耗時的。什麼是Pandas-Profiling?
  • 2.0 探索性因子分析
    探索性因子分析法(Exploratory Factor Analysis,EFA)是一項用來找出多元觀測變量的本質結構
  • 探索性測試和手工測試的比較和分析
    最近看了不少有關探索性測試的討論和觀點,老實說越看越糊塗。所以忍不住吐槽一下,在這裡和大家討論一下探索性測試。希望對於想學習和嘗試探索性測試的朋友有所幫助澄清,或者是更加糊塗,^_^。探索性測試有很多很多的定義:百度百科的定義:「同時設計測試和執行測試」。 嗯。。什麼意思?
  • 怎樣提升數據分析能力,數據分析的正確步驟
    看過某應用的近四十個設置項的使用比例,修改皮膚使用率較高,而個別選項使用率不到0.1%,依次數據可以調整設置項的層級關係,重要的選項放置到一級強調顯示,低於5%的可以放置二三級。功能使用率的分析是比較容易的切入點。 5.明確用戶操作目的。功能對於用戶而言,使用率不是越高越好。增加達到的目標的途徑,用戶思考成本增加,操作次數會增加,比如搜索。
  • 如何提升數據分析能力,數據分析的正確步驟
    看過某應用的近四十個設置項的使用比例,修改皮膚使用率較高,而個別選項使用率不到0.1%,依次數據可以調整設置項的層級關係,重要的選項放置到一級強調顯示,低於5%的可以放置二三級。功能使用率的分析是比較容易的切入點。5.明確用戶操作目的。功能對於用戶而言,使用率不是越高越好。增加達到的目標的途徑,用戶思考成本增加,操作次數會增加,比如搜索。
  • python編程中探索性數據分析詳解,看完就會
    我們可以用Splunk來探索數據。或者我們可以得到一個簡單的提取並在Python中擺弄這些數據。在Python中運行不同的實驗似乎比試圖在Splunk中進行這種探索性的操作更有效。主要是因為我們可以無所限制地對數據做任何事。我們可以在一個地方創建非常複雜的統計模型。理論上,我們可以在Splunk中做很多的探索。它有各種報告和分析功能。但是...
  • 數據分析能力的核心是思維
    對於業務人,比如產品或運營,數據分析能力的核心不在方法和工具,而在於思維。大多數人錯誤地理解了數據分析,把數據分析能力提升的關鍵放在了方法和工具;對於業務人而言,數據分析的核心思路是,得到兩個變量之間的「量化關係」,用以解釋現象;數據分析的步驟,感知問題、提出假說、選擇表徵、收集數據、分析驗證;提出假說和選擇表徵是很多業務人數據分析做不下去的原因。
  • 常見的四種數據分析方法
    當開始數據分析項目時,通常首先分別分析每個變量,以描述擁有的數據並評估其質量,接下來的步驟是探索變量之間存在的關係。這些關係可能會導致對數據所代表的總體得出某些推論或結論。結論可能會導致數學模型預測當前不在數據集中的數據結果。但是,在導致決策或行動步驟之前,數據分析無效。
  • 探索性數據分析的圖形化探索
    1.圖形化探索圖形化探索又稱為可視化描述,通過圖表的形式將數據的各個特徵呈現出來,不同的圖有著各自的優勢和缺陷,在實際運用過程中可以綜合使用進行數據的分析:累積分布圖箱型圖條形圖餅圖散點圖圖形化探索相比於數位化的探索結果看起來更直觀,更能反應數據分布的特點
  • SPSS有話說:如何得出問卷或量表的結構或維度——探索性因素分析
    探索性因素分析是依據樣本數據,根據變量間相關性的大小對變量進行分組,每組內的變量之間存在較高相關性,意味著這些變量背後有共同的制約因素,用這些公共因子來代替原始的眾多變量的過程。簡單來說,就是探索問卷的結構或維度。探索性因素分析也是在心理測驗編制過程中用來檢驗測驗結構效度的一種非常重要和有效的分析方法,通過檢驗變量(因子)與題項的對應關係。
  • 從零開始數據分析:一個數據分析師的數據分析流程 | 網際網路數據...
    數據分析過程1、探索性數據分析初步獲取的數據是雜亂無章的,通過圖表形式對數據進行整合,找尋數據之間存在的關係。2、模型選定分析通過探索性數據分析,歸納出一類甚至是多類數據模型,通過對模型再次整合,進一步分析出一定的模型。
  • 大數據分析關鍵的5個思維
    數據分析在網際網路公司的重要性不言而喻,隨著社會對數據分析人才需求量的增大,越來越多的人在朝數據分析的方向發展。但很多人談到數據分析時首先想到的是數據分析工具,如Python、SQL等,卻忽略了數據分析思維的培養。