在電影《東方快車謀殺案》中,神探波洛利用探索性分析的思維方式完美破案,而在日常工作中,我們也可以利用該思維解決難題。
現在已經進入DT時代,海量、混亂的數據不斷湧來,我們需要理清頭緒,探尋數據間的內在聯繫,這就好像偵探辦案,雖然人們總形容偵探「目光犀利、嗅覺敏銳」,似乎偵探是條犬科動物。然而偵探本人通常不會僅僅靠著自己的眼睛和鼻子辦事兒。
她的做法看起來科學得多——將所有能夠搞到的證據搜集到一起,所有能拿到的數據拿到手裡,然後在其中尋找規律。
在《東方快車謀殺案》中,波洛偵探完美地為我們演示了一遍如何收集證據與數據,然後從中獲得洞察。在一個下著雪的深夜,一個男人離奇而死。沒有目擊證人,身上的刀疤參差不齊,就連宿在附近車廂的偵探本人也沒有在慘案發生時發現端倪。
不過,就像在旅途中也要保持得體裝扮一樣,波洛偵探面臨謎題,表現得同樣有條不紊。
首先,他挨個盤問了列車上的每一位乘客,不管對方人設是冷靜縝密、還是神經兮兮。然後,他將這些人的語言與行為如拼拼圖一般,拼在了一起,並理出了一個時間線。在這個過程中,他不斷地思考:
哪些信息能支持自己的假設?哪些信息互相矛盾?我還需要回答什麼問題?還有——之後我需要做什麼,才能回答這些問題?
「想來你對我這種詢問方式很不以為然。」波洛偵探對瑪麗說:「你原來想的不是這種,而是英國式的。凡事都該準備停當——擺出事實,按部就班。可是小姐,我這人倒有點兒與眾不同。首先我得先見見證人,摸清他或她的脾性,然後再相應地提出問題來。」
波洛列出的問題足足有10條:
繡著首字母H的手帕,是誰的?菸斗通條,是誰的?誰穿鮮紅色、繡著龍的睡衣?誰把自己偽裝成列車員,男人還是女人?為什麼死者的錶針會指到一點一刻?謀殺發生在那個時間嗎?還是在那個時間之前?或是之後?能確信殺手不止一個人嗎?死者身上的刀傷還有其它解釋嗎?
這些是否也是你的疑問?或者說,在聽過各位乘客的回答後,你是否也產生了一些疑問?如果答案是「yes」,恭喜你,你已經在做探索性分析了!
EDA——探索性數據分析
探索性數據分析(EDA)是數據分析過程的第一部分。 在這個階段有幾件重要的事情要做,但歸結起來就是:
弄清楚數據是什麼;建立你想問的問題以及如何表達它們,提出最好的展示和操作數據的方式,以得出重要的見解。
EDA與IDA的區別:
探索性數據分析有別於初始性數據分析(initial data analysis – IDA)。
初始性數據分析的聚焦點是分析鑑別統計模型和科研假設測試所需的條件是否達到,以保證驗證性分析的可靠性。在這個分析過程中對不符合條件的數據進行缺值填補、數據轉換、異常值捨棄等處理以增強分析的準確性。探索性數據分析包含初始性數據分析,但它的出發點不僅是確定數據質量,而且更重視從數據中發現數據分布的模式(Patten)和提出新的假設。
你在探索 – 尋找線索。 就像波洛做的那樣,通過定量和可視化的方法,你不僅梳理出趨勢和模式,還能發現偏離模型,離群值和意想不到的結果——它們也很重要。你現在發現的東西將幫助你決定提出的問題,研究領域,以及下一步採取的措施。
一切發現 符合假設的、不符合假設的,都是為了最後一步一步地走向真相
過去,在以抽樣統計為主導的傳統統計學中,探索性數據分析對驗證性數據分析有著支持和輔助的作用。但由於抽樣和問卷都是事先設計好的,對數據的探索性分析是有限的。到了大數據時代,海量數據從多種渠道源源不斷地湧現出來,已不受分析模型和研究假設的限制,如何從中找出規律、並產生分析模型和研究假設成為新挑戰。
這時候,探索性數據分析在對數據進行概括性描述、發現變量之間的相關性以及引導出新的假設方面大顯身手。正如美國探索性數據分析創始人約翰懷爾德杜克所說:
面對那些我們堅信存在或不存在的事物時,『探索性數據分析』代表了一種態度,一種方法手段的靈活性,更代表了人們尋求真相的強烈願望。
CDA——驗證性數據分析
通常,偵探結案並不是故事的結束,還需要將罪犯以及罪證交給法庭,進行審判。
我們將這個「審判」的過程稱為驗證性數據分析。
驗證性數據分析是您使用傳統統計工具(例如顯著性,推斷和置信度)來評估證據的部分。
在這一點上,你真的在挑戰你的假設。驗證性數據分析的很大一部分就是對事物進行量化,比如,你所建立的模型的任何偏離都可能偶然發生,在什麼時候需要開始質疑你的模型呢?
CDA的內容:測試假設,以特定精確度產生估計,回歸分析和方差分析。
驗證性和探索性數據分析的使用
實際上,探索性的和驗證性的數據分析不是一個接一個地進行,而是不斷地交織在一起,幫助您創建最好的分(破)析(案)模(套)型(路)。
我們舉一個例子來說明實踐中的EDA與CDA。
場景:最近幾個月,流失用戶的數量一直在激增。產品一直在保持更新,性能也算穩定,活動也沒停,這種流失簡直稱得上是一樁密室丟人案了。究竟發生了什麼?
發現問題:密室丟人案,比密室殺人案更讓運營感到棘手的案件
你開始利用數據探索原因(EDA)。你調取了這些流失用戶的所有數據然後開始尋找線索。在用了各種餅柱線氣泡樹從不同角度分析了數據之後,你發現丟失的用戶大多都是在同一個月內註冊的。
鎖定異常:雖然每個月註冊的用戶都有流失,但很容易看出7月的問題
經過仔細調查,你發現在這個月中,雖然產品一直在保持更新,性能也算穩定,活動也沒停,但是你們自己卻把常用的CRM系統給換了。結果,一部分客戶沒有收到產品的入門教程。
現在你產生了一個大(合)膽(理)的假設:這些人是因為沒有得到入門教程而流失的。要想停止這個死亡遊戲,必須連夜派發入門教程大禮包!
但首先,你需要確定這個原因是正確的。根據探索性數據分析,你現在可以建立一個新的預測模型,以比較收到教程和沒收到教程的差異率。 這根植於驗證性數據分析。
結果顯示了兩者之間的廣泛相關性。成功破案了!
探索性數據分析和大數據
21世紀的作案團夥可以像水滴融入大海一樣藏身於龐大的數據池中。整個偵探遊戲變得非常艱巨。要保證自己能夠實時訪問所有需要的信息,讓數據跑得跟思路一樣快,讓案子破的時候「兇手」還沒跑遠——這對於銷售、運營、產品、財務、HR等各種工作模塊都至關重要。
為什麼偵探小說這麼火?
因為我們都需要知道答案,並對探索答案過程中的智力挑戰而感到驚心動魄。
那為什麼,不讓數據偵探成為你的「第二人格」?
本文由 @數據觀 原創發布於人人都是產品經理。未經許可,禁止轉載
題圖來自《東方快車謀殺案》劇照,來源於百度派