人人都在談論大數據,但有幾個人真的了解、親自實踐過數據分析?我們將上手分析某著名出軌約炮網站洩露的用戶信息,並藉此帶你了解數據分析的真實面目。
大數據現在有多火?《哈佛商業評論》稱之為一場「管理革命」。麥肯錫發布了一篇長達156頁的報告,稱它是「創新、競爭和生產力的下一個前沿」。美國很多擁有遠大抱負的大學畢業生,甚至不再把 Google、Facebook 和 Twitter 放到第一位,而是把目光轉移到了 Palantir 這樣的大數據企業上 —— 這家企業最近一次融資達到 200 億美元,還曾用大數據協助美國政府追蹤賓·拉登的行蹤。無論是通過什麼樣的方式。大數據,已經成為所有行業的焦點。
「遍地都是黃金,只等著有人來撿起。」——《絕命毒師》老白(Walter White)
谷歌搜索表明,「大數據」的搜索量呈現出一個完美的指數上升曲線軌跡,這是許多初創公司夢寐以求的。顯而易見,「大數據」中孕育著一個極大的商機。
「大數據就像青少年性行為:大家都在熱論著,卻沒有人真正知道如何去做,只是覺得其他人都在做,所以聲稱自己也在做而已...」 —— 杜克大學心理學教授丹·艾瑞裡
儘管媒體都在炒作大數據,但悲哀的現實是,沒有人真正了解它。
(譯者註:我們將先終結一個關於大數據的流言,然後將上手分析一個著名婚外情約炮網站洩露的用戶數據,來印證我們的結論。)
有關大數據的一個常見謊言是,我們需要有非常大量的數據才能做「大數據」。
「今天的企業似乎對數據有無法滿足的胃口,他們錯誤地認為數據越多,創造的價值就越大,但大數據往往是些啞巴數據。」 Peter Thiel 說。
現實是,大多數企業根本不需要太多數據。如果你的公司不存在尋找治癒癌症方法,或追蹤恐怖分子的需要,就沒有必要為了銷售產品而使用大量數據。
大多數大企業之所以無休止地痴迷於數據量,原因很簡單:他們感到害怕。他們害怕通過不完美的數據做出決策;他們害怕做實際的工作;他們害怕承擔責任,因為他們本可以躲藏在煙幕後面。人們沒有意識到,數據能帶來的價值多少,取決於數據分析之後的行動,與數據多少無關。
「企業吹噓他們的數據集有多大,就和漁民吹噓他們的魚有多大一樣。他們聲稱自己獲得大量的信息。優勢似乎顯而易見:你知道的越多越好。」 Slater Victoroff 在他發表在 TechCrunch 上的文章中說道。
數據夠用即可
就像「精益運動」鼓勵公司和員工採用「最簡化可運行產品(MVP)」的方式來建立企業和產品,大數據的 MVP 革命其實早就應該誕生了。你不需要很多數據,夠用即可。
為了說明我們的觀點——利用不太大的數據,以人為本,精益求精的方法,就能得出給大家深刻印象的見解——我們對美國婚外情網站 Ashley Madison 的洩漏數據進行了分析,希望能回答以下四個問題:
射手座男子更加花言巧語嗎?
最常見的性偏好是什麼?
性愛偏好會隨時間而變化嗎?
該出軌約炮網站的用戶流失率和客戶終生價值(LTV)是多少?
(譯者註:作者使用的工具和技術都很平民:MySQL,Python,PHP,Excel,Notepad ++。數據來源也是前段時間網上就可以獲得的數據集,內容為約3000萬用戶的註冊資料。)
問題1:射手座男子更容易出軌嗎?
一個對此觀點堅信不疑的人說道,「射手座(Sagittarius)是十二星座中最大的騙子。 他可能會表面上追求非常高的道德標準,但是一旦看到漂亮的臉蛋或身材時,他們就會失去理性。 把你的射手座男友綁在床頭板上吧。」
但這是真的嗎? 運行 SQL 查詢後,我們得到以下結果。Ashley Madison 的射手座用戶並不是所有星座中最多的。由於 Ashley Madison 註冊下拉菜單中的默認月份和年份設置,導致摩羯座出現異常值。去除摩羯座異常值後,我們看到與普遍的觀點相反,射手座(紅色欄)並不是十二星座中最常出軌的星座。
問題2:最常見的性偏好是什麼?
在 Ashley Madison 註冊時,用戶會註明他們的性偏好。 我們使用 SQL 和Python 組合來對偏好進行分析,並按性別繪製視圖。
問題3:性偏好會隨時間而變化嗎?
顯然,他們會。通過出生年份繪製性偏好,我們發現年輕一代更樂於嘗試一夜情,而老年人則喜歡依偎著睡在一起和調情。
問題 4:Ashley Madison 的客戶流失率和終生價值(LTV)是多少?
作為營銷人員,我們自然有興趣去測量一下其客戶流失率和客戶終生價值(公司從用戶長期的所有活動中得到的全部收益的總和),因為這些數字足以建立或摧垮一個企業。 據 Andrew Chen 介紹,投資者通常不會資助初創公司,因為他們普遍有著較高的用戶流失率,以及與行業平均水平相比較高的用戶獲取成本。通常,一家初創企業的用戶年流失率可以高達93,Ashley Madison 的流失率為80%。
Ashley Madison 的客戶終身價值約為400美元。 自2013年10月起,他們每月的用戶質量都呈上升趨勢。這很可能是因為他們在產品上的一系列新動作:推出行動支付、商務旅行特別服務、付費從而獲得更多關注以及(諷刺的)付費徹底刪除帳戶。
每個人都可以利用大數據,只要你以人為本,而不是過度強調平臺、過程和政治。而且,如果你了解 SQL 和/或 Python 基本技能,小數據也可以創造奇蹟。不要害怕,只要掌握了關鍵工具,就可以讓大數據成為你的朋友。
我們也可以粉碎另一個流言:只有數據科學家才能做數據分析。
Josh Attenberg 和 Foster Provost 在紐約大學教授實踐數據科學課程,他們介紹:「人們往往抱怨計算機科學系畢業的數據科學家『只關注技術』,能很好地理解算法,但缺乏重要的技能:對一般問題的界定、評估和分析。另一方面,在商學院接受培訓的人又往往技術水平不達標。」
如果企業想要更快地開始使用大數據,僅僅招聘傳統的數據科學家或 MBA 是不夠的;實際上,每個人都需要具備處理數據的能力。
不過,也有積極的一面,尤其是在營銷上。Andrew Chen 說,「增長黑客」的新職位正在融入矽谷的文化中,擁有編程和技術技能,現在已是一名營銷人員的重要加分項。營銷副總裁(長期以來被認為是非技術性角色)的作用正在快速退化,而且出現了新一代的營銷人員/程式設計師混合體,」
LiveRamp 執行長 Auren Hoffman 在 Quora 上分享:「首席營銷官(CMO)的角色正在發生巨大變化,並且正在成為「香餑餑」。現在的CMO,會以數據為導向,利用客戶行為的顆粒數據,支配產品策略、客戶服務並優化銷售渠道。」
快速瀏覽 Facebook 和 Uber 的營銷職位,也可以印證我們正在經歷的轉型。 Uber 的增長營銷人員除了要能處理和分析複雜的數據集,還將使用 Tableau 等工具,並了解 Python 和 SQL 等語言。
在哪裡找到這些高手? 找到這些工程、計算機科學、數學、經濟學或統計學專業的畢業生? 與此同時,傳統的數字營銷企業仍然停留在 2005 年,並聘請傳媒專業的畢業生來擔任「績效營銷」角色(對此我只能說,祝你們好運)。
這篇文章對你有所啟發?分享到朋友圈,讓更多學習夥伴一起成長!
▲ 本文作者何瀟益,作者授權優達學城(Udacity)翻譯並發表,內容略有刪減。原文請見:https://ecommerceiq.asia/ashley-madison-big-data/
━━━━━
想掌握 Facebook 、Tableau 認證的數據分析能力
成為數字時代搶手技術型人才?
矽谷精品數據分析學習資源推薦:
不會 Tableau、Python、SQL,甚至還沒入門數據科學,但也想成為 Facebook 認證的高薪數據分析師?
加入 Facebook、Tableau、MongoDB 聯合打造的超豪華數據分析師認證課程,你也可以從零基礎到進階,掌握矽谷前沿的數據分析技術!
最新一期課程正在報名中,報名截止至4月26日 23:59。長按識別二維碼或點擊閱讀原文,立即加入,了解更多課程詳情。
加入課程,你將獲得:
學習來自 Facebook、Tableau、MongoDB 等矽谷領先企業的獨家課程內容和實戰項目
獲得一對一技術輔導,加入同步學習小組,在導師監督下快速成長
畢業後獲得行業領導者頒發的認證,獲得工作內推加入頂尖團隊
立即行動,從零開始,成為新時代最需要的數據型人才,用數據洞悉未來,做出成功決策。
在購買時,直接輸入我的微信號ID,既:datakong 即可獲得300優惠。
好了,我只能幫你們到這裡了!
你的朋友也在關注數據科學?立即分享,和好友一起學習更易成功。
Udacity 「數據分析師」 認證項目限時報名中!截止至4月26日 23:59,立即點擊「閱讀原文」,了解詳情並加入!
↓↓↓