【IT時代周刊編者按】大數據越來越火的同時,不靠譜指數也在上升。馬繼華就這個問題舉了毒大米與死麻雀的例子,就是提醒這些潛心分析大數據的人們,不要忽視了沒有能力拿到或者沒準備卻拿到的部分,更不要在過分關注相關性同時,跳過因果論證的步驟。往往,先入為主的自以為是會導致整個數據分析的無用性。
據說,20隻麻雀吃了散落的大米,死了。
先,有人說,麻雀是吃了有毒大米,中毒死的。
後來,有人說:專家認為麻雀可能是吃多了,撐死的。
再後來,有人又闢謠說:沒有人說過,麻雀是撐死的。
再再後來,有人又闢謠說,大米沒有毒。
再再再後來,有人又闢謠說,大米還沒有賣出去,賣出去的都追回來了。
再再再再後來,有人又闢謠說,還有一部分大米沒追回來,但大米確實沒檢測出有毒。
我們不再說後來了,因為這個故事還沒有完。而且,即便被人為的確定終結,好事者也不會就此認為事情完了。
這次的毒大米與死麻雀的事件,看似傳言繞來繞去,實際上卻是一次典型的大數據分析的實踐,從中可以看出,盲目的所謂大數據分析是多麼的容易誤導公眾。
1.我們找到了所有的麻雀了嗎?
我們不知道誰在現場數數了,可以肯定當時貪吃了大米的就是20隻,如果是很多很多隻,那些麻雀去哪裡了,為何這些麻雀沒有死?
我們做大數據分析,往往號稱拿到了所有的數據,但實際上僅僅是能夠拿到的那部分而已,也許恰恰是那些我們沒有能力拿到或者沒準備卻拿到的部分,將大大影響我們最終的分析結論。當年,美國總統大選,那麼有名的《文學文摘》拿到了240萬的讀者投票意向,最終卻預測失敗,相反,蓋洛普憑藉5000個很小的樣本就預測成功,也是這個道理。
2.這20只麻雀就是那吃了大米的麻雀嗎?
麻雀是否吃了大米,應該比較好檢驗,但是否正好是吃了這一堆大米,卻有點難度。當然,如果是時間比較短,檢驗起來也應該可以確認。總之,我們要確認大米與麻雀之間的相關性。
大數據分析首先要確認事物之間的相關性,而且要密切相關,一對一的直接相關,如果我們僅僅是把毫不相關的或者可能有一點關聯的事物放到一起分析,最終的結論可能很無聊。比如,有人連續看到中央電視臺的《新聞聯播》結束的時候太陽就落山了,由此得出結論,太陽落山與新聞聯播結束相關。
3.麻雀之死是因為吃了大米導致的嗎?
麻雀死了,這是事實;麻雀死之前吃了大米,也是事實。那我們是否可以就說,麻雀之死與大米有關聯呢?也不能下結論。我們需要在麻雀的死亡與吃大米之間構建確切的因果關係,也就是說,我們需要找到麻雀之死的死因,而且這個死因是大米之毒。
大數據分析非常關注相關性,甚至對因果關係不予理睬,但這種相關性卻往往需要因果關係的支撐。只要是關聯密切的直接相關,一定會找到某種因果關係,或者排除某種因果關係。我們做大數據分析,不能僅僅就憑藉簡單的相關來下結論,必須通過嚴謹的因果論證,才能被嚴肅的使用。
4.麻雀之死是因為吃了毒大米導致的嗎?
嚴格來說,麻雀確實有可能是吃大米太多而「撐死」的,我們並不能完全排除這種可能性,所以,專家的話實際上說的在理。即便認定麻雀之死是毒大米造成,還要分析這毒是如何來的,是大米生產過程中還是有人投毒?當然,這就是公安部門的職責了。
我們只有發現了大米有毒,且大米之毒足以致死麻雀,而麻雀也確實是吃進了這些大米,這樣才可以下結論「大米毒死了麻雀」,可事實上輿論早已經拋開了這些邏輯,自顧自的開始從中國的食品安全慣性來考慮。
大數據分析中可能發現很多關聯,這些看似可貴的發現卻多數都可能是無用的,而且,有些可能是毫無意義的。我們需要對其進行深入的分析,特別是要建立起一系列的可證邏輯,由此才可能發現對於我們非常重要的線索,但是,我們卻往往不願意採用「MECE」方法,不想把所有的可能性都考慮到,更願意先入為主的自以為是,而這往往期間是誤判的主要來源。
【IT時代周刊編後】最近有一個很有意思的論調,大意是根據數據測算,東道主巴西問鼎世界盃的勝算較大。據說,算出這個結果的是一套大數據分析模型,在綜合了歷史表現和近期傷病等情況之後,奪冠機率排在前三位的分別是巴西、阿根廷和德國。看到這個結果,相信很多球迷會大跌眼鏡。因為,從目前闖入四分之一決賽的八支隊伍來看,巴西怎麼看都不是最有冠軍氣質的球隊,而阿根廷,因為過多依賴梅西,似乎也無法走得更遠。究竟是數據計算更可靠,還是運氣更重要?【責任編輯/周冬樂】
作者馬繼華,關注移動互聯,醉心數據分析。微信公眾號:北國騎士
來源:IT時代網
IT時代網(關注微信公眾號ITtime2000,定時推送,互動有福利驚喜)所有原創文章版權所有,未經授權,轉載必究。
創客100創投基金成立於2015年,直通矽谷,專注於TMT領域早期項目投資。LP均來自政府、網際網路IT、傳媒知名企業和個人。創客100創投基金對IT、通信、網際網路、IP等有著自己獨特眼光和豐富的資源。決策快、投資快是創客100基金最顯著的特點。