毒大米和死麻雀的大數據邏輯:關注相關性卻忽視因果論證

2020-11-22 IT時代網

毒大米和死麻雀的大數據邏輯:關注相關性卻忽視因果論證

【IT時代周刊編者按】大數據越來越火的同時,不靠譜指數也在上升。馬繼華就這個問題舉了毒大米與死麻雀的例子,就是提醒這些潛心分析大數據的人們,不要忽視了沒有能力拿到或者沒準備卻拿到的部分,更不要在過分關注相關性同時,跳過因果論證的步驟。往往,先入為主的自以為是會導致整個數據分析的無用性。

據說,20隻麻雀吃了散落的大米,死了。

先,有人說,麻雀是吃了有毒大米,中毒死的。

後來,有人說:專家認為麻雀可能是吃多了,撐死的。

再後來,有人又闢謠說:沒有人說過,麻雀是撐死的。

再再後來,有人又闢謠說,大米沒有毒。

再再再後來,有人又闢謠說,大米還沒有賣出去,賣出去的都追回來了。

再再再再後來,有人又闢謠說,還有一部分大米沒追回來,但大米確實沒檢測出有毒。

我們不再說後來了,因為這個故事還沒有完。而且,即便被人為的確定終結,好事者也不會就此認為事情完了。

這次的毒大米與死麻雀的事件,看似傳言繞來繞去,實際上卻是一次典型的大數據分析的實踐,從中可以看出,盲目的所謂大數據分析是多麼的容易誤導公眾。

1.我們找到了所有的麻雀了嗎?

我們不知道誰在現場數數了,可以肯定當時貪吃了大米的就是20隻,如果是很多很多隻,那些麻雀去哪裡了,為何這些麻雀沒有死?

我們做大數據分析,往往號稱拿到了所有的數據,但實際上僅僅是能夠拿到的那部分而已,也許恰恰是那些我們沒有能力拿到或者沒準備卻拿到的部分,將大大影響我們最終的分析結論。當年,美國總統大選,那麼有名的《文學文摘》拿到了240萬的讀者投票意向,最終卻預測失敗,相反,蓋洛普憑藉5000個很小的樣本就預測成功,也是這個道理。

2.這20只麻雀就是那吃了大米的麻雀嗎?

麻雀是否吃了大米,應該比較好檢驗,但是否正好是吃了這一堆大米,卻有點難度。當然,如果是時間比較短,檢驗起來也應該可以確認。總之,我們要確認大米與麻雀之間的相關性。

大數據分析首先要確認事物之間的相關性,而且要密切相關,一對一的直接相關,如果我們僅僅是把毫不相關的或者可能有一點關聯的事物放到一起分析,最終的結論可能很無聊。比如,有人連續看到中央電視臺的《新聞聯播》結束的時候太陽就落山了,由此得出結論,太陽落山與新聞聯播結束相關。

3.麻雀之死是因為吃了大米導致的嗎?

麻雀死了,這是事實;麻雀死之前吃了大米,也是事實。那我們是否可以就說,麻雀之死與大米有關聯呢?也不能下結論。我們需要在麻雀的死亡與吃大米之間構建確切的因果關係,也就是說,我們需要找到麻雀之死的死因,而且這個死因是大米之毒。

大數據分析非常關注相關性,甚至對因果關係不予理睬,但這種相關性卻往往需要因果關係的支撐。只要是關聯密切的直接相關,一定會找到某種因果關係,或者排除某種因果關係。我們做大數據分析,不能僅僅就憑藉簡單的相關來下結論,必須通過嚴謹的因果論證,才能被嚴肅的使用。

4.麻雀之死是因為吃了毒大米導致的嗎?

嚴格來說,麻雀確實有可能是吃大米太多而「撐死」的,我們並不能完全排除這種可能性,所以,專家的話實際上說的在理。即便認定麻雀之死是毒大米造成,還要分析這毒是如何來的,是大米生產過程中還是有人投毒?當然,這就是公安部門的職責了。

我們只有發現了大米有毒,且大米之毒足以致死麻雀,而麻雀也確實是吃進了這些大米,這樣才可以下結論「大米毒死了麻雀」,可事實上輿論早已經拋開了這些邏輯,自顧自的開始從中國的食品安全慣性來考慮。

大數據分析中可能發現很多關聯,這些看似可貴的發現卻多數都可能是無用的,而且,有些可能是毫無意義的。我們需要對其進行深入的分析,特別是要建立起一系列的可證邏輯,由此才可能發現對於我們非常重要的線索,但是,我們卻往往不願意採用「MECE」方法,不想把所有的可能性都考慮到,更願意先入為主的自以為是,而這往往期間是誤判的主要來源。

【IT時代周刊編後】最近有一個很有意思的論調,大意是根據數據測算,東道主巴西問鼎世界盃的勝算較大。據說,算出這個結果的是一套大數據分析模型,在綜合了歷史表現和近期傷病等情況之後,奪冠機率排在前三位的分別是巴西、阿根廷和德國。看到這個結果,相信很多球迷會大跌眼鏡。因為,從目前闖入四分之一決賽的八支隊伍來看,巴西怎麼看都不是最有冠軍氣質的球隊,而阿根廷,因為過多依賴梅西,似乎也無法走得更遠。究竟是數據計算更可靠,還是運氣更重要?【責任編輯/周冬樂】

作者馬繼華,關注移動互聯,醉心數據分析。微信公眾號:北國騎士

來源:IT時代網

IT時代網(關注微信公眾號ITtime2000,定時推送,互動有福利驚喜)所有原創文章版權所有,未經授權,轉載必究。
創客100創投基金成立於2015年,直通矽谷,專注於TMT領域早期項目投資。LP均來自政府、網際網路IT、傳媒知名企業和個人。創客100創投基金對IT、通信、網際網路、IP等有著自己獨特眼光和豐富的資源。決策快、投資快是創客100基金最顯著的特點。

相關焦點

  • 構建富有論證性和說服力的司法論證體系
    □ 姚樹舉綜合運用邏輯推理和論證,構建富有論證性和說服力的司法論證體系,有助於政法隊伍自覺運用邏輯方法進一步提高司法、執法辦案能力,為新時代法治中國建設提供更多優質法治產品。據此,可以認定王鵬具備獲取未公開信息條件與同案犯實際控制帳戶進行高趨同證券交易之間具有相關性。二、根據相關性進行溯因論證,運用間接證明方法排除合理懷疑一般地,相關性可以作為確立因果關係的初步證據。需要注意的是,兩個現象之間具有相關性,是判斷其因果關係的必要條件,並非充分條件。
  • 相關關係並不意味著因果關係 大數據應避免大混亂
    199IT數據中心微信帳戶:i199IT翻譯:騰躍 校對:王晨當今時代,大數據泛濫
  • 邏輯論證 vs 政治論證
    深化技術主要是闡釋,細化技術主要是精密度和具實化,延伸技術主要是應用域外推,隱含義解釋,和類型關聯。論證是對論證對象的確立,論證結構的構件,論證過程的推導,論證方向的選擇,論證結果的界定與升華。論證從類型上可以分為兩大類:邏輯論證和政治論證政治論證昨天那篇說了,是關於說服力的表現,說服力的表現分為叄個相對獨立的方面:人物魅力 character/credibility 情感影響力 emotion 和邏輯理性 reason and logic今天說邏輯論證。
  • 論證有效性分析中,常見的邏輯推理錯誤丨MPAcc聯考
    【MPAcc中國網訊】論證有效性分析中,15個常見的邏輯推理錯誤 。 混淆或偷換概念 混淆概念是在論證中把不同的概念當做同一概念來使用的錯誤。 (2)強加因果 在僅有表面的相關聯之處假定一種因果關係。 (3)嫁接因果 忽視事物產生的真正原因,對事物做出有利於己方觀點的解釋。
  • 政治科學視角下的大數據方法與因果推論
    近年來,伴隨著大數據方法在方法論層面日趨成熟、方法技術日益豐富、研究議題逐步拓展,且與傳統社會科學方法逐步融合,大數據方法推進因果推論的能力逐步完善,革新著數據採集、概念測量、相關性分析、因果性與預測性分析等因果推論的各環節,形成了大數據與統計方法、大數據與小數據分析、大數據與實驗研究、大數據模擬方法等多種生產和檢驗因果性知識的方法路徑。
  • MBA聯考:論證有效性分析中,15個常見的邏輯推理錯誤
    非黑即白 非黑即白又稱假的二難選擇,它側重於指稱以選言和假言陳述為前提進行推理時所產生的非黑即白的謬誤。 絕對化與反例 斷言本身導致了與所斷定的陳述相矛盾的事例產生。 循環論證 循環論證指的是以所主張的觀點本身為根據來證明這種觀點為真的謬誤。其直接形式是:因為A,所以A。間接形式是:因為A,所以B;因為B,所以C;因為C,所以D;因為D,所以A。
  • 醫療大數據應用越來越廣,如何應對數據「欺騙性」?
    醫療領域科學、嚴謹的特性決定人們對醫療大數據的準確性和可靠性具有非常嚴苛的要求,但大數據本身具有一定的欺騙性。Chan等在對精神疾病患者的生物標誌物研究中發現,研究結果再現性差的主要原因是欺詐、不恰當的統計分析等。Ranstam等研究發現,醫學研究中欺詐行為如偽造、篡改數據,欺騙性設計、分析等均為不可忽視的行為。
  • 大數據教育應用的限度
    簡言之,通過數據完整地再現和重構教育。在這個邏輯鏈條中,第一個環節很重要,即教育實踐的可數據化是大數據教育應用的本體論預設和基本邏輯前提。如果第一個環節出現問題,那麼,後續對於大數據教育應用的邏輯論證和實踐展開都需要更加謹慎。因此,無論是正面探討大數據教育應用的現實可能、未來前景,還是分析大數據教育應用可能存在的邊界和局限,都有必要從本體論層面對教育的可數據化這一前提性預設進行分析。
  • 論證邏輯-每日一練(87)
    在灰暗的日子中,不要讓冷酷的命運竊喜;命運既凌辱我,我應該用處之泰然態度予報復 ——莎士比亞VX:考研邏輯聯考論證邏輯測試題11.在試飛新設計的超輕型飛機時,經驗豐富的老飛行員似乎比新手碰到了更多的麻煩。
  • 珀爾:數據非常愚蠢,領會因果關係才是理解世界的關鍵
    這句看似戲言的話,卻暗藏了人工智慧當前最大的發展瓶頸:只會學習和處理數據,卻不懂得像人類一樣去思考和模擬存在於數據之外的其他可能性。正因如此,人工智慧領域先驅、2011年圖靈獎得主朱迪亞·珀爾在本書中直言不諱地寫道:「數據非常愚蠢。」珀爾認為,當前的人工智慧學習系統幾乎完全以統計模式運行,這在理論上嚴重限制了AI的發展。
  • 語文教材裡的「四大論證方法」邏輯混亂,是有害的
    圖:2000年重慶中考考卷中關於「四大論證方法」的試題因為種種緣故,大多數初、高中生,沒有機會接觸到真正的邏輯課程①。這「四大論證方法」,在語文教科書中存在了數十年,極大地塑造了他們的思維模式,塑造了他們寫作和言說的邏輯。
  • 推進大數據、人工智慧等信息技術與人文社會科學研究深度融合
    在大數據時代,運用信息技術有助於人們更加深入透徹地了解人文社會科學研究中的新動向,例如,進一步跟蹤和關注以下具體研究問題。但在有限場景當中,它只能解決部分的問題,而且沒有辦法應對豐富多樣的數據來源,所以要把兩者結合起來,強調模型驅動,也要強調數據驅動。  演繹邏輯和歸納邏輯相結合。無論是演繹邏輯還是歸納邏輯,在大數據支持的研究中都可以採用。從演繹邏輯出發,使用大數據進行檢驗,可以稱之為理論驅動或模型驅動;從歸納邏輯出發,使用大數據進行描述和分析,可以稱之為數據驅動。
  • 相關性 ≠ 因果性,用圖的方式打開因果關係
    選自GitHub作者:David Salazar編輯:陳萍、魔王機器學習方法是預測的有力工具,但是很多領域的工作或研究重視對因果關係的討論。相關性並不意味著因果關係,那麼如何識別因果關係呢?
  • 從「相關關係與因果關係」到「用事實解釋事實」的錯誤
    之前發布了《三條最基本的簡單邏輯》(http://tieba.baidu.com/p/5335472137),最後舉的第三條基本的簡單邏輯是「不得因果跳躍」,這是關於因果關係的邏輯。  注意:這裡並不是要分辨西醫與中醫在這個問題上誰對誰錯,只是我覺得這個例子能很好地示範因果關係與非因果關係的相關關係之間的區別。事實上,西醫與中醫在很多疾病上的解釋不一樣,都是上述的邏輯,即西醫認為是因果關係的,中醫認為是非因果關係的相關關係。  兩種不同的解釋誰對誰錯,則要進行驗證。其一是邏輯驗證,即解釋因果關係中因導致果出現的原理。
  • 公務員行測「本和你無關」——淺談行測「強加因果」的邏輯謬誤
    在公務員考試的行測試卷中,不管是判斷推理還是言語理解與表達,都會在題幹或者選項中出現一種邏輯上的錯誤,那就是「強加因果」。所謂強加因果,就是本來沒有因果關係,卻加上表因果關係的關聯詞語。這屬於典型且簡單的邏輯謬誤。接下來,德宏中公教育專家帶大家一起來認識「強加因果」在不同題型中的體現,從而建立這種邏輯謬誤的敏感性。
  • 演繹邏輯 有效的論證形式
    選自《大問題》附錄二(美)羅伯特·所羅門,凱思林·希金斯張卜天 譯 在「邏輯準備」一章中,我們介紹了陳述的真(或假)與演繹論證的有效(或無效)之間的差別。即使一則論證的前提和結論均為假,它也可能是有效的。例如: 所有的狗都是綠的,蘇格拉底是狗,_____________________因此,蘇格拉底是綠的。 這是一則有效論證,即使它的前提和結論都為假。要使演繹論證能夠保證結論為真,它的前提必須為真,而且該論證必須是有效的。
  • 廣東公布「毒大米」等十大汙染毒害消費者事件
    新華網廣州3月13日電 廣東省消費者委員會今天公布了發生在廣東的十大汙染毒害消費者事件,以警示消費者並提請全社會的關注。  自1998以來,廣東省多次發生有毒大米和有毒食用油毒害消費者事件,並造成重大人員傷亡事故。
  • 廣東韶關農業局就鎘大米非毒大米言論致歉
    中新網韶關7月16日電(李凌 黃雲伍)廣東韶關市農業局16日就該局副局長陳少夢「鎘超標大米不是毒大米韶關市農業局副局長陳少夢近日在廣東省全國人大代表土壤重金屬汙染專題調研座談會上,就自己對鎘大米的認識發表了看法:鎘超標大米並不是毒大米,吃一兩年沒問題。陳少夢說:「鎘是一個長期的汙染,偶爾吃一餐超標的,長期都是安全的,這個可以說是沒事。什麼毒大米,我看吃一兩年沒問題。」該言論15日經媒體報導,引起極大反響。
  • 民航數據分析的相關性原則
    ICAO9859中指出:「以數據為基礎的決策是任何管理系統最重要的方面之一,用於有效決策的數據質量,必須自始至終加以考慮,很多資料庫缺少必要的數據質量,沒有考慮到支持安全風險管理功能和安全保證功能使用的數據局限性,將會產生有缺陷的分析結果,可能導致錯誤的決定。」
  • 文章寫作:幾種常見的論證方法
    因果論證。用揭示事物的因果關係來證明論點的論證方法叫因果證法。它是根據結果和原因之間必然的邏輯關係,用原因作論據,用結果作論點,用原因證明結果的成立。但是,作為論據的原因,必須是直接決定結果的實際情況或者是對這些情況的具體分析,而不是作為論點的理由基礎的原理。要注意二者的區別。