相關性 ≠ 因果性

2021-01-08 果殼網

專家說,常食海參使人變得更聰明!

科學研究表明,20~50歲男人射精越頻繁,以後患前列腺癌風險就越低!

你深信以上這種說法嗎?是不是為了變聰明我們就要天天吃海參?是不是為了降低患前列腺癌的風險我們就要天天打飛機?

相信死理性派的讀者,不會輕易就得出結論。但輕易下結論是很多人經常犯的毛病,為了分析類似這種結論的可信程度,我們先來看看這種結論都是如何得出的。

為了研究海參和聰明之間的關係,研究人員通常是這樣做的:

首先在一定的人群中統計一下他們是否平時常吃海參,挑選出常吃海參的一組和不常吃海參的一組。然後進行智商測試,對總體結果進行統計,看看哪一組智商平均值更高,或者直接統計吃海參頻率和智商之間的相關係數。如果常吃海參的一組平均智商得分更高,那麼研究人員就會得出結論:常吃海參和智商高之間是呈正相關的關係的。

但根據這個研究,有的所謂「專家」則聲稱:海參吃得越多智商就越高哦!為了提高智商趕緊吃海參吧!

相關性 ≠ 因果性

即便是假設常吃海參的組平均智商真的更高,並且調查對象人數真的多到了具有統計意義,「專家」的聲明仍然有一個致命的邏輯缺陷:相關性並不代表因果性!這是一個經常被人混淆,也經常被一些團體故意混淆已達到他們自己的目的。兩個變量A和B具有相關性,其原因是有很多種的,並非只有A→B或者B→A這樣的因果關係。一個很常見的導致相關性的可能性是A和B都是同樣的原因造成的:C→A並且C→B,那麼A和B也會表現出明顯的相關性,但並不能說A→B或者B→A。

比如有統計表明,遊泳死亡人數越高,冰糕賣得越多,也就是遊泳死亡人數和冰糕售出量之間呈正相關性,我們可以由此得出結論說吃冰糕就會增加遊泳死亡風險嗎?顯然不可以!這兩個事件顯然都僅僅是夏天到了氣溫升高了所導致的,吃不吃冰糕跟遊泳死亡風險根本沒有任何因果關係。

從這個例子可以明顯看出,只依據統計數據是不足以得出因果性的,想要得出因果性,必須從理論上證明兩個變量之間確實有因果性,並且要排除掉第三個隱含變量同時導致這兩個變量的可能性。

回到海參的例子上來。海參和聰明之間的正相關性,有可能是因為經常吃到海參的家庭一般比較富裕,而富裕的家庭通常可以給孩子提供更好的教育資源,以使得孩子更聰明;也可能是有一個或者多個基因,同時起到了使人喜歡吃海參和提升智商兩種作用。如果不排除這些其他可能性,說吃海參可以導致更聰明的說法就是不可信的,我就絕不會為了提升智商去吃海參。

射精越頻繁,前列腺癌風險越低?

對於什麼是可靠的理論分析,我個人一直持有「無引用不相信」的原則,我們讀到的科普文或者科技新聞,總是經過一次或者幾次轉述,很可能因為需要把某些說法誇張了。所以為了辨別這些說法的真偽,一定要根據文章的引用找到發表在學術期刊上的原文去讀,看看原文的結論是什麼,得出這個結論是用到了什麼方法。而如果沒有引用的話,就應該保留態度,此處存疑,不可盡信。

最後再來說說關於射精頻率和前列腺癌患病率的負相關關係。「20~50歲男人射精越頻繁,以後患前列腺癌風險就越低」,這個問題最近引起了不小的爭論。依舊用「無引用不相信」的原則,我們搜索到一篇 文獻 ,這篇論文依據的正是統計調查,因此其研究結果只得出了相關性的結論,並沒有給出因果關係。原文的最後結論說的很明確也很謹慎:「Our results suggest that ejaculation frequency is not related to increased risk of prostate cancer.」翻譯過來是:「我們的結果表明,射精頻率與前列腺癌發病率的升高並沒有相關關係。」所以不能因此就下這樣的結論:射精越頻繁導致前列腺癌風險越低。至於為了降低患前列腺癌的風險天天打飛機,更不可取。最後還有一點需要說明,相關不等於因果,不代表相關就不可能是因果關係,只不過為了論證因果關係,需要更加嚴密的實證來說明。

相關焦點

  • 為什麼有相關性的事物不一定有因果性?
    但相關性和因果性是兩個不同的概念,換句話說,如果兩個事物之間有因果關係,那麼它們必然具有相關性;但如果兩個事物之間具有相關性,它們不一定具有因果關係。因此,這個例子闡述了一個道理,因果關係是相關性的必要條件,但不是充分條件。而要證明麥克喝水與加州火災沒有因果關係,只需要控制溫度,然後增加麥克喝水量,同時觀察他的每天尿液量和加州火災的變化。事實上,無論麥克喝多少水,都不會導致加州火災的變化。
  • 相關性 ≠ 因果性,用圖的方式打開因果關係
    相關性並不意味著因果關係,那麼如何識別因果關係呢?David Salazar 發布了一系列博客介紹因果關係。在之前的文章中,他將因果關係定義為幹預分布(interventional distribution),並介紹了兩種識別因果關係的策略:後門準則和前門準則。然而,這些準則並不適用於所有因果關係。
  • 試探性調查、描述性調查、因果性調查的區別
    問:試探性調查、描述性調查、因果性調查的區別?  學員您好!很高興能為您提供幫助,您的問題答覆如下:  這三種調查是有區別的。  因果性調查,即檢驗因果關係,如假設兩居室商品住宅每套價格下降10萬元,能夠增加多少購買者。  祝您學習愉快!
  • 時間、因果性與社會學的想像力:與成伯清商榷(孫宇凡,2017)
    (3)當時間維度被進一步二分之後,以敘事、而非變量和機製作為表徵多重實在的策略,仍需進一步引入為敘事策略所用的士多噶因果性(Stoic causality),以證成三種策略的深層差別。在這三點商榷的基礎上,本文以史景遷的兩本著作為例,論述立足於士多噶因果性的敘事策略。
  • 與成伯清商榷:時間、因果性與社會學的想像力(孫宇凡,2017)
    (3)當時間維度被進一步二分之後,以敘事、而非變量和機製作為表徵多重實在的策略,仍需進一步引入為敘事策略所用的士多噶因果性(Stoic causality),以證成三種策略的深層差別。在這三點商榷的基礎上,本文以史景遷的兩本著作為例,論述立足於士多噶因果性的敘事策略。
  • 相關性分析
    定量研究表明,二者之間具有較強的相關性,相關係數達到0.735。這說明透過PMI指數的變化可以較好地預測工業增加值增長率的變化。圖4.5 PMI指數變化與工業增加值環比增長率變化比較2、生產量指數與工業總產值工業總產值環比增長率的變化與生產量指數的變化,二者之間具有較強的相關性,相關係數達到0.771。這說明透過生產量指數的變化可以較好地預測工業總產值增長率的變化。圖4.6 生產量指數變化與工業總產值環比增長率變化比較
  • R-相關性分析
    相關偏相關相關關係可視化第一部分: 相關性分析方法選擇相關分析是研究兩種或兩種以上隨機變量之間的關係的一種統計學方法,可以分析變量間的關係情況以及關係強弱程度等,如身高和體重之間的相關性。對於不同類型的變量,需選擇合適的相關性分析方法,我們常用的相關性分析方法及適用條件如下:1.1 Pearson相關係數最常用,又稱積差相關係數,適用於連續變量之間的相關性分析;使用條件:變量都需符合正態分布1.2 Spearman秩相關係數  適合含有有序分類變量或者全部是有序分類變量的相關性分析;但其屬於非參數方法,檢驗效能較Pearson係數低1.3 無序分類變量的相關性
  • 什麼是期貨品種相關性
    什麼是期貨品種相關性 期貨品種相關性:相關係數是用以反映變量之間相關關係密切程度的統計指標。相關係數是按積差方法計算,同樣以兩變量與各自平均值的離差為基礎,通過兩個離差相乘來反映兩變量之間相關程度;著重研究線性的單相關係數。
  • 談談B肝相關性腎炎
    近來因發現尿中有泡泡,到醫院檢查發現有蛋白尿,住院後經肝腎兩科醫生會診後確定是B肝相關性腎病。奇怪了,為啥B肝攜帶者會得腎病呢?B肝病毒是如何導致腎臟損傷的?B肝相關性腎炎或腎病顧名思義就是這種病與B肝病毒感染有關。它的致病機理目前認為有免疫複合物沉積、B肝病毒直接感染和免疫功能失調三種。
  • 序列滯後相關性 - CSDN
    自相關函數(ACF)表達了時間序列和n階滯後序列之間的相關性(考慮了中間時刻的值的影響,比如t-3對t的影響中,就同時考慮了t-2,t-1對t的影響)。偏自相關函數(PACF)表達了時間序列和n階滯後序列之間的純相關性(不考慮中間時刻的值的影響,比如t-3對t的影響中,不會考慮t-2,t-1對t的影響)。
  • 說說各類資產之間的相關性
    來源:中歐基金分散投資是降低風險的重要方法,而能否真正實現風險分散的關鍵是投資標的相關性如何。相關性越低,風險分散的效果越好。投資標的相關性是指兩個投資標的在某個區間內漲跌相似性,如果二者同漲同跌,表示它們高度相關,二者漲跌越不同步,表示相關性越低。
  • Pearson和Spearman相關性檢驗
    看過許多統計教程,這篇是我最推薦的介 紹Pearson相關用於檢驗兩個數值變量的相關性,應用條件為兩變量均符合正態分布,否則需要採用Spearman相關。除此之外,Spearman相關還可以用於檢驗兩個等級變量的相關性。
  • 為什麼特徵相關性非常的重要?
    雖然它已經在相關性和因果關係的背景下得到了理論上的證明,但本文探討了相關性以及它與因果關係的不同之處。器學習模型的好壞取決於你所擁有的數據。這就是為什麼數據科學家可以花費數小時對數據進行預處理和清理。他們只選擇對結果模型的質量貢獻最大的特徵。這個過程稱為「特徵選擇」。
  • 中國期貨市場相關性一覽表
    各品種間相關性數據分析圖  從和訊金融實驗室最近給出的一張25個主連品種間相關性數據分析圖(圖1)上,我們發現了一些較為顯著的規律和信息。該圖統計了從2010年至今,時間框架為30日的25*24個相關係數矩陣的連續線圖。在每個交易日上,程序計算了將近600數據點。
  • 用Excel做相關性分析
    相關性分析:對變量之間相關關係的分析,即相關性分析。其中比較常用的是線性相關分析,用來衡量它的指標是線性相關係數,又叫皮爾遜相關係數,通常用r表示,取值範圍是[-1,1],四、為什麼要做相關分析1、簡單的相關性分析——如QC做相關性分析,首先,很明顯的一點是,了解兩個或幾個變量之間的關係,在做QC(質量管理)的時候,在要因確認這一項中會用到相關性分析,我們想要知道我們分析出來的末端因素和目標值之間有無相關關係,從而判斷該末端因素對癥結的影響程度。
  • 怎樣運用外匯相關性進行交易?
    相關性是衡量兩個事物在一段時間內的關聯程度的。相關性的範圍在-1~1之間,-1為高度負相關,表示二者移動方向相反,而數值越小,相反的趨勢越明顯。1為高度正相關,表示二者的移動方向相似,而相關度越高,移動的方向越相近。
  • 代碼類似的代幣價格存在相關性嗎?
    接著,我們觀察了每一對代幣的皮爾森相關係數( Pearson correlation ),數值範圍從 -1 (絕對負相關性)到 1 (絕對正相關性)不等。事實證明,許多聽上去很類似的代幣對在價格上確實存在相關性。相關係數最高的一對代幣是 ETH 和 ETC ,相關性高於 0.5 。這個數值反映了適度的相關性。
  • 使用Seaborn和Pandas進行相關性檢查
    作為一個很好的開始,可以檢查變量之間的相關性。研究數據集以查看哪些變量具有相關性時,這是我首先執行的任務之一。這使我更好地了解我正在處理的數據。這也是培養對數據的興趣並建立一些初步問題以嘗試回答的好方法。
  • 增值稅與企業所得稅具有較強的相關性
    河南、山西、浙江、江蘇、福建、深圳等地區的增值稅與企業所得稅按地區相關係數計算,差異較小,說明這些地區增值稅與企業所得稅相關性較高。北京、上海、廣東、天津、寧波、青島等地區,由於總部經濟比較發達,企業所得稅在總機構匯總繳納,增值稅與企業所得稅相關性較低。   企業利潤、增值稅、企業所得稅與企業增加值有很強的相關關係。因為增加值是企業在一定時期內工業生產活動的最終成果貨幣表現形式。