協方差(covariance)與相關係數(2)

2021-01-14 珠江腫瘤
1. 相關係數(pearson' correlation)

同時測量5個細胞中gene x與gene y的轉錄水平,將其繪製如下。將配對的數據用藍色的小圓點表示,並使用直線展示gene x與gene y表達水平之間的相關趨勢。基於該趨勢,可以用gene x預測gene y的可能取值範圍,也可用gene y預測gene x的可能取值範圍。

「(左圖)強相關」:如果基於gene x的表達量能夠無偏差地預測gene y的表達量,說明二者之間有很強的聯繫;

「(右圖)弱相關」:如果基於gene x的表達量不能較準確地預測gene y的表達量,說明二者之間僅有較弱的聯繫。

「注意不要過度推斷因果關係」 根據結果,我們做出有根據的猜測(Educated guesses),gene x的表達水平低,gene y傾向於低或高水平表達。但是gene x與gene y表達水平的高低之間無因果關係。如果有的話,一定要增加其他的數據證明。

以上涉及的是直線相關,相關係數的取值為【-1,1】:

散點完全在同一條直線上,預測的準確性最高,相關係數的正負號表示相關性的正負。若x與y是同向變化,相關係數等於1,為完全正相關若x與y是反向變化,相關係數等於-1,為完全負相關。散點不完全在同一直線上,沿直線分布越集中,相關係數越接近1,預測準確性逐漸增加。相反,沿直線分布越分散,相關係數越接近0,預測的準確性逐漸減弱。散點無相關性時,即x與y不相關時,相關係數為0不能基於x預測y,也不能基於y預測x。2. 相關係數與協方差的區別與聯繫

「協方差計算相關係數」

協方差的計算公式:

相關係數的計算公式:

從上面的公式中可以看出:相關係數的計算公式中包括x與y的協方差、x的方差和y的方差。故計算x與y的協方差是計算相關係數的基礎。分母的作用是將協方差的結果調整至[-1,1],故相關係數不受數據scale的影響

「相同點」二者符號的正負代表兩變量變化趨勢是同向還是反向;

「差異點」相關係數的取值與數據的scale無關,不論數據的多少,只要數據完全在同一條直線上(陡峭或者平緩),相關係數就為1或者-1;而協方差取值對數據的scale敏感。這個原因使得協方差本身的意義難以闡釋

3. 相關係數與p值、預測能力

如果兩個變量具有相關性,比如說他們的相關係數為0.8,那麼他們之間的相關性是真實的嗎?回答這個問題,也就是回答他們間的相關係數是否具有統計顯著性,而統計中判斷統計顯著性的方法就是求p值。

「相關係數的p值:數據越多,p值越小,置信度越高。」 在統計學中,p值代表隨機樣本具有某種強度相關性(如r=0.8)或者較該強度更強相關性(r>0.8)的可能性。p值越小,置信度越高。

兩個樣本完全位於同一條直線上,我們不能利用該直線做可靠預測。因為任意2個樣本構成一條直線,此時的p值=1。

3個樣本位於同一直線上時,我們利用該直線做預測的可靠度增加。因為任意3個樣本構成一條直線的概率相對較低,此時的p值較小。

更多的樣本位於同一直線時,我們利用該直線做預測的可靠性進一步增加。因為多個樣本位於同一直線的可能性更低,對應的p值更小。在該數據中,假設p值=2.2 x 10 -6,意味著隨機樣本存在該強度相關性或者更強強度相關性的概率非常小,僅為2.2 x 10 -6。

「相關係數與p值、預測能力:」 樣本之間的相關係數小,僅為0.3,隨著樣本數據的增多,儘管p值逐漸增加,但樣本間的相關係數不發生改變。這意味著在樣本間相關係數較低的時候,增加數據也不能使我們的預測更加準確,增加樣本僅僅增加我們對預測結果的信心(confidence)。具體而言,在3個樣本量不同的數據中,我們的預測結果均不準確。在樣本數量最多的數據中,即使我們對預測結果的信息很大,但預測依然比較糟糕。

4. 相關係數與R2

前面我們提及r越接近±1,直線的預測能力就越準確,但是如何量化不同r之間的預測準確性呢?如分別對r為0.7和0.5的數據做預測,是否前者的預測性能優於後者兩倍?

這個問題很難再用相關係數進行回答,而應該用R2, R2=r x r。

如果r=0.9(顯著),則R2 =0.81,說明兩變量間的關係可以較好的解釋數據的變異(也就是說,x與y的相關性可以解釋81%y的變異)。如果r=0.7(顯著),則R2 =0.7 x 0.7=0.5,說明x與y的相關性可以解釋50%y變異。如果r=0.5(顯著),則R2 =0.5 x 0.5=0.25,說明兩變量間的關係不能較好解釋變異,相反還有解釋75%變異的其他因素。對於r=0.7和r=0.5,前者R2是後者R2的2倍,故r=0.7的預測性能是r=0.5預測性能的兩倍。R2的計算與R2的意義:如果我們記錄小鼠的大小和體重,並將其繪製在如下二維坐標中。考慮小鼠體積時的擬合效果(藍色斜線)優於僅用小鼠體重均值數據(黑色水平線)擬合效果。這是因為小鼠體積和體重的關係可以解釋一部分體重的變異。如何量化小鼠體積和體重關係解釋的變異呢?這就需要用到R2。具體計算(公式見上方截圖):R2= 擬合直線解釋的變異(VAR(mean)-VAR(fit))佔均值變異(VAR(mean))的百分比此處計算得出R2為81%,代表圍繞擬合直線的變異較圍繞均值變異少81%,表示由小鼠體積和體重關係解釋的變異佔體重總體變異的81%,說明小鼠體重的絕大部分變異可以由小鼠體積與小鼠體重的關係解釋。如果我們分別記錄小鼠做某件事(sniff a rock)的時間與小鼠的體重。在上面的兩個例子中,我們可以得出:變量間的關係也許可以完美解釋其中一個變量的變化(小鼠體重與體積),也許幾乎不能揭示其中一個變量的變化(小鼠做某事的時間與小鼠的體重)R2取值範圍[0,1],這取決於相關係數r的取值範圍為[-1,1]。5.小結

在本小節中,我們進一步了解了相關係數與協方差的關係,通過p值來評估r與R2的可信度,隨後我們也了解了R2可以量化不同相關係數r之間的預測準確性。本小節基本概念較多,需要掌握的夥伴可以觀察本小節涉及的原視頻(下方連結或B站關鍵字搜索),同時也要多多查閱書籍。

1. https://www.youtube.com/watch?v=qtaqvPAeEJY&list =PLblh5JK OoLUK0FLuzwntyYI10UQFUhsY9&index=15


2. https://www.youtube.com/watch?v=xZ_z8KWkhXE&list =PLblh5JK OoLUK0FLuzwntyYI10UQFUhsY9&index=16


3.https://www.youtube.com/watch?v=2AQKmw14mHM&list=PLblh5JKOoLUK0FLuzwntyYI10UQFUhsY9&index=17



編輯:呂瓊

校審:羅鵬


相關焦點

  • 協方差與相關係數
    協方差協方差這個玩意兒,好多同學仍舊是一頭霧水,而後面再加上相關係數更是讓人一臉懵逼,今天我們就來認認真真研究下。在此之前呢,我們來看一下方差。方差總該知道是啥吧?為啥分母是n-1而不是n呢?這個問題我們之前討論過,這裡不再贅述。
  • 皮爾森相關係數的計算
    我們剛剛發明了協方差(covariance)!協方差可以代表變量x和y的線性關係的強弱(絕對值大小)以及方向(正負),但它也有缺陷。閉上眼睛想像一下,假設x是身高,單位是釐米,y是體重,單位是公斤,現在我把x的單位換成毫米,於是所有的x值都會「憑空」擴大10倍,x和y的協方差也會擴大10倍。這就有點不靠譜了!
  • 協方差和相關係數的主要計算方法
    協方差和相關係數的主要計算方法 http://kaoyan.eol.cn  中國教育在線考研頻道    2006-11-10  大 中 小
  • 方差-協方差法VaR計量模型選擇
    因此,方差—協方差方法中,資產組合的協方差矩陣是計算VaR的關鍵環節。     在VaR的計算中,波動性模型和估值模型是其核心和難點。不同的波動性模型和估值模型構成了VaR計算的不同方法。實際金融數據具有一些基本特徵,如尖峰厚尾性、波動集聚及爆發性、自相關及序列相關性等,模型的提出或改進都是基於這些基本特徵的。
  • 期望、方差與協方差
    協方差協方差在概率論和統計學中用于衡量兩個變量的總體誤差。而方差是協方差的一種特殊情況,即當兩個變量是相同的情況。協方差表示的是兩個變量的總體的誤差,這與只表示一個變量誤差的方差不同。 。。所以,我們可以定義一個表示
  • 從協方差分析看回歸與方差分析的聯繫
    因此,在這種情況下,「收入」這個變量就被稱為「協變量」,可以記為「Z」。納入協變量的方差分析,即稱協方差分析。一般而言,進行協方差分析的協變量為「定量變量」,比如本例中的「人均月收入」,它一般不是研究者重點研究的變量(本例中重點研究的是教育程度和性別),但因為它會對分析結果造成幹擾,因此在分析過程中必須要將其納入。
  • 相關係數之Pearson
    定義說到相關係數需要了解的 3 個概念:相關分析、數據期望、協方差。先分別說明這些概念。
  • ML基礎:協方差矩陣!
    在翻譯sklearn文檔 2.無監督學習部分過程中,發現協方差矩陣幾乎貫穿整個章節,但sklearn指導手冊把協方差部分放在了這一章節偏後的部分,作為機器學習一個基礎概念,在這篇文章中,想把協方差矩陣的相關知識以及主要應用。統計學中常用平均值,方差,標準差等描述數據。
  • 協方差矩陣是什麼_協方差矩陣計算公式_如何計算協方差矩陣
    打開APP 協方差矩陣是什麼_協方差矩陣計算公式_如何計算協方差矩陣 發表於 2017-12-05 15:58:43
  • 教程| 從特徵分解到協方差矩陣:詳細剖析和實現PCA算法
    n 個樣本的方差卻只除以 n-1 是因為樣本只是真實分布的估計量,樣本方差也只是真實方差的估計量。在大學課本概率論和數理統計中有證明,如果除以 n(2 階中心矩),那麼樣本方差是真實方差的一致性估計,但並不是無偏估計,也就是樣本方差存在系統偏差。因此我們需要對 2 階中心矩進行調整以消除系統偏差。
  • spss協方差分析
    什麼是協方差分析?協方差分析又稱「共變量分析」,是方差分析的引申和擴大。於是召集了35名男生,35名女生,在跑步前測的心率x1,跑步後測心率x2。那麼分析男生和女生跑步後的心率差異怎麼做呢?直接使用跑步後的心率進行t檢驗,那麼得出的結果是不準確的,因為在跑步前男生和女生的心率就有一定的差異。所以需要一種方法消除跑步前心率的影響,那麼,此刻就要使用協變量分析。
  • 最直觀的方差分析(ANOVA) 術語大全
    方差分析ANOVA詞意:analysis of variance,取單詞的前兩個字母組合而成。2. 方差分析的統計學分析基礎是F分布。提出一個案例來展開概念:為測試兩個治療方法,對焦慮症的治療效果,招募了十個有焦慮症的志願者來做實驗。
  • Pearson(皮爾遜)相關係數
    相關係數:考察兩個事物(在數據裡我們稱之為變量)之間的相關程度。如果有兩個變量:X、Y,最終計算出的相關係數的含義可以有如下理解:(1)、當相關係數為0時,X和Y兩變量無關係。(2)、當X的值增大(減小),Y值增大(減小),兩個變量為正相關,相關係數在0.00與1.00之間。
  • 如何在黎曼意義下定義相關矩陣的內均值?
    這兩個黎曼矩陣在非常相似的空間(高斯分布的密度是用相同的均值進行參數化,協方差可以識別到協方差矩陣中)上的這種聯繫通過Fréchet-Darmois-Cramér-Rao不等式給出了很好的統計解釋:黎曼矩陣引起的協方差矩陣空間的曲率是統計估計不確定性的簡單函數。
  • 快速處理數據分析之協方差分析
    如果方差分析時需要考慮幹擾項,此時就稱之為協方差分析,而幹擾項也稱著「協變量」。前提條件(1) 協方差分析中,X是定類數據,Y是定量數據;協變量通常為定量數據;如果協變量是定類數據,可考慮將其納入X即自變量中,或者將協變量做虛擬變量處理。
  • 基於FPGA的複數浮點協方差矩陣實現
    故目前國內外協方差運算的FPGA實現都是採用定點運算方式。 在所有運算都是定點運算的情況下,每次乘法之後數據位寬都要擴大一倍。若相乘後的數據繼續做加減運算,為了保證數據不溢出,還必須將數據位寬擴展一位,而協方差矩陣的運算核心就是乘累加單元,隨著採樣點數的增加,位寬擴展呈線性增加。最終導致FPGA器件資源枯竭,無法實現設計。
  • CG03-投資項目的風險及風險的衡量方法:預期值、標準差、方差、變異係數
    風險:是預期結果的不確定性,    即包括負面效應的不確定,也包括正面效應的不確定性財管中所說的風險,是與收益相關的風險
  • 相關係數種類
    首先,Pearson相關係數的前提條件是要兩個變量滿足近似正態分布。這要求在計算相關係數前,要作正態性檢驗。而且,多數情況下變量不一定滿足正態分布的,這就無法使用Pearson相關係數。其次,Pearson相關係數是在方差和協方差的基礎上得到的,對離群值比較敏感。
  • R語言統計篇: 單因素協方差分析
    方差分析(One-way ANCOVA)可以研究一個分類變量對一個連續變量的影響,同時校正其他變量的作用,這些變量也稱為協變量(Covariate)。也是單因素方差分析(One-way ANOVA,R語言統計篇:單因素方差分析)的一個延伸。比方說,我們現在想要研究不同BMI(偏輕,正常與超重)與空腹血糖的關係,同時校正血壓水平。在此研究中,BMI分組是一個分類變量(自變量),血糖是一個連續變量(因變量),血壓則是一個協變量(covariate)。c.