同時測量5個細胞中gene x與gene y的轉錄水平,將其繪製如下。將配對的數據用藍色的小圓點表示,並使用直線展示gene x與gene y表達水平之間的相關趨勢。基於該趨勢,可以用gene x預測gene y的可能取值範圍,也可用gene y預測gene x的可能取值範圍。
「(左圖)強相關」:如果基於gene x的表達量能夠無偏差地預測gene y的表達量,說明二者之間有很強的聯繫;
「(右圖)弱相關」:如果基於gene x的表達量不能較準確地預測gene y的表達量,說明二者之間僅有較弱的聯繫。
「注意不要過度推斷因果關係」 根據結果,我們做出有根據的猜測(Educated guesses),gene x的表達水平低,gene y傾向於低或高水平表達。但是gene x與gene y表達水平的高低之間無因果關係。如果有的話,一定要增加其他的數據證明。
以上涉及的是直線相關,相關係數的取值為【-1,1】:
散點完全在同一條直線上,預測的準確性最高,相關係數的正負號表示相關性的正負。若x與y是同向變化,相關係數等於1,為完全正相關;若x與y是反向變化,相關係數等於-1,為完全負相關。散點不完全在同一直線上,沿直線分布越集中,相關係數越接近1,預測準確性逐漸增加。相反,沿直線分布越分散,相關係數越接近0,預測的準確性逐漸減弱。散點無相關性時,即x與y不相關時,相關係數為0,不能基於x預測y,也不能基於y預測x。2. 相關係數與協方差的區別與聯繫「協方差計算相關係數」
協方差的計算公式:
相關係數的計算公式:
從上面的公式中可以看出:相關係數的計算公式中包括x與y的協方差、x的方差和y的方差。故計算x與y的協方差是計算相關係數的基礎。分母的作用是將協方差的結果調整至[-1,1],故相關係數不受數據scale的影響。
「相同點」:二者符號的正負代表兩變量變化趨勢是同向還是反向;
「差異點」:相關係數的取值與數據的scale無關,不論數據的多少,只要數據完全在同一條直線上(陡峭或者平緩),相關係數就為1或者-1;而協方差取值對數據的scale敏感。這個原因使得協方差本身的意義難以闡釋。
3. 相關係數與p值、預測能力如果兩個變量具有相關性,比如說他們的相關係數為0.8,那麼他們之間的相關性是真實的嗎?回答這個問題,也就是回答他們間的相關係數是否具有統計顯著性,而統計中判斷統計顯著性的方法就是求p值。
「相關係數的p值:數據越多,p值越小,置信度越高。」 在統計學中,p值代表隨機樣本具有某種強度相關性(如r=0.8)或者較該強度更強相關性(r>0.8)的可能性。p值越小,置信度越高。
兩個樣本完全位於同一條直線上,我們不能利用該直線做可靠預測。因為任意2個樣本構成一條直線,此時的p值=1。
3個樣本位於同一直線上時,我們利用該直線做預測的可靠度增加。因為任意3個樣本構成一條直線的概率相對較低,此時的p值較小。
更多的樣本位於同一直線時,我們利用該直線做預測的可靠性進一步增加。因為多個樣本位於同一直線的可能性更低,對應的p值更小。在該數據中,假設p值=2.2 x 10 -6,意味著隨機樣本存在該強度相關性或者更強強度相關性的概率非常小,僅為2.2 x 10 -6。
「相關係數與p值、預測能力:」 樣本之間的相關係數小,僅為0.3,隨著樣本數據的增多,儘管p值逐漸增加,但樣本間的相關係數不發生改變。這意味著在樣本間相關係數較低的時候,增加數據也不能使我們的預測更加準確,增加樣本僅僅增加我們對預測結果的信心(confidence)。具體而言,在3個樣本量不同的數據中,我們的預測結果均不準確。在樣本數量最多的數據中,即使我們對預測結果的信息很大,但預測依然比較糟糕。
4. 相關係數與R2前面我們提及r越接近±1,直線的預測能力就越準確,但是如何量化不同r之間的預測準確性呢?如分別對r為0.7和0.5的數據做預測,是否前者的預測性能優於後者兩倍?
這個問題很難再用相關係數進行回答,而應該用R2, R2=r x r。
如果r=0.9(顯著),則R2 =0.81,說明兩變量間的關係可以較好的解釋數據的變異(也就是說,x與y的相關性可以解釋81%y的變異)。如果r=0.7(顯著),則R2 =0.7 x 0.7=0.5,說明x與y的相關性可以解釋50%y變異。如果r=0.5(顯著),則R2 =0.5 x 0.5=0.25,說明兩變量間的關係不能較好解釋變異,相反還有解釋75%變異的其他因素。對於r=0.7和r=0.5,前者R2是後者R2的2倍,故r=0.7的預測性能是r=0.5預測性能的兩倍。R2的計算與R2的意義:如果我們記錄小鼠的大小和體重,並將其繪製在如下二維坐標中。考慮小鼠體積時的擬合效果(藍色斜線)優於僅用小鼠體重均值數據(黑色水平線)擬合效果。這是因為小鼠體積和體重的關係可以解釋一部分體重的變異。如何量化小鼠體積和體重關係解釋的變異呢?這就需要用到R2。具體計算(公式見上方截圖):R2= 擬合直線解釋的變異(VAR(mean)-VAR(fit))佔均值變異(VAR(mean))的百分比此處計算得出R2為81%,代表圍繞擬合直線的變異較圍繞均值變異少81%,表示由小鼠體積和體重關係解釋的變異佔體重總體變異的81%,說明小鼠體重的絕大部分變異可以由小鼠體積與小鼠體重的關係解釋。如果我們分別記錄小鼠做某件事(sniff a rock)的時間與小鼠的體重。在上面的兩個例子中,我們可以得出:變量間的關係也許可以完美解釋其中一個變量的變化(小鼠體重與體積),也許幾乎不能揭示其中一個變量的變化(小鼠做某事的時間與小鼠的體重)。故R2取值範圍[0,1],這取決於相關係數r的取值範圍為[-1,1]。5.小結在本小節中,我們進一步了解了相關係數與協方差的關係,通過p值來評估r與R2的可信度,隨後我們也了解了R2可以量化不同相關係數r之間的預測準確性。本小節基本概念較多,需要掌握的夥伴可以觀察本小節涉及的原視頻(下方連結或B站關鍵字搜索),同時也要多多查閱書籍。
1. https://www.youtube.com/watch?v=qtaqvPAeEJY&list =PLblh5JK OoLUK0FLuzwntyYI10UQFUhsY9&index=15
2. https://www.youtube.com/watch?v=xZ_z8KWkhXE&list =PLblh5JK OoLUK0FLuzwntyYI10UQFUhsY9&index=16
3.https://www.youtube.com/watch?v=2AQKmw14mHM&list=PLblh5JKOoLUK0FLuzwntyYI10UQFUhsY9&index=17
編輯:呂瓊
校審:羅鵬