要說P、Z之前(本文的P、Z寫法,請忽略大小寫),我們先看看一個中學化學的概念:PH值。
另外,還要糾正一個說法,p 是一個值(p value),而z是一個得分(z scores),上篇文章中,稱謂出錯了。
就像上面那個PH試紙的標尺,從中間往兩邊延伸,表示酸鹼的強度。理論上,自然界的物質,基本上以7為中心的泊松分布,就像下面這樣:
相對於極度的強酸和極度的強鹼,在自然界中的含量都是比較少的,更多的都是中性或者是弱酸或者弱鹼的物質。
PH值就是用來度量酸鹼度的東東,那麼我們今天要說的P、Z就類似於PH值這樣一個概念,也是用來衡量空間分布模式,而且最關鍵的,它的值也有一個和PH試紙一樣的參考標尺。
首先看看,空間分布的模式,一般來說,有三種,分別是離散的、隨機的、和聚合的。
離散的概念就是指觀測的每個數據之間的差異程度,離散程度越大,差異性就越大。
聚合與離散正好相反,表示在一定區域內的相關程度,就是聚合程度越大,相關性就越大。
隨機就不用說了,純粹的無模式,你既不能從隨機數據中獲取結論,也發現不了規律和模式。
拿到數據之後,我們都要進行零假設,然後驗證這份數據是不是具有隨機模式,如果有很大的概率是隨機模式,那麼這份數據的可分析性,基本上就微乎其微了(比如布朗運動的運動規律,估計沒有哪個人會無聊的去做研究,一方面根本就研究不出什麼結果來嘛,另一方面是隨機結果的分析也不具有可重現性)。
P值和Z得分分別表什麼呢?
p值(P-Value,Probability,Pr),代表的是概率。它是反映某一事件發生的可能性大小。在空間相關性的分析中,p值表示所觀測到的空間模式是由某一隨機過程創建而成的概率。比如我說,你計算出來的p值是1,那就表示你用於計算的這份數據,100%是隨機生成的了(當然,不可能是1的,0.5以上就也不得了)。如果是0.1,就表示只有10%的可能性是隨機生成的結果。
這樣看來,p值是越小越好,但是小到什麼樣的程度才會最好呢?後面我們會就這個問題繼續討論。
z得分(Z scores)表示標準差的倍數(standarddeviations)。
先看看「標準差」是什麼,在官方的解釋是:「總體各單位標準值與其平均數離差平方的算術平均數的平方根」,好吧,我知道這個概念有點繞口,你就知道記住「標準差能反映一個數據集的離散程度」,就可以了。
那麼z得分,就是標準差的倍數(有正負之分),比如z得分是+2.5,就表示你的數據計算出來,得到的結果是標準差的正2.5倍,那麼就表示數據已經高度聚集了。反之,如果你算出來的是-2.5,那麼就表示你的結果是標準差的負2.5倍,就是高度離散的數據了。
P值和Z得分,一般都是一起出現的,如下圖所示:
可以看見,p值與z值是有相關性的。上面這個標尺就是p值和z得分的"PH試紙標準比色卡"。
按照這個分布趨勢,我們可以看出,數據高度聚集和高度離散,都是小概率的事件。如果你計算出來的p值和z得分,被分布在了兩端,就說明你的數據出現隨機模式的概率非常低了。
一般來說,要進行數據分析,我們首先就要設立一個置信度,也就是說,你要設定你的數據,起碼要有多大的可能性,被落在你期望的區間內。
如,一拿到數據,我們最先就要想,這份數據起碼應該有絕大部分的值,不是隨機的(也就說,是應該有規律的),這個絕大部分到底應該被量化為多少呢?一般來說,我們會選擇90%,或者95%或者99%。那麼99%是最極端的情況,表示你能夠完全的確認,這份數據沒有任何的隨機可能(只有1%的可能是隨機創建的),完全的接受了零假設。
下表顯示了不同置信度下未經校正的臨界 p 值和臨界 z 得分。
z 得分(標準差)
p 值(概率)
置信度
< -1.65 或 > +1.65
< 0.10
90%
< -1.96 或 > +1.96
< 0.05
95%
< -2.58 或 > +2.58
< 0.01
99%
「未經校正」就所謂的「經驗參數」,當然還有一個「錯誤發現率(FDR)」工具,可以對p 值的臨界點進行校正。這些校正後臨界值會等於或小於上面的表所示的值。
對於這個FDR工具,先挖個坑,以後填。
最後,我們最後來解讀一份數據
這個是通過ArcMap的全局莫蘭指數計算出來的結果,我們暫時跳過期望指數和方差,直接看我們這幾天講的內容。
莫蘭指數是大於0.7,z得分是大於1.96,p值為大於0.04小於0.05,對照上面那個對比標尺,所以就能得出以下的結果:
1、莫蘭指數是正數,而且大於0.7,就表示這份數據具有空間正相關性,數據集的用於分析的值與空間聚集度成正比。
2、p值小於0.05,所以本數據是隨機生成的概率只有5%(95%的置信度)。
3、z得分大於1.96,說明這份數據的呈現了明顯的聚類特徵。
那麼總體說,p值代表數據來源的可靠性,z得分和莫蘭指數都表示此數據有明顯的規律。
最後來看看,這是一份什麼數據:
這是北京市2013年9月的房價數據(友情感謝小強同學提供)。這份數據是通過爬蟲從網絡上扒下來的,自然不會是隨機生成,而且房價的數據確實是明顯有聚集特性和空間正相關的。
這樣,通過計算,驗證了我們的猜測和觀點。
關於P值和Z得分的內容,後面還有,未完待續。
前面的文章,可以先關注蝦神的公眾號,然後查看歷史信息就行。或者點擊原文連結,去看蝦神我的博客。