多元統計分析中,距離是衡量樣品和變量間相似性和差異性的常用測度。許多多元方法都是以距離為基礎建立起來的。Minkowski距離是多元統計中最常見的一種距離形式,不同參考資料的翻譯名稱不同,有些叫閔可夫斯基距離,也有資料稱作明考斯基距離,建議記憶其英文名稱。本文主要包括三部分:①閔可夫斯基距離及其分類。②曼哈頓距離和切比雪夫距離的相互轉化。③閔式距離的SPSS實現
一、閔可夫斯基距離
閔可夫斯基距離(Minkowski Distance)又叫做閔氏距離,是一組距離的定義,其計算公式為如下圖。根據q取值的不同,閔氏距離可分為曼哈頓距離、歐氏距離和切比雪夫距離等。
1. 曼哈頓距離
當q=1時的一階Minkowski距離稱為絕對值距離,又叫做曼哈頓距離(Manhattan Distance)。曼哈頓距離標明兩個點在標準坐標系上的絕對軸距總和。其計算公式為:
下列是兩個樣品的數據,每個樣品測定兩個指標。按照上面的計算公式,樣品1(1,2)首先按橫坐標向右移動1個單位變為2,然後按縱坐標向上移動1個單位變為3,即可達到樣品2的位置(2,3),因此其曼哈頓距離為1+1=2,即下圖藍線的路徑之和。實際上下圖綠色虛線也可使樣品1達到樣品2,綠色虛線和藍色線段的距離相等,二者都是兩樣品間的曼哈頓距離。
2. 歐氏距離
當q=2時,二階Minkowski距離稱為歐幾裡得距離或歐氏距離(Euclidean distance)。歐氏距離是坐標系內兩點的直線距離。其計算公式如下:
同樣以上面兩樣品的例子,樣品1(1,2)與樣品2(2,3)之間的歐氏距離,可按照其曼哈頓距離根據勾股定理算得,如下圖紅線所示。
3. 切比雪夫距離
當→∞時,Minkowski距離可以轉化為切比雪夫距離(Chebyshev distance),其計算公式為:
二、切比雪夫距離和曼哈頓距離的相互轉化
切比雪夫距離和曼哈頓距離可通過坐標旋轉的方法相互轉化。坐標旋轉是多元統計分析中的常用方法。通常以距離為基礎的分析方法,常用坐標旋轉的方法,以達到變換和簡化數據的目的,如因子分析、主成分分析等。本文通過下面三個步驟展示切比雪夫距離和曼哈頓距離的轉化方法,藉以明確二者之間的內在聯繫。
1. 將與原點的曼哈頓距離為1的所有點畫在笛卡爾坐標系中,構成一個正方形ABCD。如下圖所示,藍線構成的正方形上,所有點距離原點(0,0)的曼哈頓距離均為1。
2. 同樣將與原點的切比雪夫距離為1的所有點畫在笛卡爾坐標系中,構成一個正方形A』B』C』D』。如下圖所示,綠線構成的正方形上,所有點距離原點(0,0)的切比雪夫距離均為1。
3. 將上圖中曼哈頓距離正方形先向右旋轉45度,如下圖所示,然後將圖(2)的橫縱坐標同時縮小√2 倍,得到變換後的切比雪夫距離。該距離與曼哈頓距離正方形等價,變換完成。
三、閔式距離的SPSS實現
1. 本例採用10個樣品4個指標性狀的一批實驗數據,首先將數據導入SPSS中。
2. 依次點擊SPSS菜單的「分析」→「相關」→「距離」,在彈出的對話框中,將測定的4個性狀或指標導入變量窗口。將10個品種或樣品導入標註個案窗口。點擊度量彈出「距離」設定窗口,設定所要計算的距離。如下圖所示:
3. 在「距離」設定窗口,Euclidean距離表示歐氏距離,chebychev距離表示切比雪夫距離,Minkowski距離表示閔可夫斯基距離。在下面的轉換值窗口,可以設定數據標準化方法,此處選擇「Z得分」法。如果要計算樣品間的距離,則應選擇「按照變量」進行標準化。
4. 上述參數設定好後,點擊繼續,運行SPSS計算所選的距離。下圖是選擇「Minkowski距離」,標準化採用「Z得分」法時計算出的距離,此時該計算距離為曼哈頓距離。下圖中Minkowski(1)表示計算的是曼哈頓距離。此時「冪」的值設定為1.表格下方的「不相似矩陣」,表示計算的是樣品間的距離,而不是相似程度。
閔式距離在實際中應用廣泛,但也存在一些缺點,例如閔式距離的大小與各指標的觀測單位有關,具有一定的人為性。另一方面,閔式距離默認變量間相互獨立,彼此之間無相關性。通常可通過數據標準化和採用其他統計距離克服這些缺點,如蘭斯距離、馬氏距離等,將在以後再做介紹。