閔式距離詳解及其SPSS實現

2021-01-10 一花視界

多元統計分析中,距離是衡量樣品和變量間相似性和差異性的常用測度。許多多元方法都是以距離為基礎建立起來的。Minkowski距離是多元統計中最常見的一種距離形式,不同參考資料的翻譯名稱不同,有些叫閔可夫斯基距離,也有資料稱作明考斯基距離,建議記憶其英文名稱。本文主要包括三部分:①閔可夫斯基距離及其分類。②曼哈頓距離和切比雪夫距離的相互轉化。③閔式距離的SPSS實現

一、閔可夫斯基距離

閔可夫斯基距離(Minkowski Distance)又叫做閔氏距離,是一組距離的定義,其計算公式為如下圖。根據q取值的不同,閔氏距離可分為曼哈頓距離、歐氏距離和切比雪夫距離等。

閔式距離計算公式

1. 曼哈頓距離

當q=1時的一階Minkowski距離稱為絕對值距離,又叫做曼哈頓距離(Manhattan Distance)。曼哈頓距離標明兩個點在標準坐標系上的絕對軸距總和。其計算公式為:

曼哈頓距離計算公式

下列是兩個樣品的數據,每個樣品測定兩個指標。按照上面的計算公式,樣品1(1,2)首先按橫坐標向右移動1個單位變為2,然後按縱坐標向上移動1個單位變為3,即可達到樣品2的位置(2,3),因此其曼哈頓距離為1+1=2,即下圖藍線的路徑之和。實際上下圖綠色虛線也可使樣品1達到樣品2,綠色虛線和藍色線段的距離相等,二者都是兩樣品間的曼哈頓距離。

曼哈頓距離圖示

2. 歐氏距離

當q=2時,二階Minkowski距離稱為歐幾裡得距離或歐氏距離(Euclidean distance)。歐氏距離是坐標系內兩點的直線距離。其計算公式如下:

歐氏距離計算公式

同樣以上面兩樣品的例子,樣品1(1,2)與樣品2(2,3)之間的歐氏距離,可按照其曼哈頓距離根據勾股定理算得,如下圖紅線所示。

歐氏距離圖示

3. 切比雪夫距離

當→∞時,Minkowski距離可以轉化為切比雪夫距離(Chebyshev distance),其計算公式為:

切比雪夫距離計算公式

二、切比雪夫距離和曼哈頓距離的相互轉化

切比雪夫距離和曼哈頓距離可通過坐標旋轉的方法相互轉化。坐標旋轉是多元統計分析中的常用方法。通常以距離為基礎的分析方法,常用坐標旋轉的方法,以達到變換和簡化數據的目的,如因子分析、主成分分析等。本文通過下面三個步驟展示切比雪夫距離和曼哈頓距離的轉化方法,藉以明確二者之間的內在聯繫。

1. 將與原點的曼哈頓距離為1的所有點畫在笛卡爾坐標系中,構成一個正方形ABCD。如下圖所示,藍線構成的正方形上,所有點距離原點(0,0)的曼哈頓距離均為1。

距離原點的曼哈頓距離為1的正方形

2. 同樣將與原點的切比雪夫距離為1的所有點畫在笛卡爾坐標系中,構成一個正方形A』B』C』D』。如下圖所示,綠線構成的正方形上,所有點距離原點(0,0)的切比雪夫距離均為1。

距離原點的切比雪夫距離為1的正方形

3. 將上圖中曼哈頓距離正方形先向右旋轉45度,如下圖所示,然後將圖(2)的橫縱坐標同時縮小√2 倍,得到變換後的切比雪夫距離。該距離與曼哈頓距離正方形等價,變換完成。

曼哈頓距離和切比雪夫距離的相互轉化

三、閔式距離的SPSS實現

1. 本例採用10個樣品4個指標性狀的一批實驗數據,首先將數據導入SPSS中。

數據導入SPSS

2. 依次點擊SPSS菜單的「分析」→「相關」→「距離」,在彈出的對話框中,將測定的4個性狀或指標導入變量窗口。將10個品種或樣品導入標註個案窗口。點擊度量彈出「距離」設定窗口,設定所要計算的距離。如下圖所示:

選擇分析方法
變量導入和度量設定

3. 在「距離」設定窗口,Euclidean距離表示歐氏距離,chebychev距離表示切比雪夫距離,Minkowski距離表示閔可夫斯基距離。在下面的轉換值窗口,可以設定數據標準化方法,此處選擇「Z得分」法。如果要計算樣品間的距離,則應選擇「按照變量」進行標準化。

不同距離的設定方法

4. 上述參數設定好後,點擊繼續,運行SPSS計算所選的距離。下圖是選擇「Minkowski距離」,標準化採用「Z得分」法時計算出的距離,此時該計算距離為曼哈頓距離。下圖中Minkowski(1)表示計算的是曼哈頓距離。此時「冪」的值設定為1.表格下方的「不相似矩陣」,表示計算的是樣品間的距離,而不是相似程度。

距離的最終計算結果

閔式距離在實際中應用廣泛,但也存在一些缺點,例如閔式距離的大小與各指標的觀測單位有關,具有一定的人為性。另一方面,閔式距離默認變量間相互獨立,彼此之間無相關性。通常可通過數據標準化和採用其他統計距離克服這些缺點,如蘭斯距離、馬氏距離等,將在以後再做介紹。

相關焦點

  • 基本數據統計分析--spss
    而這些功能操作在spss中是可以直接使用的。當然我們也需要理解相關定義。spss描述統計分析一、定義:其中均值、中位數、眾數將不再介紹;方差是所有變量值與平均數偏差平方的平均值,它表示了一組數據分布的離散程度的平均值。
  • spss聚類分析功能怎麼使用?spss聚類分析教程
    spss 是一個非常好用的統計分析軟體,spss有一個聚類分析的功能哦,但是很多人不知道spss聚類分析功能怎麼使用?spss聚類分析是一個將case分析的數據的功能哦,下面小編就來告訴大家spss聚類分析使用教程吧!
  • spss怎麼分析因子?spss因子分析法詳細步驟
    spss不僅可以分析主成分 ,還可以分析因子哦,但是很多朋友不知道spss怎麼分析因子?小編下面有一個spss因子分析法詳細步驟哦,只要大家按照spss因子分析法詳細步驟一步步操作就知道spss怎麼分析因子了哦,下面就和小編一起來看看吧!
  • spss是什麼軟體?spss軟體是用來做什麼的?
    很多人看到有人在用spss,好奇spss是什麼軟體?spss是用來做什麼的? spss是一個非常好用的統計分析軟體, spss用於統計學分析運算、數據挖掘、預測分析和決策支持任務的軟體產品及相關服務軟體哦,下面小編就來詳細介紹一下吧!
  • spss主成分怎麼進行分析?spss主成分分析法步驟
    spss 這款軟體功能非常多哦,還可以分析主成分哦,但是很多朋友不知道spss主成分怎麼進行分析?小編下面準備了spss主成分分析法詳細步驟,大家安裝 詳細步驟一步步操作就知道spss主成分怎麼進行分析?
  • 數據分析基礎相關性分析,SPSS實操
    常用的相關分析方法:二元定距變量的相關分析、二元定序變量的相關分析、偏相關分析和距離相關分析等。距離相關分析可用於同一變量內部各個取值間,以考察其相互接近程度;也可用於變量間,以考察預測值對實際值的擬合優度。距離相關分析根據統計量不同,分為以下兩種。 不相似性測量:通過計算樣本之間或變量之間的距離來表示。 相似性測量:通過計算Pearson相關係數或Cosine相關來表示。
  • spss 非線性回歸 - CSDN
    可以看到這4個變量都為分組分類變量,不能直接作為自變量進行回歸分析,必須先進行虛擬化,下面就來講解如何虛擬化的spss操作步驟。 以上就是今天講解的SPSS虛擬線性回歸分析的應用與操作詳解,今後還會有更多SPSS統計分析文章更新,敬請大家關注!本期課程就到這裡哦,感謝大家耐心觀看!每日更新,敬請關注!
  • SPSS因子分析案例
    【二、簡單實例】現在有 12 個地區的 5 個經濟指標調查數據(總人口、學校校齡、總僱員、專業服務、中等房價),為對這 12 個地區進行綜合評價,請確定出這 12 個地區的綜合評價指標。【三、解決方案】1、spss因子分析同一指標在不同地區是不同的,用單一某一個指標難以對12個地區進行準確的評價,單一指標智能反映地區的某一方面。
  • 學會spss就能找到數據分析工作嗎
    大學課堂上學習了spss,老師也講了很多知識,但是現在準備畢業了,我做的實習工作就是用業內的數據進行最新的行業研究。現在真正需要用到spss進行分析了,我卻看不懂老闆給的數據和分析要求,難道這就是理論與實際的脫節嗎?
  • spss卡方_spss卡方檢驗 - CSDN
    spss中交叉分析主要用來檢驗兩個變量之間是否存在關係,或者說是否獨立,其零假設為兩個變量之間沒有關係。在實際工作中,經常用交叉表來分析比例是否相等。例如分析不同的性別對不同的報紙的選擇有什麼不同。
  • 「spss數據分析系列」t檢驗
    一、t統計量及t檢驗本人介紹spss數據分析中的t檢驗,我們平時分析數據時經常對比均值,其中兩分類的均值對比採用的t檢驗,這裡強調一下的是兩分類的對比,其他還有獨立樣本t檢驗,配對t檢驗,我們在下面spss軟體部分再做說明
  • 數據分析之主成分分析,spss主成分分析實例
    二、spss主成分分析操作流程導入數據。將已有數據整理後導入spss導入數據主成分分析操作流程。點擊分析—降維—因子分析spss主成分分析將變量全部導入變量(V)中,點擊描述,勾選相關描述性統計分析結果,點擊繼續
  • 以FPGA為核心的數字通信信號2FSK的調製解調技術及其實現方案詳解
    以FPGA為核心的數字通信信號2FSK的調製解調技術及其實現方案詳解 工程師青青 發表於 2018-07-13 09:51:00 隨著通信理論和計算機技術的發展,
  • 「spss數據分析系列」卡方檢驗-2x2
    卡方檢驗用的分布就是卡方分布,構造的統計量就是通過觀測值和期望值之間的差來進行構建,具體如下:在spss操作裡面比較簡單,就是在分析-描述統計-交叉表,如下:將兩個變量選入行和列之後,在統計量裡面選擇卡方:如下:下面是結果:由於樣本量的不同和期望值的差異
  • spss 方法 線性回歸專題及常見問題 - CSDN
    本文收集整理關於spss多元線性回歸結果解讀的相關議題,使用內容導航快速到達。內容導航:Q1:請高手幫忙分析下SPSS的多元線性回歸結果吧~急啊~~~你的回歸方法是直接進入法擬合優度R方等於0.678,表示自變量可以解釋因變量的67.8%變化,說明擬合優度還可以。
  • spss多元線性回歸專題及常見問題 - CSDN
    本文收集整理關於spss多元線性回歸結果解讀的相關議題,使用內容導航快速到達。內容導航:Q1:請高手幫忙分析下SPSS的多元線性回歸結果吧~急啊~~~你的回歸方法是直接進入法擬合優度R方等於0.678,表示自變量可以解釋因變量的67.8%變化,說明擬合優度還可以。
  • 科研SPSS統計思維實戰研討會
    63) 方差分析的終極解決之道——一般線性模型的SPSS實現?90) 橫斷面研究設計的2*2表資料統計分析及spss實現91) 隊列研究設計的2*2表資料及spss實現92) 病例對照研究設計的
  • 關於SPSS因子分析的幾點總結
    4、主成分分析,有幾個變量就至少有幾個成分,一般只提取能解釋80%以上的成分;因子分析,有幾個變量不一定有幾個公共因子,因為這裡的因子是公因子,潛在的存在與每一個變量中,需要從每一個變量中去分解,無法解釋的部分是特殊因子。
  • 材料老化試驗詳解及其國家標準
    當前位置:首頁 > 行業資訊 > 材料老化試驗詳解及其國家標準 2018-10-10 10:02:08 來源:中國檢測網 網絡轉載 閱讀: 次       老化試驗是指產品通過專用的設備對其產品的所有性能進行快速的檢驗,得知產品的使用壽命。
  • 交完論文才發現spss數據分析做錯了
    我將論文翻了一遍,發現原來是文章的spss分析做錯了,裡面的一個分析結果與論文的結論完全相反。由於自己做的太快,看到有結果就直接把分析表格複製粘貼到了論文裡,所以完全沒看出來。回到宿舍,我苦惱地思考怎麼修改。因為太久沒用spss了,我已經忘記了當初的分析步驟。本來就是為了畢業論文現學的軟體,一步一步上網搜索怎麼做,艱難地寫出來的,現在讓我回憶這些真的太難了。