北京大學研究生《空間計量經濟學前沿》暑期學校課程綜述(七)
《空間濾波的理論與方法應用》古博士從空間依賴性講起。空間依賴性打破了經典計量中的高斯-馬爾可夫假定中誤差不相關假設,從而使得最小二乘估計不再是最小方差無偏估計。因此,通常需要對誤差項進行空間自相關的相關測度和檢驗。空間依賴性的測量誤差原因主要包括:①人為區域的劃分;②地理要素本身的空間聯繫;③模型自身的參數設定。對空間自相關的處理是空間計量模型的核心。不同體系下對空間自相關的處理有所不同,其中Getis和Griffith對空間自相關的處理方法為特徵向量空間濾波(Eigenvector Spatial Filtering, ESF)。
空間濾波,即提取一組空間代理變量(控制變量)加入模型中,而這些代理變量可以識別和分離空間依賴,從而保持觀測樣本的獨立性。代理變量通常是表達樣本間空間聯繫或空間鄰近的關係矩陣(一般是空間權重矩陣)的一組特徵向量。Getis(1995)闡述了濾波方法處理空間依賴變量的合理性和濾波方法的基本步驟,以此提出空間濾波方法並將之用於實證研究,空間濾波開始受到重視。與主成分分析相似,空間濾波把繁雜的空間自相關信息用互相無關且獨立的向量表示出來,加入模型。
空間濾波方法不受模型前提假設的限制,通過調整濾波器算子,往往能更徹底地降低誤差項中的自相關效應。空間濾波的目的是在對空間數據分析中得到更為穩健的結果。其主要思想是將空間變量分解為三個部分:趨勢、空間結構隨機分量和隨機噪聲。其中主要工作是將空間結構隨機分量分離出來,從而使得統計推斷更加合理。空間濾波方法主要包括三種:自回歸線性算子、基於Getis』G的方法、特徵向量空間濾波方法(ESF)。其中ESF又分為基於距離矩陣特徵向量的線性組合和基於拓撲矩陣特徵向量的線性組合。比較而言,ESF不僅數據限制小,且更適用於處理模型內生性問題。
接下來古博士從莫蘭指數(MC)的角度來理解空間濾波。空間自相關可以理解為在特定空間關係下相鄰地理區位的空間變量Y 的相互關係。MC可以進行標準化處理,轉化後MC的方差VAR服從漸進標準正態分布。據此,MC可以進行假設檢驗,以探測空間自相關的顯著性。Jong P.D.證明,在給定空間權重矩陣W時,無論實際的Y取何值,計算出來的真實的MC值(MCY)必然位於由最大及最小特徵值對應的特徵向量計算出來的MC的範圍內,即MCmin≤MCY≤MCmax。因此,即使不知道Y的具體數值,僅由空間權重矩陣W也可以計算出根據Y計算出來的MCY的取值範圍。從這個意義上講,各特徵向量的元素(空間結構信息)相當於列舉了一種Y的可能性,將挑選後的特徵向量作為解釋變量加入回歸模型,就可以過濾空間自相關信息。對於較大特徵值對應的特徵向量,其所表達得空間自相關性較強,對應較大的MC值;而對於較小特徵值對應的特徵向量,其所表達的空間自相關性較弱,對應較小的MC值。
隨後,古博士講解了如何提取空間信息。空間濾波的本質是提取空間結構信息,提取方法是通過MWM = EΓET,式中,Γ是一個n階對角矩陣,對角線上的元素是矩陣MWM的特徵值序列,E是矩陣MWM的特徵向量,從而將MC指數中表達空間結構信息的矩陣MCM分解為特徵值和特徵向量的乘積。對於研究區域特定的空間結構而言,根據MCM矩陣中提取出來的互不相關且相互正交的每個特徵向量可以用來表徵在該區域的某一種空間自相關特徵的可能性。最後,通過一系列篩選原則,將最能夠表達空間結構信息的特徵向量作為控制變量加入模型進行估計,以達到「過濾」的目的,此時殘差項中的空間自相關程度將降低。傳統的回歸模型變為y=Xβ+Eγ+ε,其中Eγ表達的是變量Y中的空間結構信息,由MWM矩陣的特徵向量通過線性組合得到。因此,由於模型的形式多樣,同時也不會引起多重共線性問題,空間濾波比空間自回歸模型具有更大的靈活性。
然後,古博士歸納了ESF的優缺點。其優勢在於:①可延展性。作為空間自相關效益的代理變量,能夠直接被納入模型中進行回歸,適用於OLS回歸、Logistic回歸、泊松回歸等多種模型。②簡潔性。因為ESF可以被直接納入回歸模型,因此無需再衍生出相配套的複雜統計計算體系。③靈活性。能夠根據研究需要調整篩選特徵向量的閾值。以進一步調整「過濾」的效果和程度。此外,ESF對數據的限制要求少,適用於佔比、計數等數據形式。④可視性。其自相關信息能夠通過GIS軟體進行可視化。ESF的不足在於:①ESF無法像SAR等模型類似為空間自相關的溢出程度進行估計和解釋。②ESF進入模型的閾值設定。目前來說,使用一些經驗閾值以及Stepwise等手段來篩選空間濾波進入模型,但這些方法或過於依賴精要,或過於依賴軟體算法,同時在極端情況下容易導致模型誤差項出現空間負相關。
古博士講解了兩個具體的案例以更好地理解空間濾波。案例一:來源於文章《基於空間濾波方法的中國省際人口遷移驅動因素》。針對泊松回歸模型中存在的過度離散問題,該文章通過負二項模型來解釋區域人口遷移。結果表明,與不加入空間濾波相比,空間濾波能夠有效降低空間自相關,空間距離對人口潛移的影響呈進一步弱化趨勢。案例二:來源於《Modelling interprovincial migration in China from 1995 to 2015 based on an eigenvector spatial filtering negative binomial model》。文章在截面研究的基礎上,進一步提出時空濾波負二項引力模型,將空間濾波技術納入固定效應負二項模型的框架下,研究1995-2015年中國省際人口潛移的驅動因素。模型的優度一般用AIC和BIC來檢驗,二者數值越小,模型則越好。
在實際操作層面,古博士介紹到,目前沒有專門計算ESF模型的軟體,因此分享了自己做研究時的操作工具和步驟,包括數據獲取、數據預處理、計量計算和可視化。首先,應用Geoda計算空間權重矩陣,並轉化為01矩陣的形式,導入MATLAB;然後,使用MATLAB計算核心矩陣;接著,STATA也常用於ESF的輔助計算中,可以將MATLAB計算後的矩陣導入STATA,進行回歸分析,並進一步篩選濾波;最後,GIS軟體用於空間自相關的探測及製圖。
古恆宇博士研究生,北京大學城市與區域管理系博士研究生(區域經濟專業),芝加哥大學空間數據與科學中心聯合培養,主要研究方向為人口遷移與城鎮化、空間計量經濟學、城市與區域規劃、空間句法與城市計算,在《Population, Space and Place》、《Applied Spatial Analysis and Policy》、《地理學報》、《地理科學》、《地理研究》、《經濟地理》、《旅遊學刊》等國內SSCI/SCI/EI/CSSCI雜誌發表論文30餘篇。主持1項中國科協創新戰略研究院項目(已結項)。曾獲北京大學國家獎學金、北京大學博士校長獎學金、北京大學三好學生、北京大學廖凱原獎學金等獎項。