上一講我們介紹了抽樣誤差,這一講將介紹具體的抽樣方法。說起抽樣方法,我想大多數讀者都能說出幾個,比如簡單隨機抽樣、系統抽樣、分層抽樣、整群抽樣等等。在調查範圍比較小的時候(比如在一個學校或公司內部抽樣),知道這些方法已經足夠了;但是當調查範圍比較大的時候,這些方法就不夠用了。我們知道,諸如CGSS、CFPS等大家耳熟能詳的調查都是全國範圍的大規模抽樣調查,這些調查的抽樣方法都比我們課堂上學到的某種具體的抽樣方法複雜得多,所以我們將之統稱為「複雜抽樣」。
在介紹複雜抽樣之前,我們需要首先搞清楚一個問題,即:複雜抽樣是不是一定比簡單抽樣來得好?答案是不一定。以CFPS為例,它的整個抽樣過程非常複雜,但抽樣精度(通常用估計量方差來表示)卻要比大家公認的最簡單的簡單隨機抽樣差很多。既然如此,那麼為什麼還要使用複雜抽樣呢?
評價一個抽樣方法好還是不好,除了要看抽樣精度以外,還要看它的執行難度。簡單隨機抽樣的精度雖然很高,但在全國範圍內進行簡單隨機抽樣幾乎是不可想像的,因為這意味著首先要拿到全國人民的名單;其次,抽到任何一個人(無論他住在哪)都要設法聯繫到他並讓他填問卷。考慮到中國這麼大的國土面積和這麼多的人口,以上無論哪一點執行起來都是不可能的。所以,任何一個全國範圍的調查都不會採用簡單隨機抽樣,即使從抽樣效率的角度看,簡單隨機抽樣更好。
綜上所述,調查使用複雜抽樣的目標在絕大多數時候不是為了提高抽樣精度,而是為了降低執行難度,而降低執行難度的一個後果是精度的損失。但精度的損失可以通過擴大樣本量來彌補,所以兩相權衡之下,調查執行者還是會選擇使用複雜抽樣。
說了這麼多,什麼是複雜抽樣呢?通俗來講,「複雜抽樣」就是多種簡單抽樣方法的混合。以CFPS的抽樣設計為例,它就同時使用了分層、多階段、PPS等多種抽樣方法。CFPS的總體抽樣框架是一個三階段整群抽樣。其中,第一階段是在全國3000多個區/縣中抽取160個區/縣,第二階段是在抽中的160個區/縣中每個再抽取4個村/居委會,第三階段是在抽中的640個村/居委會中每個再抽取25戶家庭。綜合這三個階段,就得到了一個包含160個區/縣、640個村/居委會和16000戶家庭的樣本。為了使每個階段的抽樣更為合理,CFPS還採取了兩步優化措施。首先,考慮到各階段抽樣單位的規模有大有小,CFPS採用了PPS技術,即:使抽樣單位的入樣概率與它的規模成比例。其次,儘可能使用統計年鑑數據對抽樣單位分層,具體來說,CFPS使用的是隱含分層技術(implicit stratification),即:根據各種社會經濟指標對抽樣單位進行排序,然後使用系統抽樣方法抽樣。
如果對比全國其他大規模的抽樣調查(如CGSS)的抽樣設計,可以發現在抽樣方法上各調查都大同小異,主要區別在於分層指標的選擇和抽樣階段的劃分上。例如,CFPS使用的是「區縣-村居-家庭」三階段抽樣,而有的調查則使用「區縣-鄉鎮街道-村居-家庭」四階段抽樣。有的讀者可能會問?四階段抽樣比三階段設計更加精細,是不是效果也更好?答案是否定的,其實最好的是不分階段,一步到位,就像簡單隨機抽樣那樣。要知道,我們劃分階段主要是為了降低抽樣框的獲取難度。以三階段抽樣設計為例,第二階段要在抽中的區縣中獲取所有村居委會的清單,很明顯,這比四階段抽樣設計中只要獲取鄉鎮街道的清單要難很多。所以,CFPS採用三階段抽樣設計不僅不是它的劣勢,反而是一大優勢。這也回應了之前提到的一個問題,抽樣設計不是越複雜精度越高,結論恰恰相反,越簡單的抽樣設計反而能得到更精確的抽樣結果,而複雜抽樣主要是為了降低執行難度才被提出來的。
如前所述,目前大家普遍使用的全國調查數據都是通過「複雜抽樣」得到的。但在複雜抽樣的情況下,常規的統計分析方法都會出問題,這裡說的常規統計分析方法既包括描述性統計(如計算均值、標準差、百分比),也包括統計推斷和模型(如區間估計、T檢驗、方差分析、回歸等)。我們在書本上學到的這些方法(也是軟體默認的計算方法)都建立在簡單隨機抽樣的基礎上,在複雜抽樣的條件下,這些方法都要經過調整。也就是說,在使用這些方法之前,我們需要通過一些設置,讓軟體知道樣本的具體抽取方法。
以Stata軟體為例,Stata為複雜抽樣專門設計了一個前綴:svy。在使用svy之前,需要先通過svyset告訴Stata數據的抽樣方法。svyset的語法如下所示:
svyset psu [weight] [, design_options] [|| ssu , design_options] ... [options]
其中,svyset是命令名,psu是初級抽樣單位(primary sampling unit),也就是說在第一階段抽樣時的抽樣單位(如CFPS的區縣代碼),weight是樣本的權重。如果有多個抽樣階段,每個抽樣階段之間用||隔開,在設置完psu以後繼續設置ssu(secondary sampling unit,次級抽樣單位,如CFPS的村居代碼),依次類推,直至將所有抽樣階段都設置完畢。每個抽樣階段如果採用了分層方法,可以在選項中用strata()將分層變量標示出來。關於svyset的其他選項可以使用help svyset查閱。
舉例來說,svyset su1 [pweight=pw] || su2, strata(strata)這個命令表示樣本採取了兩階段抽樣設計,其中初級抽樣單位是su1,次級抽樣單位是su2,且抽取su2的時候採用了分層抽樣,分層變量是strata。此外,樣本是有權重的,權重是pw。
目前,大型的抽樣調查數據都會報告自己的抽樣方案,調查數據中也會存放各階段抽樣的一些關鍵變量,如psu、ssu、權重、分層指標等。所以,研究者在拿到數據以後,需要首先使用svyset將抽樣方案設置好,然後再進行分析。
使用svyset設置好數據以後,接下來的統計分析就很簡單了,只需在原先的命令之前加上前綴svy,Stata就會根據svyset的設置計算出正確的統計結果。舉例來說,如果要做一個線性回歸,因變量是y,自變量是x1和x2,只需輸入svy : reg y x1 x2即可。
更多關於如何在複雜抽樣條件下進行統計分析的方法可以參考Stata的help文件。
· · · · · ·