複雜抽樣設計與統計分析

2021-02-19 定量群學

上一講我們介紹了抽樣誤差,這一講將介紹具體的抽樣方法。說起抽樣方法,我想大多數讀者都能說出幾個,比如簡單隨機抽樣、系統抽樣、分層抽樣、整群抽樣等等。在調查範圍比較小的時候(比如在一個學校或公司內部抽樣),知道這些方法已經足夠了;但是當調查範圍比較大的時候,這些方法就不夠用了。我們知道,諸如CGSS、CFPS等大家耳熟能詳的調查都是全國範圍的大規模抽樣調查,這些調查的抽樣方法都比我們課堂上學到的某種具體的抽樣方法複雜得多,所以我們將之統稱為「複雜抽樣」。

在介紹複雜抽樣之前,我們需要首先搞清楚一個問題,即:複雜抽樣是不是一定比簡單抽樣來得好?答案是不一定。以CFPS為例,它的整個抽樣過程非常複雜,但抽樣精度(通常用估計量方差來表示)卻要比大家公認的最簡單的簡單隨機抽樣差很多。既然如此,那麼為什麼還要使用複雜抽樣呢?

評價一個抽樣方法好還是不好,除了要看抽樣精度以外,還要看它的執行難度。簡單隨機抽樣的精度雖然很高,但在全國範圍內進行簡單隨機抽樣幾乎是不可想像的,因為這意味著首先要拿到全國人民的名單;其次,抽到任何一個人(無論他住在哪)都要設法聯繫到他並讓他填問卷。考慮到中國這麼大的國土面積和這麼多的人口,以上無論哪一點執行起來都是不可能的。所以,任何一個全國範圍的調查都不會採用簡單隨機抽樣,即使從抽樣效率的角度看,簡單隨機抽樣更好。

綜上所述,調查使用複雜抽樣的目標在絕大多數時候不是為了提高抽樣精度,而是為了降低執行難度,而降低執行難度的一個後果是精度的損失。但精度的損失可以通過擴大樣本量來彌補,所以兩相權衡之下,調查執行者還是會選擇使用複雜抽樣。

說了這麼多,什麼是複雜抽樣呢?通俗來講,「複雜抽樣」就是多種簡單抽樣方法的混合。以CFPS的抽樣設計為例,它就同時使用了分層、多階段、PPS等多種抽樣方法。CFPS的總體抽樣框架是一個三階段整群抽樣。其中,第一階段是在全國3000多個區/縣中抽取160個區/縣,第二階段是在抽中的160個區/縣中每個再抽取4個村/居委會,第三階段是在抽中的640個村/居委會中每個再抽取25戶家庭。綜合這三個階段,就得到了一個包含160個區/縣、640個村/居委會和16000戶家庭的樣本。為了使每個階段的抽樣更為合理,CFPS還採取了兩步優化措施。首先,考慮到各階段抽樣單位的規模有大有小,CFPS採用了PPS技術,即:使抽樣單位的入樣概率與它的規模成比例。其次,儘可能使用統計年鑑數據對抽樣單位分層,具體來說,CFPS使用的是隱含分層技術(implicit stratification),即:根據各種社會經濟指標對抽樣單位進行排序,然後使用系統抽樣方法抽樣。

如果對比全國其他大規模的抽樣調查(如CGSS)的抽樣設計,可以發現在抽樣方法上各調查都大同小異,主要區別在於分層指標的選擇和抽樣階段的劃分上。例如,CFPS使用的是「區縣-村居-家庭」三階段抽樣,而有的調查則使用「區縣-鄉鎮街道-村居-家庭」四階段抽樣。有的讀者可能會問?四階段抽樣比三階段設計更加精細,是不是效果也更好?答案是否定的,其實最好的是不分階段,一步到位,就像簡單隨機抽樣那樣。要知道,我們劃分階段主要是為了降低抽樣框的獲取難度。以三階段抽樣設計為例,第二階段要在抽中的區縣中獲取所有村居委會的清單,很明顯,這比四階段抽樣設計中只要獲取鄉鎮街道的清單要難很多。所以,CFPS採用三階段抽樣設計不僅不是它的劣勢,反而是一大優勢。這也回應了之前提到的一個問題,抽樣設計不是越複雜精度越高,結論恰恰相反,越簡單的抽樣設計反而能得到更精確的抽樣結果,而複雜抽樣主要是為了降低執行難度才被提出來的。

如前所述,目前大家普遍使用的全國調查數據都是通過「複雜抽樣」得到的。但在複雜抽樣的情況下,常規的統計分析方法都會出問題,這裡說的常規統計分析方法既包括描述性統計(如計算均值、標準差、百分比),也包括統計推斷和模型(如區間估計、T檢驗、方差分析、回歸等)。我們在書本上學到的這些方法(也是軟體默認的計算方法)都建立在簡單隨機抽樣的基礎上,在複雜抽樣的條件下,這些方法都要經過調整。也就是說,在使用這些方法之前,我們需要通過一些設置,讓軟體知道樣本的具體抽取方法。

以Stata軟體為例,Stata為複雜抽樣專門設計了一個前綴:svy。在使用svy之前,需要先通過svyset告訴Stata數據的抽樣方法。svyset的語法如下所示:

svyset psu [weight] [, design_options] [|| ssu , design_options] ...  [options]

其中,svyset是命令名,psu是初級抽樣單位(primary sampling unit),也就是說在第一階段抽樣時的抽樣單位(如CFPS的區縣代碼),weight是樣本的權重。如果有多個抽樣階段,每個抽樣階段之間用||隔開,在設置完psu以後繼續設置ssu(secondary sampling unit,次級抽樣單位,如CFPS的村居代碼),依次類推,直至將所有抽樣階段都設置完畢。每個抽樣階段如果採用了分層方法,可以在選項中用strata()將分層變量標示出來。關於svyset的其他選項可以使用help svyset查閱。

舉例來說,svyset su1 [pweight=pw] || su2, strata(strata)這個命令表示樣本採取了兩階段抽樣設計,其中初級抽樣單位是su1,次級抽樣單位是su2,且抽取su2的時候採用了分層抽樣,分層變量是strata。此外,樣本是有權重的,權重是pw。

目前,大型的抽樣調查數據都會報告自己的抽樣方案,調查數據中也會存放各階段抽樣的一些關鍵變量,如psu、ssu、權重、分層指標等。所以,研究者在拿到數據以後,需要首先使用svyset將抽樣方案設置好,然後再進行分析。

使用svyset設置好數據以後,接下來的統計分析就很簡單了,只需在原先的命令之前加上前綴svy,Stata就會根據svyset的設置計算出正確的統計結果。舉例來說,如果要做一個線性回歸,因變量是y,自變量是x1和x2,只需輸入svy : reg y x1 x2即可。

更多關於如何在複雜抽樣條件下進行統計分析的方法可以參考Stata的help文件。

· · · · · ·

相關焦點

  • 抽樣方法丨市場調查的抽樣設計
    因此,即使樣本選擇過程是適當的,調查結果仍不免因偶然性而產生一定的誤差(隨機誤差或隨機抽樣誤差),這種誤差是不可避免的,它只能隨著抽樣規模的增加而減小。通常在樣本量設計時,我們可以以一定的置信水平來估計隨機抽樣的誤差。(2)系統誤差系統誤差或偏差是指因調研設計或實施抽樣設計中的錯誤或問題而產生的誤差。
  • 抽樣設計對量化城市森林結構的影響
    因為城市的高度異質性和複雜性,基於自然生態系統發展起來的抽樣設計在城市中是否能夠有同樣的表現是個沒有被很好探索的問題。Jin和Yang在Landscape and Urban Planning上發表了題為Effects of sampling approaches on quantifying urban forest structure 的文章,以中美兩個城市中近4百萬株樹木為對象,比較了常見的抽樣設計在獲取不同城市樹木結構信息時的表現。
  • 一文透徹抽樣sampling, 抽樣偏差, 樣本流失偏差
    選擇研究對象是教育研究設計的主要內容之一,它不僅與研究目的、內容密切相關,而且還直接關係到資料的收集、整理、分析,同時它還涉及到整個研究的費用以及應用範圍。一般來說,如果研究對象僅僅是個別的或少數人,通常不存在抽樣問題,因為研究對象的總體差不多就是研究的直接對象。但是絕大多數研究課題設計的對象總體比較大,有時趨於無窮。
  • 社工實務刷題16|社會工作研究方法 抽樣
    ③分層抽樣分層抽樣又稱類型抽樣,適用於總體內個體數目較多,結構較複雜,內部差異較大的情況。分層抽樣的具體步驟是:a.先將總體中的所有單位按某種特徵或標誌(如性別、年齡、職業或地域等)劃分成若干類型或層次;b.然後再在各個類型或層次中採用簡單隨機抽樣或系統抽樣的辦法抽取一個子樣本;c.最後,將這些子樣本合起來構成總體的樣本。
  • 30天打卡學習醫學統計與SPSS(Day 5):配對設計資料的統計分析
    Day 5: 配對設計資料的統計分析隸屬第二章:實驗性研究定量數據的統計分析策略實驗性性研究常見包括隨機設計和配對(配伍)設計兩種實現均衡可比的設計方法。隨機設計一般情況兩組數據相互獨立,而配對(配伍)設計兩組數據則往往不獨立,存在著相關性。
  • 30天學會醫學統計與SPSS公益課程(Day 5):配對設計資料的統計分析
    此外面向醫務工作者,我們也開設「統計跟學課程」【學不會全額退款】:Day 5: 配對設計資料的統計分析隸屬第二章:實驗性研究定量數據的統計分析策略實驗性性研究常見包括隨機設計和配對(配伍)設計兩種實現均衡可比的設計方法。
  • 國家抽樣標準的比較研究及其在進出口紡織品抽樣檢驗中的應用思考
    基於上述因素全數檢驗具有較大的局限性,如產品產量大,檢驗項目多和檢驗較複雜時進行全數檢驗勢必要花費大量的人力和物力,而當質量檢驗具有破壞性時,全數檢驗更是不可能的。因此人們在日常質量檢驗中,更多的是採用抽樣檢驗方法。抽樣檢驗是從交檢的一批產品中,按照規定的抽樣方案隨機抽取適量的產品作為樣本,對樣本進行全數檢驗,並依據樣本的檢驗結果對全批產品做出合格與不合格的判定。
  • 社會科學實證研究中的統計分析方法應用
    有了一定規模的數據和一個統計分析軟體,就可以很方便地進行各種估算和分析。然而由於統計分析方法本身並不像加減乘除那樣簡單,而一些統計分析軟體已經發展到幾乎是人人都可使用的程度,如果使用者在只知其然不知其所以然的情況下操作並得到結果,可能出現對統計分析方法誤用或濫用的現象。本文僅對一些統計分析中比較常見的問題進行討論,以引起各方面的重視。
  • 審計抽樣方法
    有些審計程序可以使用審計抽樣,有些審計成則不宜使用審計抽樣。   (1)風險評估程序不可以使用審計抽樣。   (2)控制程序僅限留下控制運行軌跡的情況下可以使用審計抽樣。   (3)實質性程序在細節測試時可以用審計抽樣,實質性分析是對總體進行分析,所以不可以用審計抽樣。
  • 抽樣檢驗方面國家標準
    抽樣檢驗這門科學,就是用儘量少的樣本量,來儘量準確的判斷總體質量狀況,這是一個很複雜的領域。欲達到上述目的,根據不同種情況要用不同的抽樣方案或抽樣系統。到目前為止,我國已正式頒布了20個關於抽樣檢驗的國家標準,如下:  GB2828—87逐批檢查計數抽樣程序及抽樣表(適用於連續批的檢查)  GB2829—87周期檢查計數抽樣程序及抽樣表(適用於生產過程穩定性的檢查)  GB6378—86不合格品率的計量抽樣檢查程序及圖表  GB8051—87計數序貫抽樣檢查及表  GB8052—
  • 選擇誰:常見抽樣方法一覽表
    缺點:要求有高質量的、能用於分層的輔助信息;由於需要輔助信息,抽樣框的創建需要更多的費用,更為複雜;抽樣誤差估計比簡單抽樣和系統抽樣更複雜。在實際運用分層抽樣的方法時,研究者需要考慮下列兩個方面的問題(1)分層的標準問題。同一個總體可以按照不同的標準進行分層,或者說,根據不同的標準可以將一個總體分成不同的類別或層次。
  • 常用統計分析軟體:SPSS、Stata、Minitab
    SPSSStatistics是一款統計分析軟體,它使您能夠更快速、更深入地挖掘數據,這使其成為比電子表格、資料庫或標準多維工具更高效的分析工具,SPSSStatistics擅長理解複雜的模式和關聯數據;使用戶能夠得出結論並進行預測。它能夠快速處理數據操作和統計程序等任務,需要的時間僅為許多非統計程序的三分之一。SPSS突出的特點就是操作界面極為友好,輸出結果美觀漂亮。
  • 2020山東醫療招聘考試預防醫學資料:常用的抽樣方法
    1.單純隨機抽樣又稱簡單隨機抽樣,即先將總體中所有觀察單位編號,再用隨機數字表或抽籤等方法隨機抽取一定數量的觀察單位組成樣本。這是一種最簡單最基本的抽樣方法,也是其他抽樣方法的基礎。優點:簡單直觀、均數(或比率)及標準誤的計算簡便;缺點:總體大時,難以對總體中的個體一一編號,且抽到的樣本分散,不易組織調查。適用於總體不太大的情形。
  • 問卷調查:問卷測試、分發和統計分析
    周一我們討論了何時使用問卷調查方法、如何避免陷入問卷調查陷阱兩個問題,周二、三我們討論了如何確立研究目標、如何確定目標用戶、如何編寫問卷中的問題三個話題,昨天繼續討論了如何設計問卷。今天進入最後一篇:問卷測試、分發和統計分析。按道理,問卷分發方式包括傳統郵件、電話、電子郵件及在線問卷等多種方式。
  • 應用四步法幫你選擇統計分析方法
    在日常的諮詢中,統計分析方法的仍然是研究者最為困惑的問題之一,如果解決了這個問題,知道了用什麼方法後,我們可以在書上或網上查詢到大量如何操作的方法
  • 大數據與抽樣誤差
    用抽樣調查的專業話語來說,就是大數據的採集跳過了抽樣環節,而直接面對總體本身。也正因如此,很多大數據的搜集者宣稱自己採集的數據已經沒有抽樣誤差,但事實果真如此嗎?要回答這個問題,我們首先回顧一下抽樣調查史上著名的「蘭頓總統」事件。蘭頓總統是誰?這個問題可能只有學過抽樣調查的人才能回答。
  • 教學研討|分層抽樣
    本課所學內容「分層抽樣」是收集數據的一種方法,它屬於程序性知識,安排在普通高中課程標準實驗教科書人教A版數學必修3第二章統計第一節隨機抽樣.它既是學生義務教育階段統計知識的延續,又是在學生學習了簡單隨機抽樣和系統抽樣的基礎上,結合兩種抽樣的特點和適用範圍,針對個體間具有明顯差異的總體,為提高樣本的代表性,介紹學習的第三種收集數據的方法.因此,了解分層隨機抽樣的特點和適用範圍,了解分層隨機抽樣的必要性
  • python:抽樣和抽樣方法
    ,下面,我們簡單介紹幾種常用的抽樣方法。系統抽樣(systematic sampling)。這種抽樣方法的核心在於確定一個所謂的「抽樣間隔」。比如將總體對象隨機編號,從1至100,我們只抽取編號個位數是7的對象,即編號為7,17,27,…的樣本,本質上他們相鄰的編號有一個固定的間隔——10。
  • 抽樣方法-簡單隨機抽樣
    接著之前的話題,開始說說抽樣方法,今天說的是簡單隨機抽樣。
  • 【R語言實用技巧】隨機排序、隨機抽樣與分層抽樣
    作者:宋星雲 中國科學院心理研究所碩士