原創作者:胡婧煒作者簡介:先後在美國馬裡蘭大學、密西根大學修讀調查方法專業碩、博學位。曾任職於北大中國社會科學調查中心和社會研究中心,並在美國市場研究公司Westat、美國國家衛生統計中心擔任過研究助理。全程參與了「中國家庭追蹤調查(CFPS)」 等多個大型項目,擅長調查設計、實施與數據管理工作。
一、無應答與應答率
在問卷調查中,如果我們沒有獲得想要調查的人員的完整信息,這種情況便是無應答。
廣義的無應答包括單元無應答(Unit Nonresponse)和項目無應答(Item Nonresponse)兩類:如果一個指定需要作答的人員沒有回答任何問題或絕大部分問題,我們稱之為單元無應答;如果一個受訪者在個別變量上沒有作答,則屬於項目無應答的情況。不過,當人們說到無應答時,大部分時候指的都是單元無應答,這也是本文討論的範疇。
單元無應答的概念是在抽樣調查的大背景下提出的,因為只有在抽樣調查中,我們才能明確界定誰是指定/抽中的需要作答的對象(可以是個人、家庭或者機構,統稱為「抽樣單元」)。應答率則是指定/抽中的需要作答的對象中,最終完成作答的百分比。
在社會調查中,研究者們總是希望通過樣本的特徵可以準確推斷出總體的特徵。為此他們在抽樣方法上絞盡腦汁,希望抽中的樣本可以完美地複製(代表)總體。不過,試想一項調查中,即使最初抽選的樣本完美地代表了目標人群,但如果抽中的對象大部分都沒有完成調查,那最終獲得的樣本的代表性也會大打折扣。
應答率因此經常被用作衡量調查質量的一個指標。這種做法的優點在於簡單、可操作性強、可比較。儘管很多研究認為這種做法存在缺陷(我們在之後的公眾號文章中將繼續討論),然而應答率現在仍然是使用最廣泛的一個評估調查質量的參考標準。
在實際操作中,計算應答率時我們將面臨各種更為細緻的問題。本文將以美國民意研究協會(American Association for Public Opinion Research,AAPOR)制定的標準為基礎進行介紹,這也是目前最權威的計算應答率的方法。
二、聯繫結果的界定
計算應答率的第一步是記錄各種聯繫結果並進行編碼分類。所謂聯繫結果,即聯繫抽樣單元並邀請其答題的結果狀況。
所有可能的聯繫結果都可以分為四大類:完成訪問、未完成訪問、不符合訪問條件、不確定是否符合訪問條件四種情況。
1. 完成訪問
這一類情況可以繼續分為全部應答(Complete Interview)和部分應答(Partial Interview)。每項調查都應在最開始就明確界定什麼是完全應答和部分應答,以及部分應答與中斷應答(Break-off)的區別(後者屬於未完成訪問的情況)。
界定上述情況有三個最常使用的標準:a)所有適用問題被回答的比例;b)所有關鍵問題被回答的比例;和c)所有適用問題被問到的比例。
比如說在某項100道題的問卷調查中,可以設定總共回答了80題以上的為完全應答,20-80題的為部分應答,不到20道題的為中斷應答即未完成訪問;也可以設定回答了70%以上關鍵問題的為完全應答,50%-70%的為部分應答,50%以下的為中斷應答;還可以混合使用不同的標準,如必須總共完成了80題,並且完成了100%的關鍵問題,才算做完全應答。
至於具體使用哪個標準、哪些問題算是關鍵問題,以及使用什麼樣的閾值,並沒有明確的規定,需要研究者基於研究需求做出主觀判斷。
2. 未完成訪問
這一類情況具體可細分為三類:拒訪和中斷應答、無聯繫、其他情況。
拒訪和中斷應答很容易理解。即已經聯繫上訪問對象,確定符合訪問條件,但是訪問對象拒絕接受訪問,或者在訪問中途中止訪問(且未達到上述的部分應答的條件)。
無聯繫指通過一些外部的線索確定了抽樣單元符合訪問條件,但無法聯繫上需要接受訪問的人員,如:
在基於地址抽樣的家戶面訪中,訪員因為小區門禁無法接觸到抽中的家庭戶,或者家中總是沒人,或者家中有人但指定的受訪者不在家或者總是沒空。
在基於隨機數位撥號 (RDD)抽樣的家戶電訪中,家中總沒有人接電話。
在基於名單概率抽樣的網絡調查中,接受調查邀請的郵箱自動回復受訪者目前在休假不能查收郵件。
其他情況指聯繫上了符合訪問條件的對象,對方也沒有拒絕訪問,但無法最終完成訪問的情況,如:
在基於地址抽樣的家戶面訪中,訪問對象有身體或生理上的疾病無法接受訪問。
在基於RDD抽樣的家戶電訪中,由於方言問題或者聽力問題,與訪問對象無法進行溝通。
在基於名單概率抽樣的網絡調查中,訪問對象不識字。
3. 不符合訪問條件
在調查中只有符合訪問條件的抽樣單元才是需要作答的對象,但在抽樣時我們往往很難提前確定抽樣單元是否符合訪問條件,而只能在實際訪問過程中通過一些外部的線索或者通過與抽樣單元的直接聯繫才能進行界定。因此,在實際訪問過程中,不符合訪問條件也是一種可能出現的重要聯繫結果。具體如:
在基於地址抽樣的家戶面訪中,抽中的地址是商業或者辦公地址,或者抽中的地址是家庭戶但已無人居住,或者家戶中沒有符合條件的應答人員(如家中全部是未成年人,而訪問對象必須是成年人)。
在基於RDD抽樣的家戶電訪中,號碼是空號、號碼不存在、號碼錯誤、號碼已停機,或者撥打的是辦公場所的電話等。
在基於名單概率抽樣的網絡調查中,接受訪問的對象在回答完篩選問題後被界定為不屬於符合條件的受訪者,或者接受訪問的對象提交了多份問卷等。
4. 不確定是否符合訪問條件
這類情況指既沒有任何外部線索,也無法通過與抽樣單元取得直接聯繫來判斷抽樣單元是否符合訪問條件。比如:
在基於地址抽樣的家戶面訪中,訪員因為交通原因無法進入某個抽中地址所在的區域,無法判斷該地址屬於什麼情況。
在基於RDD抽樣的家戶電訪中,一個電話能夠打通,但總是無人接聽,訪員也沒有任何線索可以判定這是一個家庭電話還是一個辦公電話。
在基於名單概率抽樣的網絡調查中,無法確定訪問對象是否收到了訪問邀請。
關於聯繫結果在不同場景下的更詳細的界定方法可以進一步查閱AAPOR手冊(Standard Definitions Report)。
三、具體的計算方法
在把每一個抽樣單元的聯繫結果進行歸類後,接下來我們就可以開始計算應答率了。
為了便於後續呈現應答率的計算公式,上述所有訪問結果將用如下代碼表示。(如下表)。
應答率的計算方法並不是唯一的,可以根據調查項目的需求來選擇合適的應答率計算公式。簡單來說,應答率計算中,分子是實際完成訪問的抽樣單元數,分母是符合訪問條件的抽樣單元數。不同計算方法之間的主要區別在於分子中對實際「完成訪問」的標準是否嚴苛,以及不確定是否符合訪問條件的人群是否應該計入分母,視作符合訪問條件的抽樣單元。在所有的計算方法中,不符合訪問條件的抽樣單元都應該排除在應答率計算的考慮範圍外。
下面列出最常見的六種應答率的計算方式:
RR_1與RR_2:這兩種計算方法是最嚴苛的計算應答率的方法,因為不確定是否符合訪問條件的抽樣單元全部被認定為符合條件的抽樣單元,這時候分母達到了最大值。 RR_1相比RR_2更加嚴格,因為RR_2放寬了「完成訪問」的標準,受訪者完整或部分的完成問卷均被認定為完成了訪問。
RR_1=I/(I+P)+(R+NC+O)+UE
RR_2=(I+P)/(I+P)+(R+NC+O)+UE
RR_3與RR_4:這兩種計算方法在嚴苛程度上處於中間水平,它們只將不確定是否符合訪問條件的抽樣單元中的一部分認定為符合訪問條件的抽樣單元。同樣,相比RR_3,RR_4將部分完成問卷的情況也認定為完成了訪問。
RR_3=I/(I+P)+(R+NC+O)+eUE
RR_4=(I+P)/(I+P)+(R+NC+O)+eUE
其中,e =(I+P+R+NC+O)/(I+P+R+NC+O+IE),即已經明確了是否符合訪問條件的抽樣單元中,符合訪問條件的抽樣單元的比例。
RR_5與RR_6:這兩種計算方式是最寬鬆的計算應答率的方法,所有不確定是否符合訪問條件的抽樣單元均被認為是不符合訪問條件的抽樣單元。這時分母達到最小值,應答率達到最大。
RR_5=I/(I+P)+(R+NC+O)
RR_6=(I+P)/(I+P)+(R+NC+O)
四、關於非概率調查
在非概率抽樣的調查中,應答率的計算並不適用,因為應答率是基於概率抽樣提出的一個概念,受訪者應該是從一個既定的抽樣框中基於一個已知的概率被抽取的,樣本數據可以推斷的總體是可明確界定的。
在非概率調查中,如通過在線樣本庫發放問卷連結的調查,如果邀請作答的人員可知的話,我們可以計算參與率(Participation Rate),即所有收到作答邀請的人員中,有效完成調查的人員的比例。參與率和應答率是不同的概念,不過它可以視作評估在線樣本庫活性的一個參考標準。
那麼,在一個基於社交媒體或廣告渠道發放調查邀請和問卷連結的網絡調查中,如果我們把曝光量(即看到調查邀請和問卷連結的人數)視作計算參與率的分母的話,你們覺得參與率能達到多少呢?
ReferencesAAPOR. (2016) . Standard Definitions Report, 9th edition.
期待各位同行評論交流。