如何科學計算應答率?

2020-12-13 調研家
調研家

原創作者:胡婧煒作者簡介:先後在美國馬裡蘭大學、密西根大學修讀調查方法專業碩、博學位。曾任職於北大中國社會科學調查中心和社會研究中心,並在美國市場研究公司Westat、美國國家衛生統計中心擔任過研究助理。全程參與了「中國家庭追蹤調查(CFPS)」 等多個大型項目,擅長調查設計、實施與數據管理工作。

一、無應答與應答率

在問卷調查中,如果我們沒有獲得想要調查的人員的完整信息,這種情況便是無應答。

廣義的無應答包括單元無應答(Unit Nonresponse)和項目無應答(Item Nonresponse)兩類:如果一個指定需要作答的人員沒有回答任何問題或絕大部分問題,我們稱之為單元無應答;如果一個受訪者在個別變量上沒有作答,則屬於項目無應答的情況。不過,當人們說到無應答時,大部分時候指的都是單元無應答,這也是本文討論的範疇。

單元無應答的概念是在抽樣調查的大背景下提出的,因為只有在抽樣調查中,我們才能明確界定誰是指定/抽中的需要作答的對象(可以是個人、家庭或者機構,統稱為「抽樣單元」)。應答率則是指定/抽中的需要作答的對象中,最終完成作答的百分比。

圖片來自網絡

在社會調查中,研究者們總是希望通過樣本的特徵可以準確推斷出總體的特徵。為此他們在抽樣方法上絞盡腦汁,希望抽中的樣本可以完美地複製(代表)總體。不過,試想一項調查中,即使最初抽選的樣本完美地代表了目標人群,但如果抽中的對象大部分都沒有完成調查,那最終獲得的樣本的代表性也會大打折扣。

應答率因此經常被用作衡量調查質量的一個指標。這種做法的優點在於簡單、可操作性強、可比較。儘管很多研究認為這種做法存在缺陷(我們在之後的公眾號文章中將繼續討論),然而應答率現在仍然是使用最廣泛的一個評估調查質量的參考標準。

在實際操作中,計算應答率時我們將面臨各種更為細緻的問題。本文將以美國民意研究協會(American Association for Public Opinion Research,AAPOR)制定的標準為基礎進行介紹,這也是目前最權威的計算應答率的方法。

二、聯繫結果的界定

計算應答率的第一步是記錄各種聯繫結果並進行編碼分類。所謂聯繫結果,即聯繫抽樣單元並邀請其答題的結果狀況。

所有可能的聯繫結果都可以分為四大類:完成訪問、未完成訪問、不符合訪問條件、不確定是否符合訪問條件四種情況。

圖片來自網絡

1. 完成訪問

這一類情況可以繼續分為全部應答(Complete Interview)和部分應答(Partial Interview)。每項調查都應在最開始就明確界定什麼是完全應答和部分應答,以及部分應答與中斷應答(Break-off)的區別(後者屬於未完成訪問的情況)。

界定上述情況有三個最常使用的標準:a)所有適用問題被回答的比例;b)所有關鍵問題被回答的比例;和c)所有適用問題被問到的比例。

比如說在某項100道題的問卷調查中,可以設定總共回答了80題以上的為完全應答,20-80題的為部分應答,不到20道題的為中斷應答即未完成訪問;也可以設定回答了70%以上關鍵問題的為完全應答,50%-70%的為部分應答,50%以下的為中斷應答;還可以混合使用不同的標準,如必須總共完成了80題,並且完成了100%的關鍵問題,才算做完全應答。

至於具體使用哪個標準、哪些問題算是關鍵問題,以及使用什麼樣的閾值,並沒有明確的規定,需要研究者基於研究需求做出主觀判斷。

2. 未完成訪問

這一類情況具體可細分為三類:拒訪和中斷應答、無聯繫、其他情況。

拒訪和中斷應答很容易理解。即已經聯繫上訪問對象,確定符合訪問條件,但是訪問對象拒絕接受訪問,或者在訪問中途中止訪問(且未達到上述的部分應答的條件)。

無聯繫指通過一些外部的線索確定了抽樣單元符合訪問條件,但無法聯繫上需要接受訪問的人員,如:

在基於地址抽樣的家戶面訪中,訪員因為小區門禁無法接觸到抽中的家庭戶,或者家中總是沒人,或者家中有人但指定的受訪者不在家或者總是沒空。

在基於隨機數位撥號 (RDD)抽樣的家戶電訪中,家中總沒有人接電話。

在基於名單概率抽樣的網絡調查中,接受調查邀請的郵箱自動回復受訪者目前在休假不能查收郵件。

其他情況指聯繫上了符合訪問條件的對象,對方也沒有拒絕訪問,但無法最終完成訪問的情況,如:

在基於地址抽樣的家戶面訪中,訪問對象有身體或生理上的疾病無法接受訪問。

在基於RDD抽樣的家戶電訪中,由於方言問題或者聽力問題,與訪問對象無法進行溝通。

在基於名單概率抽樣的網絡調查中,訪問對象不識字。

3. 不符合訪問條件

在調查中只有符合訪問條件的抽樣單元才是需要作答的對象,但在抽樣時我們往往很難提前確定抽樣單元是否符合訪問條件,而只能在實際訪問過程中通過一些外部的線索或者通過與抽樣單元的直接聯繫才能進行界定。因此,在實際訪問過程中,不符合訪問條件也是一種可能出現的重要聯繫結果。具體如:

在基於地址抽樣的家戶面訪中,抽中的地址是商業或者辦公地址,或者抽中的地址是家庭戶但已無人居住,或者家戶中沒有符合條件的應答人員(如家中全部是未成年人,而訪問對象必須是成年人)。

在基於RDD抽樣的家戶電訪中,號碼是空號、號碼不存在、號碼錯誤、號碼已停機,或者撥打的是辦公場所的電話等。

在基於名單概率抽樣的網絡調查中,接受訪問的對象在回答完篩選問題後被界定為不屬於符合條件的受訪者,或者接受訪問的對象提交了多份問卷等。

4. 不確定是否符合訪問條件

這類情況指既沒有任何外部線索,也無法通過與抽樣單元取得直接聯繫來判斷抽樣單元是否符合訪問條件。比如:

在基於地址抽樣的家戶面訪中,訪員因為交通原因無法進入某個抽中地址所在的區域,無法判斷該地址屬於什麼情況。

在基於RDD抽樣的家戶電訪中,一個電話能夠打通,但總是無人接聽,訪員也沒有任何線索可以判定這是一個家庭電話還是一個辦公電話。

在基於名單概率抽樣的網絡調查中,無法確定訪問對象是否收到了訪問邀請。

關於聯繫結果在不同場景下的更詳細的界定方法可以進一步查閱AAPOR手冊(Standard Definitions Report)。

三、具體的計算方法

在把每一個抽樣單元的聯繫結果進行歸類後,接下來我們就可以開始計算應答率了。

為了便於後續呈現應答率的計算公式,上述所有訪問結果將用如下代碼表示。(如下表)。

應答率的計算方法並不是唯一的,可以根據調查項目的需求來選擇合適的應答率計算公式。簡單來說,應答率計算中,分子是實際完成訪問的抽樣單元數,分母是符合訪問條件的抽樣單元數。不同計算方法之間的主要區別在於分子中對實際「完成訪問」的標準是否嚴苛,以及不確定是否符合訪問條件的人群是否應該計入分母,視作符合訪問條件的抽樣單元。在所有的計算方法中,不符合訪問條件的抽樣單元都應該排除在應答率計算的考慮範圍外。

下面列出最常見的六種應答率的計算方式:

RR_1與RR_2:這兩種計算方法是最嚴苛的計算應答率的方法,因為不確定是否符合訪問條件的抽樣單元全部被認定為符合條件的抽樣單元,這時候分母達到了最大值。 RR_1相比RR_2更加嚴格,因為RR_2放寬了「完成訪問」的標準,受訪者完整或部分的完成問卷均被認定為完成了訪問。

RR_1=I/(I+P)+(R+NC+O)+UE

RR_2=(I+P)/(I+P)+(R+NC+O)+UE

RR_3與RR_4:這兩種計算方法在嚴苛程度上處於中間水平,它們只將不確定是否符合訪問條件的抽樣單元中的一部分認定為符合訪問條件的抽樣單元。同樣,相比RR_3,RR_4將部分完成問卷的情況也認定為完成了訪問。

RR_3=I/(I+P)+(R+NC+O)+eUE

RR_4=(I+P)/(I+P)+(R+NC+O)+eUE

其中,e =(I+P+R+NC+O)/(I+P+R+NC+O+IE),即已經明確了是否符合訪問條件的抽樣單元中,符合訪問條件的抽樣單元的比例。

RR_5與RR_6:這兩種計算方式是最寬鬆的計算應答率的方法,所有不確定是否符合訪問條件的抽樣單元均被認為是不符合訪問條件的抽樣單元。這時分母達到最小值,應答率達到最大。

RR_5=I/(I+P)+(R+NC+O)

RR_6=(I+P)/(I+P)+(R+NC+O)

四、關於非概率調查

在非概率抽樣的調查中,應答率的計算並不適用,因為應答率是基於概率抽樣提出的一個概念,受訪者應該是從一個既定的抽樣框中基於一個已知的概率被抽取的,樣本數據可以推斷的總體是可明確界定的。

在非概率調查中,如通過在線樣本庫發放問卷連結的調查,如果邀請作答的人員可知的話,我們可以計算參與率(Participation Rate),即所有收到作答邀請的人員中,有效完成調查的人員的比例。參與率和應答率是不同的概念,不過它可以視作評估在線樣本庫活性的一個參考標準。

那麼,在一個基於社交媒體或廣告渠道發放調查邀請和問卷連結的網絡調查中,如果我們把曝光量(即看到調查邀請和問卷連結的人數)視作計算參與率的分母的話,你們覺得參與率能達到多少呢?

ReferencesAAPOR. (2016) . Standard Definitions Report, 9th edition.

期待各位同行評論交流。

相關焦點

  • 體脂率計算公式如何計算
    其實不論是減肥還是增肥,最好的身材是要根據個人的體脂率去進行計算,很多人不清楚自己的體質率是多少,也不知道體脂率計算公式是如何的。 每個人對自己身材的形容幾乎是以胖和瘦來區別,當發現自己胖了,那麼就努力讓自己減肥,如果發現自己瘦了,那麼就可以增加飲食攝入量進行增肥。
  • 論文重複率是如何計算的?
    ,因此,高校將根據查重報告中的重複率判斷論文是否合格,合格論文後才能參加論文答辯。大學將不同學歷的論文定為重複率的不同標準,那論文的重複率是如何計算出來的呢?許多大學畢業生對論文查重率的計算規則還不太清楚,其實,了解詳細的論文查重計算規則對通過論文查重是很有幫助的,對以後的修改降重也能起到一定的效果。
  • 情境題的應答質量及其與認知能力的關係
    你認為,孫軍的健康狀況如何?B王麗走200米的路毫無困難,但走完一公裡或爬完幾層樓後,會覺得累。她的日常活動沒有問題,比如從市場上買完菜拎回家。她每月都有一次頭痛,吃藥之後會有所緩解。頭痛時,她能繼續做日常工作。你認為,王麗的健康狀況如何?
  • 知網查重是如何計算查重率的,重複率高又該怎麼辦?
    知網查重(www.it54.cn)主要是檢查重複率,也就是說,如果論文的重複率太高,那麼就會被判為不合格,很多學生對如何計算重複率感到特別困惑。只有掌握了規律,才能在寫論文時提高原創度。論文的重複率較高,需要修改。1.論文查重的重複率是如何計算的?論文中的查重與查重系統有很大的關係。
  • 知網論文查重系統是如何計算重複率的?
    論文檢測系統如何計算重複率?從目前的情況來看,既然各高校都開始查卷了,那麼在查卷系統中如何計算重複率就顯得尤為重要。下面以網絡小編為例,來解釋一下!這五個版本都有相同的重複計算規則。換句話說,如果一個段落中重複的單詞超過13個,系統會用紅色標註這一部分。重複次數除以總字數就構成了論文的重複率。章節重複率是指每章的重複次數除以總章節數。此外,從研究報告中可以看出,這一部分的重複率與全文的重複率有所不同。
  • 什麼是體脂率 體脂率怎麼計算
    什麼是體脂率?   所謂的體脂率,顧名思義就是身體內含有的脂肪含量佔身體體重的一個比率,科學來說體脂率就是脂肪在你身體當中佔體重的百分比。例如如果一個人的體重是60公斤,而計算出來的體脂率是10%,那麼意味著其體內大約有6公斤的脂肪,並且還有54公斤的非脂肪含量。
  • 如何在iPhone使用自動應答呼叫
    關於iPhone具有自動應答來電功能,這點或許很多小夥伴都知道,一旦啟動自動應答功能後,iPhone將自動應答所有打到手機的電話,但是雖然知道,卻不知道如何操作,下面天津網站建設就給大家說下,關於iPhone使用自動應答呼叫的具體操作方式。
  • 什麼公積金個貸率?公積金個貸率怎麼計算?
    公積金個貸率如何計算?銀行信息港小編為大家介紹詳情。  個貸率即住房公積金個貸率,也就是住房公積金個人住房貸款餘額與繳存餘額之比。住房公積金個人住房貸款餘額與繳存餘額之比,就是個貸率。而個貸率更是體現公積金支持個人貸款買房力度的重要指標。
  • 光伏組件衰減率該如何計算?
    提到光伏發電系統帶來的收益不得不說一下光伏組件衰減率的影響,光伏君的好多朋友對組件衰減率所知甚少,今天咱們就來認識組件的衰減率以及計算方法。光伏組件衰減率的定義光伏組件衰減率是指光伏組件運行一段時間後,在標準測試條件下(AM1.5、組件溫度25°C,輻照度1000W/m2)最大輸出功率與投產運行初始最大輸出功率的比值。
  • 知網查重率是怎麼計算的?
    中國絕大多數學校都是選擇使用論文查重軟體來檢測同學們的畢業論文,大部分高校使用的論文查重軟體就是知網論文查重了,那麼知網查重率是如何計算的?知網論文查重知網查重率是如何計算的?一般來說,知網查重率=重複字數÷總字數*100%;用最終的總查重率與學校標準進行對比,如果是符合學校標準,就可以通過論文查重了,否則就要重新寫或者進行修改。
  • 數據科學與計算智能(一):數據科學的內涵
    ,推動數據科學與計算智能持續發展。如何用科學的方法來研究數據的一般性規律,揭示其內在機理?這些是數據科學更基本的問題。例如,數據科學中的一些常數規律(對稱性、黃金分割、長尾分布等)和更廣意義上的大數據非確定性、數據廣義關聯、時空演化、數據複雜性等。
  • 「畢業之家」知網查重率怎麼計算?
    因此,下面小畢將為大家詳細介紹知網查重系統是如何進行計算重複率的。首先,知網根據論文的類型不同,分別建立了對應的查重系統。針對本科生和專科生的畢業論文,知網建立了pmlc查重系統。針對碩博的學位論文和專著,知網建立了VIP系統。針對職稱論文和期刊論文,知網建立了amlc/smlc查重系統。針對論文初稿的查重,知網建立了大分解系統和小分解系統。
  • 如何把科學計算和機器學習結合,更好的解決實際問題 | 《AI+科學彙編》
    研討會期間,來自北京大學的李若教授分享了《智能時代的科學計算:低維表達與高維問題的自然融合》,深入探討在人工智慧時代,面對高維的挑戰,傳統科學計算領域「新的可能性」。同樣來自北京大學的楊超教授分享了《淺論超級計算、人工智慧與科學計算的融合發展》,圍繞計算和數據,探討了超級計算、科學計算和人工智慧之間的聯繫並展望未來發展趨勢。
  • 市值110億美元的獨角獸是如何計算用戶流失率的
    下面我們看看作者無意中窺破的ServiceNow的用戶流失率的計算秘密…之前在為全球第三大的SaaS公司ServiceNow準備他們的註冊上市聲明(S-1)的時候,我碰巧在他們叫做「影響我司效益之關鍵因數」的最近年度報告中,留意到了該公司用來計算用戶流失率的兩個方式。
  • 超導量子計算進展:多體局域化遷移率邊界的量子模擬
    多體局域化與能量密度譜之間的依賴關係引發了大家對多體局域化遷移率邊界(mobility edge)問題的討論(圖1),現有的基於嚴格對角化的數值計算給出了尺寸為24個量子比特左右的系統存在遷移率邊界的證據。儘管如此,一些研究者對遷移率邊界在熱力學極限下的存在性提出了爭議。
  • 設備綜合效率(OEE)的計算方法是如何計算的?
    企業在進行OEE計算時常常遇到很多迷惑的問題,如工廠停水、停電、停氣、停氣使設備不能工作,等待訂單、等待排產計劃、等待檢查、等待上一道工序造成的停機,不知如何計算。本文引入非設備因素停機的概念,修改了OEE的算法,使計算得到的OEE更能夠真實反映設備維護的實際狀況,讓設備完全利用的情況由完全有效生產率TEEP這個指標來反映。本文同時介紹了在不同情況下如何分析設備損失的 PM分析流程。
  • 好醫友腫瘤治療應答指數,精準預測急性白血病和MDS...
    此前,兩項血液腫瘤重磅臨床研究的結果顯示:相較專科醫生開出的治療方案,好醫友腫瘤治療應答指數(TRI Singula?)可以更準確地預測急性髓系白血病(AML)和骨髓增生異常症候群(MDS)患者的治療應答情況。  ◆ 在myCare-009-01研究中,Singula?
  • Excel軟體調用Maple科學計算函數進行科學計算
    Excel軟體調用Maple科學計算函數進行高級計算處理我們在Excel進行進行一些高級的科學運算的時候,有時候可能需要利用一些高級的函數或者功能,這時候可能用本身的VBA編程功能無法很好或者方便的進行編程,這時候我們就可以利用Maple內核
  • 查重率計算方式是什麼?
    本文由 查重降重中心 sp8080.com 整理分享即將畢業時,您將面臨很多問題,並且在尋找工作時將不得不面對自己撰寫畢業論文的問題.這也使許多學生感到沮喪.實際上,起初每個人都不知道論文的重新定義,只是聽說過學校特別注意重複率.實際上,只要可以將重複率降低到學校要求的水平
  • 汽車的保值率是要怎麼計算的?
    麻煩問下保值率是要怎麼計算的?比如說我買的是17年7月份的卡羅拉1.2TGL-I是11.96萬,到了去年的8月份保值率是7.15%,這個是怎麼折算的?其實這個保值率是特別的好算,前段時間我們聊的是如何能買到保值率高的車,那其實你要算保值率的話,這件事情就特別容易了,比如你的車是17年7月份買的,那你就拿現在你這二手車能賣的價格去除一下你當時買車的價格,其實就是保值率了。至於你說的什麼保值率7.15我不太明白是怎麼個意思,你這7點多是怎麼來的數呢?