最近在一門課上聊到政府部門招聘的問題,好幾個學生同時抱怨說自己參加過的好多次面試都跟該工作崗位一點關係都沒有。比如,工作崗位是圖書館管理員,筆試一輪中全是寬泛的性格測試;工作崗位是政策分析諮詢師,面試完全沒有問到受試者研究經驗或者測試分析能力,而是進行了一個小時漫無邊際的閒談等等 (是的,美國公務員招聘也存在諸多問題)。
生活中如果遇到這種情況,我們會很容易察覺到哪裡出了問題——比如,想招後勤管理人員你卻一直調查人家有沒有科研經歷,想招公司文職人員卻全是跑步、舉重之類的體力測試,想招專職司機卻全篇測試寫作能力——OK,雖然俗語說不想當將軍的廚子不是好司機,但這麼不著邊際的遴選測試考察的是跨界能力而不是做好某個本職工作的能力,古語所謂「緣木求魚」是也。誰遇上這樣的面試過程都會覺得的是深井冰。
然而在設計研究時候也經常有這種「緣木求魚」的問題,俗稱「研究者中的深井冰」。
比如,你想調查「流行音樂對人情緒的影響」,問卷中卻一直在問受試者對古典音樂的看法;
比如,你的研究問題是「如何提升政府部門績效」,卻只在與政府部門領導的訪談中問人家海外考察的經歷;
比如,你想理解「家花和野花對生長環境的不同需求」,卻被家花和野花的外觀吸引,只觀察了葉子和花瓣的區別而不是他們的生長環境;
再比如,你想調查「蔬菜銷量與經濟健康指標的關係」,卻只研究了菠菜這一種蔬菜與經濟指標的關係 (其它蔬菜是很不高興的)。
以上種種,都可以歸納為在研究測量中缺乏」Validity」(效度)的問題。社會研究的設計中,Validity可是個天大問題。
那麼何為一個測量的validity呢?——簡單來說,就是「你所檢驗的是不是你想要檢驗的」——你瞄準的靶子是不是你該射擊的靶子,你正在行駛的方向是不是你要去的地方。Validity側重在measurement當中的「準確性」(accurate assessment)。
怎麼才知道一個研究的測量是否具有較高的validity呢?
首要的標準是看其研究測量(measurement)是否符合和適用於其要去檢驗的、提出的研究問題和研究目的——research的總體目的應該是我們設計整個研究的統領和導向,偏離了目標的測量就是缺乏validity的測量。比如,上面幾個例子皆是偏離了其本來研究問題才出現了問題。要去海澱,結果一路小跑去了順義;想發射火箭去火星,小風一吹刮去了木星。
這樣說來,同樣一個訪談問題問出來,對於一個研究可能是個極好的問題,對於另外一個研究可能就是個極差的問題——因為兩個研究的目的如果不同,要去的地方不一樣,那麼所謂「好問題」的標準當然也就不一樣——「彼之蜜糖,吾之毒藥」。
要看知道一個研究是不是缺乏validity,我們具體可以看它的以下幾點:
Face validity (表面效度):這個是最基本的一種validity,研究者問的問題從表面上來看跟他的研究目的是否相關呢?----想買蘿蔔的人到處問黃瓜的價格嗎?想說喜歡你的人說出口的是「今晚的月亮真圓啊」—啊,效度太差LOL
Content validity (內容效度):一個標準定義是「The degree to which a measure covers the range of meanings included within a concept」---你要檢驗的概念被完整的涵蓋了嗎?比如哈,上面最後一個例子,想研究"蔬菜銷量和經濟健康指標關係"卻只測量了菠菜銷量的,這就沒有涵蓋「蔬菜」這個概念的全部,缺乏內容效度。
Criterion-related validity(效標關聯效度): "The degree to which a measure related to some external criterion」---比如,使用大學生的GRE分數來測量他們的學習能力,這是不是一種有效度的測量呢?GRE分數能夠完美看出一個人的學習能力嗎?再比如,要測量一個人對宗教的信仰程度,我使用這個人每周去參加宗教性服務的次數,這又是不是有效度的測量呢?
Construct validity (結構效度):訪談或者問卷的問題真的測的是你要研究的某個具體概念嗎?還是其實測了另一個概念?社會科學中有很多概念是非常主觀和接近的,比如,你問的某個問題是測了一個人的自信度(confidence), 還是自我效能 (self-efficacy)?你對某兩個人之間彼此態度的問題測出來的是他們的信任度(trust)還是友誼(friendship)?
與validity經常一起討論的另一個概念是「reliability」(信度),一個好的研究測量必須既有validity又有reliability。如果說validity關注的是你是不是能正中靶心,那麼reliability關注的則是你在多大程度上能總是命中靶心——即一個測量的穩定性、一致性(consistency)。
一個研究,可能具有較高的效度卻沒有信度;可能具有較高的信度卻沒有效度。我們的目標是兩者都照顧到。類比關係請見下圖(圖片來自網絡)。
Reliability(信度)到底是什麼呢?
比如,你買了個新的體重稱來跟蹤自己體重變化,買回家站在稱上一看,161斤,你心想我怎麼可能這麼輕,重新又站上去了一次,171斤,你火了,又上去一看,又變成161 斤,你心想這可奇怪了,再測一次吧,191斤。。。
如果你真買了這麼一個秤,你肯定知道這秤有問題,因為你的體重不可能在幾分鐘之內發生這麼迅雷不及掩耳的變化,這個稱的問題就是沒有reliability——缺乏consistency。
社會研究中的measurement也一樣需要reliability。比如吧,你發明了一個測量智商的一套問題,共100個問題,交給一個小學的班級裡50名學生測試他們的平均智商。第一次測量結果是平均75分;隔了一個月,你又去同一個班測了一次,這一次得出的結果是55分;隔了一個月你又去測了一次,這次120分......——如果假設其他因素都被控制不變,這三次差距如此之大的結果說明你設計的這套問題的reliability非常低,你要是用它來去測別人智商,得到的結果總是沒個準,你說這樣的結果你要是用在論文裡,別人應該相信嗎?自己良心會不會疼?
那你可能會問了,在社會科學裡存在那種完美reliability的measure嗎?比如說,像一個正常的體重秤一樣總是能得出百分之百穩定結果,心理學、管理學、或者社會學的測量, 存在這麼完美的穩定性嗎?
答案是,幾乎不存在。比如測自信心高低,不同的學者可能會使用不同的問題術去測量一個人的自信心,慢慢的就會有一套大多數學者承認的測量指標,如果你研究的東西已經有了比較成熟的這一套scale,你就應該去使用或者至少要借鑑, 而不是完全從零開創一套全新測量。
既然不存在完全完美reliability的測量,用什麼指標知道一個measurement的reliability有多好呢? 最常用的指標是Cronbach’s Alpha, range在0和1之間的一個指標,越接近1 越說明這個測量時reliable的, 一般SPSS之類的軟體都能算出來,也要在論文裡面匯報出來以供其他學者參考。
忽然想聊validity 和reliability的原因大概是它連接了「研究設計」,「數據收集」和「數據分析」這三個個社會研究中的核心環節。我們作為初階研究者,可能最需要的能力就是把做research過程中每個核心部分之間的關係搭建起來在腦中形成全景圖。
Research process的每一個步驟都需要環環相控、遙相呼應,每一步每一環最終都是為了能夠達到那個大目標——去回答research question。關於理解research process的不同環節,可配合閱讀 Research Process: 做一個高質量的社會研究項目一般都需要涵蓋哪幾個步驟?
而理解了validity和reliability,也許可以為我們搭建這種全景圖、在腦中連接多個研究環節找到一個入口。
來源:刀熊說說
版權歸原作者所有