如何看懂一篇學術文章的效度和信度

2021-01-10 騰訊網

最近在一門課上聊到政府部門招聘的問題，好幾個學生同時抱怨說自己參加過的好多次面試都跟該工作崗位一點關係都沒有。比如，工作崗位是圖書館管理員，筆試一輪中全是寬泛的性格測試；工作崗位是政策分析諮詢師，面試完全沒有問到受試者研究經驗或者測試分析能力，而是進行了一個小時漫無邊際的閒談等等（是的，美國公務員招聘也存在諸多問題）。

生活中如果遇到這種情況，我們會很容易察覺到哪裡出了問題——比如，想招後勤管理人員你卻一直調查人家有沒有科研經歷，想招公司文職人員卻全是跑步、舉重之類的體力測試，想招專職司機卻全篇測試寫作能力——OK，雖然俗語說不想當將軍的廚子不是好司機，但這麼不著邊際的遴選測試考察的是跨界能力而不是做好某個本職工作的能力，古語所謂「緣木求魚」是也。誰遇上這樣的面試過程都會覺得的是深井冰。

然而在設計研究時候也經常有這種「緣木求魚」的問題，俗稱「研究者中的深井冰」。

比如，你想調查「流行音樂對人情緒的影響」，問卷中卻一直在問受試者對古典音樂的看法；

比如，你的研究問題是「如何提升政府部門績效」，卻只在與政府部門領導的訪談中問人家海外考察的經歷；

比如，你想理解「家花和野花對生長環境的不同需求」，卻被家花和野花的外觀吸引，只觀察了葉子和花瓣的區別而不是他們的生長環境；

再比如，你想調查「蔬菜銷量與經濟健康指標的關係」，卻只研究了菠菜這一種蔬菜與經濟指標的關係（其它蔬菜是很不高興的）。

以上種種，都可以歸納為在研究測量中缺乏」Validity」（效度）的問題。社會研究的設計中，Validity可是個天大問題。

那麼何為一個測量的validity呢？——簡單來說，就是「你所檢驗的是不是你想要檢驗的」——你瞄準的靶子是不是你該射擊的靶子，你正在行駛的方向是不是你要去的地方。Validity側重在measurement當中的「準確性」(accurate assessment)。

怎麼才知道一個研究的測量是否具有較高的validity呢？

首要的標準是看其研究測量（measurement）是否符合和適用於其要去檢驗的、提出的研究問題和研究目的——research的總體目的應該是我們設計整個研究的統領和導向，偏離了目標的測量就是缺乏validity的測量。比如，上面幾個例子皆是偏離了其本來研究問題才出現了問題。要去海澱，結果一路小跑去了順義；想發射火箭去火星，小風一吹刮去了木星。

這樣說來，同樣一個訪談問題問出來，對於一個研究可能是個極好的問題，對於另外一個研究可能就是個極差的問題——因為兩個研究的目的如果不同，要去的地方不一樣，那麼所謂「好問題」的標準當然也就不一樣——「彼之蜜糖，吾之毒藥」。

要看知道一個研究是不是缺乏validity，我們具體可以看它的以下幾點：

Face validity （表面效度)：這個是最基本的一種validity，研究者問的問題從表面上來看跟他的研究目的是否相關呢？----想買蘿蔔的人到處問黃瓜的價格嗎？想說喜歡你的人說出口的是「今晚的月亮真圓啊」—啊，效度太差LOL

Content validity (內容效度):一個標準定義是「The degree to which a measure covers the range of meanings included within a concept」---你要檢驗的概念被完整的涵蓋了嗎？比如哈，上面最後一個例子，想研究"蔬菜銷量和經濟健康指標關係"卻只測量了菠菜銷量的，這就沒有涵蓋「蔬菜」這個概念的全部，缺乏內容效度。

Criterion-related validity（效標關聯效度): "The degree to which a measure related to some external criterion」---比如，使用大學生的GRE分數來測量他們的學習能力，這是不是一種有效度的測量呢？GRE分數能夠完美看出一個人的學習能力嗎？再比如，要測量一個人對宗教的信仰程度，我使用這個人每周去參加宗教性服務的次數，這又是不是有效度的測量呢？

Construct validity （結構效度):訪談或者問卷的問題真的測的是你要研究的某個具體概念嗎？還是其實測了另一個概念？社會科學中有很多概念是非常主觀和接近的，比如，你問的某個問題是測了一個人的自信度(confidence), 還是自我效能 (self-efficacy)？你對某兩個人之間彼此態度的問題測出來的是他們的信任度(trust)還是友誼(friendship)?

與validity經常一起討論的另一個概念是「reliability」（信度）,一個好的研究測量必須既有validity又有reliability。如果說validity關注的是你是不是能正中靶心，那麼reliability關注的則是你在多大程度上能總是命中靶心——即一個測量的穩定性、一致性（consistency）。

一個研究，可能具有較高的效度卻沒有信度；可能具有較高的信度卻沒有效度。我們的目標是兩者都照顧到。類比關係請見下圖（圖片來自網絡）。

Reliability(信度）到底是什麼呢？

比如，你買了個新的體重稱來跟蹤自己體重變化，買回家站在稱上一看，161斤，你心想我怎麼可能這麼輕，重新又站上去了一次，171斤，你火了，又上去一看，又變成161 斤，你心想這可奇怪了，再測一次吧，191斤。。。

如果你真買了這麼一個秤，你肯定知道這秤有問題，因為你的體重不可能在幾分鐘之內發生這麼迅雷不及掩耳的變化，這個稱的問題就是沒有reliability——缺乏consistency。

社會研究中的measurement也一樣需要reliability。比如吧，你發明了一個測量智商的一套問題，共100個問題，交給一個小學的班級裡50名學生測試他們的平均智商。第一次測量結果是平均75分；隔了一個月，你又去同一個班測了一次，這一次得出的結果是55分；隔了一個月你又去測了一次，這次120分......——如果假設其他因素都被控制不變，這三次差距如此之大的結果說明你設計的這套問題的reliability非常低，你要是用它來去測別人智商，得到的結果總是沒個準，你說這樣的結果你要是用在論文裡，別人應該相信嗎？自己良心會不會疼？

那你可能會問了，在社會科學裡存在那種完美reliability的measure嗎？比如說，像一個正常的體重秤一樣總是能得出百分之百穩定結果，心理學、管理學、或者社會學的測量, 存在這麼完美的穩定性嗎？

答案是，幾乎不存在。比如測自信心高低，不同的學者可能會使用不同的問題術去測量一個人的自信心，慢慢的就會有一套大多數學者承認的測量指標，如果你研究的東西已經有了比較成熟的這一套scale，你就應該去使用或者至少要借鑑, 而不是完全從零開創一套全新測量。

既然不存在完全完美reliability的測量，用什麼指標知道一個measurement的reliability有多好呢？最常用的指標是Cronbach’s Alpha, range在0和1之間的一個指標，越接近1 越說明這個測量時reliable的，一般SPSS之類的軟體都能算出來，也要在論文裡面匯報出來以供其他學者參考。

忽然想聊validity 和reliability的原因大概是它連接了「研究設計」，「數據收集」和「數據分析」這三個個社會研究中的核心環節。我們作為初階研究者，可能最需要的能力就是把做research過程中每個核心部分之間的關係搭建起來在腦中形成全景圖。

Research process的每一個步驟都需要環環相控、遙相呼應，每一步每一環最終都是為了能夠達到那個大目標——去回答research question。關於理解research process的不同環節，可配合閱讀 Research Process: 做一個高質量的社會研究項目一般都需要涵蓋哪幾個步驟？

而理解了validity和reliability，也許可以為我們搭建這種全景圖、在腦中連接多個研究環節找到一個入口。

來源：刀熊說說

版權歸原作者所有

相關焦點

測驗的效度和信度

一、效度(一)效度的涵義測驗的效度指的是測驗的正確性和有效性。換言之，效度指的是測驗能在多大程度上實現測驗的目的。效度是科學測驗工具最重要的質量指標。能測出來想測量東西的程度，則效度高;測不出來，則效度低。例如：想要測量小明的身高，測量工具是秤，那麼，測量不出想要測量的東西，則效度低。
如何區分信度與效度之間的關係

信度與效度兩者間的關係是歷年來的重要考點也是同學們做題時候的難點，常以單選、填空和簡答來考察大家，理解性去做題就比較容易得分，那麼今天就來為大家解讀一下這部分知識點
信度和效度的關係和區別

信度是什麼？效度是什麼？信度和效度的關係和區別是怎樣的呢？下面小編為大家一一介紹：【什麼是信度】信度指測驗結果的一致性、穩定性及可靠性，一般多以內部一致性來加以表示該測驗信度的高低。信度係數愈高即表示該測驗的結果愈一致、穩定與可靠。
信度與效度的理論溯源

一、測驗的效度(一)效度的涵義測驗的效度指的是測驗的正確性和有效性。換言之，效度指的是測驗能在多大程度上實現測驗的目的。效度是科學測驗工具最重要的質量指標。(二)效度的類型考察效度的方法很多，根據測量的問題不同，可以分為三類，即內容效度、構想效度、實證效度。
新傳名詞解釋全整理:效度/表面效度/準則效度/結構效度/內在效度和外在效度/信度與效度的關係

內在效度和外在效度如果在一項具體研究中，對上述三種效度(內容效度、準則效度、結構效度)的檢查沒有問題的話，就可以認為這一研究具有內在效度，它的資料和結論可以有效地解答所研究的問題。但是，這一研究結論的有效性能否用於其他時間、地點和對象就要涉及到外在效度的檢驗，這就要考慮樣本的代表性和特殊性，以及研究的時間、地點、情境和研究內容的普遍意義。可以說，內在效度是指一項研究的資料和結論的有效性，而外在效度是指這種研究結論的普遍有效性。 6.
問卷信度效度之間有什麼關係如何分析

內部與外部可靠性信度可分為內在信度和外在信度兩類。內在信度：是指衡量研究問卷中的多個題目是否測量了同一概念或者內容，即題目之間是否具有內在一致性。這也就是大多數量表問卷所做的信度分析。外在信度：通常指不同時間測量時，是否測量結果具有一致性。比如說剛才舉例中提到的考試成績例子。衡量信度的方法有很多種，其中，常用的內在信度係數包括：克隆巴赫α係數和折半係數；常用的外在信度是重測信度。α信度係數，即內部一致性係數。
《量表信效度分析》系列文章

為了解決這一問題，學堂推出了量表信效度系列，超詳細的為大家講解如何對問卷進行試測,調整問卷結構,設計更為優質的問卷。為讓大家更加方便的學習信效度分析的基礎知識與應用，學堂現將《量表信效度分析》系列文章匯總起來呈現給大家。此系列文章專門為信效度分析的初學者準備，內容全面、豐富，大家可以根據自己的需要慢慢學習，後續文章將持續更新中！
教基每日一練:測驗的信度和效度(1.4)

一、效度(一)效度的涵義測驗的效度指的是測驗的正確性和有效性。換言之，效度指的是測驗能在多大程度上實現測驗的目的。效度是科學測驗工具最重要的質量指標。能測出來想測量東西的程度，則效度高;測不出來，則效度低。例如：想要測量小明的身高，測量工具是秤，那麼，測量不出想要測量的東西，則效度低。
2020年甘肅教師招聘教育學知識點:測驗的效度和信度

2020年甘肅教師招聘教育學知識點：測驗的效度和信度 2020年甘肅教師招聘考試正處於緊張的備考狀態，按照往年信息來看，甘肅省教師招聘考試內容一般為教育基礎知識和教育專業知識。
信度、效度、難度、區分度之間有何不同?

知識點在考試中通常以客觀題的形式出現，但是幾乎沒有識記類的考法，基本以概念反選、事例反選類單選題或判斷題為主，接下來就讓我們一起來走進這個知識：信度——是指測驗結果的穩定性或可靠性，即某一測驗在多次進行後所得到的分數的穩定、一致程度。它即包括在時間上的一致性，也包括內容和不同評分這之間的一致性。如，在不同時間測兩次相同的試卷，如果成績基本相當，那麼我們就認為測驗的信度較高。
:信度與效度、創造性與智商的關係探究

：信度與效度、創造性與智商的關係探究,詳細信息請閱讀下文! 　　一、信度與效度　　信度指的是所測量的屬性或特徵前後一致性的程度，即多次測驗的結果是否一致。一個人在多次進行某種測驗時，如果得到近乎相同的分數，那麼，可以認為該測驗穩定可靠，其信度是高的。例如，採用性格量表測量學生，他們在這一個月的結果，如果大致等於六個月前和三個月前的得分，那麼我們就認為測驗的信度較高。
信度不達標的處理方式

在進行問卷研究時，特別是問卷中有非常多的量表題時，數據質量是基礎保障，問卷研究中排在最前面的即為數據質量分析，通常包括信度和效度分析。本身進行信度或者效度分析並非難事，但最難的事情在於如果信度或者效度不達標應該如何處理。
信度分析完整流程總結,一定有你需要的

在問卷研究中，分析問卷信效度總是不可避免的環節之一。很多人會選擇直奔主題，點開信度分析界面，拽上所有題目就開始分析。但往往這樣「高效」的做法，總是得不到理想的結果。如何更有效獲得信度分析結果，避免無用功，今天我們就一起來探討一下。
沒有信度和效度,還能叫問卷嗎?

複本信度法要求兩個複本除表述方式不同外,在內容、格式、難度和對應題項的提問方向等方面要完全一致,而在實際調查中,很難使調査問卷達到這種要求,因此採用這種方法者較少。3、分半信度分半信度常用在不可能進行重複調査的情況下。
問卷數據分析——區分效度

前面介紹了合成信度相關內容，現在我們來看區分效度部分。同樣先簡介定義，然後介紹操作計算部分。由於區分效度也是伴隨因子分析進行的，其畫圖、建模以及運行等過程，與合成信度的過程一模一樣，本文中案例所用的數據與合成信度也是同一數據，文中關於畫圖等過程就省略了，大家自行參照合成信度相關內容。
效度不達標的處理方式

如同信度一樣，這是非常重要的問題。如果量表設計不合理，基於此量表的數據也會受到置疑。接下來闡述效度分析（上一篇文章闡述信度分析），以及效度分析時的操作方法，如何解決出現的問題等。本書中使用的較多內容參考於「問卷數據分析-破解SPSS的六類分析思路」一書，以及使用網頁版本在線spss軟體spssau進行操作說明等。
SPSSAU數據分析入門教學03:信效度分析指標

信效度是衡量一份問卷測試結果的準確性和穩定性的依據。問卷設計完成之後到分析結束，一般要經過兩次信效度分析。一次是預調查時，一次是正式分析。1 定義信度分析用於測量樣本回答結果是否可靠，即樣本有沒有真實作答量表類題項。信度係數越高表示該測驗的結果越一致、越穩定。效度分析用於測量題項設計是否合理，通過因子分析方法進行驗證。
問卷信效度分析的步驟

問卷設計是科研工作中的常見問題，如何設計出高信效度問卷，臺灣學者吳明隆給出了很好的答案。進行因素分析時，學者Tinsley 和Tinsley ( 1987 ）建議，進行因索分析時，每個題項數與預試樣本數的比例大約為1:1 至1:10 之間，如果受試者總數在300 人以上時，這個比例便不是那麼重要。
心理學2016考研專業課心理測量知識點:信度

1、信度是指：測量結果的可靠性和一致性。因為心理測驗通常測量人的行為，行為會由於各種各樣的原因，因時、因事、因地而產生變動，這些因素有些是偶然的，有些是固有的，人在完成心理測驗時的行為也會受上述因素的影響，從而使測驗結果與真實結果不完全一致，所以我們要用信度來衡量測驗的可靠性和一致性。
一文掌握效度分析所有知識點!

通常情況下，效度分析只能分析量表題。針對效度分析，通常會使用內容效度分析、結構效度分析（探索性因子分析）和結構效度分析（驗證性因子分析）進行效度分析。效度分析類型如下所示。當信度分析不達標時，效度分析必然也不能達標。效度分析常見的有內容效度分析、結構效度分析，建議研究人員通過內容效度分析和結構效度分析這兩方面對問卷進行效度分析，如下圖所示。

如何看懂一篇學術文章的效度和信度

相關焦點

測驗的效度和信度

如何區分信度與效度之間的關係

信度和效度的關係和區別

信度與效度的理論溯源

新傳名詞解釋全整理:效度/表面效度/準則效度/結構效度/內在效度和外在效度/信度與效度的關係

問卷信度效度之間有什麼關係如何分析

《量表信效度分析》系列文章

教基每日一練:測驗的信度和效度(1.4)

2020年甘肅教師招聘教育學知識點:測驗的效度和信度

信度、效度、難度、區分度之間有何不同?

:信度與效度、創造性與智商的關係探究

信度不達標的處理方式

信度分析完整流程總結,一定有你需要的

沒有信度和效度,還能叫問卷嗎?

問卷數據分析——區分效度

效度不達標的處理方式

SPSSAU數據分析入門教學03:信效度分析指標

問卷信效度分析的步驟

心理學2016考研專業課心理測量知識點:信度

一文掌握效度分析所有知識點!