效度的標準

2021-02-20 iMEANS

效度,因此,是測驗開發和測驗評價中最基本的考量。

《教育與心理測驗標準》(2014版)

Validity is, therefore, the most fundamental consideration  in developing tests and evaluating tests. 

 Standards for educational and psychological testing (2014). 

效度的標準關  鍵  詞:效度,標準

Validity refers to the degree to which evidence and theory support the interpretations of test scores for proposed uses of tests. Validity is, therefore, the most fundamental consideration in developing tests and evaluating tests.

Standards for Educational and Psychological Testing (3rd ed.)

標準1.0

應針對測驗結果的各種用途分別闡明測驗分數的解釋方式,應為每種解釋提供恰當的效度證據。

Ⅰ 明確測驗用途與分數解釋標準1.1

測驗開發機構應清晰提出測驗分數應如何解讀、測驗結果應如何應用,應清晰界定測驗對象,應清晰描述測驗構念(Constructs)。

標準1.2

應提出測驗結果的應用及相應分數解釋之間的理由,應提供支持分數解釋的證據和理論。

標準1.3

若針對測驗結果應用的分數解釋未經受效度評估,或者分數解釋與現有證據不一致,那麼即使這些解釋司空見慣或大有可能,也應如實記錄,且應提醒測驗潛在使用者強烈質疑未經證據支持的分數解釋。

標準1.4

若測驗分數未經效度驗證即用於他用,則測驗使用者有責任證實該分數的解釋和結果的應用,並按需提供理由和證據。

標準1.5

若測驗分數的解釋和結果的應用可能導致特定結果1,則應提供導致該預期結果的理由及相關證據。

標準1.6

除設計用途之外,有的測驗或測驗項目被認為可以帶來某些間接獲益2,因此被推薦給測驗使用者。推薦人應提供導致該預期獲益的理由,及其相關邏輯推理、理論論證和經驗證據。應重視科學文獻中與推薦獲益不一致的發現,包括推薦獲益之外重要的間接結果。

標準1.7

若測驗表現及其導致的決策基本不受相關練習或輔導的影響,則應紀錄測驗表現的這種變化傾向3。

Ⅱ 效度驗證的取樣和情境事宜標準1.8

應儘可能詳細地記錄效度證據來源的考生樣本構成,包括主要的相關的社會人口學和教育背景特徵。

標準1.9

若效度驗證依賴專家(含觀察員或評分員)的意見和決策,則應詳細記錄專家遴選的流程、主觀判斷和評定的過程。應提供專家的資質和經驗。流程記錄應包括專家所受培訓和指導,專家是否獨立做出決策,專家意見一致性程度。若允許專家互動與信息交流,則應指出專家間相互影響的過程。

標準1.10

若效度證據屬於或包含測驗結果的統計學分析,應詳細描述數據採集的條件,以便測驗使用者判斷統計學結果與實測情境的相關性。應特別注意不同於測驗實施典型環境且可能影響測驗表現的數據採集條件。

Ⅲ 效度證據的類型A 源於內容的證據標準1.11

若測驗內容恰當與否影響測驗結果應用和分數解釋,則應描述選取和制定測驗內容的流程,應驗證測驗內容與考生群體、測驗構念、知識領域的關係。若測驗內容的選取參考了重要性、發生頻次、危急程度等標準,則應清晰解釋和論證這些標準。

B 認知過程相關的證據標準1.12

若考生的心理過程或認知操作影響測驗結果應用和分數解釋,則應提供支持相應論斷的理論依據或經驗證據。若觀察員或評分員的認知過程影響測驗的效度論證,則也應提供相應的支持信息。

C 內容結構相關的證據標準1.13

若試題或測驗模塊之間的關係影響測驗結果應用和分數解釋,則應提供測驗內容結構相關證據。

標準1.14

若需提供分項分數(subscores)、分數差異或分數分布(profile)解釋,則應提供其解釋的理由和相關證據。若需提供分項分數或不同測驗分數的總分,則應提供構建總分的理由和證據。

標準1.15

若需提供每道試題或試題子集(subsets)表現的解釋,則應提供其解釋的理由和相關證據。若測驗開發機構認為可以但不推薦對每道試題的反應做出解釋,則應警告測驗使用者不要做出相應解釋。

D 與理論上相關的構念有關的證據標準1.16

若效度證據既包括對試題反應的經驗分析,也包括其他變量的數據,則應提供選擇其他變量的理由。應儘量準確提供其他變量所代表構念的證據,以及變量的技術特徵。除其代表的構念之間的依賴外,應重視變量之間任何可能的依賴來源4(sources of dependence,或缺少獨立性來源)。

E 與效標有關的證據標準1.17

若效度驗證依賴於測驗分數與其他效標變量之間的關係證據,則應報告效標的適用性及其技術質量信息。

標準1.18

若聲稱一定層級的測驗表現可充分或不充分預測效標表現,則應提供與測驗分數等級相對應的效標表現等級信息。

標準1.19

若測驗分數與其他變量一起用於預測成就或效標,基於自變量-效標關係的統計學模型分析既要包括測驗分數,也要包括其他變量。

標準1.20

若採用樣本考生的差異效應量(effect size)測量指標,如測驗分數與效標變量的相關、考生群體間平均分數標準差等,推導其他考生群體的表現,則應報告相應測量指標的不確定程度,如標準誤、置信區間、顯著性檢驗等。

標準1.21

若進行了統計學調整,如範圍限制、衰減(attenuation)等,應報告調整前後的係數、調整的流程、相關的統計數字。去除了測量誤差的構念—效標關係的估計應被清楚地報告為調整後的變量。

標準1.22

若採用元分析(Meta-analysis)作為測驗—效標關係的力度證據,則實測情況中的測驗和效標變量應與分析中概括的變量具有可比性。若相關研究結果證實其他因素可以影響測驗和效標變量的關係,則應分析並報告這些因素在實測和元分析中的相關性。應清晰聲明任何可能顯著限制元分析研究結果在實測中應用的因素。

標準1.23

若元分析研究結果作為證據支持測驗分數解釋和測驗結果應用,則應清晰描述研究所採用的篩選和編碼文獻的方法、偏差校正(correcting for artifacts)方法、潛在調節變量(potential moderator variables)檢驗方法等。應陳述效標不可靠性和範圍限制等偏差校正的假設,以及假設可能導致的後果。

標準1.24

若測驗結果用於考生分類,且考生分類的結果可與其他效標合理比較,則應儘量提供不同分類的支持證據。

F 基於測驗結果的證據標準1.25

若測驗的使用導致了超出預期的後果,則須調查後果是源自與測量內容不相關的因素(構念表達不良)還是因為測驗不能全部代表待測構念(構念無關變量)。


參考文獻:AERA/APA/NCME. (2014). Standards for Educational and Psychological Testing (3rd ed.). Washington DC: Authors.


【1】如分析員工選拔考試成績可有效降低職工失誤和培訓成本。

【2】如有人宣傳某些教育測驗可以幫助學生更好地理解他們的期望能力水平,還可以改善課堂教學。

【3】考生說明材料中應說明各種準備措施對測驗結果的影響。

【4】指由於相同的測驗方法或測驗內容而導致相關誤差或共享誤差。

A Production of international
Medical Education & Assessment Newsletters

國際醫學教育評價簡報出品

助力醫師成長,成就醫師夢想!

國際醫學教育評價簡訊(international Medical Education & Assessment Newsletters)是由醫學考試從業者/愛好者維護的個人公眾號,旨在通過遴選和分享國際醫學教育和醫師評價的簡訊,促進醫學考試領域的科學研究與理論實踐。願與同仁攜手,助力醫師成長,成就醫師夢想!

相關焦點

  • 新傳名詞解釋全整理:效度/表面效度/準則效度/結構效度/內在效度和外在效度/信度與效度的關係
    由於表面效度基於個人主觀判斷之上,因而這種效度缺乏標準的、可重複性的程序保證。 3.結構效度(Construct validity)結構效度也稱構造效度或建構效度,它通過利用現有的理論或命題來考察當前測量工具或手段的效度。結構效度涉及一個理論的關係結構中其他概念或變量的測量。 5.
  • SPSS | 說說效度分析
    上周提到了信度分析,收到了很多小夥伴的催促,求更效度分析。因為量表的好壞評價標準中,信效度分析一般是分不開的。今天就來聊聊效度分析。我爭取用最簡單的語言把它說清楚。萬一如果還是有不清楚的地方,歡迎留言評論嗷。
  • 怎麼做好效度分析?
    效度分類效度又可分為內容效度、結構效度和效標效度。(1)內容效度,指問卷題項對相關概念測量的合理性情況,通常是以文字來說明問卷的有效性。如通過參考文獻,或者權威來源說明問卷的權威性和有效性。還有就是通過對問卷前測並結合結果進行題項的修正等工作來充分說明問卷的有效性。
  • 數據分析技術:信度與效度;信度和效度代表什麼?
    很多人知道信度和效度是因為問卷數據分析需要用到它們,其實信度和效度的應用範圍遠遠不止於問卷的數據分析,今天我們就來聊聊數據的信度和效度。
  • 效度概念及其演化
    《教育與心理測驗標準》(2014版)Validity is, therefore, the most fundamental consideration  in developing tests and evaluating tests.
  • 真實的心理測試才有效,了解心理測驗的標準、信度和效度
    本文就從測驗的分類講起,帶你了解真實的心理測驗的三個標準:標準化、信度 和效度。這就涉及到我們要談到的下一個概念,測試的效度。效度(validity)高信度並不一定能保證測驗的效度。就如同你進行射箭訓練,每次都射中一環的測試結果說明信度很高,但是效度卻不高。有可能是風力影響太大,有可能是弓有問題,總是這樣的測試過程並不能說明測試者的能力。
  • 教招-信度效度的區分
    教育學知識點中,有一個常考的知識點就是效度、信度的區分,很多人看到這個相關知識點的題就分不清,下面我們一起來梳理一下。1.效度效度是指一個測驗或測量工具能真實地測量出所要測量的事物的程度。一次測驗是否有效,主要看其是否能準確地測量所要測量的東西。
  • 【知識】|徵信也談信度與效度
    內容效度:是一種定性的評價標準,主要通過經驗判斷進行,主要是通過專家和有經驗的業內人士進行評價的方法。還可以對問卷在正式使用前進行小範圍的使用,結合結果進行題項的修正以說明問卷的有效性。結構效度:是指測量題項與測量方向之間的對應關係,其測量方法是因子分析,因子分析的主要功能是從全部變量中提取一些公因子,各公因子分別與某一群特定變量高度關聯,這些公因子即代表了全部變量的基本結構。在因子分析的結果中,用於評價結構效度的主要指標有累積貢獻率、共同度和因子負荷。
  • 什麼是內容效度?如何計算?
    效度包括表面效度、內容效度、結構效度/建構效度、校標關聯效度、實證效度等多種類型,本文我們先來探討內容效度。內容效度(content validity)指一個量表實際測到的內容與所要測量的內容之間的吻合程度。內容效度是量表質量的重要體現,但相對結構效度和實證效度來說,大家對內容效度的認識較少。
  • 效度不達標的處理方式
    效度分析,簡單來說就是量表設計的有效性情況,其可分為三類,分別是:內容效度、結構效度和效標效度,建議研究人員使用內容效度和結構效度對問卷進行效度質量衡量。使用探索性因子分析進行效度驗證時,首先需要對KMO值進行說明(最為簡單的效度驗證是直接對每個變量進行探索性因子分析,並且通過KMO值進行判斷,勿需判斷題項與因子對應關係情況等,此種判斷方法過於簡單,使用較少),KMO值指標的常見標準是大於0.6,接著具體說明提取的因子數量,每個因子的方差解釋率,總共方差解釋率值,並且詳細描述各個題項與因子的對應關係,如果對應關係與預期相符
  • 考試的測量學基礎知識(八):效度
    傳統意義上,效度(validity)是指一項測試測量到了它所想要測量的東西的程度。由於效度反映的是測驗的正確與有效性,效度被認為是測量工具本身的一項特徵,因此效度的檢驗可說是測驗開發最關鍵的步驟。  隨著測量理論和實踐的發展,效度概念近些年發生了很大變化,從單一的相關係數指標到三元分立(內容效度、效標關聯效度、構念效度),最終發展成為內涵豐富、一元多維的整體概念系統。效度整體觀(the unified conception of validity)研究的代表人物是美國學者Sam Messick,他對教育考試的效度問題進行了長期而卓有成效的研究。
  • 問卷設計與分析:效度分析
    如果一份問卷的效度不好,那這份問卷可能是調查不到你需要研究的內容。常用的問卷效度包含:內容效度(也稱邏輯效度)、效標效度和構念效度。    1、內容效度    內容效度反映的是問卷內容與廣度的適合程度,換句話說,內容效度就是研究者設計的問卷是否能夠測量到研究內容,有沒有存在跑題的現象。
  • 數據分析技術:信度與效度分析;信度和效度不僅僅能用於問卷分析!
    如果說一個人不僅可靠而且讓人滿意,那麼這個人應該是不僅能夠及時完成工作,而且工作能夠完成得很好,超出預期,也就是信度和效度都很好。信度針對是的行為或結果的重複性,效度針對的是行為或結果的有效性。 信度與效度的用途知道了信度與效度的現實含義以後,相信大家可以想到信度與效度的很多用途。我這裡列舉三個重要用途:A.
  • 問卷一定要做效度分析嗎
    什麼是效度?效度分析,簡單來說就是問卷設計的有效性、準確程度。效度分類效度又可分為內容效度、結構效度和效標效度。內容效度,指問卷題項對相關概念測量的合理性情況,通常是以文字來說明問卷的有效性。如通過參考文獻,或者權威來源說明問卷的權威性和有效性。
  • ...測量效度 之三、提高測量效度的方法 & C6 測驗的項目分析 之一...
    三、提高測量效度的方法影響測量效度的因素1.測驗的構成:當組成測驗的試題樣本沒有較好地代表欲測內容或結構時,測量的內容效度或結構效度必然會不高。若題目語義不清、指導語不明、題目太難或太易、題目太少或安排不當,都會降低測量效度。增加測驗的長度可以提高測量信度,進而為提高測量效度提供可能。
  • SPSS教程11:相關分析與效度
    效度即是指數據測量的準確性。即測量結果的和所需要考察的內容的吻合度。一般在做研究時,要報告自己數據的信效度以確定接下來一系列研究是否可信可行。在統計學中,有很多種測量效度的標準和方法,比如效標效度、聚合(收斂)和區分效度、結構效度。本次教程主要介紹聚合效度與區分效度。第一步:分析---相關---雙變量
  • 關於高考英語的效度和驗效問題
    本文從效度的基本概念入手,指出現行的效度界定標準出現偏差,從高考英語試題命制階段到分數解釋這一區間的效度應納入整體效度的範圍之內;目前國內對驗效的研究嚴重不足,充分的驗效有助於解決高考英語的質量問題;高考英語試卷不僅是測量工具,而且也是判斷效度的重要依據,而語言內容是驗效的原點和重點。
  • 效度檢驗
    一、理論知識(一)效度的概念及性質效度即有效性,是指測量工具或手段能夠準確測出所需測量的事物的程度。
  • 內容效度和結構效度的含義和確定方法
    應該指出的是,內容效度不適用於能力傾向測驗和人格測驗。此外,在使用內容效度時,要避免與表面效度(face validity 或 surface validity)相混淆。其實,表面效度不能算是一種效度,它不反映測驗實際測量的東西。它是外行人對某個測驗從表面上看好像是測某種心理特質的一種現象。
  • 你一定要知道的效度分析攻略
    (2)效標效度 效標效度是以經典量表的測量結果作為「金標準」,與當前數據得到的結果進行相關分析,如果相關係數值較高,則說明效標效度良好。 判斷標準:相關係數越大,代表相關性越高,效度越高。