效度,因此,是測驗開發和測驗評價中最基本的考量。
《教育與心理測驗標準》(2014版)
Validity is, therefore, the most fundamental consideration in developing tests and evaluating tests.
Standards for educational and psychological testing (2014).
效度的標準關 鍵 詞:效度,標準Validity refers to the degree to which evidence and theory support the interpretations of test scores for proposed uses of tests. Validity is, therefore, the most fundamental consideration in developing tests and evaluating tests.
Standards for Educational and Psychological Testing (3rd ed.)
標準1.0應針對測驗結果的各種用途分別闡明測驗分數的解釋方式,應為每種解釋提供恰當的效度證據。
Ⅰ 明確測驗用途與分數解釋標準1.1測驗開發機構應清晰提出測驗分數應如何解讀、測驗結果應如何應用,應清晰界定測驗對象,應清晰描述測驗構念(Constructs)。
標準1.2應提出測驗結果的應用及相應分數解釋之間的理由,應提供支持分數解釋的證據和理論。
標準1.3若針對測驗結果應用的分數解釋未經受效度評估,或者分數解釋與現有證據不一致,那麼即使這些解釋司空見慣或大有可能,也應如實記錄,且應提醒測驗潛在使用者強烈質疑未經證據支持的分數解釋。
標準1.4若測驗分數未經效度驗證即用於他用,則測驗使用者有責任證實該分數的解釋和結果的應用,並按需提供理由和證據。
標準1.5若測驗分數的解釋和結果的應用可能導致特定結果1,則應提供導致該預期結果的理由及相關證據。
標準1.6除設計用途之外,有的測驗或測驗項目被認為可以帶來某些間接獲益2,因此被推薦給測驗使用者。推薦人應提供導致該預期獲益的理由,及其相關邏輯推理、理論論證和經驗證據。應重視科學文獻中與推薦獲益不一致的發現,包括推薦獲益之外重要的間接結果。
標準1.7若測驗表現及其導致的決策基本不受相關練習或輔導的影響,則應紀錄測驗表現的這種變化傾向3。
Ⅱ 效度驗證的取樣和情境事宜標準1.8應儘可能詳細地記錄效度證據來源的考生樣本構成,包括主要的相關的社會人口學和教育背景特徵。
標準1.9若效度驗證依賴專家(含觀察員或評分員)的意見和決策,則應詳細記錄專家遴選的流程、主觀判斷和評定的過程。應提供專家的資質和經驗。流程記錄應包括專家所受培訓和指導,專家是否獨立做出決策,專家意見一致性程度。若允許專家互動與信息交流,則應指出專家間相互影響的過程。
標準1.10若效度證據屬於或包含測驗結果的統計學分析,應詳細描述數據採集的條件,以便測驗使用者判斷統計學結果與實測情境的相關性。應特別注意不同於測驗實施典型環境且可能影響測驗表現的數據採集條件。
Ⅲ 效度證據的類型A 源於內容的證據標準1.11若測驗內容恰當與否影響測驗結果應用和分數解釋,則應描述選取和制定測驗內容的流程,應驗證測驗內容與考生群體、測驗構念、知識領域的關係。若測驗內容的選取參考了重要性、發生頻次、危急程度等標準,則應清晰解釋和論證這些標準。
B 認知過程相關的證據標準1.12若考生的心理過程或認知操作影響測驗結果應用和分數解釋,則應提供支持相應論斷的理論依據或經驗證據。若觀察員或評分員的認知過程影響測驗的效度論證,則也應提供相應的支持信息。
C 內容結構相關的證據標準1.13若試題或測驗模塊之間的關係影響測驗結果應用和分數解釋,則應提供測驗內容結構相關證據。
標準1.14若需提供分項分數(subscores)、分數差異或分數分布(profile)解釋,則應提供其解釋的理由和相關證據。若需提供分項分數或不同測驗分數的總分,則應提供構建總分的理由和證據。
標準1.15若需提供每道試題或試題子集(subsets)表現的解釋,則應提供其解釋的理由和相關證據。若測驗開發機構認為可以但不推薦對每道試題的反應做出解釋,則應警告測驗使用者不要做出相應解釋。
D 與理論上相關的構念有關的證據標準1.16若效度證據既包括對試題反應的經驗分析,也包括其他變量的數據,則應提供選擇其他變量的理由。應儘量準確提供其他變量所代表構念的證據,以及變量的技術特徵。除其代表的構念之間的依賴外,應重視變量之間任何可能的依賴來源4(sources of dependence,或缺少獨立性來源)。
E 與效標有關的證據標準1.17若效度驗證依賴於測驗分數與其他效標變量之間的關係證據,則應報告效標的適用性及其技術質量信息。
標準1.18若聲稱一定層級的測驗表現可充分或不充分預測效標表現,則應提供與測驗分數等級相對應的效標表現等級信息。
標準1.19若測驗分數與其他變量一起用於預測成就或效標,基於自變量-效標關係的統計學模型分析既要包括測驗分數,也要包括其他變量。
標準1.20若採用樣本考生的差異效應量(effect size)測量指標,如測驗分數與效標變量的相關、考生群體間平均分數標準差等,推導其他考生群體的表現,則應報告相應測量指標的不確定程度,如標準誤、置信區間、顯著性檢驗等。
標準1.21若進行了統計學調整,如範圍限制、衰減(attenuation)等,應報告調整前後的係數、調整的流程、相關的統計數字。去除了測量誤差的構念—效標關係的估計應被清楚地報告為調整後的變量。
標準1.22若採用元分析(Meta-analysis)作為測驗—效標關係的力度證據,則實測情況中的測驗和效標變量應與分析中概括的變量具有可比性。若相關研究結果證實其他因素可以影響測驗和效標變量的關係,則應分析並報告這些因素在實測和元分析中的相關性。應清晰聲明任何可能顯著限制元分析研究結果在實測中應用的因素。
標準1.23若元分析研究結果作為證據支持測驗分數解釋和測驗結果應用,則應清晰描述研究所採用的篩選和編碼文獻的方法、偏差校正(correcting for artifacts)方法、潛在調節變量(potential moderator variables)檢驗方法等。應陳述效標不可靠性和範圍限制等偏差校正的假設,以及假設可能導致的後果。
標準1.24若測驗結果用於考生分類,且考生分類的結果可與其他效標合理比較,則應儘量提供不同分類的支持證據。
F 基於測驗結果的證據標準1.25若測驗的使用導致了超出預期的後果,則須調查後果是源自與測量內容不相關的因素(構念表達不良)還是因為測驗不能全部代表待測構念(構念無關變量)。
參考文獻:AERA/APA/NCME. (2014). Standards for Educational and Psychological Testing (3rd ed.). Washington DC: Authors.
【1】如分析員工選拔考試成績可有效降低職工失誤和培訓成本。
【2】如有人宣傳某些教育測驗可以幫助學生更好地理解他們的期望能力水平,還可以改善課堂教學。
【3】考生說明材料中應說明各種準備措施對測驗結果的影響。
【4】指由於相同的測驗方法或測驗內容而導致相關誤差或共享誤差。
A Production of international
Medical Education & Assessment Newsletters國際醫學教育評價簡報出品
助力醫師成長,成就醫師夢想!
國際醫學教育評價簡訊(international Medical Education & Assessment Newsletters)是由醫學考試從業者/愛好者維護的個人公眾號,旨在通過遴選和分享國際醫學教育和醫師評價的簡訊,促進醫學考試領域的科學研究與理論實踐。願與同仁攜手,助力醫師成長,成就醫師夢想!