《教育與心理測驗標準》(Standards for Educational and Psychological Testing)是是美國教育研究學會(American Educational Research Association,AERA)、美國心理學會(American Psychological Association,APA)和美國國家教育測量委員會(National Council on Measurement in Education,NCME)合作倡議創建和不斷修訂完善的有關教育和心理測試領域的標準。最新的標準出版於2014年。iMEANS選擇部分內容翻譯發表,供學界參考!
第四章 測驗設計與開發標準
標準4.0
測驗和測驗項目的設計與開發方式應支持測驗的效度,有助於有效解釋測驗分數的特定用途。測驗開發和實施機構應紀錄設計與開發全流程的所有步驟,為特定考生群體中各考生的分數提供公平性、可信性和有效性證據。
Ⅰ測驗規範的標準
標準4.1
測驗規範(TestSpecifications)應明確測驗的目的、測量的特質或領域的定義、特定考生群體、測驗分數的特定用途。測驗規範應闡明有效解釋測驗結果特定用途的理論基礎。
標準4.2
除明確測驗的特定用途外,測驗規範應確定測驗的內容、測驗長度、試題題型、試題和測驗的教育測量學指標、試題和模塊次序。測驗規範還應明確測驗時長、考生須知、參加測驗時可使用的材料;明確測驗實施的流程,以及測驗設計機構認可的流程變通;明確評分和分數報告流程。計算機化測驗的規範應明確硬體和軟體需求。
標準4.3
在計算機化自適應、多級自適應或其他通過電腦程式遴選試題的測驗項目中,測驗開發機構應紀錄測驗實施、計分、分數報告規則的理論基礎和支持證據。紀錄內容應包括實測試題或題組的遴選流程、測驗開始和終止的條件、測驗評分、試題曝光度的控制。
標準4.4
若測驗開發機構調整測驗規範、製作不同版本的測驗[*],則應紀錄各版本測驗的內容和教育測量學規範。紀錄應描述不同版本的測驗對分數特定用途有效解釋的影響,以及不同版本測驗對分數準確性和可比性的影響。
標準4.5
若測驗開發機構允許個別考生或考生群體在不同的環境中參加測驗[†],則應明確描述所允許的內容,應紀錄允許不同實測環境的理論基礎和要求條件。
標準4.6
如條件允許,應請有關的外部專家審核測驗規範,評價測驗分數特定用途有效解釋的程度,評價測驗對特定考生群體的公平性程度。應紀錄請外部專家審核的目的、程序和結果。應紀錄外部專家的資質、相關經驗和人口學特徵。
Ⅱ試題開發和審較的標準
標準4.7
應紀錄試題開發、審較、預測試(Tryouts)和從試題庫中遴選試題的流程。
標準4.8
試題審較流程應包括依據經驗和/或請專家對試題內容及評分標準進行分析。若使用了專家,則應紀錄專家的資質、相關經驗和人口學特徵,及其在審較期間所受培訓和指令。
標準4.9
若開展試題或測驗預測試,則應紀錄樣本考生組遴選流程和群組構成特徵。應儘量提升樣本考生組對考生整體的代表性。
標準4.10
評價試題教育測量學特徵時,測驗開發機構應紀錄所採用的理論類型(如經典測量理論、項目反應理論(IRT)或其他理論)。估計試題參數時所採用的數據樣本應規模適當、構成合理,數據特徵應予明確紀錄。應紀錄試題遴選流程和遴選參數(如試題難度、試題區分度、主要考生組項目功能差異(DIF)等)。若所採用的理論(如IRT)包括多種參數估計模型,則應紀錄試題開發所選模型、參數估計流程和模型契合度的證據。
標準4.11
若試題或測驗遴選主要依據過往經驗,而非依據測驗內容或理論數據,則應進行交叉驗證(Cross-validation),且應紀錄不同方法驗證結果的一致性程度。
標準4.12
測驗開發者應紀錄實際測驗考察的內容領域對測驗規範要求的測驗領域的代表性程度。
標準4.13
若可靠證據證實測驗分數受不相關變異(Irrelevant Variance)影響,則測驗機構應盡力調查不相關變異的來源,並儘可能消除或減少不相關變異。
標準4.14
若測驗設置了時長限制,則應研究測驗分數受考生作答速度影響的程度,並應結合測驗所應考察的領域來評價該影響是否恰當。
Ⅲ測驗實施和評分的流程及有關材料的開發標準
標準4.15
測驗開發機構應制定清晰而準確的測驗實施指南,以便測驗實施機構營造可靠、有效、標準化的測驗環境。測驗開發機構應清晰地說明測驗實施所允許的流程變通[‡],並應紀錄申請和審批變通流程的程序。
標準4.16
考生作答須知應足夠詳細,以便考生按照測驗開發機構的本意作答試題。若條件允許,應在測驗實施前公布可代表測驗內容和試題類型的模擬測驗材料、供考生練習的例題以及評分標準;也可將有關材料納入考生須知,作為測驗標準化指導語的組成內容。
標準4.17
若某測驗或測驗的某部分內容旨在研究之用,而非用於測驗設計的用途,則應在所有相關的測驗材料和分析報告中做出顯著的說明。
標準4.18
測驗開發機構應儘量提供清晰而準確的評分流程和相關評分標準,以盡力確保評分的準確性;應制定評分標準使用指南,清晰地說明如何將結構化作答(Constructed Responses)結果轉換為得分、等級或分類。評分標準及其使用指南對拓展性作答(Extended Responses,如行為評價、文件夾評價、短文測驗)尤其重要。
標準4.19
如應用電腦程式對複雜的作答數據進行自動化評分,則應紀錄各分數層級作答數據的特徵,以及應用該程序評分的理論原理和經驗依據。
標準4.20
測驗開發機構應明確評分者遴選、培訓、頒發證書、監控的流程;應製作培訓材料,包括評分準則和準則中各分數等級考生作答案例。培訓材料和培訓流程應助力提升評分準確性和不同評分者間評分一致性,對所評分數的解釋應與測驗開發機構的設計初衷保持一致。應制定工作規範,監控評分者評分一致性和評分結果隨時間推移可能產生的漂移(Drift)。
標準4.21
若測驗使用機構負責評分,且評分需要評分者主管判斷,則測驗使用機構應負責組織評分者培訓、製作評分指南,並應負責監控評分準確性和一致性。測驗開發機構應紀錄測驗評分準確性和一致性的期望程度,並應提供技術指導,協助測驗使用機構達到期望的評分標準。
標準4.22
測驗開發機構應明確分數解釋的流程。若條件允許,應提供常摸參照或標準參照的樣本。
標準4.23
若測驗總分來自各試題或各部分內容得分的加權求和,則測驗開發機構應紀錄權重開發、審較和確定的理論基礎和操作流程。若權重的確定基於經驗數據,則獲取經驗數據的考生群體應規模適當、構成合理,且能充分代表考生整體。若權重的確定基於專家判斷,則應紀錄相關專家的資質。
Ⅳ測驗審較的標準
標準4.24
若出現新的測驗相關研究數據、測驗考察的領域發生顯著改變或新引進的測驗實施環境可能降低分數解釋的效度,則應校正或修改測驗規範。儘管時間變遷不是撤銷或校訂現行測驗的唯一標準,但是測驗管理機構應負責定期監控測驗環境的變化,並相應校正、修改或撤銷測驗。
標準4.25
若修改了測驗,則應將修改的內容告知測驗使用機構,包括測驗規範的修改、評分等級的調整、新舊測驗分數的可比性。僅當測驗規範顯著更新時才可以將測驗標記為「修改版(Revised)」。
[*]測驗開發機構常根據實際需要開發多個測驗版本,如增減試題數量以便調整測驗時長、將測驗語言翻譯為其他語種等。
[†]受實際情況的限制,測驗設計機構可能對測驗環境進行調整,如允許部分考生參加計算機化測驗,而其他考生則參加紙筆測驗。
[‡]常見的測驗流程變通是針對特殊考生人群(如殘障人士或測驗語言為第二語言的考生)所採取的便利措施。
公眾號回復「精品書籍」獲取醫學考試評價參考書目,回復「文獻寶庫」獲取醫學教育評價文獻原文,回復「往期精華」,獲取之前本號發表的文章。