《教育與心理測驗標準》選譯:測驗設計與開發標準

2021-03-03 iMEANS


《教育與心理測驗標準》(Standards for Educational and Psychological Testing)是是美國教育研究學會(American Educational Research Association,AERA)、美國心理學會(American Psychological Association,APA)和美國國家教育測量委員會(National Council on Measurement in Education,NCME)合作倡議創建和不斷修訂完善的有關教育和心理測試領域的標準。最新的標準出版於2014年。iMEANS選擇部分內容翻譯發表,供學界參考!

第四章  測驗設計與開發標準

標準4.0

測驗和測驗項目的設計與開發方式應支持測驗的效度,有助於有效解釋測驗分數的特定用途。測驗開發和實施機構應紀錄設計與開發全流程的所有步驟,為特定考生群體中各考生的分數提供公平性、可信性和有效性證據。

 

Ⅰ測驗規範的標準

標準4.1

測驗規範(TestSpecifications)應明確測驗的目的、測量的特質或領域的定義、特定考生群體、測驗分數的特定用途。測驗規範應闡明有效解釋測驗結果特定用途的理論基礎。

 

標準4.2

除明確測驗的特定用途外,測驗規範應確定測驗的內容、測驗長度、試題題型、試題和測驗的教育測量學指標、試題和模塊次序。測驗規範還應明確測驗時長、考生須知、參加測驗時可使用的材料;明確測驗實施的流程,以及測驗設計機構認可的流程變通;明確評分和分數報告流程。計算機化測驗的規範應明確硬體和軟體需求。

 

標準4.3

在計算機化自適應、多級自適應或其他通過電腦程式遴選試題的測驗項目中,測驗開發機構應紀錄測驗實施、計分、分數報告規則的理論基礎和支持證據。紀錄內容應包括實測試題或題組的遴選流程、測驗開始和終止的條件、測驗評分、試題曝光度的控制。

 

標準4.4

若測驗開發機構調整測驗規範、製作不同版本的測驗[*],則應紀錄各版本測驗的內容和教育測量學規範。紀錄應描述不同版本的測驗對分數特定用途有效解釋的影響,以及不同版本測驗對分數準確性和可比性的影響。

 

標準4.5

若測驗開發機構允許個別考生或考生群體在不同的環境中參加測驗[†],則應明確描述所允許的內容,應紀錄允許不同實測環境的理論基礎和要求條件。

 

標準4.6

如條件允許,應請有關的外部專家審核測驗規範,評價測驗分數特定用途有效解釋的程度,評價測驗對特定考生群體的公平性程度。應紀錄請外部專家審核的目的、程序和結果。應紀錄外部專家的資質、相關經驗和人口學特徵。

 

Ⅱ試題開發和審較的標準

標準4.7

應紀錄試題開發、審較、預測試(Tryouts)和從試題庫中遴選試題的流程。

 

標準4.8

試題審較流程應包括依據經驗和/或請專家對試題內容及評分標準進行分析。若使用了專家,則應紀錄專家的資質、相關經驗和人口學特徵,及其在審較期間所受培訓和指令。

 

標準4.9

若開展試題或測驗預測試,則應紀錄樣本考生組遴選流程和群組構成特徵。應儘量提升樣本考生組對考生整體的代表性。

 

標準4.10

評價試題教育測量學特徵時,測驗開發機構應紀錄所採用的理論類型(如經典測量理論、項目反應理論(IRT)或其他理論)。估計試題參數時所採用的數據樣本應規模適當、構成合理,數據特徵應予明確紀錄。應紀錄試題遴選流程和遴選參數(如試題難度、試題區分度、主要考生組項目功能差異(DIF)等)。若所採用的理論(如IRT)包括多種參數估計模型,則應紀錄試題開發所選模型、參數估計流程和模型契合度的證據。

 

標準4.11

若試題或測驗遴選主要依據過往經驗,而非依據測驗內容或理論數據,則應進行交叉驗證(Cross-validation),且應紀錄不同方法驗證結果的一致性程度。

 

標準4.12

測驗開發者應紀錄實際測驗考察的內容領域對測驗規範要求的測驗領域的代表性程度。

 

標準4.13

若可靠證據證實測驗分數受不相關變異(Irrelevant Variance)影響,則測驗機構應盡力調查不相關變異的來源,並儘可能消除或減少不相關變異。

 

標準4.14

若測驗設置了時長限制,則應研究測驗分數受考生作答速度影響的程度,並應結合測驗所應考察的領域來評價該影響是否恰當。

 

Ⅲ測驗實施和評分的流程及有關材料的開發標準

標準4.15

測驗開發機構應制定清晰而準確的測驗實施指南,以便測驗實施機構營造可靠、有效、標準化的測驗環境。測驗開發機構應清晰地說明測驗實施所允許的流程變通[‡],並應紀錄申請和審批變通流程的程序。

 

標準4.16

考生作答須知應足夠詳細,以便考生按照測驗開發機構的本意作答試題。若條件允許,應在測驗實施前公布可代表測驗內容和試題類型的模擬測驗材料、供考生練習的例題以及評分標準;也可將有關材料納入考生須知,作為測驗標準化指導語的組成內容。

 

標準4.17

若某測驗或測驗的某部分內容旨在研究之用,而非用於測驗設計的用途,則應在所有相關的測驗材料和分析報告中做出顯著的說明。

 

標準4.18

測驗開發機構應儘量提供清晰而準確的評分流程和相關評分標準,以盡力確保評分的準確性;應制定評分標準使用指南,清晰地說明如何將結構化作答(Constructed Responses)結果轉換為得分、等級或分類。評分標準及其使用指南對拓展性作答(Extended Responses,如行為評價、文件夾評價、短文測驗)尤其重要。

 

標準4.19

如應用電腦程式對複雜的作答數據進行自動化評分,則應紀錄各分數層級作答數據的特徵,以及應用該程序評分的理論原理和經驗依據。

 

標準4.20

測驗開發機構應明確評分者遴選、培訓、頒發證書、監控的流程;應製作培訓材料,包括評分準則和準則中各分數等級考生作答案例。培訓材料和培訓流程應助力提升評分準確性和不同評分者間評分一致性,對所評分數的解釋應與測驗開發機構的設計初衷保持一致。應制定工作規範,監控評分者評分一致性和評分結果隨時間推移可能產生的漂移(Drift)。

 

標準4.21

若測驗使用機構負責評分,且評分需要評分者主管判斷,則測驗使用機構應負責組織評分者培訓、製作評分指南,並應負責監控評分準確性和一致性。測驗開發機構應紀錄測驗評分準確性和一致性的期望程度,並應提供技術指導,協助測驗使用機構達到期望的評分標準。

 

標準4.22

測驗開發機構應明確分數解釋的流程。若條件允許,應提供常摸參照或標準參照的樣本。

 

標準4.23

若測驗總分來自各試題或各部分內容得分的加權求和,則測驗開發機構應紀錄權重開發、審較和確定的理論基礎和操作流程。若權重的確定基於經驗數據,則獲取經驗數據的考生群體應規模適當、構成合理,且能充分代表考生整體。若權重的確定基於專家判斷,則應紀錄相關專家的資質。

 

Ⅳ測驗審較的標準

標準4.24

若出現新的測驗相關研究數據、測驗考察的領域發生顯著改變或新引進的測驗實施環境可能降低分數解釋的效度,則應校正或修改測驗規範。儘管時間變遷不是撤銷或校訂現行測驗的唯一標準,但是測驗管理機構應負責定期監控測驗環境的變化,並相應校正、修改或撤銷測驗。

 

標準4.25

若修改了測驗,則應將修改的內容告知測驗使用機構,包括測驗規範的修改、評分等級的調整、新舊測驗分數的可比性。僅當測驗規範顯著更新時才可以將測驗標記為「修改版(Revised)」。


[*]測驗開發機構常根據實際需要開發多個測驗版本,如增減試題數量以便調整測驗時長、將測驗語言翻譯為其他語種等。

[†]受實際情況的限制,測驗設計機構可能對測驗環境進行調整,如允許部分考生參加計算機化測驗,而其他考生則參加紙筆測驗。

[‡]常見的測驗流程變通是針對特殊考生人群(如殘障人士或測驗語言為第二語言的考生)所採取的便利措施。

公眾號回復「精品書籍」獲取醫學考試評價參考書目,回復「文獻寶庫」獲取醫學教育評價文獻原文,回復「往期精華」,獲取之前本號發表的文章。


相關焦點

  • 【智力測驗】瑞文標準推理測驗
    (Raven's Standard Progressive Matrices)是英國心理學家瑞文(J·C·.Raven)1938年設計的非文字智力測驗。人們認為瑞文測驗是測量「g」因素的有效工具,尤其與測量人的問題解決,清晰知覺和思維,發現和利用自己所需信息,以及有效地適應社會生活的能力有關。瑞文標準推理測驗屬於漸近性矩陣圖,整個測驗一共有60張圖組成,按逐步增加難度的順序分成A、B、C、D、E五組,每組都有一定的主題,題目的類型略有不同。
  • 形成性測驗、安置性測驗、總結性測驗的區分標準
    形成性測驗是在教學過程中為改進和完善教學活動而進行的對學生學習過程及結果的評價。它是針對於某一教學單元而設計,其目的不在於評定學生,而是為了給教師提供一個反饋以後方便教師調控教學。安置性測驗的根本目的就是對學生的情況有一定了解之後給學生分班分組,所以安置性測驗並不需要設置一些難度很大的題去考學生能力,而是大致估摸水準以後好完成對學生的安置,去確認學生到底是分在哪一組或者哪一個班,所以它是和學校的行政聯繫的很緊密的一項測驗。所以這一類的測驗涉及的範圍比較窄,難度也比較低。總結性測驗用於對學生學習情況的階段性總結分析。
  • 真實的心理測試才有效,了解心理測驗的標準、信度和效度
    那麼真正的心理測試是什麼樣子呢?心理測試應該具備哪些基本條件呢?本文就從測驗的分類講起,帶你了解真實的心理測驗的三個標準:標準化、信度 和效度。心理測驗的作用是了解自己,取長補短那麼類似智力測驗這樣的心理測量的分數和比較值是如何得出的呢?
  • 瑞文標準智力測驗 經典免費版 || 瑞文智力測試標準
    (Raven's Standard Progressive Matrices 簡稱 SPM)由英國心理學家瑞文(J.C.Raven)於1938年設計的非文字智力測驗,主要通過圖形的辨別、組合、系列關係等測量人的智力水平,以及人們解決問題的能力、觀察力、思維能力、發現和利用自己所需的信息及適應社會生活的能力。
  • 測評03:筆試與心理測驗
    理解概念的三個要點:一是前提假設,人的心理活動與行為具有因果關係,由行為這個果來推測人的心理特質這個因。二是間接性,心理特質像一個暗箱,只能通過測量個體對測驗題目的反應,進而來推論其心理特質。三是相對性,在對行為作比較時,只是在一個連續尺度上的行為序列,沒有絕對零點和標準。
  • 一套測驗就下心理問題診斷?心理測驗不是那樣用的,不是神乎其神
    心理測驗在網上有很多,隨便一搜索,就會有各種類型的心理測驗跳出來。關於心理領域的熱文,和測驗有關的也會佔據一席之地:因為涉及診斷,所以我只就心理學專業領域涉及診斷的這部分來回答你的問題。△瑞文標準推理測驗但是,心理測驗(問卷)也有著它的弊端
  • 瑞文智力測驗:瑞文標準智力測驗及分數對照表,免費!丨瑞文標準智力測試
    瑞文標準智力測驗能準確測量你的解決能力,知覺和思維清晰度,信息處理及社會適應能力等。瑞文標準智力測驗不受年齡、語言所限,對兒童的智力發展測量也有很高的信度和效度。以下每個題目都有一定的主題,但是每張大圖都缺少一部分。
  • Graphic Notes--常模參照測驗(上篇) | 心理測量學
    這是遲到了287天的筆記總結哇,記的測量學是元旦後第一周上的課程,後因疫情原因,阿貓老老實實利用春節和假期那一整段的時間仔細啃《心理與教育測量
  • 筆記|《心測》C7 心理與教育測驗的編制與實施 之一、編制心理與...
    C7 心理與教育測驗的編制與實施一、編制心理與教育測驗的基本程序編制測驗的基本程序(一)確定測驗目的1.明確測量對象:以年齡、性別、職業、受教育程度、經濟狀況、民族和文化背景等指標來區分測量對象。2.明確測量目標:明確測量什麼心理功能,是測能力、人格,還是測學業成就。還要進一步把目標具體化。3.明確測量用途:明確編制的測驗是幹什麼用的,是用於描述受測者的心理特質,還是用於診斷心理是否異常。用途不同,編制測驗時的取材範圍以及測題的難度也不盡相同。
  • Graphic Notes--常模參照測驗(下篇) | 心理測量學
    本文內容概要如下:分數轉換:原始分數、導出分數、百分等級、標準分數、T分數、CEEB分數、離差智商、標準九常模的分類:發展常模量表(發展性常模/發展量表)、組內常模量表(組內常模/群體內常模)、年齡常模(心理年齡常模/年齡量表/年齡常模量表)、年級常模、年級當量、比率智商、教育商數、成就商數、百分等級常模、標準分數常模呈現常模分數的方法
  • 心理測量學第二節 測驗的常模2
    發展常模人的許多心理特質,如智力、技能等,是隨著時間以有規律的方式發展的,所以可將個人的成績與各種發展水平的人的平均表現相比較。根據這種平均表現所製成的量表就是發展常模,亦稱年齡量表。在量表中,個人的分數指出他的行為在按正常途徑發展方面處於什麼樣的發展水平。
  • 哈爾濱智力測驗企業_北京好家教育
    哈爾濱智力測驗企業,北京好家教育,《天賦測評系統》依據《皮紋學》《胚胎學》《腦科學》《多元智能》等理論,並結合《行為學》《心理學》《教育學》等體系,為個人提供特長選擇、未來生涯發展方向、家庭教養模式等建議,幫助個人在不同年齡、不同時期因材施教,揚長補短,實現自我生命價值最大化。
  • 瑞文標準智力測驗,專業
    測評推薦 瑞文標準推理測驗(簡稱SPM)是國際上廣受認可的智力測驗工具。由英國心理學家瑞文(J.C.Raven)於1938年創製,在世界各國沿用至今。它是一種純粹的非文字智力測驗,所以廣泛應用於無國界的智力/推理能力測試。
  • 教師招聘之心理測驗必懂考點
    (五)常模:常模分數構成的分布就是常模,它是解釋心理測驗分數的基礎。1.一般常模,適合於大多數個體;2.特殊常模,適合於非典型個體。(六)發展順序量表:最直觀的發展常模是發展順序量表。它告訴人們多大的兒童具備什麼能力或行為就表明其發育正常,相應能力或行為早於某年齡出現,說明發育超前,否則即為發育滯後。
  • 教師資格小學教育學複習資料:第七章教育測驗
    第七章 教育測驗與評價第一節 教育測驗一、教育測驗的概念(一)概念界說測量是給事物的某種屬性給定數值的過程,回答了「有多少」的問題。教育測量包括了從身體身體素質到興趣態度等多個方面。測驗是對於知識水平、情意狀態、運動技能等的數量化測定,有廣義和狹義之分。狹義的測驗僅指一份測驗卷子,而廣義的測驗指編制試題、施測、評分到報告成績的全過程。在教育領域,測驗只是測量的一種形式,主要用來測量學生的學業成績和心理特點。如果說測量回答了「有多少」的問題,只考察量的大小,測驗則回答了「某個人做的怎麼樣」的問題,包含了對測驗結果的解釋和評判。
  • 筆記|《心測》C10 測驗等值 & C12 能力測驗(上)
    C10 測驗等值水平等值被等值的測驗難度、受測團體的能力都相似。垂直等值被等值的測驗難度、受測團體的能力都不同。錨測驗測驗等值設計中,有時會採用一組測驗來關聯兩個待等值的測驗形式,以便尋找他們的等值關係,這組測驗就是錨測驗。
  • 智力測驗是怎麼發展起來的?
    1905年第1份智力測驗出版問世,比納對法國教育部長的建議做出了回應,法國教育部長建議針對發育遲滯兒童採用更有效的教學方法。比納就和他的同事西蒙開發了世界上第1份客觀科學的智力測驗,用來區分發育遲滯兒童與正常學齡兒童,他們希望這種測驗可以幫助學校減少對過於主觀,甚至可能帶有偏見的教師評價的依賴。這份測驗通常都是選擇題,可以客觀評價對錯看內容可以有所變化,也不受孩子們生活環境的影響,而且測驗評定的是判斷和推理能力,而非機械記憶能力。
  • 第八章 常模參照測驗 筆記
    第八章 常模參照測驗第一節 常模參照測驗概述一、常模參照測驗簡介1.在心理與教育測量中,測驗分數必須與一定的參照物和參照體系比較
  • 一個測驗的好壞,取決於該測驗的標準化水平.
    客觀性評分要求;(1)對反應要及時清楚地記錄,以免由於記憶喪失造成混亂,在口頭測驗和操作測驗中尤為如此。(2)要有一張記錄標準答案或正確反應的表格,即記分鍵。(四) 測驗分數的解釋一個標準化的測驗,不僅要求測驗內容、施測過程和評分程序標準化,而且要求對測驗結果的解釋標準化。如果對同一測驗結果(分數)可做出不同的解釋,那麼測驗便失去了客觀性。某一測驗分數只有與一定的參照標準相比較,才能顯現出它所代表的意義。在心理測驗中,建立參照標準的過程也就是建立常模的過程。
  • 心理測驗編制包含哪些內容?
    標準難度=13+4Z,值越大,難度越高。Z表示題目難度距離平均數有多少個標註差,常數13和4是參照正態分布的形式確定的。目的主要為了消除負數或小數。區分度(鑑別力):能夠反映測驗項目或試題對受試者的心理特徵進行鑑別的強度。常模參照測驗中的區分度分析,可以用個別題目與總分的一致性為依據進行計算。