摘要:問卷是PISA測驗工具中的一個重要組成部分。PISA持續致力於問卷的研發與完善。隨著教育政策關注點的變換,PISA問卷的重心從具體學科領域轉向非學科領域。在框架設計上,PISA問卷不斷加強理論支撐,對指標進行更科學的劃分和整合。在測評技術上,PISA問卷在測評方式、組卷、題型、反應選項、措辭等方面不斷創新完善、提高效率,力求做到公平有效。
作者:
王燁暉,北京師範大學中國基礎教育質量監測協同創新中心;
秦可心,北京師範大學教育學部;
張楠,北京師範大學中國基礎教育質量監測協同創新中心;
溫紅博,北京師範大學中國基礎教育質量監測協同創新中心。
原文刊載於《中國考試》2020年第5期第16—18頁。
關鍵詞:PISA;問卷設計;教育質量監測
國際學生評估項目(Program for International Student Assessment,PISA)作為一項大規模的測評項目,對促進教育系統內學生發展、全球範圍的教育進步及21世紀能力培養具有重要作用。問卷作為PISA測評的一個重要組成部分,具有明確的定位目標和清晰的結構框架,有助於引導後續的工具編制、數據結果的解讀與報告撰寫。
PISA測試背景問卷的目的在於:1)從教育系統內外兩個視角出發,為測試結果的解讀提供背景信息;2)對教育結構進行可靠和有效的測量,為政策決策與研究提供依據。隨著時間推移,研究者發現除特定學科知識外,其他因素和能力對學生的發展也有重要作用。為更好地理解學生發展、引導政策決策,PISA2021問卷的關注點開始從學科知識技能轉向包括創造力、交流合作、學會學習等在內的個體適應現代化社會所需的各種能力。經濟合作發展組織(Organization for Economic Co-operation and Development,OECD)和PISA管理委員會(PISA Governing Board,PGB)一直致力於提升PISA問卷的科學性,以及與政策的關聯性,旨在更好地實現PISA的測評目標。
1
PISA問卷不斷完善其理論構建和測評框架
在2000年至2009年的4輪PISA測評中,問卷尚未理論化與系統化。在其公布的框架報告中,問卷只是項目整體介紹中的一個小點,相關的介紹與說明非常簡單,所佔篇幅僅為一頁甚至更少。PISA2012首次將問卷作為一個獨立的章節,與3個測試科目相併列,對其理論架構、測評框架和各個指標進行詳細介紹。基於國際教育成就評價協會(International Association for the Evaluation of Educational Achievement,IEA)提出的「投入—過程—產出」(Context-Input-Process-Outcome,CIPO)理論模型,PISA2012構建起一個4×3的綜合性問卷框架,其中:縱向結構包括學生、班級、學校和國家,橫向結構包括投入、過程和產出。框架的每一個交叉格都對應具體的問卷指標,其中學生的學業表現作為學生層面的重要產出指標也被納入框架之中[1]。
PISA2015和PISA2018調整了問卷的理論框架,將縱向結構指標調整為學科相關內容和一般內容。學科相關內容指學生在特定學科領域(閱讀、數學和科學)的經歷,以及與教學緊密相關的因素;一般內容與學科無關,但也是理解學業成就差異的重要因素,包括社會經濟地位、學生對學校感受、學校基礎設施等指標。此外,還將橫向的投入、過程和產出3個指標分別具體化為學生背景、教學與學校政策和管理及非認知與元認知結果,形成2×3的結構框架。
由於CIPO的階段劃分過於簡單,無法有效體現問卷研發的理念與思路,PISA2021對問卷模型進一步修訂,形成2×5的結構框架,其中:縱向結構包括領域特殊性和領域一般性2個類別;橫向結構包括學生背景,學生信念、態度、感受與行為,教學實踐與學習機會,學校實踐、政策與基礎設施,以及管理、系統層面的政策與實踐5個重點領域。同時,5個領域與學生或學校等具體測查對象緊密結合,通過交叉組合,形成20個問卷測查模塊[2]。
2
PISA問卷框架持續平衡新舊測評工具之間的關係
作為已經實施了多輪的項目,新問卷的研發必然面臨著如何處理與已有問卷關係的問題。為了能在國家層面對重要背景因素進行追蹤,評估者需要一套穩定的問捲來保證PISA各測試輪次之間的可比性,包括3年一循環的比較和主測學科9年一循環的比較。基於對已有問卷的大量細緻分析,如每個指標所對應的題量、每一道題目的選項數量以及選項方向的設計等,PISA總結有益經驗,並為新問卷的編制提供建設性意見。
PISA2021在問卷預試時,針對已有的工具,設立了相應的篩選原則,如:保留能夠最大化解釋國家內部和國家之間學業成就差異的指標,保留與政策密切相關的指標,以建立基線或擴大趨勢比較的範圍;儘可能保持結構的完整性,以提高測量精確度;精簡冗餘指標,刪除過時的、沒有達到心理測量學標準的指標以及不能滿足所有參與國特定需求的題目。對於新編工具,PISA2021要求加入教育研究關注的核心問題和PGB優先關注的問題;增加與PISA2021測試密切相關的問題(如數學推理、創造性思維);完善題目,以便能更準確地描述學生生活和學習情況;替換舊工具中不符合心理測量學標準的題目[2]。
3
PISA持續推進問卷技術的研發,提升問卷質量
在問卷研發過程中:一方面,PISA積極應用測評領域中的成熟技術,充分借鑑其他大型測評項目的成功經驗。例如,國家教育進步評估(National Assessment of Educational Progress,NAEP)對矩陣型問題的研究發現,該題型能夠有效減少被試作答的時間和認知負擔,過長的矩陣會影響作答質量。基於時間效益和作答質量間的平衡,PISA2021的預試把每個矩陣型問題的題量限定在5~10題[2],並根據預試的結果確定是否在正式測試中採納該規則。另一方面,通過對已有多輪測評數據的深入比較與分析,PISA不斷積累經驗,持續完善測評工具,以更好地反映教育系統的效率和公平狀況,為國際比較提供基準。PISA2021首次設立明確的研發原則,對問卷工具的題型、措辭、選項設計等方面都提出了明確要求。
在題型設計方面,PISA2021要求少嘗試新題型,少用開放式填空題,以提高作答的準確性,節約作答時間。PISA2012在問卷中嘗試了虛擬情境錨定(anchoring vignettes)、情境判斷(situational judgment)、過度宣稱(overclaiming)和迫選(forced choice)等多種新題型,除過度宣稱題型表現相對較好外,其他題型均有不足,故PISA2021提出此要求。
在語言措辭方面,PISA2021要求避免在一道題上融合多個觀點或多重內容,減少矩陣型問題中各題目之間表述的相似性。在例子使用的數量方面,建議使用2~5個例子,太少容易造成誤解,而例子太多則會增加認知負擔。關於反向題的使用,目前仍存在爭議。有觀點指出,同時使用正向和反向表述在理論上保證了結構的完整性,在實踐中能夠減少被試「直線作答」的風險,提高問卷有效性;但正反向混合的表述可能會對低閱讀水平的被試產生幹擾,增加潛在的認知負擔。到目前為止,如何平衡正反向的表述方式,PISA尚無定論。
在選項設計方面,相關研究顯示,5個選項的設計能夠更好地區分被試的回答以及選項間的差別;因此PISA2021將把選項從4個改為5 個,且儘可能簡潔。為改善測試者的閱讀體驗,PISA建議儘量保持選項方向的一致性。此外,PISA發現頻率選項的效果優於同意程度選項。在PISA2021的預試中,將對這個問題繼續研究,為正式測試是否採納該規則提供依據[2]。
4
PISA2021考慮使用改進的矩陣抽樣技術進行問卷組卷,與計算機技術進行更好的結合
PISA2012將矩陣抽樣設計用於問卷,將問卷題目分為3冊[1],每個學生僅需完成其中1個題冊即可。這種方式能在不增加學生作答負擔的前提下,多收集33%的信息。PISA2012採用的是基於測評結構的矩陣抽樣,每個學生僅回答整個問卷結構的一部分,不需要學生完整回答問卷所涉及的所有結構。雖然這對整體層面的測量影響不大,但對基於結構水平的分析,可能會產生負面影響。因此,PISA2015和PISA2018恢復使用單一問卷,並將問卷回答時間從30分鐘延長至35分鐘。經過研究,在PISA2021的預試中將採用改良的問卷矩陣抽樣設計——在同一結構內部進行矩陣抽樣。如果預試結果理想,這一抽樣設計將在正式測試中使用。
隨著科技和現代信息技術的進步,PISA2009開始引入和利用計算機技術優化問卷測評。PISA2015首次啟用電子傳輸平臺,嘗試為被試提供個性化的作答體驗。針對問卷中某一結構內題量過大,且不適用於所有被試的情況,線上平臺將基於被試的先前回答,為他們提供不同的題目。以涉及社會經濟文化地位的題目為例,隨著發展中國家的不斷加入,該結構中有大量的問題並不適合所有學生作答,因此每個學生只需要回答與其情況相符的那部分問題即可。PISA2021將通過邏輯判斷以跳題的形式向學生提供適合其回答的題目,以提高作答效率,節省測試時間。同時,PISA2021還將考慮使用線上的電子平臺完成問卷的作答和管理。
來源:中國考試