基於新課程標準的學業水平選擇性考試命題框架探析
教育部考試中心 徐奉先
2020年,繼上海、浙江新高考方案落地後,北京、天津、山東、海南四省市也將實施進入新高考後的首次考試,2021年還將有河北、遼寧、江蘇、福建、湖北、湖南、廣東、重慶8省市作為第三批試點實行新高考。高中學業水平選擇性考試是改革新方案中的重要一環,也是改革的重點與難點。《國務院關於深化考試招生制度改革的實施意見》明確指出:「學業水平考試主要檢驗學生學習程度,是學生畢業和升學的重要依據。考試範圍覆蓋國家規定的所有學習科目,引導學生認真學習每門課程,避免嚴重偏科。」在新高考實行「兩依據一參考」的招生錄取模式下,需要從國家經濟社會發展對提高全體國民素質和人才培養質量的新要求出發,廣泛借鑑國際基礎教育課程改革趨勢,避免出現大規模學生反覆多考、放棄重要學科盲目追求A等、大量高水平考生獲得過低等級分數等問題。尤其後續的大部分省份都是在新課程標準頒布和新教材推行後實施新高考,更要提前做好專家團隊和標準建設,以免對新高考方案、學業水平考試、基礎教育以及高等教育帶來負面影響。本文擬從四個方面對新高考學業水平考試的技術框架進行商榷。
明確新課程標準背景下學業水平選擇性考試的功能與定位
由於新高考改革與課程改革同步,廣大即將加入新高考的省份就不能再基於老課標進行命題和考試;而新課標提供的測量目標主要針對核心素養,還需要從教育測量和考試評價自身的特點和規律出發,制定出具有可操作性的考試標準,使其成為覆蓋基礎知識、關鍵能力、學科素養和核心價值的科學考查體系,使學業水平選擇性考試在人才選拔區分、評價和育人方面發揮更加積極的作用。
新課標彌補了舊課標在表現水平標準和內容標準方面的缺陷,為實施基於標準的學業水平考試奠定了基礎
「基於標準的教育體系包括至少四個主要要素:課程標準、教學材料、課堂教學、考試評價,所有這些組成要素需要整合成一個整體,互相配合,指導學生學習課程標準規定的學習內容達到規定的要求。」舊課標從嚴格意義上講是教學標準,不是考試標準,因為其中沒有對於內容標準和表現水平標準的明確描述。像高考這樣的常模參照考試,是將考生與考生進行比較,而在基於標準的教育體系中,考試評價是將考生的表現與標準進行比較。要達到這一目的,課程標準必須設置比較的標準,表現水平標準就是這種比較的標準。它不但向學生闡述了學習的分層目標,也向教師闡述了教學應該達到的要求。
表現水平標準的主要作用是向教師和學生傳達教學和學習應該達到的程度,舊課標在編訂過程中沒有設計表現水平描述,僅僅從知識與技能、過程與方法、情感態度價值觀三個維度設置了培養目標,但這三維目標無法起到表現水平標準的作用。而此次修訂的新課程標準設置了學生學習能夠達到的不同目標程度,為不同水平的學生提供了培養目標,也為考試評價的開展提供了參照標準。表現水平標準是標準參照考試命題、等級劃分、分數報告和對等級內涵進行描述的重要依據,這就要求作為參照標準的課程標準必須對學生經過基礎教育階段學習後應該達到的水平作出明確的界定。
課程標準的內容標準的作用是規定學生應該學習哪些內容領域或主題,每一領域或主題具體包括哪些學習內容,每一學習內容應達到什麼認知要求。內容標準應該可理解、可執行、可完成、可測量。如果某一標準對某種評價手段,如紙筆考試而言不可測,那麼就無法用這種手段對其進行評價。舊課標的內容標準對於學生應該學習的內容領域、內容主題以及每一主題下的具體知識內容規定得很明確,但對知識認知要求的規定還停留在相當模糊的階段。而新課標不僅明確了學生在每一學科需要學習的知識和領域,也規定了學生在每一主題的學習結束後應該達到的認知水平,在一定程度上能夠保證教材、教學和考試評價與課程內容標準的一致性。
因此,內容標準決定了試題考查的知識點及其絕對難度或認知要求,也決定了整個試卷覆蓋的內容領域、內容主題、每個內容主題的比例。如果學業水平選擇性考試的內容要求與課程標準的內容標準不一致,那麼考試結果就不能反映考生的學習水平。
前文已論及,常模參照考試的本質是將考生與考生進行比較,而標準參照考試是將考生與課程標準的表現水平要求進行比較,無論其他考生如何,衡量考生水平的標準是不變的,因此這個參照標準又稱為絕對標準。在標準參照考試的設計中,需要通過一個一般稱之為「標準設置(Standard Setting)」或「劃界分數(Cut Score)設置」的過程,將考試分數轉換為等級,而不是簡單地按照考生的百分位分數劃分等級。用學業水平考試等級結果來評價學校的辦學績效,診斷學校教學,為教學提供決策指導,甚至選拔學生,已經成為許多教育發達國家普遍的做法,我國實施學業考試制度採用這一做法可以說是順應國際教育發展趨勢,值得稱道。然而,學生從等級結果中獲得的個人、班級、學校學習水平和優勢、弱勢等的信息,依賴於考試評價機構對等級的內涵解釋,後者參照的標準就是課程標準中的表現水平標準。
新課標規定的知識內容、培養目標、學業質量標準等都較舊課標發生了很大變化,尤其新增的「學科核心素養」和「學業質量」是其重點和亮點,核心素養的提出,明確了各學科的育人目標,即:今後的高中教學應以培養和發展學生的歷史學科素養為導向。
新課標在頒布和實施後,勢必會給基礎教育帶來一系列影響,教學的理念與方式、課程安排、學習效果檢驗等環節都需要一一理清,才能適應教育綜合改革的要求。新課標的核心素養,落實到學業水平選擇性考試,如何確保考試內容與課程標準的一致性,並有效考查學生核心素養的達成程度,在技術上也會衍生出許多需要破解的問題。如學業水平考試制度需要重新設計,要讓學生通過每門課程的學習為自身的終身發展奠定基礎。具體到不同學習領域與課程,考試方式也需要根據學科課程性質、特點進行設計,不再是基於綜合考試(如現行的文科/理科綜合模式)的架構進行命題藍圖設計。
此外,從實踐上看,新課標頒布後做到合理安排課程進度和考試時間殊為不易,更應該提前做好教學-考試的流程設計。
實施學業水平選擇性考試,設計初衷一是為了促進學生認真學習每門課程,避免嚴重偏科;二是推進高中教學準確把握學生的學習狀況,改進教學管理;三是促進高校科學選拔適合學校特色和專業要求的學生,促進高中、高校人才培養的有效銜接。這表明學業水平考試在功能上又有了新的拓展,在保留原有鑑定、監測功能的基礎上,又添加了選拔的功能,由過去單純的終結性考試,變為了兼具過程性與終結性二者合一的複合型考試。
一般而言,在成績解釋上,畢業功能對應標準參照測驗,升學功能對應常模參照測驗。不同的測驗形式,試卷設計會有所不同。這對學業水平考試提出了新的嚴峻的挑戰,無論是理論層面的頂層設計還是實踐層面的具體操作,都需要進行新的界定和規範,最大化地保證選拔功能取向下的學業水平考試能為高考錄取提供公正、科學、嚴肅、權威的參考依據。學業水平選擇性考試兼具鑑定和選拔的功能,是在合格考強化基礎的前提下,凸顯不同高中學生在學業修習上的學科特長,體現學生的選擇性。選考成績計入考生總成績,是高考統一錄取的依據之一。高等學校根據考生總成績,按照招生章程和計劃,德智體美勞全面衡量,擇優錄取。
根據高考評價體系「立德樹人、服務選才、引導教學」的核心功能,學業水平選擇性考試功能可總結為三個方面。
一是立德樹人。學業水平選擇性考試全面貫徹落實黨的教育方針,加強理想信念、愛國主義、品德修養、知識見識、奮鬥精神、綜合素質教育,引導學生樹立正確的世界觀、人生觀,踐行社會主義核心價值觀,實現德智體美勞全面發展。
二是服務選才。學業水平等級性考試通過科學的評價,選拔出符合國家和高等教育需要的優秀人才:具有家國情懷、國際視野和核心價值;具有必備知識、關鍵能力和學科素養;具有求真務實、學以致用的優秀品格和創新意識。通過落實國家人才選拔要求,保證人才選拔質量;通過科學的命題設計和情境構建,以及合理的評分標準,促進考試公平和合理分流。
三是引導教學。學業水平選擇性考試立足於助力素質教育發展,引導中學教學落實黨和國家對基礎教育的要求,培養社會主義合格建設者和接班人,堅持正確的政治方向,著力培養和發展學生的必備知識、關鍵能力和學科素養,促進檢視教學效果,改進教學,提高質量,啟發學生自主學習和探究性學習,提高學習能力和創新能力,破除「唯分數」「唯升學」的頑瘴痼疾,合理減輕學生負擔。
學業水平考試目前尚未建立國家標準或統一的全國性大量表,選擇性考試按人數比例劃分等級可能產生比較嚴重的分數差距扭曲,按比例賦分帶來的利益博弈導致考生選擇理科科目的比例明顯下降,既不利於人才選拔,也極易對學生發展形成負面導向。各省市考試標準的建立,宜基於自身實際教情、學情、考情和參照國際通行做法,明確考生在高中階段所應達到的學習水平,從而保證考試的信度和效度,助力高校人才選拔和確保公平。
儘管不同國家的政治體制、教育制度、教育管理方式、高校人才選拔方式等存在多方面的差異,但在全球化時代,經濟社會的發展對人才提出了一些共性的要求,教育領域的人才選拔和培養呈現出一些共同的規律,學業水平考試的內容和標準也體現出一些共同特徵。這些特徵體現了學業水平考試的設計、研製原則和程序,也反映了國際上學業水平考試改革和探索的一些共同趨勢。
首先,各個國家和地區學業水平考試標準的設置都非常強調考試的設計和實施必須以相應的教育階段和課程標準為依據。
其次,學業水平考試在內容框架、試題開發和評分標準等方面都必須嚴格按照相應的課程標準進行,需要明確每門考試課程的內容標準和等級標準。在具體選考科目的設置上,大都採取了必考科目和自選考試科目相結合的模式。通過規定必修課程和必考科目,可以確保學生能夠形成基本的知識素養和學科能力,而選修課程和自選考試科目一方面減輕了學生的學習負擔,另一方面也可以給學生一定的自由度,充分考慮到學生個性化發展的可能性。
再次,課程內容標準除了規定相關課程的學科內容範圍之外,還要明確相應內容所涉及到的學生認知水平和能力基礎;等級標準要規定學生達到課程相應內容和認知水平不同等級要求的具體特徵,做到具體、明確、可操作性強。
基於上述情況,結合我國具體國情和現實情況,我們在普通高中實施學業水平考試時,由於學業水平合格考已經具備了認定學生高中畢業標準達成程度的功能,選擇性考試就可以作為高等院校錄取學生依據的重要組成部分。學業水平選擇性考試應該在合格考試強化基礎的前提下,凸顯學生在學業修習上的水平和學科特長,「突出個性」和強調區分度,充分體現以人為本、學其所好、考其所長的原則。
學業水平選擇性考試的設計要首要考慮的基本問題就是標準的制訂。這裡的「標準」前文已述及,通常包括兩方面的含義:其一是內容標準,其二是表現標準。內容標準側重於某個年齡/年級的考生需要掌握的知識範圍或技能領域,主要關注是「是什麼」的問題,通常以課程標準,或考試大綱,或考試說明的形式進行說明。表現標準側重於某特定等級(如合格、良好、優秀等)的考生對某個知識或技能應該掌握的程度。例如,美國多數州的課程表現標準包括四個水平或等第,即高級(advance)、熟練(proficient)、基本(basic)以及須改進(need improvement)。表現標準是學業水平選擇性考試命題、等級劃分、分數報告,和對等級內涵進行描述的依據。
其中,內容標準的設定需要在研發標杆試卷時完成,即考試管理部門需要組織學科專家和心理測量學專家,根據國家課程標準或考試大綱,精心編寫每個學科的考試標準。考試標準需要對考試的目的、對象、內容、能力、形式、樣題樣卷、信度效度指標要求、結果解釋和使用等作出具體規定,並提前向社會公布。
其中,對學科內容的層次化、結構化的操作性定義是工作的重點。以美國共同核心課程標準(Common Core State Standards)為例,其中的高中數學內容標準分三個層級,第一層級包括數與量、代數、函數、建模、幾何、概率與統計6大類,第二層級是在每個小類下列出一系列要素,並對所有要素進行解釋或示例。尤其重要的是,這三個層級的所有要點都必須做編碼處理,以方便日後的題庫建設與自動組卷工作,同時可為教學提供指南。
待內容標準被確定並且編碼工作完成以後,命題團隊與心理測量學團隊需要通力合作,編制考試藍圖(Test Blueprint)。考試藍圖的作用是明確每個知識要點需要考查的題目數量及權重,以及需要考查的能力深度或複雜程度等。考試藍圖類似於工程建設中的施工圖紙,施工時的材料(考試題目)和結構(試卷編排)等必須完全符合圖紙要求,也就是說,題目是可以變換的,但所要考查的內容和深度是必須穩定的。這是為日後的測驗等值打基礎。
表現標準的設定則基於內容標準以及考生總體或它的某個代表性樣本在標杆試卷上的作答水平。也就是說,對於國家要求的各種水平等級,例如A、B、C、D、E、F等級,首先必須從任務的重要程度以及題目的難易程度上,由學科專家作出初步判斷。然後通過分析總體或它的代表性樣本在標杆試卷上的得分再作出調整。這項工作既可以在研製標杆試卷的同時完成,也可以在正式考試實施之後完成。
設定學業水平標準的主要作用在於避免出現選科選考過程中的「避難就易」「避強欺弱」等問題。例如,當優、良、合格等標準會因為考生群體的水平太高或太低而發生變動時,學生會選學或選考容易讓自己名列前茅的科目,因為浙江、上海的新高考方案中明確建議原始分數最高的15%考生可獲得A等。一旦等級標準不因考生群體的不同而不同,學業水平等級考中的許多亂象便可自動消退。
第一步,組建專家小組。根據測評目的,組建一個由教育管理者、學科專家和測評專家組成的有代表性的專家委員會或專家小組。
第二步,準備專家會議。選定一個標準設定方法,準備培訓資料,確定工作會議日程。
第三步,編寫等級說明。專家組根據自己的學科知識和素養,對表現水平為優、良、合格等各等級的最低表現水平作出操作性的文字描述,形成工作中的指導文件。
第四步,實習評定方法。組織專家組學習和掌握標準設定方法。通常需要專家試用推薦的標準設定方法,以便大家使用相同的評定規則。
第五步,初步評定等級。專家對標杆試卷中的每一道試題,按照標準設定的方法,初步評定各等級最低水平的學生答對各題的比例。初評結果經過統計處理後形成綜合報告反饋給各位專家,以方便專家進行下一輪的獨立評定。
第六步,綜合多方信息。專家根據初評結果綜合報告,結合實測所得題目難度、區分度、題目特徵曲線、客觀題選項分布等信息,再次運用特定的標準設定方法,對每道題重新評定,形成第二次綜合報告。
第七步,反覆多輪討論。重複第五步和第六步多次,逐步形成穩定的評定結果。
第八步,終審評定結果。綜合各專家成員多次評定的結果,形成一份對各題的最終評定報告。通過統計處理,確定每個等級在標杆試卷上的最低分數要求。
第九步,評估評定過程。在得到專家組的終審評定結果之後,各位專家還需要對自己的評定過程進行一次獨立的檢查,包括對標準設定全部過程的自評、對評定工作的信心、對掌握和運用評定方法的正確性等工作作出獨立評定。
第十步,收集效度證據。對專家給出的評定結果,還需要收集其他獨立的證據進行效度驗證。一旦發現偏差,則需要對評定結果作出必要的微調。在此基礎上,才能形成標準設定的最終文件。
值得說明的是,標準設定的工作耗時較長,所需要的專家人數也比較多,因此該項工作需要提前做好周詳安排。
學業水平考試的研發應該嚴格按照心理與教育測量理論中的測驗編制要求進行,具體開發團隊和機構應該提供考試內容框架的確立,試題與考試內容、能力水平的對應性,試題的測量學特徵(難度、區分度、試題偏差等)、考試過程、測驗分數或等級評定的質量(信度、效度、可推廣性、公平性)等方面的相應論證材料。
為確保各省市學業水平選擇性考試質量、過程和標準上的一致性,需要在教育部門領導和監督下,任命或組建全國高中學業水平選擇性考試評估委員會,具體負責(1)制定國家水平的學業水平選擇性考試質量標準;(2)審議和監督各地學業水平考試質量;(3)提供各地有關學業水平考試質量問題的諮詢和審查等相關事宜。考試委員會應建立起一支穩定、質量可靠、高度專業化的測量與評價隊伍,吸納課程專家、心理與教育測量專業人士參與,以確保考試開發和實施的質量。此外,成立由各相關方面人士如家長、教師專業人員等構成的監督和審議委員會,負責對考試內容、公平性、技術和評分標準等方面與環節進行審查與監督。
在具體管理和實施中,可以考慮建立專門的考試協調者,並對考試管理者進行相關的專業培訓。明確規定每所學校的主考官的資格,以確保各地考試過程的一致性和考試質量。
新高考背景下,作為學業水平選擇性考試的科目組合可達20種之多,某些省市的考試次數較以往也有所增加,傳統的入闈命題將不再適應新情況下的新要求。因此,學業水平選擇性考試必須提高適應考試內容改革的能力,充分發揮現代教育測量理論在試卷設計、分數報告上的作用,創造條件為有需要的學生提供兩次甚至多次考試的機會。命題的實施應考慮充分發揮題庫作用,建立與新課標、新高考相適應的題庫運轉流程,探索日常命題和廣泛徵題模式,並建立與學科對應的資料庫。
新高考學業水平選擇性考試的題庫建設應探索廣泛徵題的工作模式,不僅有利於實施日常化命題,也能夠將專家系統與社會系統相結合,最大限度地為國家題庫建設服務。題庫徵題包括兩種方式,一種是面向社會,以外部網絡為徵題平臺的徵集方式,一種是在定點高校院系以專家組為單位的定向試題徵集。徵題平臺的設計,應該有明確要求,如徵題的需求、徵題工作的協議、徵題人員的身份驗證、試題屬性、試題提交程序等等。
關於題庫試題的標準和要求,命題者應以課程標準、考試標準為依據,做到測試目標明確,科學規範。同時每一道試題的信息應當明確,例如:試題的內容,考查的關鍵能力、考查的核心素養、價值觀念等等。試題的各個屬性(如:題型、內容、答案、知識點、試題來源)應當完整,且與題庫建設各學科的屬性一致。關於定點高校徵題人員的管理,應組織學科專家、教育測量專家對命題人員進行命題技術的專題培訓,命題部門提供徵題軟體需求、學科考查內容和能力要求、試題範例、徵題要求、徵題培訓內容等信息。
此外,應儘快制定《學業水平選擇性考試題庫徵題工作辦法》,在此基礎上,起草、制定徵題平臺的需求、面向社會徵題的管理辦法、定點院校徵題的管理辦法、定點徵題院校的布點計劃、題庫徵題工作規劃等文件。通過一系列文件,把命題經驗科學化、規範化、標準化。
新高考實施後,隨著考試次數和試題數量的增加,對試題素材的消耗也隨之增加。為提高命題的工作效率,應儘快建立起與題庫相配套的查重系統和試題素材資料庫。查重系統應包括歷年試題、教材、社會通行的各種模擬考試題、練習題等;資料庫建設應重點完善適合作為學業水平選擇性考試試題的素材搜集和整理,尤其是文字形式之外的圖畫、照片、統計圖表等等。以期創新試題情境設計和豐富呈現形式,激發考生的作答興趣。
針對本文所構建的命題技術框架,筆者從學科評價體系的建設出發,探討相關流程的具體操作運用,以期為新高考省份提供參考借鑑。
2016年開始,教育部考試中心探索構建面向新高考的高考評價體系,其中的考查目標包括「核心價值、學科素養、關鍵能力、必備知識」,回答高考「考什麼」的問題。
要使學業水平選擇性考試真正服務於基礎教育和高校招生,首先要基於高考評價體系的理論設計,對高校人才選拔需求和基礎教育人才培養進行調研,根據高校各專業的人才需求和基礎教育各學科的人才培養目標,確定學生在在完成高中階段學習後所必須具備的核心價值、學科素養、關鍵能力、必備知識。然後整合兩個層面的調研結果,確定高考各學科關於學生核心價值、學科素養、關鍵能力與必備知識的整體考查要求。
根據上一步研究所確定的學生核心價值、學科素養、關鍵能力、必備知識的內涵與操作性定義,需要基於測量理論和考試規律對各主要學科進行調研,提出能夠體現各學科核心價值、學科素養、關鍵能力、必備知識的典型情境與活動原型。
尤其情境作為實現學科考查目的和考查要求的載體,應有利於讓學生更深刻地體會到現象、事實的意義,以及這些現象、事實與學科知識的內在聯繫,促進深刻、精準地分析問題和解決問題。
在這一環節,需要設計基於各學科核心價值、學科素養、關鍵能力與必備知識的「雙向細目表」,形成各學科的考試命題方案與題型,並進行取樣試測,測試題型的適應性,最終完成學業水平選擇性考試測評方案。
(1)確定各學科核心價值、學科素養、關鍵能力與必備知識的「雙向細目表」,雙向細目表中每個知識與能力、素養的結合點,就是學科活動的基本單元。
(2)確定各學科考核的具體內容與題目類型,一般應該包括三類題目。
第一類是考查學生必備知識與關鍵能力的題目,主要是單項題目,可以稱為「考查學科素養的認知要素的單項題目」,主要體現考查的基礎性。
第二類是綜合考查必備知識、關鍵能力與情感態度價值觀的單項題目,可以稱為「考查學科素養的單項題目」,既可以體現基礎性與綜合性,也可以體現應用性和創新性。
第三類是考查學生在本學科典型的問題情境中綜合利用所學知識和素養、能力,以核心價值為指導處理複雜任務的學科素養的綜合題目。這類題目在解決問題的觀點態度上需要體現學生的核心價值觀水平,主要是綜合性主觀題,可以稱之為「考查學科素養的綜合性題目」,可以體現綜合性、應用性與創新性。
這類題目與以往的命題有很大的差異,問題情境的生態性(即對實踐的仿真性)、知識能力運用的綜合性、問題解決的開放性、多樣性、核心價值的導向性等方面要融為一體,尤其是作答指向如何體現核心價值的引導,更是全新的要求。
(3)進行取樣測試,確定各學科考核的具體內容與題目類型的適合性。
各學科根據考核的具體內容與題目類型,設計出學業水平選擇性考試樣卷,大範圍取樣進行測試,根據測試結果進行項目分析與信效度分析,最後確定考核的內容與題型。
隨著基礎教育課程改革的全面實施,考試評價制度改革也在逐步推進。要做好學業水平考試,實現國務院提出的深化考試招生制度改革的目標,必須以教育心理學和測量學理論為支撐。所有工作都需要學科專家、測量學專家、教育管理工作者的通力合作,不可局限在普通高校高考招生的範疇之內。應探索建立學業水平選擇性考試自身的測量理論體系,使其成為具有全國統一標準、規範的測評體系及權威、嚴密高效的運作體系,成為一種獨立的、具有高效度和高效率的、所認定價值能直接兌現的權威性考試。
文章轉載自「歷史教學問題」微信公眾號
覺得不錯,那就分享、點讚、在看三連吧!愛你喲!