日前,疑似中南大學一位老師在朋友圈上吐槽教務辦要求調整學生成績,以符合「正態分布」。此事在知乎討論區上引發了熱議。其實高校在學生成績管理上有類似的規定,並非現在才有的事,也不是中南大學才有的事……
討論中不乏為這種做法辯護的理由,比如成績虛高現象的存在;要對學生進行區分;要藉此考核教師的出題水平……反對的聲音也不少,比如「學生就是考得那麼好」「名師當然能出高徒」……
一種做法有爭議很正常,何況爭議中涉及到諸多利益相關方——學校管理者、教師、學生,他們完全可能會因自己的視角、立場或利益而持不同的立場。「三臺評譚」儘管主要專注於基礎教育階段的課堂評價,但畢竟置身於高校,也屬於利益相關方,因此也來湊下熱鬧。
1.正態分布原本是一個概率統計的概念,用以描述連續隨機變量的分布情況。最簡單的描述就是「中間大,兩頭小」。正態分布大致長這樣:
標準正態分布的平均數為0,標準差為1。自然界以及人類社會中許多現象在分布上都體現了正態分布的形態,但不同現象的具體分布形態會因隨機變量的平均數、標準差的大小與單位不同而有所不同。
2.正態分布最早與教育發生關聯是智力測驗領域,絕大部分的教育者知道正態分布大概就是從智商的分布開始的。
3.在教育測驗的早期,至少在「教育測驗之父」桑代克理想中,教育測驗測的成就,也即學習的結果。但這一時期的測驗運動還有另一取向,即以智力測驗為核心的心理測驗。一戰期間,以「軍隊阿爾法」為代表的IQ測驗獲得了極大的成功,這讓史丹福大學心理學家推孟斷言,「(心理測驗)在課堂中的普遍運用對於教育的效能是必要的。」當時教育中正在推行科學管理運動,心理測驗正好迎合了這一需求,獲得了「科學工具」的標籤,並逐漸壓制了定位於成就的測驗,成為測驗運動的主流。包括「正態分布」等在內的心理測量原理開始被廣泛應用於教育評價之中。
4. 儘管1942年評價委員會發表「史密斯-泰勒報告」,第一次系統地提出了評價的基本思想和方法,這被認為奠定了現代教育評價的基礎;儘管A.J.格拉塞在1963年提出的標準參照測驗概念被認為是教育評價發展的一個分水嶺,即教育評價從經典的心理測量學中分離出來,但時至今日,教育評價領域的主流範式依然是心理測量學範式。
5. 心理測量學源於智力研究和智力測驗。在智力研究中,智力被假定為一種如同膚色之類的遺傳特徵一樣,是內在的穩定的,「不受汙染」的特徵。心理測驗測量個體穩定的特徵,這種特徵在人群總體中的分布的確會很接近正態分布,正如常識告訴我們,聰明人很少,白痴也很少,絕大多數人是常人。
6.可是,教育評價要評的是學生學習,成績是教學的直接結果,因此受到教學和教師的影響。成績不是隨機的,而是受到了教育的「幹預」或者「汙染」。換言之,成績是「髒」的。那麼,用以描述隨機變量分布的正態分布能否用來描述非隨機的學習結果?
7.按照概率統計的原理,樣本數量越大,結果的分布會越接近於正態分布。的確,很多大規模教育考試的結果分布似乎很接近正態分布,但這在很多時候是表象,因為這是根據正態分布曲線調整後的數據分布。也就是說,你在四六級考試中看到的你的分數,極有可能不是你真實的分數,而是調整後的分數。實際上,有很多大規模教育考試結果的分布不像典型的正態分布,比如2020年浙江省高考分數的分布:
相比較於數以萬人應試的高考,一所學校某個專業的某門課程的應考者群體至多以百來計,無論怎樣都稱不上大樣本,其結果分布如何做到「正態分布」?再進一步,在本科畢業論文指導中,學校也基於正態分布的觀念規定每位教師所指導的畢業論文優良的比例是否合理?通常情況下,一位教師所指導的學生基本上是個位數。
8.高考之類選拔性考試的結果的離散程度使之分布圖看起來有正態分布的意味,但能否斷定高考之類的考試要追求正態分布?其實,結果顯示為正態分布或許更多是為選拔目的而增加試題的區分度所導致的自然後果。也就是說,這類選拔性考試追求的是區分,以便篩選,而不是強調保證最終結果的正態分布。之所以有時需要將最終結果調整為正態分布,更多是處於數據處理和使用方面的需要:標準正態分布具有固定的標準誤與平均數值,能夠排除不同樣本數據度量單位不同造成的混亂,更易於推斷分析。
9.如果說高考之類的大規模選拔考試用「結果是否正態分布」來反推考試的質量有合理性,那麼高校日常課程評價是否應當追求結果的正態分布?高校的日常課程評價是「標準參照評價」,不是「常模參照評價」,評的是目標達成度。如果絕大部分學生都達成了標準,為何他們不可以都是滿分?在這一方面,基礎教育階段倒是比較普遍地接受了這一觀念——甚至在中考這種選拔性考試中,大部分考生的體育成績都是滿分。
10.至於說用規定「正態分布」來促進教師出題水平的提高,自然也會涉及到什麼樣的「出題水平」問題。是要確保題的「區分度」,還是確保題所考核的目標與學習目標的一致性?標準參照評價要關注的顯然是後者。
11.如果認識到高校日常評價是標準參照評價,一旦發現學生成績普遍高,首先要質疑的是考試是否考察了規定的學習目標,即評價與課程教學的匹配程度;如果課程-教學-評價的一致性沒有問題,那麼進一步需要質疑的是學習目標是否定得過低——按照現在流行的話來說,學習目標是否具有「高階性」「挑戰性」;如果學習目標設定沒有問題,那麼我們是否需要因為成績普遍高而質疑老師?在初中或高中,一位老師若能讓他班級絕大部分學生在中/高考中進入高分段,很可能會得到獎勵的!
12. 「公平」的教育應該就是想讓所有學生都學好;理論上,教育是可以讓所有學生學好的——布魯姆的掌握學習理論不就強調「只要給予足夠的時間和適當的教學,幾乎所有學生都能在幾乎所有內容上達到掌握的程度」嗎?同一高校同一專業的學生其實同質化程度很高,至少入學分數很接近,結果進入高校一個學期,考試結果就呈現出明顯的正態分布,那到底是怎麼造成的?高校就是做這種分化工作的嗎?
13.高校強調最終結果的正態分布,初衷也許僅在於遏制某些「水課」的分數虛高問題。規定高分段的比例,顯然有一定的現實針對性。但要為這種規定找個說得過去的依據,一看,「正態分布」很合適,於是就借過來了。正態分布的規定的確解決了成績虛高問題,但顯然不能解決成績虛高背後的教師責任心缺失問題——結果是正態分布,但課依然是水課。
14.另一個問題是,當前學生普遍偏好於「表現定向」(追求成績)而不是「目標定向」(真正學會),怎樣讓那些在努力且達成目標只不過在同學間的相互比較中稍顯落後的學生有效維持學習動力?如果我不用太努力,成績就能維持在中間,而努力了也只能在中間,我幹嘛要努力?對正態分布的追求只能加劇學生的表現定向,而放棄真正的學習。
15.不過,在中南大學這個事件中,那位老師將板子打在「教務辦」身上,也許是搞錯了對象。「教務辦」只是一個執行機構,甚至「教務處」也是。這種做法也許是上級某個部門的要求,也許只是抄了其他學校的做法。從中可以窺見,教育相關人整體的教育評價素養的確有待提高——這不止從「正態分布」要求中看出來,其他的例證也不在少數,比如有學校運用了某種軟體,居然能在完全不知道相關課程目標的情況下從成績中求出考試的「效度」,有些會質疑教師考試的「信度」……
16.《深化新時代教育評價改革總體方案》已經出臺,提升全體教育相關人的評價素養迫在眉睫。再進一步,也迫切需要我們生產出真正適於教育並能改進教育的評價知識基礎。