物理教育研究(physics education research簡稱PER)中的實驗/準實驗研究允許研究人員通過兩個或多個事件之間的比較來研究某些教學改進或幹預的效果。如果這種比較涉及定量分析,那麼推斷統計就是一種有效的工具[1]。在PER的實驗/準實驗研究中,合理使用推斷統計離不開細緻的研究設計[2]。
簡單地說物理實驗研究是通過改變某些變量(自變量)的值,觀察另一個變量(因變量)的變化效果;而物理教育實驗研究也有相似情形,研究者通常對他們感興趣的事件進行精心的控制和操縱——引入一個幹預,測量這個幹預帶來的差異。也就是說教育研究者也會嘗試操控某種東西以決定實驗效果。這種被操控的東西就被稱作自變量,自變量可以是一個或者多個,通過操控自變量,觀測其帶來的效果,即因變量的變化。例如在一項關於「不同的教學方法影響大學生物理成績的研究」中,教學方法是教育研究者感興趣的自變量,學生的物理成績則是因變量。
實驗研究的前提條件是:為了建立因果關係,要對變量進行分離和控制。物理實驗研究通常在實驗室中進行,控制和分離變量從理論的角度比較容易實現;而物理教育實驗研究則在社會情境下進行,學校和課堂不像實驗室那樣可以人為製造和隨意組裝,我們不能把人當作是可隨意操控的、無生命的研究客體,因此物理教育實驗研究的對象是一個複雜的系統,常常會面臨不可控的內部和外部幹擾和倫理困境,研究者基本上不可能在「理想」環境中進行「真」實驗,通常採用一些接近真實的實驗(準實驗)設計[3]。
我們先從物理教育實驗研究的設計入手,說明理想狀態下實驗研究的本質,然後介紹在實踐中可行的準實驗研究的設計,從而理解物理教育實驗研究設計如何在理想和可行之間尋求最優方案,實現在可行之中做到可信。
在討論物理教育實驗研究設計時有兩個術語:前測和後測,常常出現在與收集數據有關的研究中。前測是指在實驗處理之前對被試進行的測量或測驗,後測是指在實驗處理後進行的測量或測驗。不是所有實驗都需要進行前測,而後測作為考查實驗處理效果的因變量是必須的。下面簡要介紹兩個實驗研究設計和一個準實驗研究設計。
物理教育實驗研究設計一般包含兩組或更多組學生,一次實驗處理(幹預)一個組(實驗組),可能還有一個控制組,在實驗前將被試隨機分配到兩個組,實驗組接受實驗處理。在實驗結束時,對兩個組的研究變量進行測量(後測)。僅施後測控制組設計對研究者來說是有效的設計,因為是隨機分組,它不需要前測。僅施後測控制組的設計如下表示:
實驗組RG1 X O1
控制組RG2 — O2
G表示組,R表示隨機抽取或分組。X表示實驗處理(自變量),短線表示沒有實驗處理。O表示對因變量的測量,置於X和短線—的左/右面,分別表示前/後測,在這個設計中只有後測、沒有前測。
以前面提到的「關於不同的教學方法影響大學生物理成績的研究」為例,使用這種研究設計,首先將學生隨機分配到實驗組RG1和控制組RG2中,實驗組使用一個新的教學方法講授課程——實驗處理X(自變量),控制組仍然用原來的教學方法——沒有幹預。在經過一學期的教學後,可以對兩個班學生的物理成績(因變量O)進行後測和比較。
在物理實驗室中,將一個金屬棒加熱,研究者可以肯定地將所觀察到的物體膨脹效應歸因於溫度升高,因為他們在實驗中可以排除(控制)所有其他無關的因素。但是在PER實驗研究中,任何變量的變異都可能受到多種因素的影響,例如上述研究中學生的物理學習成績的變異除了可能受到教學方法的影響外,還可能受能力、態度、動機和以前的學習成績等因素的影響。將學生隨機分配到實驗組和控制組,在理論上可以減小所有可能的無關變量對因變量的影響。也就是說,除了實驗變量(教學方法)之外的其他無關變量產生的影響(幹擾)近似同等地分配在實驗組和控制組,其產生的「幹擾」效應就勢必在兩個組中都有,因此隨機化確保了實驗組和控制組的狀態儘可能相當。實踐中只有在保證有足夠多的被試時,隨機化的原則才有可能起作用。良好的PER實驗研究要求研究者能提供公正的、沒有偏差的組間比較結果,為此在研究設計時必須小心翼翼確保任何組間差異能夠歸因於研究設計的自變量。
在「僅施後測控制組設計」的基礎上在實驗處理前加上前測,就是「前測-後測控制組設計」,表示如下:
實驗組RG1 O1 X O2
控制組RG2 O3 — O4
由於是隨機分組,因此,前測的目的不是保證對比組相等。對一個或多個變量的前測可以在分析時進行統計控制,計算增益(gain),它是由後測分數減去前測分數得到的。
研究人員除了使用增益來表示變量隨時間變化外,還經常使用標準化增益(normalized gain)——實際的增益與潛在的最大增益變化之間的比率:
實際增益是後測得分與前測得分的差值(gain=post score-pre score) ,潛在最大增益是滿分數和前測得分(maximum change=full score-pre score)的差值。從Hake首次將其引入PER以來[4],標準化增益在物理教育研究中被廣泛採用。研究人員通常使用標準化增益直接與0進行比較,以檢查學生前後的表現是否有顯著變化。
PER實驗研究的特徵是隨機安排被試(組)進行實驗處理。然而,在進行物理教育研究實踐時,被試的挑選和組合不可能總是隨機的。準實驗研究是指在實驗中,使用原始教學班作為被試進行分組,而不是隨機安排被試接受處理。如果研究者不能隨機分配被試進入各組,那麼原始組就會在某些因素上有所不同,並導致各組不對等。使用不經隨機分配的組進行實驗是有風險的,因此研究者需要做出努力使它儘可能接近 「理想」實驗設計。這種準實驗設計是能夠為教育做出有價值的貢獻,但有一點很重要:研究者對實驗結果的解釋和推廣應該特別慎重。下面介紹一個準實驗研究設計。
在前面「實驗研究設計:前測-後測控制組設計」中,如果實驗組和對照組不是隨機分組,而是使用原始或自然形成的班級構成被試組時,就構成一個「準實驗設計中的前測—後測不等組設計」,表示如下:
實驗組G1 O1 X O2
控制組G2 O3 — O4
實驗組G1和控制組G2不是通過隨機化的方式達到對等。我們使用原始或自然的教學班作為被試組時,有可能帶來取樣偏差,兩組之間的相似性(或缺乏相似性)必須加以考慮,研究者在一定程度上要使兩組在除了實驗幹預因素(自變量)外的其它可以影響到因變量的幹擾儘可能地相當。前測的結論對檢驗實驗組和對照組間的相似性是非常有幫助的,因為前測是與因變量有密切關係的變量。
在物理教育研究中,除了上述幾種實驗/準實驗研究設計外,還有所羅門四組設計,因素設計,重複測量設計,時間系列設計等。另外為了適用具體的研究情況,研究者可以對這些實驗設計進行一些改動,重要的是讓我們的設計適合實驗的目的,只有實行了充分控制的實驗,其結果才能令人信服,並且按照研究結果的適用性加以推廣。
在物理教育準實驗研究設計時,為了能提供公正的、沒有偏差的組間比較數據結果,研究者需要盡力確保任何組間差異都能歸因於研究的自變量裡,在實驗設計時,需要做到以下幾點:(1)減少變量的混淆或使這種混淆處於最小程度;(2)辨別和控制無關變量,縮小或減少它們的影響;(3)通過數據獲得充分的信息,以滿足檢驗實驗假設的條件和統計的精確性。理論上我們用實驗效度來評價實驗設計的好壞,實驗效度有四種類型:內在效度關注的是因變量的變化是否由實驗變量所引起的;外在效度是指實驗結論的外推範圍;結構效度是對自變量結構和因變量結構的明確界定;統計結論的效度是對實驗組和控制組之間是否存在差異和精確性檢驗。
物理實驗研究中遵循實驗可重複性要求。在物理教育實驗/準實驗研究中,這個要求可能不會特別有效。物理教育實驗研究是將複雜的現象分成可測量的變量,然後僅僅聚焦在其中的某些變量,如同盲人摸象,每個研究的價值在於它提供了部分信息,但無法獲得整體的視角。物理教育實驗研究結果不僅具有樣本依賴性,而樣本中的每個個體之間也存在差異。理想的物理教育實驗研究是從某一個總體樣本中隨機性抽取實驗樣本,然後隨機分配到不同組中,其研究結果在一定的可靠程度上可以代表對應的這個總體樣本的情況(外在效度)。例如,一項以各大學文科物理課程的學生作為總體樣本進行抽樣的某一項物理教育實驗研究,其研究結果在一定的可靠性上可以外推到不同大學的文科物理課程,但是不能輕率地外推到理工科物理課程。涉及物理教育準實驗研究的效度時,研究者必須對它的缺陷有清楚的認識,對實驗組和控制組間的對等性進行確定,在研究報告中需要非常詳盡說明實驗的條件細節,同時在邏輯上對其可能的代表性和可推廣性加以論證。
本系列文章中的第2篇我們介紹了描述統計在物理教育研究中的應用[5],而物理教育實驗/準實驗研究更依賴於推斷統計進行數據分析,數據差異的顯著性檢驗是推斷統計的重要內容,在物理教育實驗/準實驗研究中具有廣泛的應用,其目的是對兩組數據之間是否存在顯著性差異進行判斷。
我們仍然以關於「不同的教學方法影響大學生物理成績的研究」為例,若該項研究使用「準實驗設計中的前測—後測不等組設計」,如果兩個班的前測數據之間差異性不顯著,則表明兩個班的測量變量在實驗開始時是相當的。經過一段時間教學之後再進行後測,如果實驗班的後測成績平均值高於對照班,並且兩組數據差異性檢驗的結果表明它們之間存在顯著差異,假設沒有理由懷疑兩個班在其它方面存在差異(如學生能力、態度、動機、教師差異等等),則結果表明實驗班採用的新的教學方法對提高學生物理成績是有效的。
有許多推斷統計的方法,在統計學教科書中有詳細的講解,有一些方法在計算上很複雜,大部分數據分析可以通過計算機進行,因此對研究者而言,更重要的是理解不同方法的原理和適用條件。研究者需要根據研究目標、樣本類型、數據類型[6]、數據分布形態等,選擇適合的推斷統計方法,表1給出一些基本的差異性檢驗的方法和適用條件,並以參考文獻編號形式標出這些方法在PER中的應用案例,方便讀者查閱。
表1隻提供了PER實驗/準實驗研究中較為常見的幾個統計方法及其適用條件,並不是全部。其中涉及很多專業名詞,需要系統學習過推斷統計才能理解。
用一盒拼圖來比喻,本文試圖描繪一個印在包裝盒外面的那張簡圖,目的是提供一個指引,實踐者必須自己打開盒子,對每一個碎片進行查看和研究,努力地將他們一張一張地拼接成完整的圖像。物理教育研究領域是一個多元化、複雜但是非常有魅力的研究領域[15]。也是一個專業化很強、很有挑戰的領域,進入這個領域需要專業化的學習。物理教育的共同體需要證據作為評價和行動的基礎,政策的制定應該建立在已有研究的基礎上,將未經實驗和檢驗的建議付諸教育實踐,大規模推行是不合理的。物理教育實驗/準實驗研究可以增進人們對物理教育的理解,從而改善物理教育實踐。
[1]FRAENKEL J R, WALLEN N E AND HYUN H. How to design and evaluate research in education[M]. New York :McGraw-Hill Higher Education, 2012.
[2]DING L, LIU X, HARPER K. Getting started with quantitative methods in physics education research.HENDERSON C, HARPER K.Eds.Getting started in PER—Reviews in PER[R]. CollegePark,MD American Association of Physics Teachers, 2012, 2: 1-33.
[3]DING L. Theoretical perspectives of quantitative physics education research[J]. Physical Review Physics Education Research, 2019, 15(2): 020101.
[4]HAKE R R. Interactive-engagement versus traditional methods: A six-thousand-student survey of mechanics test data for introductory physics courses[J]. American journal of Physics, 1998, 66(1): 64-74.
[5]DING L, 申亞琴, 張萍. 物理教育量化研究方法:調查研究與描述統計[J]. 物理與工程, 2019, 29(4): 3-6.
DING L, ZHANG P, SHEN Y Q. Quantitative methods in physics education research: Survey research and descriptive statistics[J]. Physics and Engineering, 2019, 29(4): 3-6. (in Chinese)
[6]DING L, 張萍, 賈澤皓. 物理教育研究中的量化研究方法[J]. 物理與工程, 2019, 29(2): 78-82.
DING L, ZHANG P, JIA Z H. Quantitative methods in physics education research[J]. Physics and Engineering,2019, 29(2): 78-82. (in Chinese)
[7]POLLOCK S J. Longitudinal study of student conceptual understanding in electricity and magnetism[J]. Physical Review Special Topics-Physics Education Research, 2009, 5(2): 020110.
[8]MCPADDEN D, BREWE E. Impact of the second semester university modeling instruction course on students' representation choices[J]. Physical Review Physics Education Research, 2017, 13(2): 020129.
[9]STEWART J, GRIFFIN H, STEWART G. Context sensitivity in the force concept inventory[J]. Physical Review Special Topics-Physics Education Research, 2007, 3(1): 010102.
[10]DAY J, BONN D. Development of the concise data processing assessment[J]. Physical Review Special Topics-Physics Education Research, 2011, 7(1): 010114.
[11]NIEMINEN P, SAVINAINEN A, VIIRI J. Force concept inventory-based multiple-choice test for investigating students' representational consistency[J]. Physical Review Special Topics-Physics Education Research, 2010, 6(2): 020109.
[12]BREWE E, SAWTELLE V, KRAMER L H, et al. Toward equity through participation in Modeling Instruction in introductory university physics[J]. Physical Review Special Topics-Physics Education Research, 2010, 6(1): 010106.
[13]TURPEN C, FINKELSTEIN N D. The construction of different classroom norms during Peer Instruction: Students perceive differences[J]. Physical Review Special Topics-Physics Education Research, 2010, 6(2): 020123.
[14]CLEMENT J. Students' preconceptions in introductory mechanics[J]. American Journal of physics, 1982, 50(1): 66-71.
[15]DING L, 張萍. 美國物理教育研究:歷史回顧和前瞻[J]. 物理與工程, 2018, 028(1): 29-34.
DING L, ZHANG P. Foundations and frontiers of physics education research in thr U.S[J]. Physics and Engineering, 2018, 28(1): 29-34. (in Chinese)
基金項目: 湖北省2017年高等學校省級教學研究項目「基於形成性評價的混合式學習活動設計與實踐研究」(2017276)。
作者簡介: DING Lin,男,俄亥俄州立大學教育學院終身教授,北京師範大學客座教授,長江大學楚天學者特聘教授,研究方向為物理教育研究和科學教育研究,Ding.65@osu.edu。
通訊作者: 張萍,女,教授,研究方向為物理教育研究和科學教育研究,zhangping@bnu.edu.cn。
引文格式: DING Lin,張萍,徐禎. 物理教育研究中的實驗/準實驗研究[J]. 物理與工程,2020,30(5):網絡首發.
作者其他文章:
物理教育研究中的量化研究方法
物理教育量化研究方法: 調查研究與描述統計
《物理與工程》期刊是專注於物理教育教學研究的學術期刊,是中國科技核心期刊,1981年創刊,歡迎踴躍投稿,期刊投審稿採編平臺:
http://gkwl.cbpt.cnki.net