2016年11月4-6日,由教育部人文社會科學重點研究基地華東師範大學課程與教學研究所主辦的第14屆上海國際課程論壇在華東師範大學舉行。本屆論壇以「基於證據的課程與教學研究」為主題。來自美國、加拿大、法國、香港和臺灣等國家與地區的教育政策、教育心理學、教育測量與評價等領域的專家與學者,以及來自全國十幾個省市的200餘位專家學者、教育行政部門領導、一線教育工作者參與了本次論壇。
臺灣師範大學教育心理與輔導學系教授陳柏熹作為特邀專家出席,並作題為「大型教育調查研究的過去、現在與未來:臺灣經驗」的報告,此為報告全文。
臺灣師範大學教育心理與輔導學系教授、雲端測驗中心主任,臺灣師範大學心理與教育測驗研究發展中心主任,臺灣華語文能力測驗(TOCFL)推動工作委員會執行長。曾被中國測驗學會推薦獲得教育團體木鐸獎,並於2013年獲得臺灣國科會的獎勵特殊優秀人才獎助。專長領域為測驗與評量、電腦化適性測驗、心理與教育統計。
尊敬的各位來賓,早上好!很高興又有機會回到上海,我大概15年前來過上海,今天再回來感覺蠻溫馨的。我15年前來大陸參加「海峽兩岸測驗學術研討會」的時候順便來過上海,那個時候是在浙江大學辦的。我大概上個月才來過大陸,這個月又來了一次。
我就談一點臺灣過去做的大型教育數據研究的狀況,然後來看看我們是不是可以提供一些經驗,供內地這邊來做參考。
我首先做一個簡單的自我介紹,我目前是在臺灣師大教育心理學系任教,也負責管理臺灣師大的心理測驗中心,我們是在做有關初中畢業生進高中時參加的一項考試,它是一個高風險的考試,拿了這個成績之後就可以去申請高中。每年大概有28萬人可以拿到成績,但是今年變少了,明年會更少,「少子化」的現象一直在襲擊著我們,三年前有32萬人,大概到明年我們這個考試會剩下23萬人,再過七八年只剩下19萬人,一共少掉了1/3的人口。意思就是說,臺灣目前有1/3的大學即將要關掉了,我們一直在想辦法怎麼讓這些大學轉型,變成別的形式,比如社會教育或者是推廣教育。我們也在協助臺灣的「華語能力鑑定考試」,相當於大陸地區的HSK考試。另外還有我們自己發展的一個「雲端測驗中心」,這個就是我們開發的一些測驗系統,可以在線上直接做一些測驗,用實驗的方式選擇不同的實驗變向,然後做實驗記錄,實驗記錄完還可以做一些結論和自動計分。這個是我們在發展大學生基本素養測驗,就是創造力測驗。
大型教育資料庫研究的歷史相當悠久,在我還沒有出生的時候它就已經有了。1964年第一次的大型教育數據的研究已經開始,被稱作「First international study」,實際上當時IEN還沒有成立,它是1967年開始進行大型教育數據研究後才成立的,那個時候是十年才做一次,現在幾乎每年都有各種不同的大型數據的資料收集。IEN剛成立時數學和科學是不分開的,第二屆的時候還是不分的,第三屆就分開了,那個時候是叫TIMMS, T是指第三屆。第三屆之後,每十年才做一次時間間隔過長,這意味著十年以後才能知道我們國家的狀況。於是研究者們設想著有沒有可能在短時間內再做一次,所以1999年又做了一次TIMMS,後來大家覺得應該要有一個統一的名稱,如果一直變會讓別人產生誤解,所以1999年之後研究者們設想是否可能把它全部稱為「TIMMS」,即「趨勢研究」,「TIMMS」就是這樣產生的,現在學界都稱之為「TIMMS」,每隔四年做一次。
除了TIMMS之外,各位可能也知道它不只是做數學和科學的研究,也做閱讀的研究,比如PIRLS,還有做ICCS,也就是國際公民素養。早期它們的名稱在不斷地變化,現在慢慢都固定了下來。IEA在做這些研究時,調查的主題跟調查的目的是分開的,調查的學科、調查的內容、關注的方式也是分開的。分開就會導致一個後果——資料間不便於聯繫起來,因為TIMMS的抽樣和ICCS抽樣不一樣,我們無法知道學生閱讀方面的表現跟科學的學習、數學的學習以及公民素養間是否存在關聯。OECD就很聰明,第一次在推行PISA的時候,就把數學、科學、閱讀直接結合起來。實際上不只是推PISA,還推了PIAAC,即國際成人能力的測量,PIAAC比較針對諮詢、問題解決領域。
這兩個大型資料庫的研究在走向上不太一樣,我們就直接看它們的一些描述。TIMMS的走向是課程導向的,也就是說,它每次做調查前會請各國的專家到IEA那邊開會討論,把各國的課程跟IEA想要測量的課程做一個對照,看看到底我們做的調查是否是有效。如果要做國際評比,一定要有一個比較公平的原則,大家都有教過同樣的課程然後再做這樣的評比才是可靠的。如果一個國家教過了所要測量的課程,別的國家沒有教過,那麼這樣的評比是沒有意義的。所以每年開會時會針對各國的課程做一些討論,你們可以看看我們現在定出的這個標準是否符合你們國家的課程綱要,如果每個國家都符合了,我們就進行這項測驗,所以它具有很濃的課程導向的意味,並且在測量時非常強調學習成就。在經過課程的學習之後,我看看你到底學得如何,此時會比較強調知識的理解、應用,以及一些簡單的推理問題,而很少強調課程在問題解決方面的作用。
以數學來講,它的整個內容就是很純粹的數、代數、測量、幾何、資料,雖然每次名稱都有一點調整,但都是差不多的,自然科學一般包括物理化學、生命科學或者有些國家稱之生物、地球科學、環境科學都融合在裡面。所以會發現,這樣的一個調查它其實是很注意課程導向的。調查的對象主要是家長、教師、學校,如果你想要了解某個班級的層次影響就要拿TIMMS的資料,而這是PISA的資料無法提供的信息。並且因為它是跟課程有關,所以班級層次的變向就很重要。另外它在整個時間變化中比較穩定, 1999年有38個國家參與測量,2003年有49個國家參與,2007年有60個國家參與,現在變成63個國家參與,已經差不多60多個比較有經濟基礎並且關心教育的國家參與,這是TIMMS。
ICCS在1971年和1994年的時候做了兩次,那個時候叫做CIVED。後來在2009年就把它改成為國際公民素養的調查,全部稱之為ICCS。TIMMS最主要的研究對象是來自於四年級和八年級的學生。ICCS最主要研究的對象是八年級的學生,有一些別的研究也聚焦在國中階段,所以我們的初中生是蠻可憐的,初中生就是沒隔多久就會經歷一個國際調查研究,有些初中運氣不好每次都被抽樣,這樣的學校初三的學生要做PISA,初二學生要做TIMMS。如果那個學校剛好是小學初中一貫制的學校,不停的抽樣調查會使學校不堪其擾。
公民素養研究最想要了解的東西,就是公民社會的體系、公民的原則、學生在參與公民活動時的狀況、整個公民的認同感、和一些認知概念的推理能力等。調查對象也一樣,只要是IEA做的調查,調查對象都吃不上,有學校、教師、學生。這些其實也都跟各國公民課程的內容多多少少有一些關聯。我們這個禮拜才在討論ICCS2015年初步的試題分析結果,我們發現一些很有趣的現象,有人說一些題目對臺灣地區的人來講好像過於簡單,有些題目過於難,我們就研究了那些題目,發現確實在臺灣地區公民的活動的思想方式、思考方式跟國外是不太一樣的。我們內部在分析這個現象的時候,發現題目真的是跟文化特徵是有關係的,所以我們很好奇,ICCS國際評比跟數學科學不一樣,數學科學課程是很少受到文化因素的影響,但是公民課程與文化因素非常有關聯。比如臺灣的學生在思考公民議題時,常常會把道德因素放進來。所以我們就發現一些公民的議題不應該去思考道德的問題,但是我們的學生因為都思考得比較偏道德方向,而不是偏法律或者是文化差異的方向,所以都答錯了,於是試題的難度變得比較難。
參與的國家在2009年的時候還有38個,2016年的時候只剩下24個,也就是說,公民素養這個調查其實有一點在沒落,也反映出我剛才講的那個問題,對於世界各國做同一套標準,以去評判公民的素養是不準確的,因為公民素養受文化因素影響太大。PISA在2018年要推出一個類似公民素養的測驗,叫國際素養,它的概念跟公民素養的測驗有點像,但它就不會有太多的課程導向,一旦有了課程導向就免不了會受到當地文化背景的影響。
PIRLS是比較強調閱讀層面的測驗,通常我們比較希望從小就開始培養,所以它研究的重點放在小學四年級。小學四年級的學童,不同的國家有什麼樣不同的政策,怎樣去針對他們的閱讀能力來進行培育呢?臺灣以前沒有這方面的政策,沒有特別強調學生的閱讀,我們比較強調學生的考試成績,但是他們試圖從小去培養學生的閱讀習慣。所以我們在參加第一次測試的時候,臺灣的教育單位受到了很大的震撼。因為我們參加的其他的評比,比如TIMMS、PISA,學生表現得都不錯,都可以在世界前5名以內,而PIRLS測試的結果是20幾名,而且那個時候參與測試的國家也沒有那麼多,臺灣地區已經在中段以後了。於是大家開始擔心,等一下我會談到它對臺灣教育政策發生了一些影響。PIRLS測試包含了文學類以及訊息類這兩大類的題材,主要是了解學生在閱讀過程中閱讀的歷程,即閱讀目標,閱讀行為跟態度,閱讀理解裡面還細化為訊息的提取,要怎麼去推論,怎麼做整合跟詮釋,以及你去評估這個訊息的可靠性,它也同時收集學生、家長、教師等等一些背景資料,當然它也研究學校的環境怎樣去培育小孩子的閱讀習慣,我們從這些資料裡面發現,我們根本沒有特別去培育小孩閱讀的活動跟教育意識。
再來看PISA。剛才我們談到TIMMS的測試重點是國二或者小學生四年級的學生。初中二年級學生的學習過程都還是比較課程導向的,但是PISA測試比較著重在一般的方面。各國的基礎教育完成時,PISA測試便在那個末端看看各國的基礎教育做得如何,所以它的時間點差不多就是在15歲的時候,以臺灣來講,基礎教育就是初中三年級剛好要升高中的時候,有一些抽樣也會抽到高中,因為它那個年級是以年齡來分界的,高中或者是高職或者是五專,所以要看看各國對於基礎教育的完成程度如何,對於那些概念的掌握,對於某一些歷程、知識的應用,他一直強調它是「素養」的:數學的素養、科學的素養、閱讀的素養,是以literacy為導向的。
在這裡跟各位分享一個很有趣的訊息,在國際上有一個學會叫「國際素養協會」,這個學會已經成立相當久了,好象有將近60年的歷史,但是在前兩年,我不知道是不是因為受到PISA的影響,就把它的「international trading」這個詞換成了「international literacy」所以現在變成「國際素養學會」,而且這個素養已經被擴大解釋了,以前素養比較強調閱讀層面,現在已經由閱讀層面過渡到你在看到一篇文章或一些內容後,有沒有把過去的比如說科學的知識、數學的概念,甚至於對於某一個公民議題的態度拿出來運用,以此來解釋你看到的這篇文章的內容,甚至把運用這些知識判斷文章裡面寫的一些資訊是否可靠,如果你要進一步驗證的話應該怎樣發展一個研究,那個素養它的層面已經變得比較廣泛了。
PISA每次的評量,不是說這三個主題都是全部的學生都做,比如這一次以數學為主,數學的評量就是全部的學生都要做,但是有一部分的學生是同時要做閱讀跟科學,所以每一次會有一個主題。參加的國家越來越多,現在已有65個國家參與測驗。還有一些比較新的,2012年的時候也做了一個「數位化」的評量,IT的部分,收集的資訊比較強調學生的自身,還有一些是比較學校端的部分,沒有比較強調在課程教學這一塊,而並沒有太強調課程部分,所以對於我們的課程所,可能各位更傾向於用TIMMS的資料而不是PISA的資料,因為它缺乏教師端的內容,教師問卷比較詳細的資訊可能會找不到。如果你要教師端的資料它也有,但必須另外付錢購買,你要參加TALIS測驗,就是針對教師教訓端的這些諮詢。有些國家在2012年又參加PISA的測量又參加TALIS,就可以也獲取教師端的資訊。
從1995年到2015年,僅僅20年間就執行了這麼多的調查研究,每一個調查研究並不是說今年要做這個調查研究今年就準備就好了。以臺灣來講,我們做調查研究的前兩年就要徵集團隊,因為必須要把這些國際調查評比的題目翻成每一個國家自己的語言,然後再把它做出一些抽樣的資料,然後要送回去,那個來來回回的時間特別久,調查完之後還有資料要分析、做國內的研究報告、開記者會做說明,所以前後需要四年左右的時間。可以看出,為了這些國際調查研究,搞得人仰馬翻,所以誰會願意接受調查研究?想要接受調查研究的學校,通常都有一個想法,即想要發展專業團隊,因為參加這個調查研究就可以學習國際評比是怎麼做的,未來如果自己想要去發展這樣的研究,就可以在這個過程中儲備和發展人才,了解整個執行過程。
臺灣是從1999年最早操作TIMMS,很多都是在2006年之後才參加的,除了TIMMS以外。臺灣1999年時參加了TIMMS,其他測驗都是2006年之後參加的。意思就是說到2016年這17年期間,我們總共做了13次的國際調查研究,平均每1.3年到1.4年就要做一次。我剛才講過參加測驗前後兩年都要做相關的工作,所以我們在臺灣跟測量有關的老師都接觸過大型教育資料庫的調查,不論是接觸哪一個。
剛才講的都是過去,我們來看看臺灣現在的狀況,做了這些調查研究到底發現了什麼?其實名次部分不是那麼重要,因為每一年參加的國家數是不一樣的,每一年都會有新的國家加入進來,像上海一加進來臺灣的名次就會往下掉。還有一些國家加進來,那些國家又是在這方面表現不錯,那麼臺灣的名次馬上就往下掉。名次沒有那麼重要,重要的是看分數,它的international scale是有跨年度跟跨地區的等劃的,是一個共同體,不同年段有共同體,利用那個共同體去做等劃。所以這些分數可以看出你在這個方面的表現,因為每一年調查的forom work不會相差太多,所以可以做一個大致的現象描述。
大致地看,會發現臺灣在數學方面的表現其實是一直在提升,從之前的549到後面變成560、585、590、600,都已經比全世界的平均數多了,600已經多了一個標準差,實際你的數學能力是有提升的,名次卻沒有進步。這是代表什麼呢?但我們常常會沾沾自喜,以為我們的學生表現都有提升,等下給各位看我們最近一直很憂心的一個現象,也放到我們在2018年即將要執行的十二年的課程綱要裡面。
科學的表現就不太一樣,科學的表現排名雖然是比較落後的,但是它在某一些階段,比如說這個是PISA的部分,這裡的下降或上升是跟前一次相比得出的,比如假設分數超過10分以上,我覺得它會有一個比較明顯的改變,所以2006到2009年科學的分數有略微的下降。以TIMMS來講,在八年級的科學部分,我們有稍微下降,從2003到2007年,也有些微的下降。發生了什麼事情?比如2009有下降,表示它的影響是發生在2007、2008的階段,我們就去找2007、2008臺灣的課程內容在科學方面有什麼改變,我們那段時間剛好在執行國中基本學歷測驗,這個測驗那個時候比較強調在基礎能力的評量,國中階段學生最主要的工作就是學會基本的能力,未來參加基本學歷測驗作為高中升學的依據。當然後來這個測驗就改成國中教育會考,那個時候太強調基礎的能力表現,所以我們那個測驗裡難的題目其實是蠻少的。學生就會覺得,我只要達到一個很基本的水準就可以了,就算答得太好也不會有什麼變化,所以學生就不會針對這方面的表現努力。
剛才那個是就成績上的表現來講,去反省到底我們有哪些課程變化了,這些變化跟測驗的成績會不會有關聯。
閱讀的部分,我們第一次參加閱讀評量的時候名次是16,第二次是23,分數都沒有改變。臺灣政府在2006年第一次測試完後,立刻就推出了促進中小學閱讀的教育方案,一直執行到現在,現在的名稱叫「閱讀101」,因為我們有一個101大樓。這個計劃在學生剛入學時就送給他一袋書,要求爸爸媽媽帶著小朋友去閱讀,每年寒暑假必須要有閱讀相關的活動,政府會給出一個書單,學生要去私立圖書館借書,或者就去圖書館看,然後你要做閱讀的活動並且寫心得。我就帶著我的孩子去圖書館看書,寫心得。以前都沒有這種活動的,但是最近這幾年發現那樣的活動一做下來會有很明顯的改變。所以國際調查評比資料可以給我們作為檢查教育政策執行結果的參考,也可以檢查我們有哪些不足的地方,這樣你就可以擬定你的教育目標。
過去我們做有關調查研究資料的時候,我們會比較強調以下幾個層面,一個是教育政策的部分,就是我剛才講的,到底哪些因素造成我們臺灣地區表現得沒有那麼好,然後我們就去檢討並且對政策進行修改,然後再來看,因為我們一直在參與,我們就可以看看政策的改變會不會對評比結果產生影響。我們也會關心班級或者學校的層面,像師生比、班級大小、教師薪資,或者是教學層面、學生的篩選跟分組,比如說我們有執行所謂的「常態編班」,以前我們強調因材施教,但是因材施教已經執行好幾十年了,後來從評比的結果發現,好像因材施教並沒有多大的效果,並且造成一個很大的問題,就是學生的分類,學生會被分成兩群不同的人,好像後面那一群就被政府給放棄了,被教育給放棄了。所以現在就會比較強調常態編班,學校自主管理的做法,評量績效。如果是家庭因素的考慮,家庭社經第一位,其實對於教育的影響真的是蠻大的。臺灣在2012年做了一個分析,發現數學科學表現比較強的國家,家庭社經第一位的陡坡圖是最高的,什麼叫陡坡圖?我們來看一下,橫軸代表社經地位的指標,縱軸代表分數的變化,意思就是說,你的社經地位在哪個位置,就已經決定了你未來的分數會在哪裡。所以感覺上學科成績不太應該跟你的社經地位有這麼強的關聯,我們卻在社經地位陡坡圖裡面是最高的,我們是58,就是和臨近地區像日本、韓國相比。後來發現,只要是在數學科學表現不錯的國家和地區,它的社經地位陡坡圖都蠻高的,上海也蠻高的,但是沒有臺灣高。意思就是說,教育應該要做一些什麼事情?怎麼可以讓這些低社經地位的人變成是一些學習成就落後的,是不是要加強這些人的教育。這些人就是因為家庭教學的資源資訊不足,所以他們接受教育時學校應該幫助彌補他們的不足。家庭社經地位、資源已經相當充足的,其實學校不用給他太多的資源家庭也會好好來培育他。所以可能在這個部分就要加強,現在臺灣地區就一直強調一個概念,我們把它叫做「減C」,像我們國中教育考試會分成ABC三個層級,「C」就是待加強。我們現在目的就是要把待加強的人數比例降低,像我們的數學跟英文課,被列為待加強的比例佔了1/3。所以我們一直強調怎麼把數學和英文課中那些待加強的人給拉上來,因為他們就是在這方面的表現不理想。
關於個人的因素,我們分析了個人的動機、投入、自信心等的一些研究,這些研究其實在臺灣很容易搜尋得到,我在這裡不再特別提了。
我們也發現一些很有趣的現象,比如說動機,右邊這邊都是屬於比較高動機的,高數學素養表現的這些地區,上海也在這邊。我們就一直在分析幾個點,不只這一個,還有學習態度,對數學的喜好度。就會發現,臺灣都是落在中等階段,假設以動機來講,內在動機就是你自己會不會主動想學習數學、你覺得數學對你未來是否有用,數學對你有沒有幫助。臺灣的學生都會覺得數學對他們沒有幫助,於是我們的排名就在後面了。我們常常說,上海地區也是中等。我們對數學的學習動機沒有那麼高還可以做到世界第一、第二,那萬一數學動機被我們提高了那還得了。但是我們發現在中學階段,學生們在相關課程方面表現這麼好,但在大學研究所,甚至於諾貝爾獎比較少看到我們的身影,所以問題好像不是出在這些學科的訓練方面而是出在別的地方。
我們會根據這些大型教育資料庫的評比來改變我們現在的課程,包含我們講的過去比較強調的基本學歷測驗.我們以前是以常模作為參照的,後來改成標準參照,從而定出不同的階段的學科的標準,即在基礎的部分它至少要達到什麼程度,從這些描述可以看出它其實受到了PISA的影響,因為它不是只強調數學的基本的數與量,代數,統計這些學科的內容,會比較強調在應用層次方面,甚至怎麼樣去發展一個數學的模式來建立論證。自然科學也是一樣的,會比較強調在問題解決的部分,這是我們最近發生的一些改變。從即將要實施的十二年國家的課程綱要中就可以看出,我們現在比較強調思考的能力、問題解決的能力、科學的態度跟本質,這個也是PISA在強調的,我們直接把它搬到課程綱要裡面,這個不見得是適合的,不過它確實提供了一個發展方向。所以我們現在慢慢的會被臺灣的教育單位要求出這樣的題目,即不再只是很單純的數學運算的題目,不再只是很單純的一個幾何圖形,而是要把生活情境中會遇到的概念直接拿來,看看你能不能用數學的原理來解決生活情境中的問題。
除了這個之外,我們也培養了很多相關的團隊,這些團隊就是臺灣自己發展的叫做「TASA」的團隊,臺灣有一個教育研究院,後來就建設了一個叫臺灣教育的學習資料的資料庫,它也是做小學四年級、八年級甚至於高中11年級的學習資料,所有學科都做,完全比照大型資料教育庫的做法進行抽樣,來做這些調查研究,在這之前我們如果沒有去參加這些國際大型教育資料的評比,我們就沒有能力來執行這個工作,我想這個是我們得到最大的收穫。
除此之外我們還做了兩個長期追蹤的調查,一個叫做TEPS,是追蹤一群受測者樣本的調查,連續追蹤7年。嬰幼兒調查研究也是,這個是從3個月開始就追蹤,我們要追蹤到16歲,實際上不是一直追蹤到16歲,而是一個階段一個階段地追蹤,比如說3個月的我們只會追蹤他到3歲,3歲的嬰幼兒會追蹤到6歲,6歲那一群樣本會追蹤到16歲,用這種方式去執行,大概會執行八年,並且要一直執行下去。為什麼?因為國際調查研究它都是橫斷式的研究,每一次橫斷式的研究沒有辦法提供同一群樣本,當作了什麼變化的時候,到底對學生的學習會產生什麼影響?嬰幼兒發展的追蹤調查,會強調在動作、社會情緒、認知能力的發展,另外還有教養的部分,教養的方式怎麼去影響到他的學習,這些都是大型教育調查的收穫。
我要特別提的是在幾次的大型教育調查裡面,發現學生在學習能力方面的表現真的都還蠻不錯的.但是我們很憂心的狀況是,以TIMMS2007年為例,四年級學生對數學學習的正向態度比例有50%,中等的21%,低度學習態度有29%,還不錯,算偏正向。到了八年級之後,當然這兩個是不同的樣本,但是將八年級的學生TIMMS的測試結果和1999年對比時,我們發現學生的正向學習態度正在逐漸的下降,對數學的喜歡程度也在逐漸下降中。不只是隨著年代在下降,隨著年級也在下降,越到中高年級對數學就越不喜歡。現在的學生對於數學的討厭程度比以前的學生更嚴重,所以後來我們就把數學學習態度跟興趣列入我們12年課程綱要裡面,我們的很多計劃都要去提出,特別是各種學習活動,在數學的學科裡面一定要提出「學習活動」,讓學生喜歡數學。在中學階段雖然不喜歡數學,但為了應付考試可以把它學好。但是一旦學完之後,學生再也不想碰數學了,因為他們都是為了要考試,為了要去申請到好的大學才去學這個的——我們並沒有培養出喜歡數學的人。國際評比裡就算達到世界第一,但是如果學生不喜歡,未來也不會有這方面優秀的人物出現,國家在這方面也不會有好的表現,其實這個部分我想我們已經遇到了這個問題,可能上海這邊也要思考這個問題。
其實在很多國際評比裡取向是不一樣的,TIMMS是課程趨向,所以在使用這個資料的時候就要小心。PISA是素養趨向的。我們其實有很多像基礎教育質量監測這樣的幾乎是全面性的調查,假設是整個地區全部都參與的話,那個就是普測,普測跟抽樣調查的資料也是不一樣的。大部分的教育調查研究都是橫斷研究,它跟縱觀研究裡面想要看出一些政策的變化可能還是有所不同。
在教育研究的問題裡面,通常可能假設自己要去發展教育調查研究,你一定要先思考,對於我們這個地區來講,哪一些議題是我關心的,因為教育的議題太多了,你不可能全部的都做,一定要去思考最近有哪些議題對學生的影響很大。不同的資料來自於不同的層次,所以進行分析的時候就要考慮到它是屬於學校層次還是班級層次的,甚至於學生層次的,然後你的變向是比較偏重在硬體設施方面,還是軟體的策略方法方面的?還有就是說到底有哪些變向要作為成效的變向,這一點要特別提示的。目前的大部分的教育研究都是研究認知能力,但是實際上教育的目標,認知只是其中的一部分,培養學生的興趣、嗜好、自信心或者是實做技能即他能不能有操作性的能力,這個都是在教育研究的目標裡面,但是這些都沒有受到重視。現在的研究都把態度、實做技能拿來當自變向實際上在教育的領域裡面應該是1變向,不是自變向,這個部分是未來要思考的。還有就是,裡面得到的結果到底是量化的還是執行的結果?目前國際調查研究,大部分都是用貝式估計法去產生資料,應該是說,他估計的重點不在於個體,而是在於群體。但是因為要估計群體的結果和效果,你需要有這些個體資料才能進行統計分析,這些群體效果要估計的時候他們認為,我出去直接給你一個人的分數,你做的題本的題目數量很少,而且你又不是所有題目都做,不同的地區做不同的題本,這樣的結果不太可靠,所以他給你一個Plausible value,你要拿那個Plausible value來做運算,而不是拿單一的資料結果來做運算,另外如果是執行的標準,可能會有一個分類的指標。
目前我們比較關心的重點不是只做一般的中小學生,我們會強調對大學的關注,因為我們現在已經發現,中小學生的學習狀況已經做得差不多了,我們也大概了解了那個狀況。但是在大學階段,到底學生的學習到了大學又變成什麼樣我們是不知道的。所以我們現在慢慢也在發展這種大學生素養的評量,這也是針對21世紀的,我們發展了有關於各種素養評量的資料,而且不是只有認知能力,態度的部分我們也都放進去了。以科學為例,我們在科學素養上面會強調這些能力,也去發展相關的題目,比如說這些相關的題型,類似像PISA導向的。我們也有發展美感素養的試題,這些通常比較電腦化,因為有一些多媒體的技術,我們要呈現出這些資料,就必須要在電腦上面來執行,然後來提供學校或者學生這些相關的表現。
謝謝大家。