原文刊載於《中國外語》2019年第3期
作者:
姜鋼,教育部考試中心主任;
何蓮珍,浙江大學教授。
摘要:
以中國英語能力等級量表為參照標準建立全國性的英語能力等級考試,是國家外語能力測評體系建設的一項重要任務。為提升考試的科學性與系統性,促進我國外語教育教學的改革與發展,促進學生健康成長成才,「等級考試」的設計堅持以問題及需求為導向、以科學設計為核心、以促進能力培養為宗旨、以多元科學評價為方向等理念,旨在通過構建系統連貫的考試體系,促進英語教育教學和評價方式改革,為促進學習者語言能力發展提供連貫有序的階梯。
關鍵詞:等級考試;交際語言能力;評價方式改革
1. 引 言
2014年,國務院頒布的《國務院關於深化考試招生制度改革的實施意見》(以下簡稱《實施意見》)中明確提出要加強「外語能力測評體系建設」(以下簡稱「測評體系」),第一次從國家層面對外語考試綜合改革和系統化建設提出了明確要求。測評體系建設以我國外語教育教學存在的問題為導向,以促進學生健康成長成才為宗旨,著重評價體系的科學化、系統化建設。測評體系建設任務包括建立統一、規範的測評標準,研發科學、系統的等級考試,推動外語考試內容與形式改革,促進形成性評價與終結性評價的綜合應用,構建面向各級各類學習者的外語能力綜合評價體系。
建立「國家英語能力等級考試」(以下簡稱「等級考試」),是測評體系建設的重要組成部分。「等級考試」以「中國英語能力等級量表」(以下簡稱「量表」)為標準參照,設置多個級別連貫有序的考試,著重考查學習者綜合語言運用能力,為促進學習者語言能力發展提供連貫有序的階梯。「等級考試」研製工作以現實需求為基礎,強調科學設計及驗證,著眼於考試內容、成績報告方式的改革與創新,以加強考試對教與學的積極反饋,更好地滿足不同類型學校和專業、用人單位以及教育行政部門的評價需求,促進科學的教育評價體系的建立。
2. 「等級考試」的設計理念
測評體系建設堅持「服務教學、服務招考、服務社會」的基本定位,結合我國各教育階段實際,在需求分析及科學研究的基礎上構建連貫有序的「等級考試」體系,促進考試的系統性和科學性。
2.1 以問題及需求為導向
每一項考試既要有明確的考試目的,又要滿足主要目標群體的需求。研製團隊從2015年4月開始,以大學入學、大學階段和研究生入學為三大支點,開展大規模的外語測評現狀及能力需求調查(張文霞等,2017;張浩等,2018;程蒙蒙等,2017;吳莎等,2018;魏興等,2018)。每一個支點的需求調查(包括問卷調查與深度訪談)均涉及3個方面,即英語測評及教學現狀、能力需求,以及對考試改革的建議。調查對象包括普通高中、高等職業院校、普通高等院校(包括本科與碩士研究生階段)的學生、英語教師、學科教師(非英語專業)及管理人員,還包括海外高校招生工作人員,以及非教育領域的用人單位管理人員和員工等。調查採用多段抽樣、PPS抽樣和主觀選取的方法,在樣本的選擇上兼顧覆蓋面與代表性。來自16個省(自治區、直轄市)的800多所高中、77所高職高專院校、110所本科院校參與調查。研製組還在300多家用人單位、20多個國家的50多所高校開展調研,共收到近8萬個樣本的數據。此外,還分別在北京、陝西、湖北等地召開高中教研員、高校教師座談會,徵集他們對外語考試改革的意見和建議。
調研發現,現有外語考試存在的問題集中在3個方面:
(1)缺乏統一標準,不能滿足社會對高質量考試的需求。現有外語考試項目多,標準各異,考試級別概念不清,公眾難以理解。各學段考試之間缺乏銜接,「鐵路警察各管一段,缺乏通盤考慮」(受訪學生),或內容重複,或存在斷檔,不利於學段間有序銜接。此外,因考試缺乏統一標準,試題的科學性、評分的一致性、成績的解釋力及可比性等方面難以檢驗,不利於科學選才。
(2)考查內容及成績反饋不全面,對教學的積極導向作用不足。現有外語考試對學生語言綜合運用能力考查不夠全面,與實際語言運用結合不夠緊密,對英語教學、學習的積極導向及促進作用不夠充分,各學段學生的聽說能力普遍較弱,本科及以上學生的書面表達能力偏弱。考試成績主要提供總分,不能全面呈現學生能力水平,對教學、學習的反饋不足。
(3)國際認可度不高,不利於提升教育國際化水平。我國雖然外語考試規模世界最大,但現有外語考試因缺乏清晰統一的標準,不能向外界提供證明考試質量的足夠證據,考試的國際認可度不夠高,不利於建設教育強國目標的實現。
基於現存問題及社會各界對考試改革的建議,「等級考試」研製組提出了「整體設計、內聯外接、以評促學」的研製原則。
(1)整體設計。《實施意見》強調此次招生制度改革的原則是「整體設計從基礎教育到高等教育考試招生制度改革」。測評體系建設的目標是促進各階段外語學習、教學和考試的縱向銜接與橫向溝通。作為測評體系建設的一部分,「等級考試」以「量表」為準則參照,使我國各個教育學段的英語考試構成一個連貫有序的整體,減少重複考試。同時,為了滿足英語學習服務於專業發展的需求,在整體設計時考慮採用「1+n」模式,如「綜合語言運用能力考試+專門用途英語考試」模式,選擇個別專業先行試點。此外,「等級考試」將提供多樣化的分數報告,以滿足畢業、升學、就業、出國等對綜合語言運用能力評價的多元化需求。
(2)內聯外接。「等級考試」要與我國主要教育學段的英語課程標準或教學要求相銜接,以更好地服務教學、促進教學;要與「量表」相銜接,在明晰各級別能力標準的同時,提供學生能力描述,以更好地反饋學習與教學;要與國外重要的語言能力量表和英語考試在分數解釋上進行對應銜接,以方便用戶更好地解讀和使用考試成績,推動國內英語考試的國際認可。
(3)以評促學。在考試內容與任務的設計上,以考查綜合語言運用能力為核心,體現核心素養,並加強對考生審辯性思維和解決問題能力的考查,努力實現以評促學。根據語言能力的發展特點和我國英語教學的實際情況,低級別加強基本人際溝通能力的考查,高級別加強學術交流能力的考查。
研製「等級考試」是提升外語考試科學性和系統性的需要,是促進我國各級各類外語教育教學健康、協調發展的需要,更是推動教育評價改革、落實立德樹人理念的需要。按照試點先行、穩妥推進的工作方式,實現「等級考試」的設計目標,即「中國標準、國家考試;等級連貫、能力階梯;有效測評,提質增效」。
2.2 以科學設計為核心
(1)理論框架
建立科學的考試體系需要有先進的理論做指導。Bachman(1990)提出了交際語言能力(Communicative Language Ability,簡稱CLA)框架。CLA包括語言能力(language competence)、策略能力(strategic competence)和心理生理機制(psychophysiological mechanisms)。語言能力包括組構能力(包括語法能力和篇章能力)和語用能力(包括功能能力和社會語言能力)。策略能力把語言知識、語言使用者的知識結構、語境結合在一起,在決定達到表達目的最佳方法時起到評估、策劃、執行的作用(劉建達、韓寶成,2018)。心理生理機制則主要指語言使用的渠道和模式。交際語言能力模型反映了人們對交際語言能力及其相關方面的基本認識,為外語教學和測試提供了基本的理論指導,也為「等級考試」的設計提供了堅實的理論基礎、具體的操作方法和可行的評價原則。
(2)效度驗證Bachman & Palmer(1996)提出了包含信度、構念效度、真實性、互動性、影響和可行性六要素的測試有用性框架(test usefulness framework),一項好的測試應具備這6個方面的特徵,而效度則是其中最為重要的特徵(Chapelle,2012)。效度是一項測試的價值所在,沒有效度的考試不能稱其為考試(Oller,1979)。美國教育研究協會(AERA)、美國心理學協會(APA)和全美教育測量學會(NCME)共同對1985年版本進行修訂後頒布的《教育和心理測試標準》(AERA、APA、NCME,1999)將效度定義為「證據及理論支持測試分數解釋的程度」。當代語言測試效度理論認為,效度驗證貫穿整個測試開發、實施和使用過程,提倡在測試實施前,應有一個完整的效度驗證計劃,說明每個階段應提供的理論和實證證據(Bachman,1990;Bachman & Palmer,1996,2010)。近年來,基於論據的效度驗證方法(argument-based approach)受到越來越多研究者的青睞,如Mislevy et al.(2003)以證據為中心的方法(evidence-centered design)、Kane(1992,2001,2004)的解釋性論據(interpretive argument)。由Bachman(2003,2005)提出,並由Bachman & Palmer(2010)最後修正的「評價使用論證」(assessment use argument,簡稱AUA)框架通過4個主張有效描述了評價後效、決策、分數解釋、評價記錄以及考生表現之間的線性循環關係,強調了評價的公平性、公正性、穩定性、充分性、關聯性等核心要素,為評價的設計及效度驗證提供了理想、實用的理論框架。
為了實現「有效測評」的目標,需要建立常態化的「等級考試」效度驗證機制,為考試的分數解釋和使用提供支持。為此,研製團隊在項目啟動伊始即確定效度驗證框架,搭建資料庫,圍繞AUA的4個主張收集效度證據:一是測試結果的使用對所有涉考者有益;二是基於測試所作出的決定考慮到現存的教育及社會價值觀和相關法律、法規,並且對受決定影響的涉考者是均等的;三是對學生語言能力的解讀是有意義的、公平的,可為決策提供足夠信息;四是測試記錄(分數、能力描述)具有一致性,即使測試任務、測試的各個過程和被測試者有所不同。這些證據的收集為「等級考試」效度驗證的常態化、提升考試體系運作的透明度提供了強有力的支撐。
2.3 以促進能力培養為宗旨
「考試,尤其是公共考試,對教學有著無可否認的反撥效應,有時候還是很強大的反撥效應」(李筱菊,1997),因此設計考試時須有意識地讓考試給教學帶來一種良好的導向作用。把促進能力培養作為「等級考試」的設計宗旨,有利於理順教學與測評的關係,增強「以考促學」的主動意識。
「等級考試」以考查交際語言能力為核心,著重考查考生聽、說、讀、寫各方面的能力,包括綜合運用各項語言技能的能力。在考試內容與形式方面,「等級考試」的研製遵循5個原則:一是各級別考試題型應適合本級別的能力標準,能夠考查出所要求的語言知識或語言能力。語言能力包括語言理解能力和語言產出能力(表達能力)。語言理解能力包括識別、提取、概括、分析、批判、評價能力,呈現從低到高的層級性(Anderson & Krathwohl,2001),這種層級性在「等級考試」的聽力理解、閱讀理解測試任務設計中得到了充分體現。二是應保證考試體系的完整性,使各級別之間保持必要的連貫,且保證考試要求從低級別向高級別逐級提高。三是適當減少客觀題,代之以半主觀題或主觀題題型,從多角度考查語言技能。四是增加綜合技能考查題型,如聽說結合、讀寫結合等。五是加強審辨性思維能力考查,如在相關級別的測試中增加了綜合、評判雙方或多方觀點或態度的題目。
「等級考試」在考試內容和形式改革上做了多方面的探索,以聽後寫、概要寫作、綜合寫作3種測試任務為例:
(1)聽後寫任務邊聽邊記是日常學習、工作和生活中一種常見且必要的補全記憶與促進回憶的手段(Siegel,2018),邊聽邊記還是大學課堂學習中的一個典型特徵(van der Meer,2012)。對於英語作為外語的學習者而言,在聽力理解過程中,對目標語言的不熟悉會加大他們的短期記憶負擔,從而難以實現對內容的理解(Peverly et al.,2007)。在聽的過程中做筆記則能在一定程度上克服上述困難,有助於提高學生回憶信息的能力(Kneale,1998);有助於增進學生對學習內容的理解與記憶(Bonner & Holliday,2006);有助於激活學生的學習進程,如促進注意力集中(Dunkel,1985)、幫助區分主次信息(Bonner & Holliday,2006)、促進長期記憶(Piolat,Olive & Kellogg,2005)等。對學生而言,掌握邊聽邊記技巧是學習成功的一個重要因素(如Crawford et al.,2015;Kobayashi,2006),相關的調查研究也表明學生非常認同邊聽邊記這種學習策略,且渴望得到相關的指導與訓練(如Crawford et al.,2015)。Tsai & Wu(2010)的研究表明,筆記教學(如Cornell筆記法)能夠顯著提高學生的聽力理解能力。
在聽力測試實踐中,筆記任務表現為完成提綱(note completion)和簡答題(short answer)兩種題型,主要考查考生對細節和關鍵信息的理解,如果限制答案長度,評分的效率和信度都較容易得到保證(Buck,2001)。考生做筆記的方式主要有兩種:自由筆記(free note)和提綱筆記(outlined note)。許多研究發現,在給出聽力提綱的情況下,考生能夠記錄更多,並能更好地完成相應的聽力理解任務(如Kobayashi,2006)。許多實證研究還發現,考生的筆記質量與其聽力能力高度相關,聽力能力越強的考生筆記質量越好(如Cushing,1991;Kobayashi,2006;Song,2012),表明這種題型具有良好的效度。
(2)概要寫作任務概要寫作是一種讀寫結合的複合性任務,是根據特定需要,系統地對書面文本進行縮減與重構,以忠實地再現原文的主要內容(Yu,2008)。將閱讀和寫作有機結合有助於促進讀者更好地與文本互動,提高理解質量(Smith,1988)。概要寫作從本質上說是一種交際活動,接近現實世界目標語言使用的場景(target language use domain),滿足交際性語言測試框架下測試任務真實性的要求。概要寫作任務能夠有效培養和考查學生使用目標語言的能力,這種能力對於學生當下的語言學習和未來的學術或職業發展都具有非常重要的意義,同時也是應對資訊時代的必備技能之一。
Yu(2005)提出的IFOE框架,從輸入(input,即閱讀文本的特徵,包括文本的體裁、可讀性、詞彙密度、句法複雜度、文本的可概括性等)、考生(filter plant,即考生特徵,包括考生的詞彙知識、閱讀能力、寫作能力、認知風格等)、輸出(output,即產出的概要,包括呈現方式、篇幅、原義總結/批判性總結等)、評價(evaluation,即對概要質量的評價,包括內容覆蓋、簡潔程度、與原文的結構關係、整體質量)等4個方面進行了詳細闡述。IFOE框架為概要寫作任務的設計和評估等提供參考,促進設計和評估過程的規範化、系統化和科學化。
(3)綜合寫作任務從語言測試與評估的發展階段來看,當前語言測試的研究重點已從離散性測試轉向語言運用測試(如Grabe & Kaplan,1996),綜合寫作任務則是語言運用測試的一個典範,日漸成為二語寫作測試的發展趨勢。較之傳統的獨立寫作任務,綜合寫作任務提供了有意義的語言背景(Lee & Anderson,2007),即寫作提示,其形式一般為聽力提示、閱讀提示或兩者兼有,因而綜合寫作測試有如下兩大優勢:一是提高真實性,即寫作測試常涉及對所讀所聽內容的理解與闡釋(如Weigle,2004),更符合現實生活中的寫作任務;二是提高公平性,即寫作提示中富含寫作思路與語言素材,其作用類似於語言智庫(Plakans & Gebril,2012),為考生提供均等的背景信息作為參考,弱化先驗知識的影響。國外許多大規模標準化測試項目已逐漸採用綜合寫作任務,如美國教育考試服務中心的新託福考試(TOEFL iBT)、培生教育集團的PTE學術英語考試(PTE Academic)、加拿大學術英語水平考試(CAEL)等。
在二語/外語綜合寫作測試領域,已有較多研究發現試題特點對考生寫作表現的影響,其中備受關注的是寫作提示的系列文本是否會影響考生在綜合寫作中的表現,包括寫作提示對作文得分的影響(如Lee & Anderson,2007;Kobrin et al.,2011)、寫作提示對作文文本特徵的影響(如Cumming et al.,2005;Plakans & Gebril,2013)、考生在完成綜合寫作任務時的寫作過程與策略運用(如Plakans,2009)。何蓮珍、孫悠夏(2015)聚焦提示特徵對中國學生完成綜合寫作任務的影響研究,為這一測試任務在中國語境下的設計和使用提供了啟示。
從高校反饋的情況看,聽講座做筆記、撰寫論文摘要、寫英文報告或論文均是大學本科及研究生階段所需的關鍵技能,也是目前學生整體較弱、亟待提升的能力(張文霞等,2017)。上述題型的設計,著眼於考查學生綜合運用多種技能提取、評估、整合信息及有效表達的能力,以期更緊密地結合語言使用實際,幫助學生掌握適應「信息爆炸」時代並謀求未來發展的核心能力,實現以評促學、學以致用。
2.4 以多元科學評價為方向
外語是21世紀人們賴以生存的關鍵技能之一,外語考試也因此成為人才選拔和評價的重要工具。它不僅對教學實施、學習內容產生影響,還在教育政策、社會用人機制中發揮不可忽視的作用(Shohamy,2008)。這些影響和作用,既有促進國民外語能力提升的積極的一面,也存在限制學生個性化發展及人才有效使用的消極的一面。特別是按考試成績、通過率等來評價外語教學和學生能力的情況還較為普遍,這種現象不僅會強化教學中的應試導向和功利性,也不利於學生的健康成長和多樣化、創新性人才的培養。究其原因,在於考試成績使用的單一化、簡單化,還在於考試所提供的反饋信息不充分、不全面。要改變重分數、輕能力的現象,促進外語教育教學有活力、有效率、有質量地發展,就考試而言,需要提供更多的選擇性、更豐富的成績反饋。這也是「等級考試」需要實施的重要改革。
(1)提供多維評價報告AUA框架中,成績闡釋的充分性、相關性及富有意義對考試使用的合理決策提供重要的支撐作用,成績報告是測試研發及使用中的重要環節。從測試對教學的反撥作用來看,要加強考試對教學的積極反撥作用,成績報告應具備豐富性、創新性、相關性、診斷性等特點,包含多個能力維度,而不是只提供一個總分(如Shohamy,1992)。「等級考試」通過多維評價報告的研製,力圖為考試用戶的決策提供服務與支持,為教學提供積極反饋。「等級考試」評價報告主要有3個特點:
一是總體與分項評價兼有。「等級考試」將同時報告總分和聽、說、讀、寫等各分項成績。分項成績可為成績使用提供更多選擇,如:對口語能力要求高的專業或學校可以對考生的口語成績有較高的要求。分項成績還可為教學提供更多反饋信息,有助於教師了解學習者各方面能力發展的情況,以便結合需求開展有針對性的教學。研究者認為,分項成績較總分對教學的積極反撥作用更大(如Spolsky,1990)。
二是量化與質性描述並重。「等級考試」提供分數、等級等信息的同時,使用通俗易懂的文字對考生的各分項能力進行描述。質性描述部分借鑑量表的能力描述語,並結合考試的具體標準,以「能做……」的方式來描述考生所具備的能力,使考試使用者更清晰地了解成績所代表的能力含義,幫助考生了解自己的優勢及不足。研究者認為,使用現實生活中的語言來闡釋成績可使成績更富有意義,利於考試用戶理解和使用,有助於提升考試使用效度(如Kane,2012;North,2014)。
三是個體與群體評價兼顧。要發揮考試對教學的積極促進作用,「等級考試」向考生個體提供成績報告的同時,還將向學校、教育部門提供群體性評價報告,側重對學生的群體表現進行多角度的評價,弱化排名比較,強化對教學的正面反饋。
(2)提供多級別、多等級的選擇「等級考試」包含多個有序連貫級別的設計,為不同類型的學校、用戶提供了更多的選擇。學校可結合自身辦學特點及專業需求選擇合適的考試級別,有利於學校有針對性地安排教學和各類人才的培養。各級別考試的成績報告通過分項成績、等級和能力質性描述的方式力求全面、立體地反映學生的能力。用戶可參照各等級的能力描述,結合自身對各項語言能力的需求來確定評價要求。
3. 結 語
建設一個既體現中國特色、符合中國國情,又與國際接軌的英語能力考試體系,是國家新時代人才選拔及培養的要求,是外語教育教學健康可持續發展的要求。通過考試評價方式的改革與創新,有助於克服「唯分數」帶來的問題,推動教育教學的改革和評價科學化,促進學生健康成長成才。建立科學的、系統的「等級考試」體系,需要充分了解教情、學情、考情,科學設計考試目標與內容,建立全流程的質量管控體系,創新評價方式方法,完善考試服務。這個過程中不僅需要考試機構的努力,更需要教育行政主管部門、教育機構以及涉考的各個利益群體的協同創新。