本文由《開放教育研究》雜誌授權轉載
作者:孫力、程玉霞
摘要合適的數據分析技術能使我們藉助網絡學歷教育學生在學習和管理系統中產生的數據和信息,發現相關規律,進而為網絡學歷教育教學和管理流程的優化提供有益的決策依據。本文採用數據挖掘中數據分類C5.0決策樹方法,通過分析網絡學歷教育本科學生英語學習及相關信息,實現了對其英語統考成績的預測。在分析英語統考前景預測的目標特性後,在SPSS的Clementine12.0數據挖掘環境中,歷經數據提取、數據預處理、決策樹構建和決策樹優化等步驟,本研究構建了網絡教育本科英語統考成績的預測模型,並提出了模型實現方法;同時對模型相關屬性的重要性進行了分析,提出了提高網絡教育本科學生英語學習水平和統考通過率的相應策略。
關鍵詞:網絡教育;數據挖掘;決策樹方法;英語統考;預測模型
一、引言
近年來,大數據的概念逐漸興起,人們用它來描述和定義信息爆炸時代產生的海量數據及與之相關的技術發展與創新(黃荷,2012)。大數據帶來的機遇是可以利用數據分析技術預測未來。數據挖掘是從大量不完全、有噪聲、模糊、隨機的數據中,提取隱含在其中、人們事先不知道但又潛在有用的信息和知識的過程(洪建峰,2013)。它是一種深層次的數據分析方法,主要依靠人工智慧、機器學習和統計學技術,對數據進行歸納推理,從中挖掘出潛在的模式,預測未來趨勢,為決策提供支持。
我國網絡高等學歷教育經過十五年的發展,各試點高校對網絡學習相關系統進行了完善,尤其是管理、學習、評價和監控系統的運用,產生了大量學生學習過程的相關數據。例如,學生個人信息,課程考試成績,在線學習次數、時間點、學習興趣點和學習時長,作業完成情況,參與討論情況,過程性評價等。目前這些數據僅存在於各類網絡學習和管理系統中,未真正發揮應有的作用。如能運用數據挖掘技術和學習分析技術,建立相關系統對其進行提取和標準化處理,可以為網絡學習流程和管理流程的優化設計,提供相關決策依據(魏順平,2013);同時,可以了解學生學習的效率、意願、耐心度和專心度、相關興趣點等個性化信息,為學生提供網絡學習的個性化提醒和指導,以及學習資源的個性化推送服務等(傅鋼善等,2014;陳益均等,2013);最終通過建立以學習者數據為核心的學習支持系統,構建智能化網絡學習環境。
網絡教育的部分公共課程統考是本科層次學生畢業電子註冊的必要條件。其中英語是網絡教育學生的難點。各試點高校都在嘗試採用各種方式提高英語統考的通過率。本文運用數據挖掘技術,以江南大學網絡教育本科學生為研究對象,通過對學習平臺中學生個人相關信息、入學測試成績、入學後英語類課程及其他課程學習情況的數據進行分析,預測其網絡統考英語課程的考試成績。
二、數據挖掘技術理論描述
數據挖掘是利用模式識別、統計和數學的技術,從大量數據中篩選發現新的有意義的關係、模式、變化和主要結構的方法(陳文偉等,2004)。隨著大數據時代的到來,它被越來越多地應用到人工智慧、機器學習、市場分析、商務管理和決策支持等領域。數據挖掘由三個步驟組成:數據預處理階段、模型設計階段和數據分析階段。分類和聚類技術是其中最有應用價值的兩大技術。
(一)數據分類技術
數據分類指分析資料庫中的一組對象,找出其共同屬性,然後根據分類規則,把它們劃分為預先設定好的不同類別。數據分類過程一般分兩個部分:先是確定分類規則,也稱為學習或訓練過程,即先將訓練樣本數據集作為輸入,依據數據集特徵為每一類別建立分類規則或描述;然後通過更大量的測試數據集測試這些分類規則,以生成更恰當的分類規則,並依據最終的分類規則形成數據分類。目前分類方法包括基於決策樹的分類,如ID3算法和C4.5算法;基於統計的分類,如貝葉斯分類算法;基於神經網絡的分類,如後向傳播算法;源自關聯規則挖掘概念的分類和遺傳算法等。
(二)數據聚類技術
數據聚類是根據在數據中發現的描述對象及其關係的信息,將數據對象分組而形成數據簇。最終目標是:簇內的對象相互之間相關,不同簇的對象之間不相關。簇內相似度越大,同時簇間差別越大,數據聚類效果越好。已有的分類方法包括劃分方法、層次方法、基於密度的方法、基於網格的方法和基於模型的方法等。
總之,分類是按照某種標準給數據貼「標籤」,再根據標籤區分歸類。聚類是事先沒有「標籤」而通過分析找出數據之間存在聚集性原因的過程(Kantardzic,2011)。分類適合類別或分類體系已經確定的場合;聚類適合不存在分類體系、類別數不確定的場合,一般作為某些應用的前端。
三、數據分析技術的選用
我們通過採集和分析本科生個人相關信息及在網絡學習平臺留下的學習信息,預測學生在網絡統考英語課程的前景。由於統考合格是網絡教育本科生畢業電子註冊的必備條件,我們將預測的結果僅定義為「合格」與「不合格」。這屬於數據挖掘的數據分類問題,本研究將採用基於決策樹的分類方法。
決策樹方法起源於概念學習系統,就是使用樹的結構對數據進行分類,每個條件下的記錄集就像一棵樹的葉節點。根據欄位數據取值的不同,可以對決策樹進行分支,在決策樹各個分支的子集中再重複建立分支和決策樹各下層節點,形成一棵決策樹。目前最有影響的決策樹算法是ID3和C4.5。
ID3主要是選擇運用信息最大屬性的增益值來進行樣本訓練劃分,其目的是能夠使熵在分裂系統時達到最小,以此提高決策樹算法的精確度和運算速度。ID3算法的缺陷在於運用信息增益作為分裂屬性的標準,在取值時會不自然地偏向於取值較多的屬性,然而大部分情況下,這種屬性不能提供更多有價值的信息。C4.5是改進ID3形成的新算法,它能夠同時處理連續值和離散值的屬性。C4.5選擇測試的標準主要採用信息增益比,這在很大程度上彌補了ID3的不足。
C5.0算法是C4.5算法的修訂版(商業版),適用於處理大數據集,計算速度快,佔用內存資源較少。C5.0算法根據能夠提供最大信息增益的欄位劃分樣本,對第一次劃分出來的子樣本遞歸劃分,直到不能再分為止,最後重新檢查最底層的劃分,去掉貢獻不大的分支,得到最終模型。C5.0可以產生兩種模型:決策樹和規則集。決策樹由算法劃分樣本直接產生,每個葉子節點表示一個特定的訓練數據子集,訓練數據集中的每個樣本只屬一個葉子節點。也就是說,任何一個給定的樣本通過決策樹只能得到一個預測結果(Zhu et al.,2009)。
C5.0決策樹分類主要分為兩個過程。首先是學習過程,就是通過對大量的訓練數據集學習來構造決策樹。第二步是利用構造的決策樹進行分類,先利用測試數據集評估決策樹分類的準確率,如果準確率可以接受,則將生成的決策樹用於新的數據分類。本研究採用C5.0為數據挖掘的內核算法。
四、英語統考成績預測的實現
依據上述討論,本研究運用數據挖掘的數據分類技術實現網絡教育本科生英語統考成績的預測,歷經數據提取、數據預處理、決策樹構建、決策樹優化和預測實現等步驟(見圖1)。
(一)分類規則構建環境
Clementine是ISL(Integral Solutions Limited)公司開發的數據挖掘工具平臺,SPSS公司收購ISL後,對Clementine產品進行了重新整合和開發。目前Clementine已經成為世界上最常用的數據挖掘工具。SPSS和一個從事數據挖掘研究的全球性企業聯盟制定了關於數據挖掘技術的行業標準:CRISP-DM(Cross-Industry Standard Process for Data Min-ing)。與以往僅僅局限在技術層面的數據挖掘方法論不同,CRISP-DM將數據挖掘技術與具體商業目標相結合,使數據挖掘成為商業過程,並將具體的商業目標映射為數據挖掘目標(Zhu et al.,2009)。目前世界上50%以上的數據挖掘工具均採用CRISP-DM的數據挖掘流程。
CRISP-DM的數據挖掘流程包含商業理解、數據理解、數據準備、建模、模型評估和結果部署六個步驟(SPSS White Paper,2004)。Clementine完全支持CRISP-DM標準,其智能預測模型有助於快速解決出現的問題。由於其對商業目標的深入理解,Clementine最後得到的數據挖掘結果的配置非常有效(劉世平等,2003)。本研究選用的分類規則,即分類決策樹的形成環境是SPSS的Clementine 12.0。
(二)分類規則的構建及優化
在Clementine 12.0中用C5.0算法構建英語統考成績預測的分類規則(即決策樹的形成及優化),可分以下七個步驟。
1.數據的提取和預處理
數據預處理是數據挖掘前的數據準備工作,目的是去除與挖掘目標不相關的數據屬性和內容,為數據挖掘提供乾淨、準確、更有針對性的數據,減少挖掘算法的數據處理量,提高挖掘效率和最終結果的準確度。數據預處理的方法包括數據選取、數據清理、數據屬性取值一致化、數據集成、數據轉換和數據簡化等。我們按學生基本數據、學習過程和成績數據從資料庫中提取已有英語統考成績學生的相關數據。由於英語統考學生在學習期間可多次參加考試,為準確起見,本次只提取首次成績,又考慮到與英語統考結果關聯度較大的相關數據屬性,我們制定了如下數據預處理規則:
1)由於學號和學生姓名一一對應,學生基本信息保留「學號」「性別」「入學年齡」「生源地」「所屬專業」5個屬性。40歲及以上入學者可免英語統考,故去除入學年齡>﹦40學生的所有記錄。
2)學生成績數據保留「入學測試英語」「入學測試計算機」「入學測試高等數學」「入學測試大學語文」「大學英語二」「大學英語三」「所學課程平均」「學位英語」八個屬性。由於入學測試時高等數學和大學語文分別是理工類和文史類專業的測試課程,除這兩個屬性外,去除其他成績數據空缺的記錄。
3)學生學習過程數據合併為「在線學習情況」屬性,並根據平臺的形成性評價系統給出的總成績按標準化規則,從高到低以150分制賦值。
4)「統考大學英語」僅分為「合格」和「不合格」兩個取值。
我們從江南大學網絡教育平臺資料庫中提取本科在籍學生的數據後,按前面所述的數據預處理規則進行相應處理,保留了7000條相關數據,以Excel數據表格形式保存為「江大網絡.xls」。
2.建立Clementine數據源
啟動Clementine並新建流文件後,選擇界面下部「源」子菜單內的「Excel」,將其拖入面板中。雙擊面板中的「Excel」圖標,在彈出編輯界面中選擇「導入文件」,選擇文件「江大網絡.xls」並導入,面板中圖標名稱變為「江大網絡.xls」。
3.關聯數據
選擇界面下部「欄位選項」子菜單內的「類型」,將其拖入面板中。選擇「江大網絡.xls」圖標,單擊滑鼠右鍵,選擇「連接」,並連接到「類型」。雙擊「類型」圖標,在彈出「類型」對話框中點擊「清除所有值」後,點擊「讀取值」,並在「方向」列表中進行屬性方向調整。其中,由於「學號」屬性對於分類無作用,方向為「無」;「統考大學英語」為目標分類屬性,方向為「輸出」;其他屬性方向均為「輸入」。
4.選擇訓練數據
1)選擇統考大學英語成績為「合格」的數據:選擇界面下部「記錄選項」子菜單內的「選擇」,將其拖入面板中,並與「類型」圖標連接。雙擊「選擇」圖標,在彈出「選擇」對話框中,構建模式為「包含」,條件為「統考大學英語=『合格』」。為了平衡訓練數據中「合格」比例過大的情況,選擇「記錄選項」子菜單的「樣本」,拖入面板中,並連接到「選擇」圖標。雙擊「樣本」圖標,設置採樣方法為「簡單」「樣本」「n中取1」為5(默認為2),圖標名稱變為「取15」。
2)選擇統考大學英語成績為「不合格」的數據:選擇界面下部「記錄選項」子菜單內的「選擇」,將其標,在彈出的「選擇」對話框中,構建模式為「包含」,件為「統考大學英語=『不合格』」。
3)數據合併:選擇界面下部「記錄選項」子菜單內的「合併」,將其拖入面板中,並與「取15」和統考成績不合格的「選擇」圖標同時連接;雙擊「合併」圖標,在彈出的對話框中,設置「合併方法」為「關鍵字」,將所有屬性放入合併關鍵字中,並選擇「包含匹配和不匹配的記錄」。
5.選擇算法並建模
選擇界面下部「欄位選項」子菜單內的「類型」,將其拖入面板中,並與「合併」圖標連接。同時,參照「關聯數據」步驟,進行數據清除、讀取和各屬性的方向調整。選擇界面下部「建模」子菜單內的「C5.0」,將其拖入面板中,並連接到剛建立的「類型」圖標。雙擊「C5.0」圖標,設置模型名稱為「統考英語預測1」,其餘設置均為系統默認值。滑鼠右擊「C5.0」圖標,選擇「執行」,面板右側分欄出現「統考英語預測1」圖標,建模完成。將「統考英語預測1」圖標拖入面板中,雙擊該圖標可查看建模結果。
6.模型分析
將「統考英語預測1」圖標與連接「江大網絡.Xls」的「類型」圖標連接,再選擇界面下部「輸出」子菜單內的「分析」,將其拖入面板中,與「統考英語預測1」圖標連接,右擊「分析」圖標,選擇「運行」,可以看到模型輸出結果與實際數值的比較,即模型的準確度。
7.模型優化
通過前述步驟,得到的決策樹由於訓練數據集包含14個屬性(學號和統考大學英語除外),顯得較為複雜,程序實現較為困難。鑑於14個屬性與統考英語成績關聯度有大小之分,在不顯著影響模型準確度的前提下,我們嘗試逐步去除一些關聯度較小的屬性,力求獲得決策樹複雜度和模型準確度之間的一個最佳平衡點。做法為:每次減少屬性後,獲得新的Excel數據源,重複步驟(1)-(6),得到簡化模型及其準確度,並與前面的模型比較。歷次屬性去除情況及所得模型的決策樹複雜度和預測準確度見表一。
從表一可以看出,減少訓練數據集包含的屬性數量,所得到的決策樹子節點數量相應減少,即決策樹子的複雜度相應降低。從減少屬性數量對預測準確度的影響看,高等數學和大學語文由於不是所有學生都參加,應與統考英語成績無關,屬於無關屬性,去除後預測準確度反而上升。同樣,生源地和所屬專業也屬於無關屬性。性別和入學測試計算機屬相關屬性,去除後預測準確度下降。從影響程度看,入學測試計算機屬性更大。因此,綜合考慮模型複雜度和預測準確度,本研究選擇模型「統考英語預測5」為最終結果。該模型在Clementine中的分類模型流程和所形成的決策樹分別見圖2和圖3。
(三)英語統考成績預測的實現方法
圖3所示的統考英語預測模型,即是所形成決策樹的展開。本研究通過將Clementine 12.0構建的基於C5.0算法的分類規則,即決策樹代碼,轉換成可執行的程序代碼(其實就是if-else的嵌套組合),通過PHP中的類方法實現(Adhatrao et al.,2013)。
江南大學網絡教育的教學教務管理和學生學習平臺採用SQL Server為後臺資料庫,所有學生的相關信息均存儲在該資料庫中。對於學生而言,學號是其在管理系統中的唯一標識,可以通過讀取網頁輸入的學號作為查詢條件,通過SQL Query編寫的SQL查詢接口,從資料庫中讀出該學生「入學年齡」「入學測試英語」「入學測試計算機」「大學英語二」「大學英語三」和「學位英語」的成績,並讀取其所有已學課程的成績,作平均值處理後形成「所學課程平均」屬性的數據;讀取其形成性評價系統形成的網上學習總成績並作150分制標準轉換後形成「在線學習情況」屬性的數據。通過在伺服器端運行PHP語言實現的分類規則腳本程序,我們可以得到該學生本科英語統考的預測結果。
五、結果及分析
本研究採用數據挖掘分類方法中的C5.0決策樹方法,以江南大學已參加網絡教育英語統考學生的相關數據為訓練數據,在SPSS的Clementine 12.0數據挖掘環境中,通過對相關屬性的不斷精簡,最終構建了網絡教育本科英語統考成績的預測模型。該模型以「入學測試英語」「入學測試計算機」「大學英語二」「大學英語三」「已學課程平均」「在線學習情況」「學位英語」七個屬性為決策樹的形成因素,構建的決策樹包含22個子節點,深度為7,預測的準確度為80.84%。
Clementine環境中形成決策樹時獲得各屬性的重要性可以通過雙擊圖2中的「統考英語預測5」圖標得到(見圖4)。「學位英語」對統考英語成績預測的重要性最大。究其原因,主要是兩者的考試要求較為接近,考試的題型和題量基本相同。學士學位的獲得比畢業要求更高。單純從考試難度而言,學位英語的難度要略高於統考英語。而從考試的形式而論,英語統考是完全基於在線題庫的全機考模式,學位英語是傳統的試卷筆試模式,並且有一定的考試範圍。對於成人學生而言,更加適應傳統的筆試模式。因此綜合相比,兩者的考試難度相當。如果達到了學位英語考試的要求,說明學生的英語總體水平上了一個臺階,英語統考通過的可能性自然增加。
網絡教育學生主要通過在線學習的形式完成課程學習,達到學習目標。學生的在線學習情況直接反映了學生平時學習的狀態和態度,「在線學習情況」成績好,說明學生平時學習態度比較認真,堅持網絡學習,各項學習任務能按時按要求完成,英語統考通過的可能性就高。因此,在線學習情況對英語統考成績預測的重要性佔第二位是合理的。
「大學英語三」和「大學英語二」是網絡教育本科學生的兩門英語課程。其中,「大學英語三」的課程要求與英語統考的考試大綱要求更為接近,兩者對英語單詞、語法、聽力、翻譯和寫作等分項的具體要求類似;而「大學英語二」的課程要求要低於英語統考。英語課程的學習是學生提高英語水平和通過英語統考的先決基礎條件,因而「大學英語三」和「大學英語二」對英語統考成績預測的重要性排在第三位和第五位是可以理解的。通過一系列恰當的措施有效提高「大學英語三」和「大學英語二」的學習效率和效果,尤其是前者對學生提高英語水平和英語統考的通過率意義深遠。
在所有關聯屬性中,「已學課程平均成績」的重要性排在第四位。該屬性反映了學生網絡學習的最終效果。學生平時學習堅持得好,投入的時間和精力多,課程的平均成績自然就好。與其相對應,學生投入英語學習的時間也就相應增多。這直接關係到英語的學習效果,最終影響英語統考的成績。
「入學測試大學英語」是試點高校針對就讀學歷教育學生入學組織的英語基礎水平測試,其成績反映了學生入學前的英語基礎水平,是後續英語學習的基礎,對於預測學生入學後的英語學習成績有一定的重要性,但不是關鍵因素,因為它與後續學習情況關聯度更高。
「入學測試計算機」的成績直接反應了學生入學前的計算機應用水平。因為網絡學習主要是通過計算機網絡進行課件學習、完成各類學習任務、參與學習討論和疑難問題解決等學習主要環節;英語統考的完成也需具備一定的計算機應用能力。因此,計算機應用水平對日常學習和英語統考的通過率具有一定影響,這是該屬性對英語統考預測具有一定關聯度的原因所在。
綜上所述,英語統考成績是對網絡教育本科學生英語學習效果的最終考核。我們所選取用於生成預測結果的七個屬性中,「入學測試英語」和「入學測試計算機」分別代表了學生的學習基礎;「在線學習情況」和「所學課程平均成績」分別代表了學生的學習狀態和整體學習效果;「大學英語二」和「大學英語三」是學生英語學習的階段性結果;「學位英語」是與英語統考同等重要的英語學習最終考核;將這七個屬性作為英語統考的預測依據是合理的。
除了兩個代表學生基礎的屬性外,另外五個屬性都是通過具體的學習過程形成的。通過最終的英語統考預測結果可以分析出學生在整個英語學習過程中的薄弱階段,從而進一步分析決定學生英語學習各階段學習效果的學習行為,如網上學習的參與度、網絡學習次數、網絡學習時長、網上提交作業情況、網上交互討論情況、學生前期考試行為等。通過對這些學習行為的統計、幹預和預警提醒,同時,採取一系列有效的措施,特別是提高和完善對學生的教學管理、學習指導和支持服務,激發學生網絡學習的自覺性,可以提高在線學習效率和效果,提升學生各階段性結果的成績,最終提高英語統考通過率。而這也正是我們後續研究的重點。
隨著我國網絡教育的深入發展,個性化學習支持服務正越來越被重視和研究,各類應用系統也正在逐步進入開發和應用階段(顧小清等,2012;吳永和等,2013)。個性化學習支持服務即運用數據挖掘和數據分析技術,依據網絡學習系統已有的大量數據,關注學習者的學習背景、學習習慣、學習興趣和學習關注度等個性化因素與其學習效果的關聯度,對學習者網絡學習過程的主要環節進行個性化提醒、學習指導、學習資源和學習方法推薦等學習支持服務。本研究所形成的學生網絡教育英語統考成績的預測結果可以作為學生英語學習和統考輔導的個性化服務依據。
作者簡介:孫力,博士,江南大學人文學院教授,繼續教育與網絡教育學院副院長,研究方向:網絡教育系統的構建及開發(lisun@jiangnan.edu.cn);程玉霞,江南大學人文學院碩士研究生。
轉載自:《開放教育研究》雜誌2015年6月第21卷第3期
排版、插圖來自公眾號:MOOC(微信號:openonline)
產權及免責聲明本文系「MOOC」公號轉載、編輯的文章,編輯後增加的插圖均來自於網際網路,對文中觀點保持中立,對所包含內容的準確性、可靠性或者完整性不提供任何明示或暗示的保證,不對文章觀點負責,僅作分享之用,文章版權及插圖屬於原作者。如果分享內容侵犯您的版權或者非授權發布,請及時與我們聯繫,我們會及時內審核處理。了解在線教育,
把握MOOC國際發展前沿,請關注:
微信公號:openonline
公號暱稱:MOOC