近年來,為進行教育數據挖掘(EDM)、學習分析(LA)研究,國內外的研究者研發了大量的工具。本文將重點介紹一些對教育數據挖掘和學習分析感興趣的研究人員使用的最廣泛、最容易訪問和最強大的工具。
首先是三種非常適合數據的操作、清理及創建的工具:Microsoft Excel、Google Sheets和EDM工作檯。接下來討論Python和SQL在編程中所扮演的角色。在數據清理、轉換之後,EDM或LA研究人員面臨的問題是數據分析。我們將介紹一組適合於此任務的工具:Waikato Environment for Knowledge Analysis(WEKA)、KNIME、Orange和SPSS。我們還將重點介紹知識可視化工具,這些工具使數據科學家能夠創建經過修飾的信息豐富的圖形、圖表、模型等可視化信息。最後,我們將討論匹茲堡科學學習中心(PSLC)的DataShop,這是一個集成了數據收集、構造、分析和可視化的獨特工具。
●入門級數據處理和可視化工具
我們提供以下可用於清理、組織和創建數據集的工具,討論每種工具的優點和它們在操作重組大型數據集方面的效用。
1.Microsoft Excel和Google Sheets
對於數據科學家來說,Microsoft Excel是最容易訪問的工具,它在數據可視化方面做得很好。近來基於網絡的數據處理工具Google Sheets也加入了易用工具的群體。這些工具並不適合非常大的數據集。Excel和Google Sheets擅長在可視化的界面中清晰地顯示數據,這使得識別數據中的結構或語義問題變得很容易。這些工具還可以非常直接地設計新變量,快速地將這些變量應用到整個工作表中,並通過一系列數據直觀地檢查這些變量以獲得適當的功能。但是Excel和Google Sheets並不適合所有類型的變量,創建不同變量可能需要對數據進行重新排序,這使得記錄工作具有挑戰性,並且很容易更改語義。除此之外,Excel和Google Sheets對可加載和操作的數據量有限制。
2.EDM Workbench
EDM Workbench是一個用於自動提取和數據標記的工具,它的許多自動化功能可以解決Excel和GoogleSheets的多方面不足,如生成複雜的序列變量、數據採樣以及標記。EDM使研究人員能夠基於xml.創建變量,提取現有文獻和智能輔導系統。在數據標記方面,EDM具有創建文本回放的功能,這是由研究人員或其他領域專家根據行為類別標記編寫的人類行為的片段。EDM支持採樣、評估器之間的可靠性檢查,以及標籤和變量之間的同步。
3.Python和Jupyter notebook
對於具有編程知識的數據科學家來說,有幾種語言特別適合於數據操作。許多人認為Python是實現這些目的的一種特別有用的語言。工程文件在Python中比在Excel或Google Sheets中更容易實現。另一個是Jupyter notebook,它記錄所有的分析和中間結果,按順序顯示每個用戶操作。儘管有這樣的優勢,Excel或Google Sheets的可視化地檢查創建的數據和變量仍然更容易。丟失的數據、重複的案例或不尋常的值在數據集中尤其難以識別,而且對於新手程式設計師,Python和Jupyter notebook的驗證可能更耗時。此外Python能夠處理許多不同類型的數據格式,如MOOC和其他在線學習平臺。雖然Python在計算上比前面介紹的電子表格工具更強大,但它在這些領域的能力並不是無限的。Python能夠容納比以前的工具更大的數據集,但它仍然受到大小限制,在研究人員的計算機的1000萬行數據範圍內,速度會變慢。
4.Structured Query Language (SQL)
SQL用於組織一些(但不是全部)資料庫。SQL查詢是一種提取所需數據的強大方法,有時跨多個資料庫表進行集成連接。在SQL(或其他資料庫語言,如Hadoop或Spark)中,許多基本的過濾任務(如選擇特定的學生子集或從特定的日期範圍獲取數據)比上述任何工具都要快得多。然而,對於在工程文件過程中創建複雜的變量,SQL可能是一種笨拙的語言。SQL可以與前面提到的其他工具有效地結合使用:SQL擅長於批量排序和篩選任務,這些任務在Excel或Python中非常緩慢。
●進階級數據挖掘和分析工具
本節列出的工具提供了廣泛的算法和建模框架,可用於對教育數據中的流程和關係進行建模和預測。
1.WEKA
WEKA是一個免費開源軟體包,集合了廣泛的數據挖掘和模型構建算法。它不支持創建新變量,但支持自動選擇。WEKA有一組廣泛的分類、集群和關聯挖掘算法,可以單獨使用,也可以結合使用。用戶可以從命令行、圖形用戶界面(GUI)或Java API調用算法。
2.SPSS
SPSS主要是一個統計軟體包,提供一系列統計測試、回歸框架、相關性和因子分析。SPSS是由IBMSPSS Modeler Premium提供的補充,這是一個相對較新的分析和數據挖掘包,集成了以前的分析和文本挖掘包。SPSS Modeler尤其能夠從現有功能部件中創建新功能部件、數據篩選功能部件以及功能部件選擇和功能部件空間縮減功能部件。用於數據轉換、變量選擇的工具與數據挖掘包中的工具類似,但選擇方法的種類較少。它還有在變量選擇中使用目標類的功能,這在許多其他包中是不可用的。雖然SPSS代表一個全面的統計分析工具,但是對建模的支持比本節中的其他工具稍差。SPSS不如其他工具靈活,更難於定製,也沒有文檔化。
3.KNIME
KNIME是一個數據清理和分析包,通常類似於RapidMiner和WEKA。它提供了許多與這些工具相同的功能,並且像RapidMiner一樣,集成了所有WEKA的算法。此外,它還在情緒分析和SNA等領域提供了大量專門的算法。KNIME有一個特別強大的功能,它能夠在同一分析中集成來自多個源的數據。KNIME還提供擴展,允許它與R、Python、Java和SQL進行接口。
4.Orange
Orange是一個數據可視化和分析包。雖然它的算法和工具比WEKA或KNIME少得多,但它的界面更乾淨,更容易理解,帶有顏色編碼的小部件,可以區分數據輸入和清理、可視化、回歸和集群。它不僅提供許多常用的算法,還具有可定製的可視化模塊,用於使用合理的文檔表示模型結果。然而與Excel相比,Orange可以處理的數據規模有限。基於其易於理解的GUI和菜單布局,Orange可能更適合小型項目或新手研究人員。
5.Spark MLLib
Spark是以分布式方式跨多個計算機處理器,可以大規模處理數據的框架。Spark可以通過API連接幾種程式語言,包括Java、Python和SQL,允許使用這些語言進行分布式處理。Spark的MLLib機器學習框架提供了幾種機器學習和數據挖掘算法。儘管MLLib的功能仍然有限,而且它是一個純粹的編程工具(減少了對非程式設計師的可用性),但是它的分布式特性使其成為一個高效和快速的選擇。
●高手級數據可視化工具
本節介紹一些用於視覺分析的通用工具和方法,這些工具和方法支持構建交互式的視覺界面,以便從數據中獲取知識,以及教師向學生傳達學習的重要含義。
1.Tableau
Tableau提供了一系列用於交互數據分析和可視化的產品。雖然Tableau工具集的主要關注點是支持商業智能,但它已廣泛應用於教育環境中,用於分析學生數據、提供可操作的見解、增強教學實踐和簡化教育報告。Tableau的主要優點是不需要編程知識來分析大量數據,並提供了連接或導入數據的功能。Tableau還具有構建豐富的交互式功能,能夠向最終用戶顯示實時可視化。然而Tableau的功能僅限於此,它不支持預測分析或關係數據挖掘。此外,Tableau作為一種商業工具,是不可擴展的,也不支持與其他軟體平臺的集成。
2.D3.js
D3.js(數據驅動文件)是一個JavaScript庫,它允許操作數據驅動,使研究人員和實踐者能夠構建複雜的交互式數據可視化,這些可視化需要數據處理,並且是針對現代Web瀏覽器的。它有幾個優點:在構建各種數據可視化方面具有相當大的靈活性,不需要安裝,支持代碼重用,並且是免費開源的。然而在教育研究目的採用方面存在著挑戰。作為一種技術,D3.js需要廣泛的編程知識,並且存在兼容性問題,以及對較大數據集的一些性能限制。最後,它不提供對可視化用戶隱藏數據的任何方法,需要數據預處理來確保隱私和數據安全。
●專家級教育數據挖掘和學習分析工具
上面我們討論了用於教育數據挖掘建模和分析的通用工具。然而,特定類型的數據和特定的分析目標通常需要更專門化的算法,而這些算法在這些通用工具中是不可用的。對於這些情況,研究人員和實踐者通常使用針對這些情況設計的更專業的工具。
1.貝葉斯知識追蹤工具(BKT:Tools for Bayesian knowledge tracing)
貝葉斯知識追蹤是一種流行的潛在知識估計方法,學生的知識是通過在線學習來測量的。這與測試中常見的教育測量類型不同,因為在在線學習過程中,知識在被測量時發生了變化。貝葉斯知識追蹤是一個隱馬爾可夫模型(同時也是一個簡單的貝葉斯網絡),它可以預測一個學生是否掌握了智能輔導系統或類似程序中的特定技能。貝葉斯知識追蹤模型通常使用以下兩種算法之一進行匹配——網格搜索或期望最大化,兩種算法在預測性能上具有可比性。
2.文本挖掘工具
文本挖掘是一個快速發展的數據挖掘領域,有大量應用程式和API可用來標記、處理和標識文本數據。文本分析工具可以處理語音的文本部分、句子結構和語義詞的意義。此外,一些工具能夠識別不同單詞和句子之間的表示關係。下面介紹的工具並不是所有可用程序的詳盡列表,而是一些工具的選擇,它們跨越了文本處理和分析的許多方面。
①語言查詢與字數統計(LIWC)。LIWC工具是一種圖形化、易於使用的計算機文本分析工具,它通過分析使用的詞彙量來測量文本的潛在特徵。LIWC針對不同的心理詞彙類別(如認知詞彙、情感詞彙、功能詞彙和分析詞彙)提供了80多個指標,並在大量研究中得到了廣泛的應用和驗證。
②WMatrix是一個在線圖形化工具。該工具可用於文本語庫的詞頻分析和可視化。雖然它可以用來進行完整的分析過程,但它主要用於提取語言特徵,包括單詞、重要的多單詞短語標記,特別是單詞語義類別。它還以詞雲的形式提供了文本語料庫的可視化,同時為多個文本語料庫提供了接口。
③Coh-Metrix是另一個流行的文本分析工具。它提供了100多個衡量文本分為11個類別。與WMatrix相比,CohMetrix提供了對文本特性和數據關係的上下文的理解和分析。WMatrix從語義上標記單詞,而CohMetrix標記多個用於評估深層文本內聚。隨著分析深層含義的增加,就需要更大的數據集,使用CohMetrix有效地傾向於需要更大的文本語料庫。
3.過程和序列挖掘工具
除了更多的教育數據分析的傳統方法,研究人員還瞄準跟蹤學習者學習策略和流程序列。針對這類應用程式,出現了一組獨特的工具。在本節中,我們將介紹用於支持教育數據挖掘和學習分析研究的過程和序列挖掘的ProM和tramler-tools。
①ProM是一個基於Java的、獨立於平臺的、模塊化的、開源的平臺,支持多種流程挖掘技術。最近的實現(ProM 6)支持在分布式設置中或通過批處理運行進程挖掘。ProM還支持多個進程挖掘算法的連結,提供預期輸入和輸出的清晰規範。此外,可以在運行時添加新的插件,從而直接集成到分析過程中。ProM允許與現有信息系統輕鬆集成,而不需要編程。
②TraMineR是一個免費開源工具,支持挖掘和可視化狀態或事件序列。TraMineR的一些主要特性:用於狀態分析和可視化,序列數據包括處理不同格式的序列和改造各種表示;描述縱向(如長度、複雜性和時間)和其他聚合(如過渡率、平均持續時間)的特徵序列;訪問各種各樣的繪圖功能(如頻率或情節、密度指數情節);用廣泛的指標來評估序列之間的距離。
4.匹茲堡科學學習中心(PSLC)開發的DataShop
PSLC的資料庫包含一個存儲庫,其中包含許多可下載和分析的數據集,以及一組支持探索性分析和模型的工具。DataShop在數據集上具有知識組件模型的功能。它還能夠在正確性、提示使用、潛在知識、響應時間和其他感興趣的變量方面將學生的表現可視化。PSLC數據是一個Web應用程式,可以免費使用,但不是開源的。
●教育數據挖掘和學習分析工具的終極原則:混合應用
研究人員和實踐者在開始使用教育數據挖掘和學習分析時需要考慮的一個關鍵問題是,沒有一種工具能夠完美地從開始到結束分析大多數數據集的整個過程。不同的工具適合於不同的任務。例如,一個研究人員可能在一個流行的MOOC中擁有6000萬次系統交易的數據。從這個數據集中,他只選擇一個特定的數據(SQL),然後細化數據集計算系統中總學生時間(Excel),在擬合預測模型中(RapidMiner)分析論壇的帖子,回復(NodeXL)之間的關係和整體文本質量的帖子,回復學生(CohMetrix)。最後,研究人員可能會找出可視化社交網絡數據(Gephi)中最有趣的學生集群。
所有的工具,它們都代表了在這個領域工作的不同科學家群體的總和。它們代表了解決不同問題的不同方法,每一種方法都有其獨特的優缺點。通過工具的組合,可以實現複雜的分析,並可以做出有用的發現。這是一個快速變化的領域,新的工具不斷出現。儘管如此,我們希望這篇綜述能夠對那些在理論層面以及在實際應用中對這些工具感興趣的研究人員有所幫助。