技術應用 | 當前流行教育數據挖掘與學習分析工具概覽

2021-02-24 教育技術學

近年來,為進行教育數據挖掘(EDM)、學習分析(LA)研究,國內外的研究者研發了大量的工具。本文將重點介紹一些對教育數據挖掘和學習分析感興趣的研究人員使用的最廣泛、最容易訪問和最強大的工具。

首先是三種非常適合數據的操作、清理及創建的工具:Microsoft Excel、Google Sheets和EDM工作檯。接下來討論Python和SQL在編程中所扮演的角色。在數據清理、轉換之後,EDM或LA研究人員面臨的問題是數據分析。我們將介紹一組適合於此任務的工具:Waikato Environment for Knowledge Analysis(WEKA)、KNIME、Orange和SPSS。我們還將重點介紹知識可視化工具,這些工具使數據科學家能夠創建經過修飾的信息豐富的圖形、圖表、模型等可視化信息。最後,我們將討論匹茲堡科學學習中心(PSLC)的DataShop,這是一個集成了數據收集、構造、分析和可視化的獨特工具。

●入門級數據處理和可視化工具

我們提供以下可用於清理、組織和創建數據集的工具,討論每種工具的優點和它們在操作重組大型數據集方面的效用。

1.Microsoft Excel和Google Sheets

對於數據科學家來說,Microsoft Excel是最容易訪問的工具,它在數據可視化方面做得很好。近來基於網絡的數據處理工具Google Sheets也加入了易用工具的群體。這些工具並不適合非常大的數據集。Excel和Google Sheets擅長在可視化的界面中清晰地顯示數據,這使得識別數據中的結構或語義問題變得很容易。這些工具還可以非常直接地設計新變量,快速地將這些變量應用到整個工作表中,並通過一系列數據直觀地檢查這些變量以獲得適當的功能。但是Excel和Google Sheets並不適合所有類型的變量,創建不同變量可能需要對數據進行重新排序,這使得記錄工作具有挑戰性,並且很容易更改語義。除此之外,Excel和Google Sheets對可加載和操作的數據量有限制。

2.EDM Workbench

EDM Workbench是一個用於自動提取和數據標記的工具,它的許多自動化功能可以解決Excel和GoogleSheets的多方面不足,如生成複雜的序列變量、數據採樣以及標記。EDM使研究人員能夠基於xml.創建變量,提取現有文獻和智能輔導系統。在數據標記方面,EDM具有創建文本回放的功能,這是由研究人員或其他領域專家根據行為類別標記編寫的人類行為的片段。EDM支持採樣、評估器之間的可靠性檢查,以及標籤和變量之間的同步。

3.Python和Jupyter notebook

對於具有編程知識的數據科學家來說,有幾種語言特別適合於數據操作。許多人認為Python是實現這些目的的一種特別有用的語言。工程文件在Python中比在Excel或Google Sheets中更容易實現。另一個是Jupyter notebook,它記錄所有的分析和中間結果,按順序顯示每個用戶操作。儘管有這樣的優勢,Excel或Google Sheets的可視化地檢查創建的數據和變量仍然更容易。丟失的數據、重複的案例或不尋常的值在數據集中尤其難以識別,而且對於新手程式設計師,Python和Jupyter notebook的驗證可能更耗時。此外Python能夠處理許多不同類型的數據格式,如MOOC和其他在線學習平臺。雖然Python在計算上比前面介紹的電子表格工具更強大,但它在這些領域的能力並不是無限的。Python能夠容納比以前的工具更大的數據集,但它仍然受到大小限制,在研究人員的計算機的1000萬行數據範圍內,速度會變慢。

4.Structured Query Language (SQL)

SQL用於組織一些(但不是全部)資料庫。SQL查詢是一種提取所需數據的強大方法,有時跨多個資料庫表進行集成連接。在SQL(或其他資料庫語言,如Hadoop或Spark)中,許多基本的過濾任務(如選擇特定的學生子集或從特定的日期範圍獲取數據)比上述任何工具都要快得多。然而,對於在工程文件過程中創建複雜的變量,SQL可能是一種笨拙的語言。SQL可以與前面提到的其他工具有效地結合使用:SQL擅長於批量排序和篩選任務,這些任務在Excel或Python中非常緩慢。

●進階級數據挖掘和分析工具

本節列出的工具提供了廣泛的算法和建模框架,可用於對教育數據中的流程和關係進行建模和預測。

1.WEKA

WEKA是一個免費開源軟體包,集合了廣泛的數據挖掘和模型構建算法。它不支持創建新變量,但支持自動選擇。WEKA有一組廣泛的分類、集群和關聯挖掘算法,可以單獨使用,也可以結合使用。用戶可以從命令行、圖形用戶界面(GUI)或Java API調用算法。

2.SPSS

SPSS主要是一個統計軟體包,提供一系列統計測試、回歸框架、相關性和因子分析。SPSS是由IBMSPSS Modeler Premium提供的補充,這是一個相對較新的分析和數據挖掘包,集成了以前的分析和文本挖掘包。SPSS Modeler尤其能夠從現有功能部件中創建新功能部件、數據篩選功能部件以及功能部件選擇和功能部件空間縮減功能部件。用於數據轉換、變量選擇的工具與數據挖掘包中的工具類似,但選擇方法的種類較少。它還有在變量選擇中使用目標類的功能,這在許多其他包中是不可用的。雖然SPSS代表一個全面的統計分析工具,但是對建模的支持比本節中的其他工具稍差。SPSS不如其他工具靈活,更難於定製,也沒有文檔化。

3.KNIME

KNIME是一個數據清理和分析包,通常類似於RapidMiner和WEKA。它提供了許多與這些工具相同的功能,並且像RapidMiner一樣,集成了所有WEKA的算法。此外,它還在情緒分析和SNA等領域提供了大量專門的算法。KNIME有一個特別強大的功能,它能夠在同一分析中集成來自多個源的數據。KNIME還提供擴展,允許它與R、Python、Java和SQL進行接口。

4.Orange

Orange是一個數據可視化和分析包。雖然它的算法和工具比WEKA或KNIME少得多,但它的界面更乾淨,更容易理解,帶有顏色編碼的小部件,可以區分數據輸入和清理、可視化、回歸和集群。它不僅提供許多常用的算法,還具有可定製的可視化模塊,用於使用合理的文檔表示模型結果。然而與Excel相比,Orange可以處理的數據規模有限。基於其易於理解的GUI和菜單布局,Orange可能更適合小型項目或新手研究人員。

5.Spark MLLib

Spark是以分布式方式跨多個計算機處理器,可以大規模處理數據的框架。Spark可以通過API連接幾種程式語言,包括Java、Python和SQL,允許使用這些語言進行分布式處理。Spark的MLLib機器學習框架提供了幾種機器學習和數據挖掘算法。儘管MLLib的功能仍然有限,而且它是一個純粹的編程工具(減少了對非程式設計師的可用性),但是它的分布式特性使其成為一個高效和快速的選擇。

●高手級數據可視化工具

本節介紹一些用於視覺分析的通用工具和方法,這些工具和方法支持構建交互式的視覺界面,以便從數據中獲取知識,以及教師向學生傳達學習的重要含義。

1.Tableau

Tableau提供了一系列用於交互數據分析和可視化的產品。雖然Tableau工具集的主要關注點是支持商業智能,但它已廣泛應用於教育環境中,用於分析學生數據、提供可操作的見解、增強教學實踐和簡化教育報告。Tableau的主要優點是不需要編程知識來分析大量數據,並提供了連接或導入數據的功能。Tableau還具有構建豐富的交互式功能,能夠向最終用戶顯示實時可視化。然而Tableau的功能僅限於此,它不支持預測分析或關係數據挖掘。此外,Tableau作為一種商業工具,是不可擴展的,也不支持與其他軟體平臺的集成。

2.D3.js

D3.js(數據驅動文件)是一個JavaScript庫,它允許操作數據驅動,使研究人員和實踐者能夠構建複雜的交互式數據可視化,這些可視化需要數據處理,並且是針對現代Web瀏覽器的。它有幾個優點:在構建各種數據可視化方面具有相當大的靈活性,不需要安裝,支持代碼重用,並且是免費開源的。然而在教育研究目的採用方面存在著挑戰。作為一種技術,D3.js需要廣泛的編程知識,並且存在兼容性問題,以及對較大數據集的一些性能限制。最後,它不提供對可視化用戶隱藏數據的任何方法,需要數據預處理來確保隱私和數據安全。

●專家級教育數據挖掘和學習分析工具

上面我們討論了用於教育數據挖掘建模和分析的通用工具。然而,特定類型的數據和特定的分析目標通常需要更專門化的算法,而這些算法在這些通用工具中是不可用的。對於這些情況,研究人員和實踐者通常使用針對這些情況設計的更專業的工具。

1.貝葉斯知識追蹤工具(BKT:Tools for Bayesian knowledge tracing)

貝葉斯知識追蹤是一種流行的潛在知識估計方法,學生的知識是通過在線學習來測量的。這與測試中常見的教育測量類型不同,因為在在線學習過程中,知識在被測量時發生了變化。貝葉斯知識追蹤是一個隱馬爾可夫模型(同時也是一個簡單的貝葉斯網絡),它可以預測一個學生是否掌握了智能輔導系統或類似程序中的特定技能。貝葉斯知識追蹤模型通常使用以下兩種算法之一進行匹配——網格搜索或期望最大化,兩種算法在預測性能上具有可比性。

2.文本挖掘工具

文本挖掘是一個快速發展的數據挖掘領域,有大量應用程式和API可用來標記、處理和標識文本數據。文本分析工具可以處理語音的文本部分、句子結構和語義詞的意義。此外,一些工具能夠識別不同單詞和句子之間的表示關係。下面介紹的工具並不是所有可用程序的詳盡列表,而是一些工具的選擇,它們跨越了文本處理和分析的許多方面。

①語言查詢與字數統計(LIWC)。LIWC工具是一種圖形化、易於使用的計算機文本分析工具,它通過分析使用的詞彙量來測量文本的潛在特徵。LIWC針對不同的心理詞彙類別(如認知詞彙、情感詞彙、功能詞彙和分析詞彙)提供了80多個指標,並在大量研究中得到了廣泛的應用和驗證。

②WMatrix是一個在線圖形化工具。該工具可用於文本語庫的詞頻分析和可視化。雖然它可以用來進行完整的分析過程,但它主要用於提取語言特徵,包括單詞、重要的多單詞短語標記,特別是單詞語義類別。它還以詞雲的形式提供了文本語料庫的可視化,同時為多個文本語料庫提供了接口。

③Coh-Metrix是另一個流行的文本分析工具。它提供了100多個衡量文本分為11個類別。與WMatrix相比,CohMetrix提供了對文本特性和數據關係的上下文的理解和分析。WMatrix從語義上標記單詞,而CohMetrix標記多個用於評估深層文本內聚。隨著分析深層含義的增加,就需要更大的數據集,使用CohMetrix有效地傾向於需要更大的文本語料庫。

3.過程和序列挖掘工具

除了更多的教育數據分析的傳統方法,研究人員還瞄準跟蹤學習者學習策略和流程序列。針對這類應用程式,出現了一組獨特的工具。在本節中,我們將介紹用於支持教育數據挖掘和學習分析研究的過程和序列挖掘的ProM和tramler-tools。

①ProM是一個基於Java的、獨立於平臺的、模塊化的、開源的平臺,支持多種流程挖掘技術。最近的實現(ProM 6)支持在分布式設置中或通過批處理運行進程挖掘。ProM還支持多個進程挖掘算法的連結,提供預期輸入和輸出的清晰規範。此外,可以在運行時添加新的插件,從而直接集成到分析過程中。ProM允許與現有信息系統輕鬆集成,而不需要編程。

②TraMineR是一個免費開源工具,支持挖掘和可視化狀態或事件序列。TraMineR的一些主要特性:用於狀態分析和可視化,序列數據包括處理不同格式的序列和改造各種表示;描述縱向(如長度、複雜性和時間)和其他聚合(如過渡率、平均持續時間)的特徵序列;訪問各種各樣的繪圖功能(如頻率或情節、密度指數情節);用廣泛的指標來評估序列之間的距離。

4.匹茲堡科學學習中心(PSLC)開發的DataShop

PSLC的資料庫包含一個存儲庫,其中包含許多可下載和分析的數據集,以及一組支持探索性分析和模型的工具。DataShop在數據集上具有知識組件模型的功能。它還能夠在正確性、提示使用、潛在知識、響應時間和其他感興趣的變量方面將學生的表現可視化。PSLC數據是一個Web應用程式,可以免費使用,但不是開源的。

●教育數據挖掘和學習分析工具的終極原則:混合應用

研究人員和實踐者在開始使用教育數據挖掘和學習分析時需要考慮的一個關鍵問題是,沒有一種工具能夠完美地從開始到結束分析大多數數據集的整個過程。不同的工具適合於不同的任務。例如,一個研究人員可能在一個流行的MOOC中擁有6000萬次系統交易的數據。從這個數據集中,他只選擇一個特定的數據(SQL),然後細化數據集計算系統中總學生時間(Excel),在擬合預測模型中(RapidMiner)分析論壇的帖子,回復(NodeXL)之間的關係和整體文本質量的帖子,回復學生(CohMetrix)。最後,研究人員可能會找出可視化社交網絡數據(Gephi)中最有趣的學生集群。

所有的工具,它們都代表了在這個領域工作的不同科學家群體的總和。它們代表了解決不同問題的不同方法,每一種方法都有其獨特的優缺點。通過工具的組合,可以實現複雜的分析,並可以做出有用的發現。這是一個快速變化的領域,新的工具不斷出現。儘管如此,我們希望這篇綜述能夠對那些在理論層面以及在實際應用中對這些工具感興趣的研究人員有所幫助。

相關焦點

  • 乾貨 | 當前流行的教育數據挖掘與學習分析工具
    年來,為進行教育數據挖掘(EDM)、學習分析(LA)研究,國內外的研究者研發了大量的工具。本文將重點介紹一些對教育數據挖掘和學習分析感興趣的研究人員使用的最廣泛、最容易訪問和最強大的工具。首先是三種非常適合數據的操作、清理及創建的工具:Microsoft Excel、Google Sheets和EDM工作檯。接下來討論Python和SQL在編程中所扮演的角色。
  • 基於文本挖掘的學習分析應用研究
    本文首先描述了學習分析、文本挖掘的概念,通過文獻分析法,對國內外採用文本挖掘技術的學習分析研究現狀進行了綜述;其次,介紹了學習分析中文本挖掘的數據來源、方法和工具;最後主要從課程評價支持、學習者知識能力測評、學習共同體分組、學習行為危機預警、學習效果預測和學習狀態可視化6個方面闡述了文本挖掘應用於學習分析中的具體實例,並對未來作進一步的展望和探討。
  • 教育大數據:考核評價數據分析、挖掘與應用
    考核評價作為加強和改進教育教學過程、促進人才培養質量提升的重要途徑,其數據挖掘、分析與應用尤為重要。然而現行教育考試制度的關注重點往往集中在考試方法創新、考試題型變革、考試成績評定等方面,對考試數據的分析和利用不夠深入,一定程度上造成了教育信息和資源的浪費。
  • 大數據_數據挖掘技術分類及應用
    數據從各種應用系統中採集,經條件分類,放到數據倉庫裡,允許高級管理人員、分析人員、採購人員、市場人員和廣告客戶訪問,利用DM工具對這些數據進行分析,為他們提供高效的科學決策工具。如對商品進行購物籃分析,分析那些商品顧客最有希望一起購買。如被業界和商界傳誦的經典----Wal-Mart的 「啤酒和尿布」,就是數據挖掘透過數據找出人與物間規律的典型。
  • Python數據分析應用
    授課講師:閻老師,長期從事數據分析的理論研究、教學和實踐工作。長期關注Python的發展和國內外各行業的應用情況,一直保持著與統計應用前沿的密切接觸,在數據挖掘應用、市場研究應用等領域經驗豐富。擅長企業數據分析和企業診斷,參與多項國家級、省級課題的科研工作,曾任多家電商企業的運營顧問和培訓師,積累了大量實戰經驗。
  • 8個用於數據挖掘的優秀開源工具
    8個用於數據挖掘的優秀開源工具 很多的數據科學家和機器學習工程師都有其熟悉的數據挖掘工具,但市場上也不乏許多開源的數據挖掘工具。數據挖掘是從大量數據中提取隱藏的或未知,但可能有用信息的過程。這些數據最終會被加上標籤,用於模型的訓練。很多的數據科學家和機器學習工程師都有其熟悉的數據挖掘工具,但市場上也不乏許多開源的數據挖掘工具。Apache MahoutApache Mahout是流行的分布式線性代數框架。
  • 智能時代的教育文本挖掘模型與應用
    大數據支持下的教育文本挖掘模型包括數據生產和使用的主體(利益相關者)、教學環境、數據和挖掘工具等核心要素,涉及數據產生、數據採集、數據處理、知識發現、評估解釋、教學應用等過程和方法。其常用的數據來源包含問卷調查、在線互動、學習反饋、在線評論、社交媒體和教學文件,主要用於學習者成績預測、學習者建模、學習者水平評價、教學材料結構分析、學習者反饋和內容可視化等。
  • 8個用於數據挖掘的最佳開源工具
    這些數據最終會被加上標籤,用於模型的訓練。很多的數據科學家和機器學習工程師都有其熟悉的數據挖掘工具,但市場上也不乏許多開源的數據挖掘工具。Apache MahoutApache Mahout是流行的分布式線性代數框架。該框架是具有數學表達能力的Scala DSL,能夠讓統計學家和數據科學家以更快的方式實現其算法。
  • Excel作為一種強大的數據挖掘工具,數據分析是做什麼的
    生活中有許多數據,那數據分析是做什麼的呢?面對浩繁數據的時候,僅僅依靠人類的大腦和雙手無法從這些龐大的數據中獲得寶貴的信息。即便可以,如果沒有任何科學依據。也不能從中找出有效信息。因此,融合了統計技術和IT技術的「數據挖掘」便應運而生。
  • 什麼叫數據挖掘_數據挖掘技術解析
    下面著重討論一下數據挖掘中常用的一些技術:統計技術,關聯規則,基於歷史的分析,遺傳算法,聚集檢測,連接分析,決策樹,神經網絡,粗糙集,模糊集,回歸分析,差別分析,概念描述等十三種常用的數據挖掘的技術。   1、統計技術   數據挖掘涉及的科學領域和技術很多,如統計技術。
  • 「乾貨精選」數據分析與SPSS全套視頻課程資料,大數據時代必備工具!
    2 一些常用的數據分析和數據挖掘算法,以及有關的各種領域裡的實際應用案例分析3 流行數據分析軟體SPSS操作和使用方法後臺回復 200310獲得領取方式!SPSS 在全球約有25萬家產品用戶,它們分布於通訊、醫療、銀行、證券、保險、製造、商業、市場研究、科研教育等多個領域和行業,是世界上應用最廣泛的專業統計 軟體。
  • 深入淺出:如何從0開始學習大數據挖掘分析?
    最近有很多人諮詢,想學習大數據,但不知道怎麼入手,從哪裡開始學習,需要學習哪些東西?對於一個初學者,學習大數據挖掘分析的思路邏輯是什麼?本文就梳理了如何從0開始學習大數據挖掘分析,學習的步驟思路,可以給大家一個學習的建議。
  • 「大數據分析」深入淺出:如何從零開始學習大數據分析與挖掘
    最近有很多人想學習大數據,但不知道怎麼入手,從哪裡開始學習,需要學習哪些東西?對於一個初學者,學習大數據分析與挖掘的思路邏輯是什麼?本文就梳理了如何從0開始學習大數據挖掘分析,學習的步驟思路,可以給大家一個學習的建議。
  • 數據挖掘入門:校園數據的分析與挖掘
    方案簡介:在學生數據量劇增以及教育目標日趨複雜的情況下,僅用人工來分析學生數據是不現實的,藉助SPSS統計分析和數據挖掘工具對大量學生數據進行深層次分析,可以挖掘出學生各項數據中隱藏的重要信息。3.1.3、國防生、免費師範生的流失預測與維繫挽留如何及時掌握國防生和免費師範生的培養情況,制定科學合理的管理措施,確保軍隊和教育系統有穩定可靠的高素質人才來源,是選培辦的一個重要問題。對國防生選拔培養來說,選培辦成立的時間不長,對國防生培養的分析判斷往往根據經驗,分析結果有時並不能滿足實際管理應用。
  • 大數據涉及的技術理論和資源工具
    機器學習(Machine Learning) 如果說分布式計算是IT體系架構的明星,那機器學習就是智能數據分析的利器了。作為人工智慧的核心研究領域之一,機器學習是為了讓計算機通過經驗(先驗知識數據)來模仿人類的學習能力,從而獲得計算機系統能力的提升。上世紀末,隨著統計學習理論出現和發展,機器學習從IT技術逐步擴展為一種交叉學科,在很多非IT領域也得到廣泛應用。
  • 統計數據挖掘在知客CRM中的應用分析
    統計數據挖掘在知客CRM中的應用分析 --CRM客戶管理系統 21世紀是以網絡為代表的信息技術突飛猛進的時代,隨著網絡的飛速發展和經濟全球化所帶來的激烈挑戰,信息技術已經成為現代企業進行經營管理不可或缺的支撐
  • 如何系統地學習數據挖掘?
    在學習數據挖掘之前應該明白幾點:●數據挖掘目前在中國的尚未流行開,猶如屠龍之技。●數據初期的準備通常佔整個數據挖掘項目工作量的70%左右。●數據挖掘本身融合了統計學、資料庫和機器學習等學科,並不是新的技術。
  • 數據挖掘與預測分析術語總結
    此術語指代總量與日俱增的數據,這些數據每天都在被捕獲、處理、匯集、儲存、分析。維基百科是這樣描述「大數據」的:「數據集的總和如此龐大複雜,以至於現有的資料庫管理工具難以處理(…)」。商業智能(Business Intelligence)分析數據、展示信息以幫助企業的執行者、管理層、其他人員進行更有根據的商業決策的應用、設施、工具、過程。
  • 大數據技術的方法與工具2-分析篇
    大數據可以概括為5個V, 數據量大(Volume)、速度快(Velocity)、類型多(Variety)、價值(Value)、真實性(Veracity)。大數據作為時下最火熱的IT行業的詞彙,隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等等圍繞大數據的商業價值的利用逐漸成為行業人士爭相追捧的利潤焦點。隨著大數據時代的來臨,大數據分析也應運而生。
  • 教育大數據深度學習的價值取向、挑戰及展望——在技術促進學習的...
    在關聯理解、知識挖掘、腦科學、認知科學、人工智慧等新理論新技術驅動下,並受摩爾定律、梅特卡夫定律和吉爾德定律的影響,大數據分析和深度學習成為數據科學研究的中心主題,利用深度學習進行大數據分析,提取數據蘊含的潛在價值,引領教育結構的變革與創新。大數據分析的核心是挖掘和提取大量輸入數據中有意義的規律和模式。