教育大數據隱私保護機制與技術研究
樂潔玉1, 羅超洋2, 丁靜姝3, 李卿2
1 華中師範大學國家數位化學習工程技術研究中心,湖北 武漢 430079
2 華中師範大學教育大數據應用技術國家工程實驗室,湖北 武漢 430079
3 華中師範大學法學院,湖北 武漢 430079
摘要:隨著大數據技術在教育領域應用的不斷深入,教育數據採集、分析及共享等環節可能帶來的個人隱私安全等潛在風險不容忽視。如何保障教育數據安全,對教育數據進行合理、合規的分析和利用是當前亟須解決的問題。基於教育大數據的特徵,重點闡明了教育大數據的隱私內涵,圍繞教育數據生命周期內各利益相關方的隱私保護需求,提出了教育大數據隱私保護框架,並針對性地梳理了目前可用於教育領域的隱私保護技術體系,以期為教育大數據各個應用環節提供支撐,推動教育大數據的規範有序發展。
關鍵詞:教育大數據, 隱私保護, 利益相關方, 數據生命周期, 隱私保護技術
論文引用格式:
樂潔玉,羅超洋,丁靜姝, 等. 教育大數據隱私保護機制與技術研究[J]. 大數據, 2020, 6(6): 52-63.
LE J Y, LUO C Y, DING J S, et al. Research on privacy protection mechanism and technology of educational big data[J]. Big Data Research, 2020, 6(6): 52-63.
1 引言
作為教育領域的基礎性戰略資源,教育大數據為教育管理者制定教育決策提供了科學依據,為教育創新和變革提供了巨大推動力。與此同時,在教育大數據的共享和挖掘過程中,數據的敏感性不可避免地給教育數據的應用發展帶來了諸多障礙。教育部印發的《教育信息化2.0行動計劃》指出,要深入應用教育大數據助力教育教學,同時需要重點保障師生數據安全,加強隱私保護。
國外學者較早關注教育數據的道德隱私問題,Slade S等人關注數據主體的知情同意權,提出6項原則指導教育數據的採集和使用過程;Daniel B K認為需建立使用教育數據的全球倫理和道德義務,學習分析研究中必須獲得學生的「知情同意」,並考慮數據所有權和訪問權。在教育數據治理上,李青等人認為應從組織架構、業務領域、技術和平臺3個方向推進教育大數據的治理框架;彭雪濤也針對美國聖母大學、麻省理工學院和紐約大學數據治理的實例,提出應正確識別數據的利益相關方,從頂層設計規劃,全面落實各方的權責機制,確保信息安全技術的支撐,推進教育數據的有效治理。而在技術層面上,學者們更加關注隱私保護機制改進,Gursoy M E等人提出學習分析過程中的隱私保護機制,將匿名和差異隱私兩種大數據隱私保護技術運用到教育領域,解決教育數據發布和挖掘中的隱私洩露問題;Askinadze A等人則針對教育領域內數據挖掘算法的透明度進行了優化,讓學生可自由選擇數據存儲及與第三方共享時的信息內容,從而尊重學生的數據隱私。可見,國內外學者主要從技術支撐、組織管理、倫理法律三大部分探討教育大數據的安全與隱私保護問題,他們普遍認為結合管理和技術手段對教育大數據進行隱私保護十分必要。因此,亟須研究教育大數據隱私保護機制,以防止學生隱私信息洩露和學習分析技術濫用等事件的發生,規範教育大數據的應用過程和邊界。
本文重點圍繞教育大數據的隱私保護內涵、框架以及技術展開研究,旨在為教育大數據的有效應用提供隱私保護機制支撐和技術支持。
2 教育大數據的特徵與隱私內涵
教育大數據涉及龐大規模的受教育者與教育者群體,對於這些人群,尤其是對於大量的未成年學生而言,隱私保護至關重要。明確教育大數據不同於一般大數據的獨特性,釐清其隱私內涵,是推進教育大數據隱私保護的基礎。
2.1 教育大數據的特徵
作為大數據的一個子集,教育大數據廣義上泛指一切與教育活動相關的行為數據,而狹義上指學習者的行為數據。根據教育數據的來源,一般可將教育大數據分為教學數據、數字資源、管理數據、生活數據、其他領域數據5個類型。教學數據來源於不同的教學活動,如教研活動、戶外活動、課程教學、戶外教學等;數字資源包括多媒體素材、在線課程、學科工具等;管理數據涉及學生、家長、學校、其他機構等不同數據主體的數據;生活數據涵蓋圖書借閱、健康運動、社交、娛樂等數據;而其他領域數據滲透到醫療、經濟、就業、市政等生活的各個方面。可以看出,教育大數據來源多樣,其採集和存儲階段匯聚了各種不同類型和信息源的數據,包括非結構化、半結構化和結構化數據。總體而言,教育大數據具有層級多、維度高、跨度長等特性。
(1)層級多
教育大數據範圍寬廣,可分為教育管理五層級(即國家、區域、學校、班級、個體)、學習結果六層次(即識記、理解、應用、分析、綜合和評價)、學習資源多粒度(如選項、題目、試卷、知識單元、課程等)、數據敏感度分級(即高、中、低),數據層級從上至下、從高到低逐步匯聚。
(2)維度高
教育涉及教學、管理、生活、服務等方面,包含學校、家庭和社會多個場景,以培養全面發展的人為核心。因此,教育大數據是數據類型多樣、教育場景複雜、核心素養繁多的高維度數據集合。
(3)跨度長
教育大數據跨越學前教育、初等教育、高等教育、成人教育、終身學習5個階段,是面向所有人、學習全過程的數據。
2.2 教育大數據的隱私內涵
(1)教育大數據中的隱私和安全問題
個人數據隱私與個人數據保護密切相關,無論在何時何地採集、存儲或使用數據,都可能出現隱私問題。大數據環境下,隱私的存在空間從現實擴展到數據,但內容上仍是個人的、私人的、不願被公開知曉的活動、信息及空間。
教育大數據的隱私保護問題可被認為是保護學習者可識別行為、內容等個人敏感信息安全。強調合理適當地使用和管理學習者的數據,在未經數據主體同意時,數據擁有者不得將學生信息出售或共享給第三方,並且需保證以正確的方式採集、共享和使用學生個人信息,使學習者的隱私權免受其他方侵害。
(2)教育大數據下的學習者隱私特徵
Rao P R M等人認為大數據分析行為存在監視(通過技術手段持續收集用戶行為)、披露(不可信的第三方識別用戶敏感信息)、歧視(對私人信息產生偏見)和濫用(信息推送)隱私的威脅。而學習者個人的敏感信息涉及學習記錄、考試測評等與教學活動直接相關的信息,也包含健康狀況、家庭信息等學生管理數據,還包括餐飲消費、上網情況等學生在校園生活中產生的其他敏感數據。教育大數據的分析和挖掘也存在隱私洩露和濫用的風險。
一方面,教育大數據處理技術的應用可為學習者提供個性化服務,但在分析和挖掘海量、零碎教育大數據的過程中,學生個人隱私存在洩露風險。尤其是傳感器等智能設備採集到的學習者人臉、體徵等可識別學習者個人行為的敏感信息,具有獨特性和不變性,一旦出現數據洩露和濫用的行為,將可能影響學習者的人身安全和權益。值得注意的是,當學習者的零碎數據被非法竊取,並進行二次重組關聯應用時,會產生具有新價值的學習者數據鏈,讓學習者無時無刻不被「監視」,從而出現學習者隱私披露風險。
另一方面,學習分析技術可增強對學生學習方式和學習目標的理解,表徵學生當前的課堂表現,預測學生未來完成課程的成功率,可用的學生數據越多,數據可視化結果越好,學習反饋越及時。但是,機器學習的訓練數據在分布上存在一定偏差,若僅僅使用學習者的歷史數據,忽視學習者動態的成長過程,很可能為學習者提供固化標籤,產生數據偏見,有礙於發掘學習者的發展潛力以及創造力。
儘管教育領域在數據採集、傳輸、存儲和應用階段有規範的處理措施,但教育行業仍是非常容易受到公開披露的行業之一。然而,實施教育數據的隱私保護措施仍然是一個非常龐大繁雜的過程,隨著大數據技術的不斷提升,隱私洩露風險也在不斷增加,亟須採取可靠的安全防範措施和隱私保護技術。因此,必須建立一套完整的隱私保護方案,從源頭上遏制學生數據隱私洩露的問題,形成隱私保護管理機制,滿足對學習者敏感信息使用的合規性要求。
3 教育大數據的隱私保護機制
數據隱私性、真實性、完整性和訪問控制是解決大數據安全保護的首要問題。DONG X H等人強調應基於現有的大數據技術,圍繞整個數據生命周期考慮解決數據共享和隱私保護之間的問題,否則會危害大數據的應用環境。Salleh K A等人認為在數據的傳輸、創建和處理過程中數據需被聚合或者匿名,以保證大數據技術應用環境中的隱私安全,而現有數據存儲缺乏安全保障能力,必須引起重視。Xu L等人提出了大數據安全模型,綜合考慮了數據挖掘過程中不同角色類型(即數據提供者、數據採集者、數據處理者和數據決策者)的隱私保護需求;而Khaloufi H等人提出大數據安全生命周期模型,包括大數據採集、存儲、分析處理、知識創造4個階段,旨在識別大數據各個生命階段的隱私安全威脅和攻擊,保證大數據的生命安全。本文結合教育大數據各利益相關方的隱私保護需求,識別數據的採集、存儲、處理和可視化階段的隱私風險,並提出教育大數據的隱私保護框架,以解決學習者的數據安全和隱私保護問題。教育大數據的隱私保護框架如圖1所示。
圖1 教育大數據的隱私保護框架
3.1 面向教育大數據應用過程的利益相關方
教育數據的質量是學習分析與數據挖掘發揮最大價值的基本前提。了解面向教育大數據應用過程中利益相關方的隱私保護訴求,是保證數據質量完整性和價值性的基本保障。一般認為,學生、教育工作者、研究人員、教育機構和政府機構是面向學習分析過程的利益相關方。實際中,利益相關方可能因目標需求不同而出現矛盾、衝突。在教育大數據的應用過程中,圍繞數據循環周期,主要參與的利益相關方可被分為數據主體/數據提供者、數據擁有者、數據處理者和數據應用者/決策者。
數據主體/數據提供者指被採集和分析數據的個體(存在潛在的敏感信息)。在教育領域中,學習者是主要的數據主體,而家長、教師和學校的敏感信息也應受到關注和保護,他們的數據一旦被濫用,則難以保證其敏感數據的隱私性,因此,數據主體/數據提供者主要關注所提供數據的敏感程度。
數據擁有者是與數據採集和存儲相關的利益主體,包括政府、學校和相關的教育機構,其有責任確保學生數據的隱私性。如果直接公布採集到的原始數據或在數據挖掘之前不採取足夠的隱私預防措施,學習者的敏感信息可能會被披露,因此,有必要對採集到的原始數據信息進行修改轉換等隱私保護操作,防止其被惡意推斷和修改。
數據處理者是有權訪問學習者數據的系統設計人員、分析人員,也包括教育數據的管理人員。數據處理的目的是向數據應用人員提供有用的信息,需要採用強大的隱私保護挖掘和隱私保護學習分析算法來提取學習者的敏感信息,防止學習者敏感信息未經批准而被使用產生的披露行為,同時保留原始數據的客觀性。
數據應用者/決策者包括教育管理人員、教師等所有有權使用數據的人員。
在教育領域中,學習者是整個教育系統中個人數據產生的主體和源頭,如果個人缺乏對數據進行直接控制的意識,會導致數據過度濫用的潛在危險。教師、相關教育機構等其他面向教育大數據應用過程的利益相關方兼具數據擁有者、數據處理者、數據應用者/決策者多個角色。因此,對於隱私保護措施的制定來說,應考慮各個角色的隱私保護訴求,同時權衡各方的利益衝突,以實現教育大數據效用最大化。
3.2 基於利益相關方的教育大數據生命周期隱私保護框架
(1)教育數據採集階段
數據採集是控制師生敏感信息洩露的源頭。課堂、校園等線下學習環境仍然是師生數據採集的主要場景,從結構化學習環境(如智能導師系統)到越來越開放式的在線學習平臺(如慕課網站),再到泛在學習空間,教育數據的採集內容和採集方式更加多樣、實時和全面,教育數據多源異構,非結構化的教育數據越來越佔據主導地位。從隱私安全的角度來看,可靠的數據源是數據採集的關鍵。因此,數據採集必須加強數據主體的隱私匿名意識,數據主體在合法受用教育信息化便利的同時,也要防止他人非法訪問和竊取自己的敏感信息,確保數據隱私安全。
(2)教育數據存儲階段
數據存儲階段的授權訪問應在不識別個人身份的敏感信息的前提下進行,並保證數據不被洩露和篡改。數據擁有者採集到數據後,需保證數據的完整性和客觀性,利用相關隱私保護技術,對敏感數據進行脫敏、清洗、轉換等預處理。除了高校和教育機構自有的伺服器外,第三方教育雲平臺也是數據存儲的另一選擇方式。這一階段中,未經授權的數據訪問行為和基於數據挖掘的攻擊行為是常見的挑戰,需採取數據加密、訪問控制等必要的隱私保護手段,並且數據擁有者應承擔隱私信息洩露的主要責任,確保數據不被攻擊篡改。
(3)教育數據處理階段
數據處理階段是教育大數據應用的中心環節,目標是及時識別並剔除異常數據。在此階段,數據挖掘技術和學習分析技術不僅能對學習者的數據進行分析和處理,而且經過分類、預測、聚合關聯規則等操作,還能預測學習趨勢,生成學習行為模型,有效檢測到異常數據,並及時剔除。要防止數據處理過程中個人信息被識別和惡意提取敏感信息的行為,必須保證只有獲得授權的數據處理者才可以從資料庫中提取信息,將數據洩露與篡改的風險降到最低。另外,k-匿名(k-anonymity)、l-多樣化(l-diversity)、t-貼近性(t-closeness)等匿名技術可隱藏識別數據主體的敏感信息,增強教育數據的隱私性。
(4)教育數據可視化階段
數據可視化階段的目的是更好地應用數據分析的結果,為數據決策者的行為提供科學依據,以便對學習者的行為活動進行有效幹預和規劃。如教育機構根據分析結果進行教學評價和決策,構建學生感興趣的學習環境;教師可根據學習者數據增強教學實踐,實時調整教學內容。但數據分析的結果(如學習者的教學評價、社交軌跡)可被認為是敏感信息,在教育數據的實際使用過程中,不透明的數據會導致數據濫用和歧視現象,影響學生身心發展,敏感數據並不會對外公布。差分隱私、安全檢索及訪問控制技術可保障學習資源的開放和共享。
4 教育大數據隱私保護技術
現有的隱私保護技術以數據的匿名化為主,加密、差分隱私、安全檢索等是常用的關鍵技術,數據生命周期的不同階段涵蓋許多隱私保護技術,每一種方法都各有優缺點,見表1。隨著教育數據的應用場景和結構類型越來越複雜,隱私保護技術的開發成為新的研究熱點。
4.1 數據存儲
數據存儲安全技術主要有數據加密和安全多方計算等,其中,數據加密包括靜態數據加密和動態數據加密兩種。
靜態數據加密技術有對稱加密、非對稱加密(公鑰加密)和混合加密3類。對稱加密算法適用於數據量小的數據加密,其安全性與密鑰長度、算法輪次有關,算法效率高但安全性較低,且不具有可認證性和不可抵賴性,現用的算法主要有高級加密標準(advanced encryption standard,AES)、數據加密標準(data encryption standard, DES)等。公鑰加密能夠適應交互式環境,其安全性與其所基於的數學難題有關,主要算法包括RSA(基於大整數因子分解問題)、ECC(基於橢圓曲線離散對數問題)。混合加密是對稱加密和公鑰加密兩種方法的結合,先快速對數據進行對稱加密,再進行公鑰加密。
動態數據加密主要採用同態加密(homomorphic encryption,HE),關鍵技術是全同態加密(fully-homomorphic encryption,FHE)。同態加密技術能夠在加密的環境下處理數據,但其計算複雜度較高,導致效率較低。目前的全同態加密技術主要基於R-LWE問題進行研究。
安全多方計算是指多名參與者共同安全計算某個約定函數,每名參與者除了自己的輸入和輸出及可推斷的信息,無法得到任何額外的信息。常用的安全多方計算協議有4類:基於健忘傳輸(oblivious transfer,OT)的安全多方計算協議、使用可驗證秘密分享(verifiable secret sharing,VSS)的安全多方計算協議、基於同態加密的安全多方計算協議、基於MixMatch的安全多方計算協議。但這些協議還需更細緻的研究和應用實現。
上述技術的應用場景有教育信息業務系統數據管理、教育信息系統文件安全保障,以及交互式環境下的共享安全。
4.2 數據處理
數據匿名化是數據處理的關鍵安全技術,主要用於數據脫敏。
經典的數據匿名化技術有:k-匿名、l-多樣化、t-貼近性。k-匿名模型在發布關係型數據時,要求每一個泛化後等價類最少包含k條相互難分辨的數據,它未對等價類中的敏感屬性進行約束,可被兩種手段攻擊(同質攻擊和背景知識攻擊);l多樣化在對關係型數據進行匿名處理時,會確保每個等價類至少包含l個不同的敏感數據值,這可以防止同質攻擊,但忽視了敏感屬性的全局分布,可能遭受類群攻擊;t-貼近性模型要求所有等價類中敏感數據值的分布與該屬性的全局分布保持一致, t-貼近性通過敏感屬性計算得出,該方法可以保證數據的公開,但是不能保證每次數據的合理分布,算法時間複雜度高,不適用於高實時性場景,且對數據價值有一定的破壞。
此外,m-invariance 和HDcomposition算法彌補了上述方法僅適用於靜態數據的不足,其他數據匿名化技術還有隨機化技術、p-敏感匿名等。
教育數據內含有大量的敏感數據和隱私數據,數據匿名化技術能很好地解決教育數據脫敏問題。
4.3 數據應用
教育數據的應用層面廣泛,主要的安全保障技術有差分隱私技術、區塊鏈(blockchain)技術、安全檢索技術、授權與訪問控制技術等。
差分隱私技術是通過隨機化處理,根據用戶自行指定的參數ε在數據中加入噪聲,從而決定隱私保護程度及數據失真損失程度的技術。差分隱私技術改善了數據匿名的不足,不局限於對抗性的背景知識,可保證大部分數據不會被攻擊者看到,而且公開的信息在理論上是有限的,故而差分隱私技術比數據匿名化技術更能防止數據隱私的洩露。但是在該技術的實現過程中,控制隱私保護與數據失真程度的關鍵參數ε難以人為控制。
區塊鏈是一種將區塊以鏈的形式聚集在一起的數據結構,具有去中心化、按時序記錄數據、集體維護、可編程和安全可信等優勢。它能夠防止網絡竊聽,同時能夠實現匿名交易,而且基於去中心化的特點,其對網絡攻擊有較好的應對。但是區塊鏈也面臨許多安全威脅,如其節點容易遭受攻擊,同時由於其具有關聯性,在算力足夠大的情況下,其安全性難以保障。儘管有所不足,但是區塊鏈在教育中的應用範圍仍很廣泛,如在線學習系統中,利用區塊鏈可以對學習記錄進行分布式存儲,提供具有可信性高、計算成本低的學習證書系統,或者進行去中心化知識庫的搭建等。
近年來,安全檢索技術聚焦於探索密文檢索技術,以實現在密文數據上的直接檢索操作。密文檢索技術可被分成對稱密文檢索和非對稱密文檢索。對稱密文檢索技術中只有數據擁有者擁有密鑰,並提交敏感數據,故而數據擁有者就是數據檢索者,這使得該技術更適用於單用戶的情形,具有安全性高、加密、搜索運算效率高的特點。具體的實例有基於全文掃描的方法、基於文檔-關鍵詞索引的方法、基於關鍵詞-文檔索引的方法等。而非對稱密文檢索主要採取非對稱密文關鍵詞檢索(public key encryption with keyword search,PEKS)方案,任何可以獲得數據檢索者公鑰的用戶都可以提交敏感數據,但是只有擁有數據檢索者私鑰的用戶才可以生成陷門,因此更適用於多用戶的情形,算法功能強,但與哈希函數和分組密碼運算相比,效率較低。經典實例有BDOPPEKS方案、KR-PEKS方案、DSPEKS方案等。在教育應用方面,該技術主要用於教育信息系統文件安全保障。
授權與訪問控制技術各有優劣。基於屬性的授權與訪問控制能夠實現細粒度的授權與訪問控制,但以非常細的粒度為每個用戶定義授權規則是困難和煩瑣的,且難以同時保證系統的訪問效率和可用性。基於角色的授權與訪問控制具有較高的集成效率,但是安全管理員一般不具有足夠豐富的多領域知識來精確定義和授權管理角色。密碼訪問控制可分為基於密鑰管理的訪問控制和基於屬性加密的訪問控制,而該技術目前的主要問題是不同用戶的密鑰分發與管理問題。自主訪問控制在大數據背景下也面臨權限管理複雜的挑戰,相關訪問控制模型的選擇與構建亦應聯繫實際場景,而在教育領域的應用則主要是保障在線學習和在線考試系統的數據安全隱私。
5 結束語
教育大數據的創新應用推動著教學模式、教學評價和教學管理等的全方位變革。然而,在教育領域的開發利用過程中,教育大數據的隱私保護策略尚處於探索階段。當前,教育大數據的發展應用仍面臨隱私保護機制不完善、數據開放共享機制未形成、大數據安全技術和平臺發展支撐技術待突破等挑戰。
圍繞隱私保護機制問題,當前僅僅基於整個數據生命周期的隱私安全引入,或根據不同利益角色的保護訴求展開。相較於傳統的教育數據,教育大數據覆蓋的時間跨度更廣、匯聚的結構類型更雜、涉及的教育主體更多,原有的單一保護機制已無法滿足教育大數據的動態性需求。因此,本文基於教育大數據的生命循環,平衡利益相關方的價值衝突,增加了教育大數據應用的合規性、透明性和可靠性。
針對隱私保護技術問題,由於教育數據的應用場景更紛繁複雜,教育信息系統對數據的隱私性要求更嚴格,大數據隱私保護技術雖已有一定的發展,但解決教育數據安全與隱私問題的研究較為零散,針對性不強。本文根據不同教育應用場景的安全需求,使用相應的隱私保護技術,降低了教育數據應用過程中的風險,從而保障了教育數據質量的完整性、安全性和私密性。
總體來說,針對教育大數據的多源異構特徵和數據應用服務的隱私倫理問題,為加強學習者的隱私安全,仍需從以下方面推進教育大數據的有效應用。首先,完善法律法規,從法律上界定、規範公開數據與私有數據的邊界,落實教育數據使用主體的責任和權利歸屬,構建面向教育大數據研究應用的倫理準則,從而為各項數據業務提供依據,以推進所有利益相關方的道德自律;第二,加強技術攻關,通過對用戶隱私信息的隱藏或混淆,構建有效的教育數據隱私保護技術體系和平臺,以降低數據精確性和數據披露風險,在確保用戶隱私信息不可還原和追蹤的前提下,滿足教育數據研究和應用的要求;第三,制定標準規範,圍繞教育大數據採集、分析、應用過程,分層、分類進行規範的頂層設計,秉承相關性、唯一性、清晰性、有效性和易用性等原則,規範教育數據的應用流程;最後,提升利益相關方、數據主體等人的數據素養,通過加大相關宣傳力度,強化利益相關方的隱私保護意識與專業知識,提高各責任主體對數據安全的敏感性,增強其辨識能力,以保障數據主體的權利。
作者簡介
樂潔玉(1996- ),女,華中師範大學國家數位化學習工程技術研究中心碩士生,主要研究方向為教育大數據、學習行為分析。
羅超洋(2000- ),男,華中師範大學教育大數據應用技術國家工程實驗室本科生,主要研究方向為教育大數據。
丁靜姝(1999- ),女,華中師範大學法學院本科生,主要研究方向為民商法學、經濟學。
李卿(1982- ),女,博士,華中師範大學教育大數據應用技術國家工程實驗室副教授、碩士生導師,主要研究方向為教育科學戰略、教育大數據、感知計算。
聯繫我們:
Tel:010-81055448
010-81055490
010-81055534
E-mail:bdr@bjxintong.com.cn