大數據的開發應用和保護

2021-03-02 中國指揮與控制學會

今日薦文的作者為中國電子科學研究院專家雷璟，深圳市醫學信息中心專家鄭靜，北京朋創天地科技有限公司專家郭煜。本篇節選自論文《大數據的開發應用和保護》，發表於《中國電子科學研究院學報》第13卷第1期，轉自「學術plus」微信公眾號。

摘要：大數據的開發和利用是網際網路時代的發展趨勢，但是如果數據安全保護不到位，也會嚴重阻礙大數據的合理利用。本文基於數據所有權和使用權分離的原則，對大數據安全保護體系展開了深入研究，提出一種大數據安全開發和應用平臺設計方法，通過對數據的擴散過程進行控制，在保證大數據能夠被充分開發和應用前提下，為數據安全提供必要的保護能力。

關鍵詞: 大數據安全;個人敏感信息保護;虛擬化;雲計算;數據擴散控制

隨著信息化建設和應用在過去幾十年的快速發展，政府和其它很多行業都積累了海量的業務應用和服務數據，並且還在不斷地快速增長，這些數據不僅僅是對業務應用和服務的記錄，如果能加以有效的開發和利用，它們將在相關領域帶來巨大的社會和經濟效益。比如，對醫療健康大數據進行深度開發和利用已經成為全球範圍內的熱點研究內容和方向，各學術機構、研究單位、政府部門、企業都紛紛在這一領域投入大量人力、物力和財力。可以說，數據就是效率、數據就是效益，這些數據如果不加以合理開發和利用，那就是對社會財富的一種巨大浪費。

但是在大數據的開發和利用過程中，個人隱私信息的保護一直是一個伴生問題。比如，醫療健康大數據中包含大量的個人隱私信息，如姓名、電話、住址、病情、家庭情況等，這些信息對黑產經濟有巨大的利用價值和強烈的吸引力，一旦洩露，可能會給患者及其家庭帶來各種精神困擾和經濟方面的損失。2017年六月開始實施的《網絡安全法》[1]中也明確將個人信息保護作為網絡安全的一個重要內容，國家相關部門也在組織起草和制定《信息安全技術個人信息安全規範》[2]，以「規範個人信息收集、存儲、處理、使用和披露等各個環節中數據操作的相關行為」，以「遏制個人信息濫用亂象，最大程度地保障用戶合法權益和社會公共利益」。個人隱私的保護在國外也是重要關注內容，並已經有相關標準[3]。

大數據的開發利用和個人信息保護本質上應該是一個相輔相成的過程，二者應該達到某種程度的平衡。如果對大數據過度保護，或者保護範圍過大，那就可能會限制對這些數據的有效開發和利用，但是如果不加任何保護的開發，那就容易陷入個人信息被濫用的境地，反過來也會使數據的開發利用陷入窘境。

目前在大多數實踐中，大數據管理者和開發方經常不是同一個實體，大數據開發方為了開發大數據，一般會要求大數據管理者提供所要求的數據，這一過程中，大數據管理者面臨著以下困境：他們必須為每個開發方提供數據副本；他們必須根據每個開發方的需求，對要提供的數據進行脫敏；如果開發方有意或無意洩露這些數據，他們也可能承擔相應的損失或責任。

為了克服大數據管理者面臨的問題，本文提出一種基於數據擴散控制的大數據保護方法。該方法的主要思想是：大數據的管理者基於安全虛擬化技術，為數據開發方提供集中的數據處理平臺，所有待處理的數據及其處理結果都被限制在指定的物理範圍內，數據開發方不再擁有大數據副本，因此不必擔心由於他們引發的數據洩露問題。這一基於數據擴散控制的大數據保護方法不影響數據開發方的數據處理流程和操作習慣，也不需要對相關應用進行修改。

數據脫敏方法是目前大數據安全保護中較為常見的方法。所謂數據脫敏是指對大數據中的個人敏感信息進行技術處理，使得其中的個人信息主體在不藉助額外信息的情況下，無法被識別。數據脫敏應當儘量保證數據原始特徵不被破壞，使得共享的數據具有相同或者相當的可利用價值。

常用的數據脫敏方法包括採用加密、哈希或者刪除相關個人敏感信息等，雖然這些脫敏方法還存在一些問題需要進一步解決，比如如何隱匿個人隱私標識數據並在其餘數據公開的情況下，不能反向推定已隱匿的數據，相關算法也是研究熱點，包括k-匿名、L多樣性、差分隱私等[4]。

對大數據採取分級分類的保護也是大數據安全保護的一個重要內容。數據分級分類保護是指根據數據的重要性和敏感性等指標，對數據進行類別和安全等級劃分，並按照數據分級分類結果，採取相應強度的數據安全保護措施，以實現在最大程度地開發和利用數據的同時，對數據進行充分和必要的安全保護。

數據的分級分類保護應該採用多維度指標體系，比如數據形態、數據內容、數據類型、數據完整性、數據準確性、數據新鮮度、數據加工層級、數據重要性、數據敏感度等，不同的保護需求和應用場景，其分級分類指標可能不盡相同。

美國國家標準和技術研究所（NIST）提出了數據分級分類的建議和方式[5][6]。NIST按照信息和信息系統保密性、完整性和可用性等三個方面定義了數據分級分類的維度，同時對每個維度定義了三個影響級：低、中、高。NIST還根據信息系統中處理、傳輸和存儲的信息類型的重要性來確定該信息系統的安全類別，並配套制定了相關標準指南，以配合上述分級分類原則的實施和落地[7]。

儘管以上研究和安全措施有其重要意義和安全作用，但是在目前的實踐中，還是面臨很多安全局限性。

首先，它們對內部員工和第三方服務人員（如駐場開發、測試和維護人員）缺乏有效的安全管控手段。在利益的誘使驅動下，這部分人群可能會利用他們對內部網絡安防機制的了解以及他們能夠接觸到數據的便利，繞開安全機制或利用安防漏洞，截留、獲取敏感數據，並通過轉讓或出售等方式獲得非法利益。近幾年來，這類案件在銀行、衛生醫療、物流、教育等行業領域頻頻發生，給社會帶來極大的危害；

其次，由於各種原因，大部分用戶的網絡安全防護措施在設計和建設時都或多或少地存在疏漏環節，加之在日常管理運維中也存在經驗不足或管理不到位情況，給數據的越權訪問提供了機會，這些違規行為很難被發現和追蹤；

再次，在大數據開發和應用環境中，數據的所有權和使用權在技術層面很難分割，如果允許相關人員或合作方對數據進行開發和應用，就意味著他們在技術層面擁有數據的所有權，他們可能會未經允許對數據進行複製轉讓，由此帶來數據損失和安全責任問題；

最後，網絡病毒和木馬依然是嚴重的數據安全威脅，比如勒索軟體利用病毒木馬的原理機制，對用戶數據進行加密，並通過金錢敲詐等方式獲取非法利益，而傳統的網絡病毒檢測和查殺機制還不能對勒索軟體等進行有效防範。

大數據面臨著這些安全風險，一個重要的根源在於數據擴散問題。如果大數據的管理者能夠有效控制大數據副本的複製範圍，將大數據限制在一個可控可信的物理環境中，那麼上述風險就會得到極大地緩解。

針對數據安全風險和傳統網絡安全機制的局限性，本文提出一種基於數據擴散控制的數據安全保護方法，即將數據副本的複製範圍限制在一個可控可信的物理環境中。其主要思想包括：

（1）通過集中化的數據安全操作平臺實現對數據的集中安全管控，對數據的複製範圍進行安全控制，防止數據洩露；

（2）通過密碼技術實現對集中數據安全操作平臺的可信運行保證，有效阻止數據勒索威脅，同時對用戶操作進行規範；

（3）通過細粒度的數據訪問控制機制，防範數據的越權訪問；

（4）通過可視化安全審計機制，對相關人員的違規操作和訪問行為進行快速和直觀的追溯。如圖1所示。

圖1 基於數據擴散控制的數據安全保護方案

圖1中，「集中數據安全操作平臺」基於虛擬桌面技術實現，操作人員通過「遠程/本地訪問終端」進入「集中數據安全操作平臺」中的虛擬桌面，並基於虛擬桌面訪問應用系統和相關資料庫。「遠程/本地訪問終端」不實際處理和存儲任何數據，它們只起到「集中數據安全操作平臺」中虛擬桌面的顯示器和輸入設備作用。

在「集中數據安全操作平臺」中，系統還通過基於密碼技術的「可執行程序保護白名單」機制對系統運行進行保護，所有未經批准的程序都不能在平臺中運行。「可執行程序保護白名單」機制是可信計算平臺技術的核心內容[8]，它可以有效防範各種勒索軟體和病毒木馬，同時還可以規範操作人員的操作行為。

「數據安全網關」不僅對操作人員進行身份認證，對其所使用的「遠程/本地訪問終端」也進行設備認證，未經批准的終端設備不能遠程訪問「集中的數據安全操作平臺」；認證通過後，「數據安全網關「的一個最主要功能是對數據進行保護，它可以基於操作人員的身份對數據進出進行控制，比如可以允許一般人員把數據從外部網絡（如網際網路）複製到平臺內部，但是不能將安全平臺內部的數據複製到外部，確保數據不會被竊取或洩露。

「安全訪問控制模塊」對數據採取進一步的安全保護，它可以制定安全規則，規定「哪些人可以用何種方式訪問數據」，防止越權和非法訪問。

「安全審計和可視化追蹤」模塊收集其它相關組件（模塊）的審計日誌記錄，在發生安全事件後，基於保存的審計日誌記錄對安全事件進行回放、分析和追蹤，幫助對安全事件進行認定，比如可以快速查證某個操作人員是否訪問或查詢過某個特定數據。

顯然，圖1的方案可以做到：非法人員和設備「進不來」，違規操作「做不了」，未經批准「看不到」，敏感數據「拿不走」，出了問題「跑不掉」。

結合大數據應用特點，將第2章圖1方案應用於大數據的開發和安全保護中，本文給出如圖2所示的大數據開發應用安全平臺。

圖2 大數據開發應用安全平臺

圖2中，除了「大數據開發和應用系統」和「遠程/本地訪問終端」由大數據的開發者或共享者（以下簡稱為數據共享者）所有外，其它組件都由大數據的所有者或管理者（以下簡稱為數據所有者）所有或管理。

「大數據開發和應用系統」被部署在大數據開發應用安全平臺中，數據所有者能夠參與其運行和安全管理。大數據來源於業務應用等領域的元數據，這些元數據經過數據同步、整形和處理，以標準形式存放在資料庫中，這一過程可能是實時動態的。

「大數據服務平臺」為「大數據開發和應用系統」提供數據服務，比如數據集市、數據統計、數據脫敏等處理。「大數據開發和應用系統」通過調用「大數據服務平臺」的API接口來使用相關服務。

大數據開發者通過遠程或本地操作終端進入圖2「大數據開發應用安全平臺」中，對大數據進行開發和應用。數據共享者通過遠程或本地操作終端進入圖2「大數據開發應用安全平臺」中，對大數據進行開發和應用。

圖2方案中，大數據管理者並不把數據（包括脫敏後的數據）提交給大數據開發者，大數據只能在集中數據安全共享平臺中被處理和存儲，大數據開發者必須遠程進入「集中數據安全操作平臺」才能對大數據進行處理，其處理結果只有經過審核和批准後，才可以被允許複製到大數據開發應用安全平臺之外。因此，在大數據開發和應用過程中，大數據管理者不必擔心數據被轉讓，也不必擔心大數據開發者的越權訪問行為，一旦發生數據洩露和違規操作行為，大數據管理者可以通過可視化審計機制對安全事件進行快速追溯取證，幫助確定安全責任。

圖2方案通過數據擴散控制機制實現了大數據使用權和管理權的分離。大數據開發者可以根據數據開發需求有效使用數據，但是他們沒有數據的所有權和管理權，無法將數據複製擴散到大數據開發應用安全平臺之外，也不能將這些數據轉讓給第三方，從而避免數據非法洩露事件的發生。將數據的管理權和使用權進行分離是圖2方案的創新之處，傳統的大數據安全保護方案難以在技術層面實現這一點。

圖2方案在技術上是可行的。大數據管理者可以基於已經成熟的虛擬化或雲計算平臺技術實現大數據開發應用安全平臺，為多個大數據開發者提供集中的共享數據操作和處理平臺服務，大數據開發者將數據處理工具（圖2中的「大數據開發應用安全平臺」以及數據操作客戶端）都部署安裝在上述安全平臺中，採用類似雲計算的方式，對大數據進行開發。

對大數據進行充分開發和利用是「網際網路+」時代不可避免的趨勢，也是社會進步的重要推力，與此同時對大數據中涉及到的個人隱私採取必要的保護也是推動大數據開發利用的重要保障。基於數據擴散控制的大數據開發應用安全平臺，不僅能夠很好地滿足大數據開發的現實要求，還能夠很好地保護個人敏感信息，並讓大數據管理者有效規避數據安全管理風險。大數據管理者通過建設大數據開發應用安全平臺為大數據開發者提供雲服務，無論是在經濟性還是在社會公益性方面，都是一種優勢選擇。

參考文獻：

[1] 全國人民代表大會.《中華人民共和國網絡安全法》[EB/OL]. http://www.npc.gov.cn/npc/xinwen/2016-11/07/content_2001605.htm.

[2] 全國信息安全標準化技術委員會.《信息安全技術　個人信息安全規範》（2016年12月徵求意見稿）[EB/OL]. http://www.tc260.org.cn/zyjfb.jsp?norm_id=20160628214349&recode_id=21042&idea_id=20161221094921&t=0.9173992744618802.

[3] NIST.Special Publication 800-122 Guide to Protecting the Confidentiality of Personally Identifiable Information(PII) [EB/OL].http://nvlpubs.nist.gov/nistpubs/Legacy/SP/nistspecialpublication800-122.pdf.

[4] 周水庚,李豐,陶宇飛,肖小奎.面向資料庫應用的隱私保護研究綜述[J].計算機學報,2009,32(5):847-861.

[5] NIST.FIPS Publication 199 Standards for Security Categorization of Federal Information and Information Systems[EB/OL].http://nvlpubs.nist.gov/nistpubs/FIPS/NIST.FIPS.199.pdf.

[6] NIST.FIPS Publication 200 Minimum Security Requirements for Federal Information and Information Systems[EB/OL].http://nvlpubs.nist.gov/nistpubs/FIPS/NIST.FIPS.200.pdf.

[7] NIST.SP800-60 Vol.1 Rev.1 Guide for Mapping Types of Information and Information Systems to Security Categories[EB/OL].https://csrc.nist.gov/publications/detail/sp/800-60/vol-1-rev-1/final.

[8] TCG.https://www.trustedcomputinggroup.org/home.

聲明：版權歸《中國電子科學研究院學報》所有。轉載請務必註明出處，違者必究。文章觀點不代表本機構立場。

投稿郵箱：liuyali@c2.org.cn

長按下方二維碼免費訂閱！

如何加入學會

註冊學會會員：

個人會員：

關注學會微信：中國指揮與控制學會（c2_china），回復「個人會員」獲取入會申請表，按要求填寫申請表即可，如有問題，可在公眾號內進行留言。通過學會審核後方可在線進行支付寶繳納會費。

單位會員：

關注學會微信：中國指揮與控制學會（c2_china），回復「單位會員」獲取入會申請表，按要求填寫申請表即可，如有問題，可在公眾號內進行留言。通過學會審核後方可繳納會費。

長按下方學會二維碼，關注學會微信

大數據的開發應用和保護

相關焦點

權威發布:國內《大數據的風控和權益保護十大典型案例》

專業介紹 | 大數據技術與應用

0代碼開發大數據應用,真的可以實現嗎?

「砂之塔」:大數據時代的個人信息安全保護

什麼是應用程式安全性?用於保護軟體的過程和工具

詳談持續數據保護(CDP)和數據副本管理(CDM)技術

隱私和數據保護的未來和挑戰

【大數據】大數據應用及其解決方案完整版

天空衛士楊明非:大數據時代下的數據安全治理與保護

九次方大數據聯合60餘城市啟動「推進器」計劃,扶持大數據技術應用公司共同開發政府數據應用

大數據時代的尷尬:遍地的數據煙囪、信息孤島和碎片化應用

JFE工程公司的人工智慧和大數據應用

大數據的概念、特徵及其應用

大數據開發常用的大數據分析軟體有什麼?

大數據技術與應用專業

大數據場景中語言虛擬機的應用和挑戰

大數據技術與應用的了解

海洋大數據應用關鍵技術及應用前景

文昌鏈「IRITA OPB」:支持大數據隱私保護的 BSN 開放聯盟鏈

大數據應用及其解決方案完整版