一、概述
「大數據」無疑是近年來最熱門的科技名詞,「大數據廣告」、「大數據電商」、「大數據金融」、「大數據醫療」甚至是「大數據農業」,這些「大數據」令人眼花繚亂。「大數據」給產業帶來了巨大的變革,不但改變了一些行業慣有的思維方式,同時也帶來了很多爭議,用戶隱私安全便是首當其衝的一個。
二、什麼是隱私數據
研究用戶隱私保護技術,首先要明確什麼是用戶隱私數據,GEO對用戶隱私數據做了如下分類:
1、 PII (Personal Identifiable Information),也就是能夠明確標識一個人身份的數據,比如用戶的姓名、手機號、身份證號、電子郵箱、住址等。
2、 用戶相關信息,比如用戶的年齡、性別、公司、職業等信息。這類信息雖然不能直接標識一個用戶,但是把這些條件組合在一起,還是有相當的隱私風險的。比如「年齡36歲,在天恆大廈工作,擔任集奧聚合GEO的架構師」,通過這些條件很容易定位出一個人,這就是所謂的「Quasi-identifier」。
3、 用戶屬性標籤,為了解決「Quasi-identifier」的問題,很多人會把用戶信息進行一定的泛化,比如上面的例子可以泛化成「30-40歲,在東直門附近工作,IT行業,喜歡汽車」,相較之下這樣會顯得模糊一些,也就是常說的「k-anonymity」。但嚴格來說,這些數據還是會涉及用戶隱私,並非絕對安全。
三、國內外相關法律法規
在用戶隱私安全保護方面,國外起步較早,形成了許多法律法規,國內目前還處於起步階段:
四、隱私保護技術
1、 統一標識,不採用任何Cookie、PII或PII加密後的數據作為用戶標識,而是對用戶隨機編號,我們稱之為User ID。該ID沒有任何物理意義,僅僅是一個編號,不同來源的數據採取統一的User ID進行交換,有效解決PII問題。
2、 流處理技術,對於數據本身存在的用戶隱私數據,只要存儲在一個物理介質上的就是不安全的。因此,技術平臺對這類數據的過濾採用了流處理技術,脫密前的原始隱私數據不會保存,即使系統被黑客攻破也不會導致隱私洩露。
3、 標籤化處理,用戶標籤主要有兩類,一類是用戶原始標籤,一類是廣告標籤。原始標籤保存在經過授權的第一方或第三方資料庫中,廣告標籤保存在廣告投放系統中。廣告標籤在第一方或第三方資料庫中計算得到,也就是說我們不知道每個人是誰,也沒有保存個人身份和興趣標籤,我們只知道該給他投放什麼廣告。
4、 自動處理技術,廣告標籤計算完全憑藉自身的自動算法實現,沒有人為介入,整個流程不可逆,完全是一個黑盒子,避免了人為原因造成的風險。
5、 加密技術,採用三個層架實現數據加密處理:網絡層、數據匯聚層和應用層。網絡層主要通過傳統的防火牆、IDS等方式實現數據通道安全;數據匯聚層通過專有硬體實現數據的加密、過濾和去隱私化處理;應用層主要從分布式存儲、數據交換、業務模型等方面進行數據加密,保證系統的安全性。
6、 系統管理能力,系統的安全離不開有效的監控和管理。專門開發了具備多級監控、調度和管理能力的iManager系統,能有效管理全國幾十個數據中心,配合相應的管理制度,最大限度的保證隱私數據安全。
7、 用戶可管理性,用戶可以了解自己的哪些數據被用作了哪些用途,並且用戶可以要求系統停止使用這些數據。比如用戶可以要求終止個性化廣告展示服務。這個能力只有基於非Cookie技術才能實現。我們都知道Cookie的生命周期短,用戶必須不斷告知系統停止服務,然而非Cookie技術就不存在這個問題。