數據分析在各個行業領域中的運用已經顯而易見。它可以通過大數據統計分析對大批量群體特徵數據進行信息的萃取與提煉,不斷提取有用信息,形成研究報告和概括總結,最終幫助大部分機構或公司挖掘出數據更多的內在價值。比如,公司根據數據分析的精準結果做出粗略判斷,判斷產品生命周期的時長、產品的投放區域、大眾喜好的顏色等。
在過去,收集個人數據的方式非常直接,街頭問卷調查可以將姓名、性別、手機號、習慣喜好等全部收集起來,如此一來,個人隱私的洩露也更加直觀。隨著科技、人工智慧的發展,在各個平臺上收集群體特徵已經不再是難事,但是洩露隱患也隨之增加。
我們在數據使用過程中,主要的隱私洩露風險有三種:直接識別個體、連結攻擊和推理攻擊。可以肯定的是,刪除姓名、證件號等身份標識能夠在一定程度上保護個人隱私,但是並不能完全保證隱私信息的安全性。因為每個參與統計的個體都上傳了其個體特徵,用於分析的數據集一旦公開發布,攻擊者就可以利用連結攻擊和推理攻擊等差分攻擊技術,從最終分析結果中獲取用戶數據,比如個人消費習慣、收入情況、醫療就診記錄等。
這是發生在1997年的經典案例,卡內基梅隆大學的教授Latanya Sweeney,她將匿名化的GIC資料庫(包含每位患者的出生日期、性別和郵政編碼)與選民登記記錄相連,從而找出了麻薩諸塞州州長William Weld的病歷。由於大數據報表只需要呈現群體特徵,不需要知道每個人的具體情況,因此,保護每個參與統計的個體數據就顯得至關重要。
Latanya Sweeney
DWORK於2006年提出了差分隱私(differential privacy)技術,這是一項針對加入失真數據做統計的技術,它可以用噪聲幹擾計算過程,把原始數據淹沒在噪音中,別有用心的人就無法從大數據報表中反推出原始數據。數據在離開個人設備之前,為數據添加噪聲,這樣雲側也無法識別單個個體的數據。簡而言之,攻擊者無法判斷某個用戶的數據是否在這個數據集中,也無法識別至單個人的隱私數據,以此保證多個場景下的個人隱私。比如一名男性參與了抽菸習慣研究的資料庫,他不用擔心其他分析資料庫的人可以找到他的相關信息,甚至不用擔心能否查詢到他的數據是否在資料庫中。
為了在更有效的保護個體用戶隱私的基礎上,提升用戶的使用設備體驗,華為在2018年率先將差分隱私技術引入到"用戶體驗改進計劃"中。
在"用戶體驗改進計劃"中,華為希望通過收集用戶的設備上有關可靠性、性能、功耗統計數據,故障和錯誤信息,以及有關用戶設備和應用軟體使用方式的數據,為用戶提供更加可靠、流暢、省電的軟硬體系統,打造極致的使用體驗。但是只有在獲得用戶明確同意後,數據才會發送給華為,同時運用差分隱私技術可以在數據中添加隨機噪聲,華為無法獲得真實數據,只有在與其他大量用戶數據結合,並且平均掉隨機添加的噪聲,相關統計信息才會顯現。
如此一來,華為在無法獲得用戶原始數據的基礎上既能識別出某些特性的群體使用率、使用次數、留存率等分析數據,不斷提升用戶使用體驗,又可以防止攻擊者無法反推出用戶的原始隱私數據。
2019年,華為將差分隱私技術應用到華為音樂的"統計分析場景"。通過該技術,華為在實現統計分析的同時改進華為音樂的相關服務與應用,別有用心的攻擊者也無法基於差分上報的匿名化數據來推測用戶的真實數據。
在隱私保護方面,差分隱私技術具有重大意義。它可以保護很多場景下的個人信息,也讓科研人員使用多個資料庫研發出新的發現成為可能,攻擊者想要再通過差分攻擊獲取用戶數據的可能性已微乎其微。對於華為來說,差分隱私的重要性在於它可以讓華為一直堅持把隱私保護作為產品設計的前提,致力於構建用戶信任的隱私保護品牌。華為將差分隱私技術應用在"用戶體驗改進計劃"和華為音樂中,為的就是在保護用戶隱私的基礎上,持續提升用戶的設備體驗,讓用戶可以更安心的掌控自己的隱私。現在不妨打開華為音樂,聽一首悠閒的音樂吧。
*部分圖片來源於網絡。