數據「去識別」指南:如何在報導中保護隱私信息?

2020-11-28 澎湃新聞

原創 Vojtech Sedlak 全球深度報導網

對於數據記者來說,在報導中公開重要信息和保護信息背後的個人隱私之間需要取得平衡。當今這個無處不在收集數據的時代,這種挑戰尤其突出。記者如何在不影響報導的前提下保護隱私數據?數據科學家 Vojtech Sedlak 在這篇文章中提出了幾點可操作的建議。

圖:Pixabay

追蹤和報導新聞時,記者需要保護消息來源的身份。許多的重磅報導都堅守著這個規則,即便是在披露關鍵信息和保護消息來源(特別是當消息人士正面臨人身安全風險)之間取得平衡通常不易。

當今這個無處不在收集數據的時代,這種挑戰尤其凸出。計算機技術的發展,讓人們可以處理海量數據,同時造就人們以數據牟利、實施監控等。在眾多事例中,原來被視為基本需求的個人隱私反而被視作障礙。從「劍橋分析」(Cambridge Analytica)挪用個人數據進行定點廣告投放,到智能設備被用於侵入式數據跟蹤,眾多事例反映出,隨著數據不斷被盜取和外洩,人們似乎對保護隱私逐漸麻木。

當可獲取數據前所未有的多,記者在報導時也愈來愈依賴數據。不過,記者除了考慮怎樣保護機密消息來源,也要衡量如何發布數據,才不會洩露不必要的個人信息。就大多數新聞故事而言,記者可能有需要披露部分個人信息,但沒必要點名龐大數據中的每個個體,如是者可以採取「去識別」(de-identification)或「匿名化」(anonymization)來保護個人隱私。

何謂個人信息?

雖然2000年代末期的法律改革確立了對個人信息的定義,但有意無意的數據外洩事件依然持續發生,並且危害著個人隱私,而新聞工作者長期扮演揭發這些外洩事件的重要角色。「美國線上」(AOL)於2006年公布數以百萬計的網絡搜尋數據,記者單憑個人搜尋記錄,包括健康狀況、約會偏好等敏感信息,就能整理出個別人士的身份信息。同樣,中央情報局前僱員斯諾登(Edward Snowden)披露美國國家安全局(NSA)的大規模監控行動之後,各項研究紛紛揭示通信元資料如何被用於識別及監控通訊設備用戶。

當記者決定以數據集作為新聞故事的消息來源,他們就肩負起權衡信息敏感度的責任。要作出準確的評估,首先要了解什麼是個人信息,什麼不是。

「個人可識別信息」(Personally identifiable information,PII)在歐洲法律上以「個人數據」(personal data)來指涉,而在其他部分司法管轄區則以「個人信息」(personal information)來指涉。「個人可識別信息」通常被理解為可以直接識別個人的任何信息,這些信息按不同程度的可識別度和敏感度,處於圖譜上的不同位置。例如,姓名、電郵地址等信息的可識別度高,但低敏感度低,發布這些信息通常不會危害個人;相對地,位置數據、個人健康記錄等信息的可識別度低,但敏感度高。為了方便說明,我們可以因應可識別度和敏感度,在圖譜上定位各種類型的「個人可識別信息」。

「個人可識別信息」通常被理解為可以直接識別個人的任何信息。圖:Datajournalism.com

「個人可識別信息」的可識別度和敏感度,同時取決於文本背景和數據混合後產生的複合效果。例如,發布 Facebook 粉絲資料庫中的某君姓名,可能只會產生低風險,但發布一份政治異議人士名單上的某君姓名,帶來的風險就會大大增加。多項數據結合應用時,信息的價值也會出現變化,例如單看一個購買記錄資料庫,很難連繫到任何特定個人,但結合位置信息或信用卡號碼,可識別度和敏感度則會大大提高。

2016年有這樣的一個事例:澳大利亞衛生部發布了一批「去識別」藥物數據,數據限定用於學術研究,只讓學者解密部分信息;然而當地隱私專員認為,這依然構成個人信息被曝光的可能,因此介入調查。同樣在2016年,BuzzFeed 就職業網球員的欺詐行為進行調查報導,並且發布了經過「匿名化」處理的相關數據;然而,一群大學生結合利用其他公開數據,成功「再識別」出報導中沒有點名的涉事網球員。這此事例說明,新聞工作者要準確判斷數據集中的個人信息性質,就必須兼顧評估數據集包含的信息,以及可能已經公開的其他信息。

儘管這些網球球員的姓名經過了匿名化的處理, 然而,一群大學生結合利用其他公開數據,成功「再識別」出報導中沒有點名的涉事網球員. 圖:Datajournalism.com

何謂「去識別」?

為了隱藏消息來源的身份,新聞工作者可能會以匿名或化名來處理,例如「水門事件」報導中所使用的「深喉」(Deep Throat)。處理信息時,刪除個人信息的過程被稱為「去識別」(de-identification),或在一些司法管轄區被稱為「匿名化」(anonymization)。早在網際網路誕生前,新聞工作者已在應用「去識別」技術,例如在外洩文件上塗掉某些姓名。時至今天,新聞工作者配備了更多嶄新的「去識別」方法和工具,可以在數字環境中保護隱私,同時更便於分析和處理前所未有的龐大數據。

「去識別」的目的就是防止「再識別」(re-identification),換句話說就是將數據「匿名化」,令數據無法被用於識別任何個人。雖然「匿名化」在法律上存在一些定義,但實質的規範和操作,通常建基於不同行業的規矩。例如在美國,醫療保健記錄受《健康保險便利和責任法案》(HIPAA)的規範,病人姓名、住址、社會安全號碼等直接標識必須經過「匿名化」處理。而在歐盟地區,《一般資料保護規範》(GDPR)規定姓名、住址、電郵地址等直接標識,以及工作職銜、郵政編碼等間接標識,均要作「匿名化」處理。

編寫新聞故事時,記者需要判斷哪些信息屬於關鍵,哪些信息可以忽略。一般來說,愈有價值的信息愈是敏感。例如,醫學研究人員必須掌握臨床診斷數據和其他醫藥數據,儘管這些數據很可能與特定個人存在聯繫,屬於高度敏感數據。為了在數據的實用性和敏感度之間取得平衡,記者在決定發布哪些內容時,可以採取適用的「去識別」技術。

數據改寫(Data Redaction)

一份 CIA 數據改寫的文檔. 圖片: Wikimedia

最簡單的資料庫「去識別」方法,是直接刪除所有個人或敏感數據。「數據改寫」存在一個明顯的缺點,就是可能丟失一些有價值信息,不過這種方法一般用於處理直接標識,例如姓名、地址、社會安全號碼,而這些數據通常並非新聞故事的癥結所在。

然而,隨著科技日益進步及可用數據不斷增加,間接標識的可識別度也持續提高。單靠「數據改寫」來處理直接標識,往往會忽略間接標識,因此記者不應以此作為「去識別」的單一手段。

假名化(Pseudonymization)

某些情況下,「數據改寫」會破壞數據的實用性。要解決這個問題,可以採取「假名化」,也就是以隨機或演算法生成的假名來替代可識別數據。「假名化」的最常用技術是雜湊(hashing)和加密(encryption),前者利用數學函式將數據單向轉換成不可讀的散列信息,後者則以雙向算法轉換來處理數據。換言之,雜湊與加密的主要區別在於,前者是不可逆向破解的,而後者可憑正確金鑰來解密。許多資料庫管理系統,例如 MySQL 和 PostgreSQL,都同時提供雜湊和加密兩種數據處理方法。

在國際調查記者同盟(ICIJ)進行離岸解密調查的過程中,數據「假名化」發揮了重要的作用。由於記者需要處理海量數據,他們依賴於外洩文件中每個個人與實體之間的獨特代碼,來辨識不同個人和實體之間的關係,即使兩者名稱並不匹配,這些「假名化」代碼也能發揮作用。

信息怎樣才算經過妥善的「假名化」處理?答案是在不參考其他數據之下,該項信息無法再被連繫上某個個體。換句話說,當「假名化」數據與其他數據被集結在一起相互參考,「假名化」作為「去識別」手段的效能依然有可能被削弱。就算是在整個數據集中重複使用相同的假名,由於假名每次出現,找出變項之間關係的機會就會提高,「假名化」的效能也會因此減低。還有一些情況是,用於生成假名的演算法有機會被第三方破解,或者演算法本身就有漏洞。因此,新聞工作者採取「假名化」來隱藏個人數據時,還是應該格外慎重。

統計噪聲(Statistical Noise)

由於「數據改寫」和「假名化」均存在被「再識別」的風險,人們經常會配合「統計噪聲」一併運用,例如「k-匿名化」(k-anonymity)。這種方法以一個間接標識來指涉一定數量的個體,最佳做法是對不少於十個條目使用同一個獨特標識,從而使「再識別」變得困難。在數據集加入「統計噪聲」的最常用技術是「概括化」(generalization),例如以大洲替代國家名稱、以數值範圍替代準確數值等。

此外,「數據改寫」和「假名化」經常與「統計噪聲」一併應用,以確保數據集中不存在唯一的標識組合。在以下的例子中,個別行例的數據經過概括或刪除處理,防止特定條目被「再識別」。

通過「統計噪聲」可以防止數據被「再識別」. 圖: Datajournalism.com

數據匯總(Data Aggregation)

假如沒有必要保留原始數據的完整性,記者可以通過「數據匯總」來進行「去識別」,例如以摘要形式發布數據,從而省略任何直接或間接標識。進行「數據匯總」時,主要考慮是匯總份量是否夠大,是否足以隱藏當中的特定個體。假如能將多個維度的匯總數據組合在一起,「去識別」的效能也會更大。

「去識別」的工作流程

臨近截稿死線,不少記者會忙於評估數據質量、決定如何將數據圖像化,而將數據的「去識別」工作置於次要。不過,在新聞發布過程中保障個人隱私還是至關重要的,特別是個人數據的不當處理可能會破壞新聞作品的可信度,而負責收集和處理相關數據也可能要承受相關法律責任。因此,新聞工作者應該採取以下步驟,將「去識別」納入工作流程:

1.我的數據集中,是否包含個人信息?

假如你處理的是天氣數據、體育統計數據等公開信息,自然毋須煩惱如何進行「去識別」;假如涉及個人姓名、社會安全號碼等數據,披露隱私的風險則會明顯提升。我們更常遇到的情況是,必須經過仔細檢查,才能確定數據到底是否涉及個人信息,特別是當我們處理的是外洩數據,正如 Susan McGregor 和 Alice Brennan 在這篇文章所介紹的。除了直接標識,新聞工作者還應密切注意數據集是否存在間接標識,例如 IP 地址、工作信息、地理位置記錄等。根據經驗,任何與個人有關的信息,都應被視作存在披露隱私風險,並採取相應措施。

2.這項數據有多敏感?可識別度有多高?

個人信息存在多少披露隱私風險,取決於它所存在的文本背景,包括它能否與其他數據對照解讀。因此,新聞工作者需要評估兩件事:一、數據的可識別度有多高;二、數據中的個人隱私有多敏感。

記者可以自問:某人會否因為與這則新聞故事的關連,而面臨安全或聲譽受損?手頭上的數據,有可能被結合其他數據一併解讀,進而令某人的身份曝光嗎?假如是這樣,發布這些數據能夠帶來的公眾利益,是否大於披露隱私所產生的風險呢?當然,就不同的事例還要採取不同的處理方式,才能在公眾利益與個人隱私之間取得平衡。

3.該以怎樣的方式發布數據?

網際網路誕生之前,新聞工作者通過印刷物發表報導,不必為怎樣發布數據而煩惱,因為讀者無法通過印刷圖表和統計數字追查背後的數據信息。隨著數據新聞學進佔前沿位置,先進工具、互動視頻等,讓讀者可以考究新聞故事所採用的數據信息。例如許多記者選擇開源方式,在 GitHub 上分享代碼和數據。為了兼顧保護隱私,開源時務必仔細清除數據中的所有個人信息。至於數據圖像化,一些新聞工作者會藉助混淆原始數據集的預匯總數據來保障隱私,其中關鍵是檢查這些匯總項目是否超過可識別的最低門檻。

4.該採取哪一種「去識別」技術?

新聞工作者一般要結合使用多種「去識別」技術,才能妥善處理手頭上的數據。對於直接標識,如能正確採取「數據改寫」和「假名化」,一般就足以保護個人隱私。對於間接標識,可以考慮將數據歸納成組,或者將非關鍵信息「概括化」,也就是加入「統計噪聲」。對於高度敏感數據,「數據匯總」是最佳選項,不過必須確保數據的範圍夠廣、匯總變項的分布夠均勻,從而保證個人信息不在無意中外洩。

以身作則:我們沒有藉口迴避「去識別」工作

數據一經網絡發布,就沒有修訂或更正的餘地。即便你認定已經清除數據集的所有個人信息,依然會存在風險——某地某人可能結合你的數據和其他來源的信息,成功「再識別」特定個體,或者破解你的「匿名化」演算法,成功曝光背後隱藏的個人信息。另外,機器學習、圖型識別等技術持續進步,也發展出令人意想不到的組合和轉換數據新方法,令個人信息被「再識別」的風險持續提升。

要謹記的是,就算是看起來不像個人信息的數據點,只要結合其他數據,也有可能被用於「再識別」。當網飛(Netflix)推出「網飛獎」,公開徵集最佳的協同過濾演算法時,也標榜可用數據不存在任何個人信息標識。然而,外界還是能夠通過比對參照網路電影資料庫(IMDb)等網上來源的數據,例如個人觀影偏好信息,來識別網飛號稱「匿名化」數據集中的特定個體。

雖然現存的各種「去識別」技術都有局限,新聞工作者仍然應盡最大努力保護個人隱私。以身作則,國際調查記者同盟處理海量的個人數據時,始終注重保護隱私。來自任何背景的新聞工作者,都沒有不採取類似措施,以平衡個人隱私與公眾利益的藉口。

再者,從婚外情社交網站 Ashley Madison 資料外洩所引發的眾多個人悲劇,到「維基解密」(Wikileaks)所曝光的大量敏感數據,已有太多例子顯示,不採取保護隱私的措施,就有可能導致個人信息外洩,進而引起掀然大波。因此,新聞工作者應該倡導負責任的數據處理方法,以避免重蹈覆轍。

本文首發於 Datajournalism.com,全球深度報導網獲授權編譯轉載。

作者簡介

Vojtech Sedlak 是一位數據科學家,目前任職於非營利組織 SumOfUs,組織以制衡持續壯大的商業企業力量為宗旨。Vojtech Sedlak 曾在 Mozilla 及 OpenMedia 工作,熱衷於 RStudio、measure slack、開放資料社群,也是開原始碼分析的忠實擁護者。

全球深度報導網

cn.gijn.org

工具 | 數據 | 調查 | 深度 | 可持續喜歡此內容的人還喜歡

原標題:《數據「去識別」指南:如何在報導中保護隱私信息?》

閱讀原文

相關焦點

  • 到處都是人臉識別,我們如何保護個人隱私?
    Part3:據外媒報導,印度曾將全國超過95%人口的生物識別信息納入國家資料庫,大約11億人的姓名、地址、手機號,以及指紋、相片、虹膜掃描等信息被保存,但這些數據並沒有得到嚴格的保護,資料庫很快就被黑客攻破,導致後來任何人都能以500盧比(相當於人民幣50塊錢)的低廉價格買到這11億人的生物識別信息。
  • 人臉識別時代,我們該如何保護自己的隱私?
    在新京報記者所做的X15刷臉變形記調查訪談中,有專家如是表示。同時,還有專家指出,人臉識別安全問題不在於技術本身,而是應用的問題。那麼,人臉識別時代,我們該如何保護自己的隱私?陳立彤告訴新京報記者,最高人民法院、最高人民檢察院在今年6月1日正式實施的《關於辦理侵害公民個人信息刑事案件適用法律若干問題的解釋》中明確了侵害公民隱私犯罪行為的具體標準和類型,將公民個人信息安全置於法律保護的最高位階,在刑事法律上對侵害公民數據權的行為標清了底線。
  • 給數據加「噪音」,差分隱私如何保護用戶數據安全和隱私
    舉個簡單的例子,Netflix曾舉辦了一場根據公開數據推測用戶電影評分的比賽(Netflix Prize),公開數據中抹去了可識別用戶的信息,但一年後,來自德克薩斯大學奧斯汀分校的兩名研究員將公開數據與IMDb(網際網路電影資料庫)網站公開紀錄進行關聯,通過差分攻擊等手段識別出了匿名用戶的身份。三年後,Netflix最終因隱私原因宣布停止該比賽,並付出了九百萬美元的高額賠償金。
  • 生物特徵信息採集愈發普遍,該如何保護你的隱私
    生物特徵信息採集在數字經濟時代會越來越普遍生物特徵信息日益成為個人信息中的「金礦」。隨著人工智慧和大數據的發展,數據已經成為網際網路產業發展的重要原料。由於生物特徵信息識別更加便捷,不再需要攜帶手機、銀行卡、鑰匙或者身份證等介質,未來將成為網絡經濟中個人身份驗證的新興入口,成為大部分網際網路商業模式成立和發展的重要基礎設施。
  • 曠視科技協力加強信息隱私保護 助力《個人信息安全規範》推廣
    ,社會層面對於個人信息的保護力度也在不斷加大。為此,在人工智慧領域深入的過程中,個人信息和隱私的保護也一直都是曠視科技高度重視的工作內容。2020年6月16日,曠視科技就已經獲得了ISO/IEC 27701:2019隱私信息管理體系國際認證,是國內率先通過該認證的人工智慧企業,表明了曠視科技在個人信息、隱私保護方面的工作和公司治理要求已對標國際權威水準。
  • 隱私計算:拿什麼保護我們的數據安全?
    編輯導讀:在網際網路數據泛濫的大背景下,如何網絡信息的安全性和保證用戶隱私數據是亟待解決的問題。本文作者從數據隱私的重要性出發,介紹了一種保護數據不外洩,能實現數據分析和計算的隱私計算(Privacy Computing)技術,並對其展開了詳細說明,一起來看看~
  • 大數據時代,如何保護個人隱私?
    大數據時代,如何保護個人隱私?作者:卡爾赫林大數據時代,個人隱私數據如何保護?  2、不要把重要信息保存到電腦和手機上,也儘量不要使用網盤和雲存儲,以免信息被竊取。可以把數據資料保存到移動硬碟上,存儲重要數據的移動硬碟不外借不隨便插接公用電腦。及時更新電腦和手機上的殺毒和安全軟體,並不定期殺毒,使用電腦和手機後及時清理垃圾和痕跡。(網盤和雲存儲雖然便捷,但有洩密風險,重要文件、隱私信息和商業秘密、公司內部文件切不可保存到網盤和雲存儲上。)
  • 為數據披上隱形「鬥篷」,如何收回部分數據隱私?
    現在,諸如「 PrivacyNet」,「 AnonymousNet」和「Fawkes」之類的算法為逃避公共網絡的面部識別提供了一絲庇護。這些算法並不是保護網絡隱私的解決方案。但它們是一種工具,如果在線平臺採用這些算法,可以對一些通過在線發布圖片而丟失的隱私進行彌補。Fawkes是一個基於芝加哥大學研究的反面部識別系統。
  • 如何防止手機內的個人信息被洩露?智能時代 信息安全和隱私保護極...
    如何防止手機內的個人信息被洩露?手機是我們個人信息的載體,承載了很多我們比較隱私的數據,一旦這些數據被不法分子盜取,後果將不堪設想,很多小夥伴以為,將手機中存儲的信息,照片等數據刪除之後,手機內的信息就不會被洩露。但是這樣真的能徹底刪除手機裡的信息內容嗎?我們一起往下看就一目了然了!
  • 數據脫敏:數據大爆炸時代的隱私保護利器
    數據脫敏(Data Masking),又稱數據漂白、數據去隱私化或數據變形。百度百科對數據脫敏的定義為:指對某些敏感信息通過脫敏規則進行數據的變形,實現敏感隱私數據的可靠保護。
  • 新京報:防範人臉識別濫用 該建個人信息梯度保護制度
    新京報插圖/趙斌最近,從AI視頻監控進課堂、「ZAO」APP換臉到「人臉識別第一案」,人臉識別技術帶來的安全隱患為輿論所關切。而新京報近日刊發的調查報導,則進一步坐實了公眾的「人臉焦慮」。記者調查發現,網上有一些私下售賣人臉數據的賣家,有發帖者稱8元可買3萬張人臉照片,有賣家表示可以提供「更多渠道」的人臉圖片。
  • 大數據時代下信息隱私與定位發展的矛盾
    它同往日的數據僅僅只差了一個「大」字,但這一個「大」字中卻包含了一個新的世界。大數據不再局限於數字與數據而是擴展到方方面面,例如圖片、音頻等以各種形式存在的媒體技術,包羅萬象。它保留了類似數據分析,對簡單數據的整合計算而得出的一般規律,更挖掘了從複雜數據中難以預見的規律,是以未知與假設去得出一種可能性,掌握社會發展的未來導向。
  • 成都確診女孩信息洩露背後:公眾知情權和個人隱私保護如何調和?
    丁曉東表示,從這個層面上來說,成都女孩事件凸顯了現在信息的知情權和隱私保護之間還沒有發展出來一個非常好的機制,我們在這類事件中尤其要注意合理保護個人隱私。「在這次事件中,從總體層面、意識層面上來說,我覺得公眾和政府的隱私保護意識還是值得肯定的,包括對洩露者的處罰。對轉發成都女孩隱私信息的人的處罰是依據了《中華人民共和國治安管理處罰法》,而不是按照《個人信息保護法》或者說隱私侵權的框架去作出處罰,我認為比較合理,如果再過重處罰,上升到刑法的框架也不合理,因為未來每個人都有可能傳遞錯誤信息。」
  • Face Recognition:謹慎人臉識別背後的隱私洩露|OPINION
    雖然人臉識別比傳統的識別方法更方便,但仍存在一些有待解決的問題。在《科技日報》上,張野評論道:「與信息識別不同,人臉識別在未經允許的情況下自動獲取。比如說,在一次相親中,也許一副特殊的眼鏡就能識別出你的約會對象是在假笑還是在假裝牙痛。」
  • 第十一屆中國信息安全法律大會——數據隱私即服務
    11月5日,第十一屆中國信息安全法律大會在北京順利舉行。此次中國信息安全法律大會以「主權 治權 權利」為主題,設主論壇和「個人信息保護」、「數據安全治理」、「密碼法治」、「網絡犯罪生態治理」、「優秀論文線上交流」五個分論壇。
  • 如何打好個人信息保護的「中國牌」
    中國信息通信研究院科研工程師王嘉義表示,「3D列印就可以製作出來一個精度尚可的人臉面具,頭套也是同樣的製作原理。最簡單的人臉識別只需要採集、提取人臉上的六個或八個特徵點就能實現」。在「人臉包+算法」的加持下,部分模擬面具足以達到以假亂真的效果,矇混過軟體的「識別關」。不少新聞報導過不法分子利用人臉識別「偷梁換柱」的案件,加深了消費者對於隱私信息洩露的惶恐。
  • EXIN PDPF 谷安隱私與數據保護認證正式上線!
    谷安學院作為EXIN PDPF的授權培訓機構,特邀請EXIN官方授權講師,開展數據安全與隱私保護認證培訓,歡迎廣大從業人員積極參與學習。EXIN PDPF隱私與數據保護認證簡介無論數據是如何收集、存儲、使用,以及最終被刪除或銷毀,隱私安全問題始終存在。
  • 戴著頭盔去看房就真能保護自己的個人隱私?
    滄浪有話要說‍‍首先,小滄要對濟南這位戴著頭盔去看房的先生表示,您確實為數不多的注重保護自己私隱的人,畢竟現在還能保持這種觀念的人真的不多了。但是,實際上戴著頭盔去看房就真的能保護自己的隱私嗎?還真的一點用都沒有。
  • EMUI11升級開啟中,創新科技保護隱私安全
    升級EMUI 11後的老機型用戶除了可以享受到隱私空間、AI信息保護、應用鎖、密碼保險箱、文件保密櫃等多重安全功能外,還可以對備忘錄進行隱私加密保護。EMUI 11隱私備忘錄可對單篇筆記進行鎖定使用人臉識別或密碼才可以解鎖筆記對於很多人來說,手機備忘錄是一個比較高頻的應用,你可以用它來記錄生活中的那些瑣事,也可以來記錄只有你自己知道的小秘密。
  • 學習《民法典》26:民法典中的隱私是指哪些內容?怎樣保護
    【拿什麼來拯救我的隱私】在人類發展的歷史長河中,社會數據的產生經歷了一個從量到質的飛躍,從未有任何一個時期出現過如今天一般的海量數據,隱私的概念和範圍不斷溢出,並在大數據時代呈現數據化、價值化的新特徵。