噓!完美保護隱私的AI,存在嗎?

2020-12-22 讀芯術

全文共4469字,預計學習時長12分鐘

去年,一部叫《愛,死亡和機器人》(Love, Death &Robots)的劇火了。每一集都是獨立的動畫,我們看到了AI機器人的強大能力,但也不得不反思AI數據在現實中的隱私問題。

圖源:zcool

是什麼?我們又該如何擁有?

AI應用的邊界、隱私數據保護的度在哪,現在還是未知。社交活動數據、零售數據、金融行為數據、醫療健康、園區管理等數據等被廣泛用於AI各種應用場景,的確也朝著為人類帶來更多服務的方向發展,但是對於這樣的涉及隱私數據利用的監管仍處於探索階段。

目前,數據隱私被稱為「未來十年最重要的問題」,並且由於諸如歐盟的《通用數據保護條例》(GDPR)和《加州消費者隱私法案》(CCPA)之類的立法而成為焦點。公司、開發人員和研究人員都在努力遵循相關法律法規。

特別值得注意的是,「從設計著手保護隱私」是《通用數據保護條例》不可或缺的一部分,很大可能在未來十年只會變得愈加普及。使用隱私保護技術時,相關立法突然變得不那麼困難了,同樣,確保數據安全以維護用戶信任也變得簡單了。

數據隱私是訓練和測試AI模型的核心問題,對於那些依賴敏感數據進行訓練和推斷的AI模型更是如此。然而,目前為止,何為完美保護隱私的AI,尚未有任何已發布的指南可供參考。現介紹實現完美保護隱私的AI所需的四個支柱,並討論哪些技術可以幫助建立每個支柱。隱私保護機器學習子領域發展迅速,上述主張的支撐就來自該領域最新的研究。

完美保護隱私的AI所需的四個支柱

完美保護隱私的AI所需的四個支柱

在研究過程中,我們確定了隱私保護機器學習的四個支柱。這四個支柱是:

1.訓練數據隱私:保證惡意行為者無法對訓練數據進行反向工程。

2.輸入隱私:保證包括模型生成器在內的其他方都看不到用戶的輸入數據。

3.輸出隱私:保證除了提供數據用於推斷的用戶外,任何人都看不到模型的輸出。

4.模型隱私:保證模型不會被惡意方竊取。

前3個支柱旨在保護數據生成器,而第4個支柱是為了保護模型構造器。

訓練數據隱私

儘管從明文(密碼學術語:指未加密的文字)輸入和輸出數據中收集有關訓練數據和模型權重的信息可能要更為困難一些,但最新研究顯示,重建訓練數據和對模型進行逆向工程所帶來的挑戰並非人們所想的那樣嚴峻。

證據

在[1]中,Carlini和Wagner計算了生成序列模型(例如,字符語言模型)在訓練集中記住稀有信息的速度。Carlini和Wagner在Penn Treebank上訓練一種字符語言模型,向模型插入一次「秘密」:「隨機數是ooooooooo」,其中ooooooooo是一個(假的)社會保障號碼。兩人演示了他們隱藏在Penn Treebank數據集(PTD)副本中的秘密是如何暴露的。他們在5%的PTD上訓練字符語言模型,計算了網絡的記憶量。當測試集損耗最低時,記憶量達到峰值。這一峰值與秘密暴露的峰值相吻合。

指標

那麼,如何量化對模型輸出進行逆向工程從而得到秘密的可能性呢?[1]規定了一個指標,稱為曝光度:

給定金絲雀為s [r],模型參數為θ,隨機空間為R,則曝光s [r]為

其中,排名(rank)是指根據輸入確定模型的複雜性時,真實秘密(即金絲雀)在所有可能秘密中的索引。索引越小,序列出現在訓練數據中的可能性就越大,因此目標是為了最大程度地減少秘密的暴露,而這正是Carlini和Wagner使用差分隱私梯度下降實現的(請參見下面的解決方案)。

[2]中提出了另一種曝光度指標,作者計算了通過不安全通道發送隱藏私有數據時洩漏的信息量。儘管本文更多地在分析輸入數據隱私,但仍可將[2] 提出的指標與[1]中的指標進行比較,從而進行研究。實際上,Carlini和Wagner提出了兩種隱私指標。一種用於人口統計變量(例如,情緒分析和博客帖子主題分類),另一種用於命名實體(例如,新聞主題分類)。這兩個隱私指標具體如下:

1.人口統計變量:「1- X,其中X是攻擊者預測性別和年齡準確度的平均值。」

2.命名實體:「1-F,其中F是在z中的二進位變量集合上計算的分數,這些變量說明了輸入示例中存在命名實體」,其中「z是包含在[自然語言文字]中隱私信息的向量。」

查看證據時,請務必牢記,AI的子領域(即保護隱私的AI)是一個全新的領域,因此可能存在許多尚未分析到甚至還未想到的潛在漏洞。

解決方案

圖源:Unsplash

針對訓練數據記憶問題,主要提出了兩種解決方案,不僅可以保護隱私,還可以提高機器學習模型的通用性。解決方案如下:

1.差分隱私隨機梯度下降(DPSGD)[3,4]:差分隱私最初創建是為了在不透露數據集中任何個人信息的情況下對數據集進行概括,但已經適當修改了該理論,使之適用於深度學習系統中訓練數據隱私的保護。

想了解有關機器學習中差分隱私使用的深入討論,請閱讀對Parinaz Sobhani博士的採訪(他是加拿大著名的風險投資公司之一Georgian Partners機器學習方面的負責人)。

2.Papernot教授提出的PATE框架 [5]:Papernot教授創建PATE框架作為DPSGD的替代方案,更為直觀。可以將PATE框架視為一種在數據集的iid子集上訓練多個模型的集成方法和任務。可以推斷,如果大多數模型對輸出結果意見一致,則證明輸出不會顯示有關訓練數據的任何隱私信息,因此可以共享。

輸入和輸出隱私

為了遵循完全保護隱私AI的四大支柱,除用戶之外,任何一方都無法看到輸入的用戶數據和通過該數據推斷得出的結果模型輸出。保護用戶數據隱私不僅對用戶本身有利,對處理潛在敏感信息的公司也有利。隱私與安全息息相關。保障適當的安全性意味著數據洩漏的可能性要小很多,這則有利於促成理想的情況:不會失去用戶信任,也不會因數據管理不當而受到罰款。

證據

必須確保隱私數據不會:

· 被濫用(如《紐約時報》報導的位置跟蹤)

· 由於黑客入侵而落入壞人之手,或

· 習慣了執行出於用戶意料或未經用戶明確同意的任務(例如Amazon承認員工偷聽用戶與旗下語音助手Alexa的對話)。

雖然在數據傳輸和存儲時(若由某一公司負責)數據通常是加密的,但是在處理數據進行解密時,數據很容易受到攻擊。

解決方案

1.同態加密:同態加密允許對加密數據進行非多項式運算。這意味著機器學習可以直接對加密數據進行訓練和推理。同態加密已成功應用於隨機森林,樸素貝葉斯和邏輯回歸[6]。[7]設計了對加密數據進行分類的低次多項式算法。最近,已有深度學習模型改造用於加密域[8、9、10]。

2.安全多方計算(MPC):MPC背後的原理是,兩個或兩個以上互相不信任的方可以將各自的輸入轉換為「無釐頭的話」,然後發送到一個函數,該函數僅在輸入數量正確時才會產生有意義的輸出。

MPC有諸多應用,比如利用不同醫院的基因組數據,MPC可以用於基因組診斷[11];利用線性回歸,邏輯回歸和神經網絡,MPC可以對MNIST圖像進行分類[12]。[11]就是一個典型例子,證明在隱私得到保護的情況下,通過訪問敏感數據在這一方面取得了一定進展。

由於缺少訓練分類和生成模型所需的數據,因此有許多任務機器學習無法完成。不是因為數據不存在,而是因為信息的敏感性質意味著數據無法共享甚至有時無法收集,大到醫學數據,小到某位具體說話者的元數據,而後者可能幫助加強語音自動識別系統(如識別說話人的年齡、位置、第一語言)。

3.聯邦學習:聯邦學習基本上指的是設備上的機器學習。僅當機器學習和差分隱私訓練(請參閱上文中的DPSGD)和MPC結合以進行安全模型聚合[13]時,聯邦學習才能真正實現隱私保護,因此無法從一部手機輸出的權重更新中進行反向工程找到用於訓練模型的數據。實際上,谷歌已經在Gboard上推出了聯邦學習(點此參閱相關的文章),而蘋果公司也在CoreML3中引入了聯邦學習支持。

模型隱私

人工智慧模型或能成為公司的主業,許多模型可以通過API或是最近出現的可供下載的軟體為開發人員提供預測功能。模型隱私是四個支柱中最後一個支柱,必須納入考慮,同時它也是用戶和公司利益的核心。如果公司的競爭對手可以輕鬆複製該公司的AI模型(這種行為難以直接調查),那麼公司將沒有動力打造有趣的產品,也沒有動力投資提高AI的能力。

證據

機器學習模型構成許多公司的核心產品和IP(智慧財產權),因此,模型被盜是一個嚴重的威脅,可能會對業務產生重大負面影響。一個模型可以直接被竊取,也可以根據模型輸出通過逆向工程再現原模型[14]。

解決方案

1.目前,差分隱私應用於模型輸出以防止逆向再現模型攻擊方面已經開展了一些工作。差分隱私通常意味著損害模型的準確性;然而,[15]提出了一種方法,不需要犧牲準確性來換取隱私。

2.如果選擇在雲中加密模型,同態加密不僅可以用於保護輸入和輸出隱私,還可以保護模型隱私。但是,這需要大量的計算成本,並且不能防止逆向再現模型攻擊。

建立完美保護隱私AI的四個支柱

從上文可以看出,沒有一項通用技術可以解決所有的隱私問題。不過,想要擁有完美保護隱私的AI(這是研究界和業界尚未實現的目標),必須組合以下技術:

同態加密+差分隱私

安全多方計算+差分隱私

聯邦學習+差分隱私+安全多方計算

同態加密+ PATE

安全多方計算+ PATE

聯邦學習+ PATE +同態加密

還存在其他的技術組合,包括一些組合中包含替代性技術但尚無可靠的數學依據。即(1)安全區域(例如Intel SGX),即使沒有系統內核的訪問權限,也可以執行計算;(2)數據識別;(3)數據合成。

目前,完美保護隱私的AI仍然是一個研究難題,但是目前已有一些工具可以解決一些最為迫切的隱私需求。

圖源:Unsplash

隱私保護機器學習工具

Tensorflow中的差分隱私

PyTorch中的MPC和聯邦學習

Tensorflow中的MPC

使用CoreML3進行設備上的機器學習

參考文獻

[1] Carlini,Nicholas, et al., The Secret Sharer: Evaluating and testing unintendedmemorization in neural networks (2019), 28th USENIX Security Symposium (USENIX Security19).

[2] Coavoux,Maximin, Shashi Narayan, and Shay B. Cohen, Privacy-preserving neuralrepresentations of text (2018), arXiv preprint arXiv:1808.09408.

[3] Song, Shuang,Kamalika Chaudhuri, and Anand D. Sarwate, Stochastic gradient descent with differentiallyprivate updates (2013), IEEE Global Conference on Signal and InformationProcessing.

[4] Wu, X., Li,F., Kumar, A., Chaudhuri, K., Jha, S., and Naughton, J., Bolt-on differentialprivacy for scalable stochastic gradient descent-based analytics (2017), InProceedings of the 2017 ACM International Conference on Management of Data,1307–1322. ACM.

[5] Papernot,Nicolas, et al., Scalable private learning with PATE (2018), arXiv preprintarXiv:1802.08908 (2018).

[6] Aslett, LouisJM, Pedro M. Esperana, and Chris C. Holmes, Encrypted statistical machinelearning: new privacy preserving methods (2015), arXiv preprintarXiv:1508.06845.

[7] Graepel,Thore, et al., Machine Learning on Encrypted Data (2012), ICISC 2012, LNCS7839.

[8] Hesamifard,Ehsan, Hassan Takabi, and Mehdi Ghasemi, CryptoDL: Deep neural networks overencrypted data (2017), arXiv preprint arXiv:1711.05189.

[9] Hesamifard,Ehsan, et al., Privacy-preserving machine learning as a service (2018),Proceedings on Privacy Enhancing Technologies.

[10]Gilad-Bachrach, Ran, et al., CryptoNets: Applying neural networks to encrypteddata with high throughput and accuracy (2016), International Conference onMachine Learning.

[11] Jagadeesh,Karthik A., et al., Deriving genomic diagnoses without revealing patientgenomes (2017), Science 357.6352.

[12] Mohassel,Payman, and Yupeng Zhang, SecureML: A system for scalable privacy-preservingmachine learning (2017), 2017 IEEE Symposium on Security and Privacy (SP).

[13] Bonawitz,Keith, et al., Practical secure aggregation for privacy-preserving machinelearning (2017), Proceedings of the 2017 ACM SIGSAC Conference on Computer andCommunications Security.

[14] Tramèr,Florian, et al., Stealing machine learning models via prediction apis (2016),25th USENIX Security Symposium (USENIX Security 16).

[15] Wang, Yue,Cheng Si, and Xintao Wu, Regression model fitting under differential privacyand model inversion attack (2015), Twenty-Fourth International Joint Conferenceon Artificial Intelligence.

AI 作為基礎信息技術,既可以被攻擊者利用,也可以被防護方使用。用戶只有提高安全意識、時刻注意隱私信息的安全保護才是最關鍵的。

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範

相關焦點

  • ...AI發布首個企業級隱私保護機器學習平臺與升級版AI模型殺毒軟體
    田天解釋,智能化時代下,AI的決策邏輯和鏈路天然存在大量不確定性,缺乏可解釋性,難以被應用於高價值決策場景。另外,算法普遍存在的「對抗樣本」特徵導致AI系統存在被惡意攻擊的風險。?第二關是數據關,保障數據隱私和安全。在訓練AI模型時,數據的簡單明文傳輸和利用容易導致隱私洩露。
  • AI,隱私,機器人
    汽車發動機必須在動力與節能之間尋找更高的平衡點,AI也必須在應用潛能和隱私數據保護(涉及數據的利用效率)之間尋找更適合的平衡點。隱私的隱喻關於隱私保護也在與時俱進,以前關注的個人隱私更多的是自身的私密性。
  • 中信銀行洩露客戶隱私,那……智能鎖還有隱私保護可言嗎?
    為了更專業、全面地了解聯網智能鎖隱私保護方面的安全性,研究組諮詢了業內數家推出聯網智能鎖的鎖企技術人員及業內資深人士,對其產品進行了詳細了解。01.用戶信息存儲在聯網智能鎖的什麼地方?有哪些安全加密程序?
  • 獨家| ChinaLedger白碩:區塊鏈中的隱私保護
    他認為,在區塊鏈隱私問題上,目前技術的發展程度對隱私的保護還很差,但也不能認為這就是區塊鏈的固有局限,它還有可以改進的空間。隱私保護是很重要的,而且有現實的需求;如果說馬上就要實現,等不得那些非常完美的方案,就要兼顧隱私強度和去中心化的程度,根據自身的應用場景找一個適當的平衡。
  • 用區塊鏈來保護隱私是天方夜譚嗎?
    當前人們在享受網際網路時代便利的同時,常常會感慨這是一個沒有隱私的年代。網絡爬蟲、人肉搜索等手段的問世,將人們的生活置於各種顯微鏡下;各種促銷或騷擾電話讓人不勝其煩;因信息洩露遭遇經濟詐騙的報導也屢見不鮮。如何保護個人隱私成為公眾最為關注的話題之一。近兩年來,隨著區塊鏈走入各行各業,用區塊鏈實現隱私保護成為各類應用的重要賣點之一。
  • 汽車隱私玻璃夠「隱私」嗎?
    汽車隱私玻璃夠「隱私」嗎?如何保護自己愛車車內的隱私呢?車天下君留意到,除了以往大家知道的給玻璃貼深色車膜之外,近年來裝在後排車窗的「隱私玻璃」成了新寵。不過,隱私玻璃又是什麼玩意呢?真的那麼神奇嗎?隱私玻璃還需要貼膜嗎?本期「非常測試」就與大家來看看「隱私玻璃」的那些事兒。
  • 從Android 10 的隱私保護,我們聊聊隱私安全這件事
    我又想不通,搜索一個關鍵詞,還要「獲取地理位置信息」嗎?事實上,2019 年,筆者觀察到的是:一方面,網際網路網民對隱私安全的意識不斷提高;另一方面,則是政府和監管部門的「強監管」和「嚴要求」。在這雙重因素的驅動下,個人隱私保護正在進入新階段。
  • 噓!不要告訴別人,這些「變色龍」APP裡藏著小秘密
    噓!       談到隱私,想必每個人的手機中都會有絕對不想讓別人看到的圖片或者信息,既然如此,那就在便於自己查看的情況下,把這些信息藏起來吧。
  • 驅動AI產業」第二增長曲線」,清華系RealAI發布首個企業級隱私保護...
    田天解釋,智能化時代下,AI的決策邏輯和鏈路天然存在大量不確定性,缺乏可解釋性,難以被應用於高價值決策場景。另外,算法普遍存在的」對抗樣本」特徵導致AI系統存在被惡意攻擊的風險。第二關是數據關,保障數據隱私和安全。在訓練AI模型時,數據的簡單明文傳輸和利用容易導致隱私洩露。
  • 驅動AI產業「第二增長曲線」,清華系RealAI發布首個企業級隱私保護...
    田天解釋,智能化時代下,AI的決策邏輯和鏈路天然存在大量不確定性,缺乏可解釋性,難以被應用於高價值決策場景。另外,算法普遍存在的「對抗樣本」特徵導致AI系統存在被惡意攻擊的風險。  第二關是數據關,保障數據隱私和安全。在訓練AI模型時,數據的簡單明文傳輸和利用容易導致隱私洩露。
  • 保護好「健康信息」隱私
    日前,廣西發布兩項地方標準,旨在規範健康管理服務行業發展,縮短受檢等候時間,更加重視健康信息隱私保護。其中,規定嚴格管護公民健康信息,禁止洩露,禁止用於健康管理之外的其他用途。 隨著健康意識不斷增強,個人健康體檢越來越受到重視。
  • 人民日報:為隱私保護多上一把鎖
    IT之家11月22日消息 近日,有媒體曝出多地高校獎學金公示名單中洩露了學生的隱私信息,包括姓名、出生年月日和完整的身份證號等。信息化時代,公民隱私能否安全保障就成為了越來越重要的問題。今天,人民日報就刊文《為隱私保護多上一把鎖》,針對「信息公開洩露隱私」,發表了自己的看法。
  • 舊手機是如何一步步洩露你的個人隱私的?保護隱私請這樣做!
    這樣安全嗎?「恢復出廠設置」能否一了百了?手機中一般都保存了我們大量的私人信息,你能確保不被洩漏嗎?舊手機裡面的數據信息應該怎麼處理?每個人使用手機以後,手機裡都會存留一些個人信息,如果舊手機裡的信息處理不好的話,聯繫人,通話記錄,照片,身份信息都會存留在手機裡。
  • 隱私保護新突破:高斯差分隱私框架與深度學習結合
    機器之心發布機器之心編輯部人工智慧中的隱私問題已經公認為一個重要並且嚴肅的問題。近日,賓夕法尼亞大學的研究組開發了一個新的數據隱私分析框架,可以在多個類型的機器學習問題中有效保護個人隱私。一種簡單的隱私保護方法就是「匿名」:將收集到的數據中涉及個人信息的特徵剔除。可惜這種方法並不可靠,曾有研究將 Netflix 匿名處理過的觀影記錄通過交叉對比 IMDb 資料庫解匿成功,這直接導致了第二屆 Netflix 數據分析大獎賽的取消。2006 年,隱私算法的研究迎來了新的裡程碑。
  • 民法典視野下隱私權法律保護的邊界
    在直接保護模式中,根據權利保護位階又存在著憲法保護模式和侵權法保護模式。上述模式分別在英國、日本、美國和德國法律實踐中得到了體現。僅以優劣而言,易得出這樣的結論:間接保護因其權利依附性,會遺漏單獨侵犯隱私權的情形,故而直接保護應當優於間接保護模式,而在直接保護模式中,單獨規定隱私權乃至以最高位階的憲法加以保護則應當更優。
  • 「隱私」令人疲憊不堪,保護隱私是躲不過的話題……
    在筆者切換不同網站時,發現自己會無數次點擊「同意」:這些是您的通用數據保護法規(GDPR)選項、這個需要您的同意、關閉您的廣告攔截器、關閉隱私瀏覽模式、允許我們為您量身定製相關廣告;點擊這個按鈕,允許我們收集您的數據,然後您可以繼續瀏覽網頁。
  • HTTPS加密可保護安全且具有隱私保護的網站
    HTTPS用於對訪問的網站進行身份驗證,並保護所交換數據(即您看到和說出的內容)的隱私和完整性。隱私和安全性是我們為什麼使用HTTPS的最重要原因,但是建立信任以及填充搜索排名將其完美地列出了。
  • 蘋果完全禁用第三方Cookie,就能保護好用戶隱私了嗎?
    蘋果的博文中提到,全球瀏覽器狀態已成為 Web 社區隱私保護中的關鍵一環。自 2018 年歐盟最嚴數據保護法規《GDPR》生效以來,各大廠商紛紛在隱私保護的鐵錘下吞下了巨額罰單:谷歌被處以 5000 萬歐元罰款,英航、萬豪等大企業也因數據洩露被處以數千萬級別的罰款。
  • 數字廣告,如何突破隱私保護瓶頸?
    這部宣傳片與隱私相關,它羅列了人們在生活中拼命保護隱私的種種行為,比如拒絕父母進入自己的房間、用碎紙機粉碎文件以及緊緊拉上臥室的窗簾。這個視頻指向了一個真實存在的問題:我們是否忽視了線上隱私保護的重要性,以至於容忍隱私在線上世界長時間「裸奔」?2、隱私保護的難題2018年的劍橋分析門,是用戶隱私意識抬頭的標誌性事件。在這個醜聞中,不當洩漏的個人數據被用於政治廣告的精準投放,這讓人們意識到數據的巨大威力並產生恐懼。恐懼又誘發用戶通過輿論反抗,迫使立法者不得不作出回應。
  • 在毫無隱私的數字時代 你的蘋果在怎樣保護你
    在我們進入高速發展的數字時代後,隱私問題就成了最常見的話題。而消費者們也將手機行業分為蘋果和安卓兩大陣營,反覆進行對比,有人認為蘋果對於隱私的保護比大多安卓手機強,但蘋果卻總曝出Siri語音流向等問題,讓人捉摸不透。