IJCAI 2020|推薦系統中的隱私威脅與對策

2020-12-06 微眾AI

本文介紹的是由微眾銀行聯合香港科技大學研究員高大山、譚奔、鞠策、鄭文琛和楊強教授共同完成,被國際人工智慧頂會IJCAI 2020下設聯邦學習專項研討會(FL-IJCAI』20)錄用的論文《Privacy Threats Against Federated Matrix Factorization》。該論文提供了推薦系統領域一類最常用算法的聯邦化方案,為聯邦推薦系統落地提供快速便捷的技術路徑。全文地址:https://arxiv.org/abs/2007.01587

推薦系統廣泛應用於眾多日常生活場景中。從電商購物、在線視頻到新聞流,推薦系統已然成為智能時代的關鍵技術。隱私保護問題隨著推薦系統對個人數據需求的增加而變得愈發重要。聯邦學習作為一種解決隱私問題的重要技術,通過在各個參與方本地訓練模型並交換參數,來實現在隱私數據不出本地的前提下,多方合作構建推薦系統。但是簡單的參數傳遞仍然存在隱私洩漏的風險。微眾銀行AI營銷團隊聯合香港科技大學研究了不同聯邦推薦場景下推薦系統中的潛在隱私風險,並提供了解決方案。

推薦系統的「數據孤島」困境

推薦系統技術在商業社會中為國內和國際眾多科技巨頭騰訊,Google等公司帶來海量的營收。在電商購物與短視頻推送等眾多業務場景中,推薦系統根據收集到的用戶數據為不同用戶推送個性化的內容,已然成為智能時代的關鍵技術。

傳統上,為了訓練高性能的推薦系統,一家公司需要收集足夠多的用戶數據。然而,由於「用戶-商品」交互的稀疏特點,單個公司很難收集到足夠的數據來訓練滿意的推薦模型。近年來頒布的GDPR(通用數據保護條例)和CCPA(加州消費者隱私法案)等數據安全法律法規又嚴格限制了公司間的用戶數據共享,使得公司間共享用戶數據充滿風險,阻礙推薦系統的發展。

聯邦學習作為一種新的機器學習範式,使得不同參與方可以在不洩露隱私數據的前提下協作構建一個智能系統。同時解決了隱私保護與數據稀缺問題。儘管聯邦推薦技術可以通過參與方之間交換參數的方式避免原始訓練數據洩露和傳輸,但訓練聯邦模型過程中交換的參數依然可能洩露參與方的隱私數據。微眾銀行AI營銷團隊聯合香港科技大學深入研究推薦系統中,建立聯合模型時,面對交換明文參數的潛在隱私風險,針對性地使用加密技術避免隱私洩漏。特別的,以矩陣分解推薦算法為例,在不同的推薦場景下,展示了一個誠實但好奇的參與方如何在明文參數交換過程中竊取用戶的隱私評分數據,並討論了幾種隱私保護技術以抵禦隱私洩露風險。

明文聯邦矩陣分解為什麼洩露隱私?

我們假設有A,B兩個參與方進行聯邦推薦建模。數據分布有以下兩種情況。

橫向聯邦矩陣分解

圖1. 橫向聯邦矩陣分解數據分布場景

兩個參與方持有相同的「用戶-商品」交互矩陣,每個參與方有交互矩陣的一部分觀測值。參與方希望通過聯邦學習將所有觀測到的用戶行為(如評分)用於訓練一個聯邦推薦模型。當使用{用戶, 商品, 行為}表示一條記錄時,每個參與方持有所有用戶與商品的特徵矩陣。參與方在本地完成參數梯度計算與模型更新。僅在模型整合過程中計算A、B特徵矩陣的平均值。

圖2. 橫向聯邦矩陣分解訓練過程

好奇的參與方可以根據模型聚合前後的梯度變化解算出另一方更新的模型梯度。由於「用戶-商品」交互矩陣的稀疏性,對於一次梯度更新,模型的每一個梯度往往來自一個商品或用戶。因此,根據解算出的梯度信息,好奇的參與方可以容易地通過比對商品特徵矩陣與用戶特徵矩陣的梯度來推測出另一方用於模型訓練的{用戶,商品}對。在推測出對方的「用戶-商品」交互信息後,好奇的參與方可以容易地計算出對方訓練數據的用戶行為數據。

圖3. 橫向聯邦矩陣分解隱私威脅

自此,好奇的參與方可以僅通過分析本地模型與更新後的全局模型,就獲取另一個參與方的模型數據,和用於訓練的「用戶-商品」原始數據。另一方的模型隱私與數據隱私遭到了嚴重的洩露。

縱向聯邦矩陣分解

在縱向聯邦推薦中,推薦方A持有「用戶-商品」交互矩陣,輔助數據提供方B持有用戶或商品的輔助信息,例如用戶生日、性別、行為等,商品的價格、分類等。當參與方B持有用戶輔助數據的時候,在進行聯邦學習前,兩個參與方需要根據用戶ID進行樣本對齊。

圖4. 縱向聯邦矩陣分解數據分布場景

為了訓練縱向聯邦推薦模型,輔助數據提供方B需要在本地計算用戶中間特徵,並發送給推薦方A。而推薦方A不需要向B發送任何數據或參數。因此,推薦方A沒有隱私洩漏風險,而輔助數據提供方B把每個用戶的中間特徵洩露給A。同時,在此縱向聯邦場景下,由於樣本對齊的需要,用戶對齊過程中的共有用戶ID洩露造成了新的隱私威脅。

圖5. 縱向聯邦矩陣分解訓練過程及隱私

聯邦矩陣分解中的隱私保護對策

既然明文形式聯邦矩陣分解技術會帶來潛在的參與方模型與訓練數據洩露風險,我們應當如何防範潛在的隱私攻擊呢?

對於橫向聯邦矩陣分解,由於聯邦模型聚合前後的梯度信息會洩露參與方的訓練數據,因此我們要確保每輪更新後的全局模型一直處於加密狀態。

對於縱向聯邦矩陣分解,只有輔助數據提供者向推薦方發送中間特徵結果。為了保護輔助數據提供者的隱私,我們對發送的中間結果加以保護。

目前主要有三種隱私保護技術可以解決聯邦矩陣分解中隱私洩露的問題:密碼學方法、混淆方法和基於硬體的方法。

密碼學方法一般使用同態加密(homomorphic encryption,HE)和多方安全計算(secure multiparty computation,MPC)技術來保護中間傳輸參數。使用密碼學方法的橫向聯邦矩陣分解每一輪更新後的全局模型以及本地模型都始終處於加密狀態。在縱向聯邦中,輔助數據提供者發送的用戶中間特徵被加密。

圖6. 基於同態加密的聯邦矩陣分解

混淆方法使用諸如差分隱私(differential privacy,DP)等技術對更新的參數添加噪聲,以防好奇的參與方推測訓練數據。然而對於聯邦矩陣分解,由於「用戶-商品」交互矩陣的稀疏性,加入可以有效保護隱私的噪聲往往會使得模型變得不可用。

圖7. 基於差分隱私的聯邦矩陣分解

基於硬體的方法利用可信執行環境(trusted execution environment,TEE)來在一個隔離的安全環境中執行聯邦學習。所有參數在不可以被直接訪問的可信計算環境中完成更新。相比於密碼學方法,基於硬體的TEE無法給出安全證明,一旦發生漏洞,將難以通過軟體修補。同時TEE依賴於參與方都信任的中心化的遠程硬體認證服務,如果該認證服務被攻擊,那基於TEE隱私保護方案對程序執行過程中的抗篡改性也無法保證。

圖8. 基於可信執行環境的聯邦矩陣分解

總結

推薦系統中的隱私保護問題隨著推薦系統對個人數據需求的增加而變得愈發重要。聯邦學習作為一種解決隱私問題的重要技術,可以實現隱私數據不出本地的前提下多方合作構建推薦系統。微眾銀行AI團隊聯合香港科技大學研究了交換明文參數進行聯合建模的潛在隱私風險。針對每一種場景,我們展示了一個誠實但好奇的參與方如何在參數交換過程中竊取其他參與方的模型以及用戶的隱私評分數據,討論了如何使用同態加密、多方安全技術、可信執行環境等隱私保護技術來建立聯邦推薦模型並規避隱私風險。

本文所探討的問題皆來自於微眾銀行AI營銷業務實踐,基於聯邦學習技術,微眾銀行AI營銷團隊首創了以聯邦廣告、聯邦推薦等核心技術和平臺為特色的高效安全的金融營銷解決方案,覆蓋營銷全鏈路,有效解決金融行業數據安全與營銷效率難題,同時開源開放技術能力,連接行業夥伴。

文中提到的技術細節可以參考我們放在ArXiv的文章https://arxiv.org/abs/2007.01587。

工程實現細節可在我們的開源算法庫FedRec(https://github.com/FederatedAI/FedRec)中找到。

相關焦點

  • 在推薦系統中,我還有隱私嗎?聯邦學習:你可以有
    它通過利用上面兩種方法中的技術優勢來構建更好的推薦系統。然而,在推薦系統無所不在的網絡環境中,用戶越來越強烈的意識到自己的數據是需要保密的。此外,從政府層面看,隨著 GDPR 在歐洲的啟動和美國類似法律的出臺,越來越多的國家將效仿這一做法,進一步導致傳統的推薦系統所依賴的訓練數據越來越匱乏。在這樣的背景下,能夠實現隱私保護的推薦系統的研究與發展越來越重要。
  • IJCAI 2020|推薦中的深度反饋網絡
    作者 | 謝若冰編輯 | 叢 末1導語在推薦系統中,用戶的顯式反饋、隱式反饋、正反饋和負反饋都能夠反映用戶對於被推薦物品的偏好。這些反饋信息在推薦系統中十分有用。推薦系統算法往往基於用戶與系統的交互,這些交互行為可以大致分為以下兩類:顯式反饋與隱式反饋。顯式反饋從用戶對於物品的直接態度中獲取,例如評論中的一星到五星,或者微信看一看系統中的「不感興趣」按鈕。這類反饋能夠直接表達用戶的正向以及負向偏好,但是這類反饋的數量往往不多。隱式反饋從用戶的行為中間接獲得,例如用戶的點擊/不點擊行為。
  • AAAI 2021論文接收列表放出,IJCAI 2020即將召開!AI頂會最新動態...
    大會官網:https://ijcai20.org/  大會主席:Marie desJardins;PRICAI主席:Hideyuki Nakashima  大會線上舉辦具體日程表:  日程表網址:https://static.ijcai.org/ijcai-pricai-2020-schedule/  IJCAI 2020論文審稿和錄取情況:
  • 蘋果拒絕在Safari部署16個Web API 避免對用戶隱私構成威脅
    蘋果拒絕在Safari部署16個Web API 避免對用戶隱私構成威脅 站長之家(ChinaZ.com) 6月29日 消息:據zdnet報導,
  • IJCAI2020接收微信2篇論文,聚焦工業級智能推薦系統及應用
    近日,自然語言處理(NLP)領域的頂級會議ACL2020公布了論文評審結果,微信7篇文章被收錄;而人工智慧領域的頂級會議IJCAI2020前不久公布的收錄結果裡,微信也有2篇文章被收錄。微信在國際頂級會議上頻繁的出色表現,也代表了其在人工智慧領域的強大實力。
  • IJCAI 2019 論文收錄結果最新出爐!歷年傑出論文帶你重溫 AI 發展...
    論文地址:https://www.ijcai.org/proceedings/2018/0250.pdf 玩的是什麼遊戲?從遊戲中的正態與拓展性端到端學習What Game are We Playing?
  • 水電站勵磁系統的故障原因及對策
    勵磁系統是水電站比較重要的控制系統,是水電站發電機組的重要組成部分。勵磁系統在實際運行過程中出現故障時將直接威脅到水電站的安全運行。作者介紹了水電站常見的勵磁系統故障,根據現象分析了發生的原因,並提出了相應的解決對策。希望對相關人員有一定的借鑑意義。
  • 加速度傳感器如何偷偷地威脅我們的隱私
    打開APP 加速度傳感器如何偷偷地威脅我們的隱私 佚名 發表於 2020-03-25 08:43:54 根據我們的實驗結果,在關鍵字檢測任務中,這種竊聽攻擊可以以平均90%的準確率識別並定位用戶語音中所攜帶的關鍵字。攻擊者在訓練自己的模型時可以自行選擇想要識別哪些關鍵字。在數字識別的任務中,這種竊聽攻擊可以以接近80%的準確率對0到9十個數字的英文發音進行區分。準確率有所降低的原因是數字的發音較為簡單,越複雜的詞彙識別率越高。
  • IJCAI 2020|基於內部-環境注意力網絡的推薦多隊列冷啟動召回
    作者 | 謝若冰編輯 | 叢 末1導語真實世界中的綜合推薦系統(例如微信看一看)通常需要從上百萬異質物品中進行推薦。直接在百萬候選集上使用複雜的推薦算法,往往會引入難以承受的時間成本。隨著信息的指數級爆炸增長,真實世界的綜合推薦系統通常需要從千百萬異質物品中進行篩選和推薦。一些複雜的user-item pair-wise的推薦算法,如DIN、DeepFM、AutoInt等,需要窮盡所有候選集進行計算。然而,在百萬千萬級的數據下,哪怕接近線性時間的計算複雜度也是系統難以接受的。
  • 只花5-10分鐘評審,還不提供拒稿理由,IJCAI就「槍斃」42%論文
    不幸的是,除非你在評審委員會中有某種個人影響力,否則你真的無能為力。歡迎來到學術界,在這裡,你的牙齒會被打掉,因為其他人都被打掉了。更有網友調侃道:「這讓我想起了Little Britain中的一個場景。」
  • 優必選斬獲 IJCAI 2017最佳學生論文獎,13篇論文入選
    在這13篇論文中,《Tag Disentangled Generative Adversarial Networks for Object Image Re-rendering》這篇論文一舉斬獲最佳學生論文獎(Student Best Paper 2017, 地址:https://www.ijcai.org/proceedings/2017/0404.pdf),《General Heterogeneous
  • Arxiv網絡科學論文摘要15篇(2020-09-29)
    同時相關性和多樣性:一種新的推薦推理方法;阿根廷銀行間貨幣市場的網絡拓撲;反應式監管:一種收集反諷數據的新方法;基於共享網絡的分解方法求解大規模多模校車路徑問題;放寬對社會網絡的共同信念;說服遇到AI:社會工程對策設計的倫理考慮;Twitter上COVID-19的(不實)信息生態系統
  • 區塊鏈應用中的安全與隱私專題 《中國科學:信息科學》英文版
    隨著區塊鏈技術的發展和廣泛應用, 區塊鏈也逐漸暴露出安全隱私問題, 必須得到足夠的重視. 和傳統中心化結構相比, 區塊鏈技術不依賴於某個特定的中心節點, 系統中的每個區塊鏈節點分別獨立存儲數據和處理數據, 有效避免了單點失敗的問題. 然而, 為了達到公開驗證, 區塊鏈中所有的交易記錄 (數據) 必須公開, 這將導致隱私洩露問題.
  • 推薦系統頂會RecSys2020大獎出爐!騰訊摘獲最佳長論文獎
    Recommendations》ACM RecSys(推薦系統會議)是用於介紹推薦系統廣泛領域中的最新研究成果、系統和技術的國際會議。推薦是信息過濾的一種特殊形式,它利用過去的行為和用戶相似性來生成信息項(items )列表,這些信息項是針對最終用戶的喜好量身定製的。RecSys與從事推薦系統的主要國際研究小組以及許多世界領先的電子商務公司匯聚在一起,因此,它已成為介紹和討論推薦系統研究的最重要的年度會議。
  • 今年315隱私成為關注重點?手機這幾個設置保護個人隱私
    而今年315,手機中的隱私洩漏問題成了消費者關注的重點,畢竟躺在手機簡訊裡的「澳門賭場」,以及平時隔三差五就接到的「買房」電話就讓人不堪其擾。當然,被電話騷擾影響生活還算小事,嚴重的甚至會威脅到人身、財產安全,所以保護個人隱私變得尤為必要。    在手機上要如何保護個人隱私呢?
  • 優必選獲IJCAI 2017最佳學生論文獎 13篇論文入選國際頂級人工智慧...
    在這13篇論文中,《Tag Disentangled Generative Adversarial Networks for Object Image Re-rendering》這篇論文一舉斬獲最佳學生論文獎(Student Best Paper2017,地址:https://www.ijcai.org/proceedings/2017/0404.pdf),《General Heterogeneous
  • 交出你的隱私
    本文作者分析,電商為了更精準地理解消費者邏輯、瞄準有效消費者,會在購物過程中收集用戶隱私,將其用於營銷與市場開發,進而更有針對性地促成消費。 入侵隱私,是大數據的基因性格。我們在享受大數據服務所帶來的便利性時,必須思考如何應對其幕後的掌控者,以保護人的尊嚴與自由免受剝奪。文章原刊於2016年1月3日《東方早報·上海書評》,僅代表作者觀點,特此編發,供諸君思考。
  • 2020教師備考——《隱私和隱私權》說課稿
    【導讀】華圖寧夏教師招聘考試網同步華圖教師發布:2020教師備考——《隱私和隱私權》說課稿,詳細信息請閱讀下文!如有疑問請加【2020寧夏教師招聘考試交流群匯總】 ,更多資訊請關注寧夏教師微信公眾號(ningxiajsht),寧夏教師招聘考試培訓諮詢電話:0951-6028571/6027571 18295188220,微信號:ht18295188220   今天大家一起來看看——《隱私和隱私權》說課稿   各位評委、各位老師,大家好!
  • 隱私計算2020盤點: 數據安全流動新藍海業已形成
    據福布斯權威統計,網絡安全及隱私相關創業企業在2020年共融得107億美元,這一數字與10年前相比增長了5倍。在涉及相關業務的22156家創業企業中,有1450家在過去一年中獲得前種子輪或種子輪融資。另據C.B. Insight預計,到2025年,網絡安全行業的整體估值將超過3000億美元。在國內,隱私計算領域的領先企業在過去一年同樣獲得資本垂青。
  • 被指侵犯公民隱私堪比「稜鏡計劃」,英情報部門:反恐需要
    > 來源:澎湃新聞 英國慈善組織「隱私國際」指出,英國情報部門軍情五處(MI5)和軍情六處(MI6)等收集了大量與情報無關的個人隱私信息,且缺乏適當、合法的安全保障措施