聯邦學習(Federated Learning)作為人工智慧的一個新分支,為機器學習的新時代打開了大門。JDD風控算法團隊將通過聯邦學習白話三部曲,為大家揭秘聯邦學習的前世今生。
本段為您解讀:
1. 聯邦學習為什麼這麼熱?
2. 聯邦學習能做什麼?
3. 三合一速成法則告訴你聯邦學習是什麼?
4. 「百萬富翁」帶你揭秘如何直觀理解隱私保護技術?
5. 聯邦學習會損害模型效果嗎?
如果投票問人工智慧和大數據應用領域有什麼好玩又好用的新技術,「聯邦學習」一定是排在前列的。這項技術由谷歌在2016年首次提出,從2018年8月開始在國內快速發展和普及,截至2020年2月,有公開資料可查的聯邦學習研究或應用單位已超過百家,阿里、微眾、京東、騰訊、華為、平安等各領域的頭部企業均在大力推進。身邊做技術和業務的朋友都在說:忽如一夜春風來,聯邦學習突然就在圈子裡傳播了,在聊天中不發表點聯邦學習的看法都不好意思。
第一個問題是,為什麼聯邦學習會突然冒出來、如此受歡迎呢?我們認為有以下幾個重要的觸發因素。
(1)在谷歌提出聯邦學習之前,歐盟就在探討移動網際網路的隱私數據保護問題,於2016年4月通過了《通用數據保護條例》,並於2018年5月強制實施,嚴格約束了個人隱私數據的收集、傳輸、保留和處理。才過半年,谷歌即被罰款5000萬歐元,因為其收集和使用用戶數據觸犯了該條例。在中國,數據保護的法規也在不斷完善。例如,全國信息安全標準委員會先後於2017年12月和2020年3月發布了兩版《信息安全技術個人信息安全規範》,對個人信息收集、儲存、使用作出了明確規定。大家應該還記得,在2019年10月份,幾乎每個APP都在更新用戶授權協議,令人不勝其煩,這就是因為相關法規趨嚴導致的。國內外隱私保護法規的不斷完善,使得移動網際網路的企業決策者不得不重新規劃未來的戰略方向。這是因為移動網際網路的生態價值在於其海量的用戶數據,如果數據不能用於生產,整個行業將受到巨大損失和挫折。
(2)中國特色的市場環境促進了基於移動網際網路的數字經濟爆發式的發展,通過改善人們生產生活體驗,數字經濟獲得快速增長並達到世界領先。例如,電商服務讓我們足不出戶買到生活物資,讓購物更便捷、更省時間,特別是解決了出門難人群的採購難題;網際網路金融實現了線上快速的風險評估和金融服務,解決了廣大民眾日常急用的借款需求;移動醫療使得遠程問診技術普惠大眾,讓患者可便捷地得到專家的指點,同時也極大地縮短了掛號、繳費等「排長隊」流程的時間;個性化資訊、短視頻、直播等新媒體內容極大地豐富了娛樂生活和社交,使得歡聲笑語越來越多了。2018年我國數字經濟總量達31萬億,GDP佔比達34.8%,數字經濟已成為帶動我國國民經濟發展的核心組成。數字經濟的關鍵在於數據和大數據分析技術。數據作為原料,大數據分析技術蒸餾出有價值的信息,進而幫助用戶更快地找到需要的商品和媒體服務、為優質用戶提供低息貸款、更準確的診斷疾病。在此次應對疫情的防控保衛戰中,大數據正發揮著越來越大的作用,在科技助力下,相關部門可以儘早發現疑似病患、密切接觸者,有助於及時隔離、切斷傳染源。然而,由於上述國內外數據隱私保護法規的推出,網際網路數據分散在不同企業或者終端形成「數據孤島」,不能直接共享或者交換,因此我們急需破解數據孤島的技術。
在數據隱私安全保護需求和破解數據孤島需求的背景下,聯邦學習應時而生。它能夠實現在不洩露隱私數據的情況下實現企業間的數據融合建模,成為解決上述問題的首選技術。如此實用的技術發展之迅速,普及之廣泛,不足為奇。
上面介紹了聯邦學習的現狀和用途,下面回答聯邦學習是什麼?與其他技術的區別在哪裡?
從技術角度看,聯邦學習是一種隱私保護的分布式機器學習技術,包括機器學習、分布式、隱私保護三個技術關鍵詞。對這三種技術的研究已有幾十年歷史,但直到近年來,它們在工業實踐中才做到真正結合併蓬勃發展。
第一個關鍵詞是機器學習,它是計算機從數據中尋找統計規律的過程,用於像人一樣解決不確定性問題,比如在不同光照條件下判斷出熟人及其名字(人臉識別)、依據對某人歷史行為的評估決定是否借錢給他(風控準入建模)以及借多少(授信額度建模)等等。人的學習過程是從書本、老師以及實踐探索中不斷積攢經驗,成為具有「智慧」的個體;機器學習與此略有不同,它的經驗來源於大量的數據,接受某個領域的數據便可成訓練成為該領域的「智能體」,例如,大量的人臉圖像可以訓練出人臉識別或身份認證系統。利用數據獲得經驗的過程稱之為建模;利用經驗對新數據做出估計或者預測的過程稱之為推理。
機器學習可解決數字經濟中的諸多問題,比如說克服因服務人員經歷不足或情緒不佳影響產生的偏見和歧視。這是因為在大數據時代,機器學習可獲得更加全面的數據和經驗,據此提升社會服務的公正性。機器學習無需人工幹預即可實現智能服務,因此還可以大幅提高生產效率。例如在618購物節中,京東智能客服7*24小時不間斷地為數億用戶解答疑問,這是傳統人工客服團隊不可能做到的。
第二關鍵詞是分布式,是指數據被分為若干份,各份數據的存儲和計算都分布在不同位置。其中,不同位置包括不同的用戶終端或者企業伺服器。像手機、平板電腦這樣的用戶終端已逐漸成為人們生活的必需品,被廣泛用於社交、獲取新聞資訊、記錄備忘、消遣消費等,其用戶日均使用時長達到5小時(2018年移動網際網路報告)。隨著使用時間的增加,用戶終端存儲了大量的隱私數據,包括朋友聊天記錄、瀏覽記錄、日程安排、照片視頻等。不誇張地說,這些數據從不同側面展示了一個「數位化的你」。
數位化的好處在於讓計算機更「懂你」,進而提供貼心的服務,例如推薦最想買的商品、找回遺忘的資料等。數位化的壞處在於隱私洩露,2019年央視3-15晚會就介紹了個人隱私信息通過手機App洩露的案例。因此,法規一般要求這些數據在非授權情況下只能存儲在用戶終端,或者授權情況下存儲在對應的企業伺服器,禁止洩露給第三方。在不傳輸隱私數據的前提下,分布式的機器學習可以使用存儲在不同終端或者企業的數據,例如谷歌的GBoard移動鍵盤團隊使用分布在150萬用戶終端的6億個句子提升了手機輸入法預測下一詞的準確性,這讓用戶可以快速輸入腦海中的字詞,也能聯想到新出現的流行詞、縮寫詞等。通過這種分布式的方法,我們可以讓用戶享受大數據帶來的良好體驗,同時又能避免隱私數據的傳輸。
第三個關鍵詞是隱私保護,它是防止惡意攻擊的盾牌。分布式的機器學習可以使用分布在不同終端或者企業的數據,雖然不會直接傳輸用戶隱私數據,但是黑客(惡意的聯邦成員)可以使用一些特殊的破解技術,利用建模階段所需的大量中間值,推算出對應的原始數據,進而竊取聯邦內的用戶隱私。
隱私保護技術的主要思想是對訓練過程的中間結果進⾏某種變換,以掩蓋原始數據或改變其數據特性,⽐如連續性、分布規律等,從⽽使得惡意聯邦成員的破解技術失效,同時還能保證誠實的聯邦成員依然可以從數據中學習到經驗。就相當於數據提供方將數據放入保險箱中進行傳輸,其他聯邦成員無法打開箱子看到真實數據,但卻可以在不解鎖的情況下,對保險箱中的數據完成訓練所需的操作;當訓練完成後,數據提供方再開箱取出計算結果即可。這種理想的功能需要我們使用特殊的技術進行實現,其中常⽤技術包括差分隱私、同態加密等。簡單來說,差分隱私對數據加上一定程度的隨機噪聲,例如將年齡從50改為46(-4)或者51(+1),這可使得某些破解技術失效;同態加密是將數據變換到另一個數域的技術,新數域的大小順序、分布都會發生變化,所以不可能被破解出原始數據。
因此,聯邦學習是機器學習、分布式、隱私保護三合一的交叉技術。與現有的分布式機器學習不同,聯邦學習主要受制於原始數據分布在不同位置的嚴格約束,不能有任何洩露原始數據的風險,隱私保護技術是防止洩露的關鍵。
這裡我們以「百萬富翁」設想為例,簡單直觀地說明隱私保護技術的需求和解決方案。這是個非常經典有名的案例,是由計算機界最有名的姚期智院士於1982年提出的數學難題。有意思的是,這個問題引發了更多的相關研究,並逐漸發展成為密碼學的一個重要分支。「百萬富翁問題」是這樣的:兩個爭強好勝的富翁A和B在街頭相遇,如何在不暴露各自財富的前提下比較出誰更富有?
這個問題的難點在於,兩個富翁都不想暴露自己的財富數量,既不想直接告訴對方也不願藉助第三方機構的幫助。如何直觀地解決這個問題?我們可以參考一種「變換」的方法。假設兩個富翁(A和B)的財富都在 10 B$(100億美元)以內,則我們可以簡單地用十個盒子比較出A和B誰的財富更多。
首先,由A進行如下操作:給盒子貼上編號,並按照財富值放入水果,放置規則如下:如果編號等於財富值的盒子放入橙子,編號小於財富值的盒子放入蘋果,編號大於財富值的盒子放入香蕉。假設A 的財富是3 B$,則放置結果如圖所示。
然後,A給所有盒子上相同的鎖(即要求開鎖的鑰匙是一樣的,依靠鑰匙不能辨別盒子的編號)。這裡將財富值「變換」為鎖在盒子裡的水果,本質是一個加密過程。
接下來A下場、B上場,B知道A的操作是編號、放水果、上鎖,但是不知道每個盒子裝了什麼水果。B要做的是選擇與自己財富對應的盒子去除編號,並銷毀其他盒子。這裡去除編號的目的在於讓A不知道B選擇了哪個盒子,從而避免洩露B的財富數量。
最後,A和B同時上場,由A開鎖打開剩下的無編號的盒子,這個盒子裡對應的水果就能推斷出誰更富有。這裡基於水果推測結果,本質是一種解密過程。假設B的資產是5 B$,則打開盒子獲得香蕉,表明B更富有;假設B的資產是2 B$,則獲得蘋果表明A更富有;假設B的資產是3 B$,則獲得橙子表明A和B的財富是差不多的。通過這幾個步驟,A和B都沒有向任何人洩露自己的財富數量,但成功實現比較,這就是一種隱私保護的比較計算技術。
也許有讀者會問,在這個解決方案中,B可以通過順次比較的方式,最多9次就能破解A的財富是多少了。確實如此,這主要是因為這裡只用到10個盒子,而我們可以通過增加盒子數量的方式增加破解的難度。在實際操作過程中,一般採用基於數論的密碼學技術,這種技術的破解難度非常大,即使用最先進的計算機可能也需要數百年才能破解。
在與其他團隊進行技術交流時,我們發現很多朋友對聯邦學習存在主觀偏見:聯邦學習的主要作用是合規地共享數據能力而不洩露用戶隱私,依據經驗和「沒有免費的午餐」定律,隱私保護會損害機器學習的模型效果(例如預測準確性或排序性)。事實正好相反,聯邦學習並不會損害模型效果,反而能夠從如下兩個方面提高業務模型的效果。
一方面,聯邦學習理論上是可以獲得最優解的,通過梯度下降迭代過程,可以實現聯邦間的特徵組合和交叉建模,從而解決如「異或」這樣的非線性問題,這等價於把數據拼到一起後進行機器學習的效果。異或問題如下表所示:
傳統的子模型法為了控制數據洩露的風險,往往只能帶少量樣本的標籤(Label)到其他企業建模,然後融合雙方子模型的輸出分獲得最終決策,這就如同盲人摸象每次只能看到一個側面,效果難以達到最佳。對於上述異或問題,子模型發現無論特徵(Feature)是「0」還是「1」,標籤分別是「Bad」和「Good」的比例都是差不多的,因此子模型的判斷準確率只有50%,這和扔硬幣方式的猜測差不多。相比之下,聯邦學習可以建立如下圖所示的決策樹模型,有效地解決異或問題的判斷,準確率從50% 提高到100%。
另一方面,聯邦學習由於能夠保護數據隱私安全,因此無需限制建模樣本的數量。也就是說,聯邦學習可以使用更多的數據建模,因而能夠基於大數據更有效地發現數據規律,提高模型效果。
上述兩個方面從理論上表明,聯邦建模效果優於傳統子模型法。在行業實踐的一個包含2家企業的聯邦POC驗證中,聯邦學習相比於單側模型的效果提升了13%,相比於傳統子模型法也有4%的提升。也許有人質疑4%的相對提升並不高,但是,移動網際網路市場環境表明,隨著拓新增量市場見頂,流量紅利耗盡,存量市場的競爭將變得異常激烈,對於存量市場的精細化運營成為企業賴以生存和發展的依靠,每一點提升都將具有重要意義。此外,這僅僅是2家企業聯邦的效果,隨著聯邦成員數量增加,聯邦模型具有更多、更互補的視角,效果將會獲得更大的提升。
參考文獻
[1] Andrew Hard et., al. Federated Learning for Mobile Keyboard Prediction, https://arxiv.org/abs/1811.03604
[2] Qiang Yang et., al. Federated Machine Learning: Concept and Applications. ACM TIST2019. https://arxiv.org/abs/1902.04885
[3] Federated Learning: Collaborative Machine Learning without Centralized Training. https://ai.googleblog.com/2017/04/federated-learning-collaborative.html
[4] Kewei Cheng, Qiang Yang et., al. SecureBoost: A Lossless Federated Learning Framework. https://arxiv.org/abs/1901.08755
[5] 劉洋, 範濤. 聯邦學習的研究與應用. https://img.fedai.org.cn/fedweb/1553845987342.pdf
[6] Tian Li et., al. Federated Learning: Challenges, Methods, and Future Directions. https://arxiv.org/abs/1908.07873
[7] 飛向未來的埃舍爾. 聯邦學習/聯盟學習的發展現狀及前景如何?https://www.zhihu.com/question/329518273/answer/717840293
在移動網際網路時代,基於大數據的智能技術讓我們的生活更便捷、娛樂更豐富、生產更高效,唯一不足在於潛在的隱私洩露。在隱私數據保護相關法規推動下,聯邦學習如雨後春筍般在各大企業快速成長,成為解決隱私數據保護和數據共享矛盾的關鍵技術。本篇從聯邦學習的基本組成、直觀認識和準確性詳細剖析了聯邦學習技術,後續我們將繼續與大家探討聯邦學習的應用前景、當前難點、技術原理和實施方案。
未完待續,敬請關注。
上段內容回顧:
在上段內容中,我們與大家一起揭開了聯邦學習的神秘面紗,探索了聯邦學習成為解決隱私數據保護和數據共享矛盾的關鍵技術背後的原因。本段為您解讀:
1. 聯邦學習的應用前景廣播、電視、網際網路的相繼出現,時空距離驟然縮短,世界緊縮成一個「地球村」,「連接」促成了生產效率的提升和社會經濟的發展。例如,古有絲綢之路促進了中西方的經濟文化交流,海上航線促進工業革命成果的傳播和發展(19世紀前後),今有超過50億用戶的網際網路推動著知識傳播、技術進步和人機協作。聯邦學習也是一種「連接」工具,用於連接聯邦成員的大數據資產,具有非常廣泛的應用價值。
醫學研究需要這樣的連接工具,這是因為醫學研究往往需要大量的案例分析才能發現相關性和因果規律。例如筆者曾經研究的藥物副作用挖掘項目,旨在發現在臨床試驗中未暴露的藥物的副作用。一方面,該項目使用了一百萬患者持續六年的就診記錄,但只能發現少量常用藥物的副作用,對於那些不常用的藥物,這個量級的數據還遠遠不夠;另一方面,就診記錄屬於患者隱私,醫療機構之間無法實現數據共享,這種醫療機構的「數據孤島」阻礙了藥物副作用的發現,這在事實上損害了患者的權益。2) 政府和行業協會尚未發布正式的標準和法規,企業和金融機構對新技術存在顧慮。正在立項過程中的聯邦學習標準包括IEEE 3652.1, IEEE P2830,待其正式發布後將具有全球公認權威性。此外,京東等企業也在積極參與和推動中國的聯邦學習相關的國家標準立項。隨著技術標準的完善和實施,企業和金融機構不再有顧慮,聯邦學習將如同RSA非對稱加密等新技術的應用一樣無處不在。
3) 技術門檻較高。雖然市面上已有聯邦學習商業解決方案和開源項目,但其穩定性和準確性方面還存在不少異常問題和挑戰,需要頻繁的更新迭代。常見的移動網際網路服務是面向C端消費者的,以企業自身的快速迭代為特徵,因此對錯誤的容忍性較高。然而聯邦學習需涉及多個企業,對應的解決方案需面向B端企業,並且需要企業間生成集群和研發人員進行配合,這使得聯邦學習合作對異常問題的容忍度非常低。此外,企業需要投入較多的人力資源對聯邦學習進行安全性審核、部署、調試和優化,這導致中小企業不能快速使用聯邦學習。針對這個問題,包括京東在內的大型企業在投入大量資源研發簡單易用的商業解決方案,技術門檻正在逐步降低。
4) 商業模式待探索。聯邦學習能夠解決數據孤島問題並提升服務質量,進而產生社會價值和業務利潤。然而,聯邦學習仍處於探索中,還沒有可供參考的大規模商業應用,如何評估各個成員對聯邦的貢獻、如何進行利潤分配仍然是個開放的問題,需要聯邦成員進行探索和協商。這一點將在網際網路大數據業務需求的驅動下逐漸明朗。參考文獻
[1] Andrew Hard et., al. Federated Learning for Mobile Keyboard Prediction, https://arxiv.org/abs/1811.03604
[2] Qiang Yang et., al. Federated Machine Learning: Concept and Applications. ACM TIST2019. https://arxiv.org/abs/1902.04885
[3] Federated Learning: Collaborative Machine Learning without Centralized Training. https://ai.googleblog.com/2017/04/federated-learning-collaborative.html
[4] Kewei Cheng, Qiang Yang et., al. SecureBoost: A Lossless Federated Learning Framework. https://arxiv.org/abs/1901.08755
[5] 劉洋, 範濤. 聯邦學習的研究與應用. https://img.fedai.org.cn/fedweb/1553845987342.pdf
[6] Tian Li et., al. Federated Learning: Challenges, Methods, and Future Directions. https://arxiv.org/abs/1908.07873
[7] 飛向未來的埃舍爾. 聯邦學習/聯盟學習的發展現狀及前景如何?https://www.zhihu.com/question/329518273/answer/717840293
如果說大數據是網際網路時代的燃料,那麼聯邦學習就是網際網路時代的多缸發動機,促進網際網路應用提供更優質的服務。本篇主要介紹了聯邦學習前景、難點和實施方式。下篇將圍繞隱私保護的算法原理進行更詳細的介紹。關於聯邦學習的應用場景,你又有什麼看法呢?歡迎在公眾號裡給小編留言。上段內容回顧:
剛剛,我們與大家一起揭開了聯邦學習的神秘面紗,探索了聯邦學習成為解決隱私數據保護和數據共享矛盾的關鍵技術背後的原因,以及聯邦學習應用的前景、難點和實施方式。本段為您解讀:
1. 密碼技術的那些事兒
2. 聯邦學習的加密原理
如前文所述,聯邦學習是一種隱私保護的分布式機器學習技術。其中,隱私保護是聯邦學習的關鍵,這是因為傳統的分布式機器學習雖然可以實現聯邦成員之間的大數據建模,但是容易被黑客破解,導致⽤⼾隱私洩露。密碼技術是最常見、最有效的隱私保護方法,可以兼顧數據的可用性和隱私安全性。密碼(crypto)的概念由來已久,但與我們的手機解鎖「密碼」或者WiFi「密碼」不同。這些由我們自己設置、用來驗證身份的數字或者字母的組合,並非真正意義上的密碼,而是「口令」(password)。與簡單的口令相比,密碼技術則是指通信過程中的一種混淆技術,將明文的消息轉變為第三方不可識別的消息,在通信過程被竊聽時,防止消息的機密性被洩露。準確地來說,密碼技術將明文消息加密成密文,發送給通信的接收方,接收方在收到密文後使用密鑰進行解密,從而恢復明文。
然而,看似複雜的密碼其實並不神秘,反而與我們的生活息息相關。電影《唐伯虎點秋香》中的一首"我愛秋香"便是一種安全性較弱的「密碼」,將真實含義(明文)隱藏在每句詩的頭部,這種隱藏的邏輯便可視為密碼系統中的「密鑰」,不知道這個邏輯的人看到的只是一首刻畫風景的詩(密文),從而起到了隱藏「話外之音」的作用。由此可見,密碼對我們來說並不陌生。它源於人類生活中對隱私和機密性的需求,最終也發展成為了一門系統的科學,服務於人類的社會活動。縱觀密碼學的發展,可將其大致分為兩個階段:古典密碼學和現代密碼學。其中現代密碼學又可分為兩個分支:對稱密碼學和公鑰密碼學。古典密碼學的歷史可以追溯到古羅馬時期,凱撒大帝曾將簡單的字母移位方法作為加密手段,用於軍事活動中,保護戰時通信的機密性。該方案被稱為凱撒密碼。由於凱撒密碼中所有的字母移位的順序和位數都是相同的,其破譯難度較低,為了提高安全性,在凱撒密碼的基礎上演變出了維吉尼亞密碼,在字母移位時,不同的字母進行不同數量的移位,從而降低了使用密文統計特性進行破譯的風險。圖:凱撒密碼輪盤
以凱撒密碼和維吉尼亞密碼為代表的移位密碼體制,其構造都十分簡單,但人工計算時難免容易出錯,且效率較低。20世紀20年代,人們開始使用機械設備自動處理加密。比如二戰時期德軍使用的Enigma密碼機,給盟軍的密碼破譯工作帶來了很大的難度。隨著人們對密碼方法的研究逐漸深入,密碼攻擊手段也越來越多,另外由於計算機的出現以及人類計算能力的大幅提升,古典密碼方法的安全性已經不能滿足現代人類的需求。但是,古典密碼學的不斷發展,為密碼學的進一步研究提供了思路。1949年Shannon發表了《保密系統的信息理論》一文,這標誌著密碼學的研究進入了現代密碼學階段。從此,密碼學不再是一門藝術,而成為了一門系統的科學進入了人們的視野。如上文所說,現代密碼學又可以分為兩個分支:對稱密碼學和公鑰密碼學。而1976年則是現代密碼學發展過程中一個重要的時間節點。1976年之前,現代密碼學的研究主要集中在對稱密碼學方向。所謂「對稱」,是指加密方和解密方使用的是同一個密鑰。在對稱密碼學後續的研究中,出現了兩個較為著名的對稱密碼方案,分別為DES密碼體制和AES密碼體制。由於計算能力的提升,目前暴力破解DES成為了可能,因此AES代替了DES成為了新的加密標準並沿用至今。儘管以AES為代表的對稱密碼方案有著足夠高的安全性,但由於加解密的雙方使用共同的密鑰,如何讓雙方在不安全的信道上共享這一密鑰,是對稱密碼學面臨的一個問題。1976年Diffie-Hellman密鑰交換協議的提出,為這一問題提供了解決思路,同時標誌著密碼學的新方向——公鑰密碼學的誕生,將現代密碼學的研究帶入了一個全新的發展階段。公鑰密碼學又稱為非對稱密碼學,顧名思義,加解密的雙方不再使用同一個密鑰。其中加密方使用公開的公鑰對明文消息進行加密,在解密方收到密文後,使用私鑰進行解密。由於私鑰只有解密方持有,因此即使存在惡意敵手竊聽到了密文,也無法獲得明文的信息。典型的公鑰密碼方案包括RSA、Paillier等經典的方案,以及目前在學術界廣受關注的基于格的後量子密碼方案等等。對稱密碼方案和公鑰密碼方案的區別不僅僅在於加解密的密鑰是否相同。由於兩類方案使用不同的加密體制,其應用場景也有著明顯的區別。一般來說,由於對稱密碼方案加解密效率較高,經常應用於文件和數據的批量加密,而公鑰密碼方案通常有著密鑰冗長和效率較低等特點,多應用於密鑰分發和數字籤名等功能性設計中。另外,在公鑰密碼學的發展過程中,也出現了兩個重要的分支,即全同態加密和安全多方計算。這兩個密碼學的分支不僅為傳統的機器學習提供了新的發展方向,也為很多複雜業務場景的實現提供了思路。我們知道,機器學習一般使用梯度下降算法實現模型的最優化,聯邦學習也是如此。梯度可表示(或者近似)為加法和乘法的混合運算,因此聯邦學習的本質需求是加法和乘法運算進行保護。如前所述,同態加密技術可滿足該需求。具體來說,對數據進行同態加密所獲得密文可進行加法和乘法操作,結果解密後與數據直接進行加法和乘法的結果是一致的。其中,同時滿足加法和乘法的方法稱為全同態加密,只能滿足其中一種(加法或者乘法)的稱為半同態加密。由於全同態加密計算複雜度特別高,聯邦學習一般使用半同態加密,比較常見的是Paillier半同態加密,滿足如下性質的加法同態:其中:[·]表示Paillier加密操作,前者稱為加法同態,後者稱為數乘同態,數乘事實上是多個相同數值的加法。有了這兩個性質,就可以解決分布式學習所需的各種隱私保護計算了,例如基於梯度下降的迭代優化。以包含兩個成員(A和B)的聯邦線性回歸場景為例, A方的梯度計算式核心部分如下:上式包含加法和乘法兩種運算,可使用加法同態和數乘同態實現。值得注意的是,這裡的加密還具有非對稱加密的性質,密碼包括<公鑰,私鑰>,使用公鑰加密的數據只能通過對應的私鑰解密。表示用A的公鑰加密,這個公鑰會共享給聯邦成員,聯邦成員可以使用這個公鑰對數據進行加密,得到的密文只能由A通過自己的私鑰加密;同理,使用B的公鑰加密得到的密文只能由B解密。針對線性回歸模型,聯邦學習梯度下降算法的交互過程(A方)如下圖所示。B方的梯度下降迭代與此類似,感興趣的讀者可以此作為參考進行推導。從上面的例子可以看出,聯邦學習僅需在聯邦之間傳輸經過半同態加密的中間計算結果,確保了原始數據不出庫;同時由於半同態加密破壞了數據的連續性和分布特性,這使得黑客破解成為不可能。[1] Andrew Hard et., al. Federated Learning for Mobile Keyboard Prediction, https://arxiv.org/abs/1811.03604[2] Qiang Yang et., al. Federated Machine Learning: Concept and Applications. ACM TIST2019. https://arxiv.org/abs/1902.04885[3] Federated Learning: Collaborative Machine Learning without Centralized Training. https://ai.googleblog.com/2017/04/federated-learning-collaborative.html[4] Kewei Cheng, Qiang Yang et., al.. SecureBoost: A Lossless Federated Learning Framework. https://arxiv.org/abs/1901.08755[5] 劉洋, 範濤. 聯邦學習的研究與應用. https://img.fedai.org.cn/fedweb/1553845987342.pdf[6] Tian Li et., al. Federated Learning: Challenges, Methods, and Future Directions. https://arxiv.org/abs/1908.07873[7] 飛向未來的埃舍爾. 聯邦學習/聯盟學習的發展現狀及前景如何?https://www.zhihu.com/question/329518273/answer/717840293[8] 科學大家|保護信息安全的密碼 背後的原理你真懂嗎?[9] 二戰德軍密碼機- Enigma
http://www.boy-toy.net/thread-80044-1-1.html
今天的分享就到這裡,謝謝大家。
在文末分享、點讚、在看,給個三連擊唄~~
歡迎加入 DataFunTalk 聯邦學習交流群,跟同行零距離交流。如想進群,請識別下面的二維碼,根據提示自主入群。關於我們:
DataFunTalk 專注於大數據、人工智慧技術應用的分享與交流。發起於2017年,在北京、上海、深圳、杭州等城市舉辦超過100場線下沙龍、論壇及峰會,已邀請近500位專家和學者參與分享。其公眾號 DataFunTalk 累計生產原創文章300+,百萬+閱讀,7萬+精準粉絲。
🧐分享、點讚、在看,給個三連擊唄!👇