沒有哪一項技術像人工智慧一樣,綿延數十年,引領數次風口。從60年前的達特茅斯會議到深藍西洋棋再到AlphaGo,人工智慧一直在持續著迭代、創新。聯邦學習,就是人工智慧與大數據行業一個新興的技術,它的出現,有望解決數據孤島的難題。
但一項技術,如果沒有商業落地場景,其價值也將大打折扣。聯邦學習如何賦能數據產業,幫助企業挖掘數據價值?3月22日,騰訊雲TVP技術閉門會討論了這個走在時代前沿的話題。
聯邦學習激活了跨雲大數據合作
「從整體趨勢來看,國家對數據方面的監管是趨嚴的,對於數據保護的法律法規不斷完善,開始向GDPR的思路靠攏,嚴格定義數據的控制權和監管數據的流動,在這種情況下跨雲大數據合作基本不可行了。」
微眾銀行人工智慧部副總經理陳天健老師在分享聯邦學習帶來的變化前,先為與會者介紹了跨雲大數據合作的真實現狀。跨機構間的大數據合作在嚴格的合規要求下難以推進,機構內的大數據合作卻也遭遇了真實的瓶頸。
「很多企業解決內部數據流通的方式是搭建一個數據中臺,設想中的這個數據中臺建立以後,各部門非常和諧,通力合作,用大數據解決一系列問題。但實際上,決策者對數據中臺的幻想,最後都變成了妄想。各個部門知道數據的價值,都希望使用別的部門數據,但是又不願意洩露自己業務核心數據。權責不對等、安全性等問題,讓企業內部的數據合作同樣陷入困境。」
陳天健老師指出,數據合作難題背後有一個第一性原理需要解決:保證數據安全是大數據合作的基本命題。保證數據安全是大數據行業從第一天開始就一直在研究解決的問題,也是聯邦學習出現的歷史沿革:
上世紀90年代到2000年左右,聯邦資料庫的概念被提出,力圖解決存儲安全。
2010年到2015年間,安全多方計算的概念被提出,力圖解決計算安全。
2017年到現在,聯邦學習的概念橫空出世,力圖保證信息安全。
「聯邦學習希望做到各個企業的自有數據不出本地,而後聯邦系統可以通過加密機制下的參數交換方式,即在不違反數據隱私法規情況下,建立一個虛擬的共有模型。這個虛擬模型就好像大家把數據聚合在一起建立的最優模型一樣。但是在建立虛擬模型的時候,數據本身不移動,也不洩露隱私和影響數據合規。」
陳天健老師解釋道,聯邦學習目前有三種:橫向聯邦學習、縱向聯邦學習和聯邦遷移學習。相比較而言,縱向聯邦學習的業務場景更多,目前行業上能做到縱向聯邦學習的就只有微眾銀行、騰訊和VMware三家。
微眾銀行在Linux基金會開源了一個工業級的聯邦學習系統——FATE。據陳天健老師介紹,FATE不僅提供了聯邦學習原理性可以驗證的全套代碼,同時在系統的可用性、可靠性、數據安全可審計的特性,以及架構的可擴展性和其他軟體的互操作性方面都進行了大量的工作和研究。
「FATE在開源給社區以後,增加了管理功能,升級為FATE-Cloud,希望打破數據孤島,為跨機構間,機構內部不同組織間提供安全,合規數據合作網絡構建解決方案。也歡迎大家來試用,進一步理解聯邦學習。」
在分享最後,陳天健老師也回答了一些關於聯邦學習的觀眾提問,他還提到:與國外比較,中國在聯邦學習方面不好說是否領先,但在商業化進展和技術社區推進的角度看,起碼是與國外處於齊頭並進的狀態。
利用聯邦學習強化數據價值
「聯邦學習的能力不管是在公有還是私有場景下都會有很多訴求,騰訊雲神盾聯邦學習團隊希望將聯邦學習能力產品化,提升用戶在使用過程中的易用性,為數據供需雙方提供商業價值。」
騰訊雲大數據團隊研發副總經理雷小平向與會者解釋了騰訊雲的聯邦學習思路。他指出,不管是公有雲還是私有雲,對聯邦學習的訴求都很多,而公有雲能為聯邦學習帶來更多數據,讓數據變得更活,這是騰訊雲的解題思路。
雷小平在分享之初解釋了聯邦學習產生的背景,他重點提到了聯邦學習的典型應用場景有風控應用場景和廣告營銷場景。這兩個場景在數據應用當中都會有各自的特殊需求,傳統的解決方案無外乎三種,且都有短板:
數據脫敏後直接傳給另一方融合建模。短板:安全合規問題嚴重、審批流程複雜、可用數據範圍有限;
各自建模後融合模型。短板:模型效果未能挖掘全部潛力,還有巨大的業務提升空間;
數據脫敏後統一放在可信環境做融合模型。短板:可信環境並不公平,安全問題仍然存在。
隨後,雷小平老師總結了聯邦學習的三種思路:
ID匹配。不洩露查詢方ID、不洩露非重疊ID;
四則運算。不洩露計算各方的數值;
機器學習。改造模型,減少數據交互;將數據交互抽象為四則運算。
基於此,聯邦學習應運而生。雷小平老師指出,目前聯邦學習並不能解決所有數據融合上的安全問題,它主要針對比較典型的機器學習場景,包括機器學習前的特徵維度,以及學習完之後的數據服務都是聯邦學習的範疇。對多方數據做sql安全計算目前還不屬於聯邦學習範疇下。
為服務於廣大的To B場景客戶,滿足他們挖掘數據價值的需求,騰訊雲神盾聯邦學習團隊做了一套完整的解決方案。雷小平介紹到,目前神盾產品具有兩個典型場景,一個是拉新場景模型,另一個是首頁預測模型。這個產品在用戶側的使用十分簡單,從創建任務到安全求交、特徵工程、特徵選擇、結果展示只需五步。
「我們的底層模型、訓練框架是目前是基於微眾銀行的FATE框架做的,FATE框架現在是比較成熟的聯邦學習框架,能夠滿足我們模型所有的要求,我們要做的就是在上層做環境的安全以及產品化易用性以及場景化的改造工作。」
雷小平老師最後指出,騰訊雲神盾聯邦學習產品是首批通過信通院認證的產品,在實際的客戶案例中,給客戶帶來了實際的效能提升,真正做到了賦能大數據產業,讓數據變「活」。
在最後的線上交流環節,雷小平老師也針對觀眾提問做出了精彩回答。
聯邦學習是AI的新興領域
VMware首席架構師張海寧老師作為本場閉門會主持人,同時也是聯邦學習的資深人士,他對本場活動做出了極具概括性的總結:
「在我看來,聯邦學習是AI領域一個非常新興的方向。它能夠滿足用戶進行聯合建模,構造精確的人工智慧模型,同時可以保證雙方數據的隱私安全性。如果企業希望數據能夠增值,把數據變成資產,同時收取一定的服務費,這是聯邦學習非常有價值的點。20世紀石油是巨大的財富和資產,但是到了21世紀,一個公司最大的資產是數據,數據是最有價值的東西,數據如何變現產生新的價值,聯邦學習可能是其中的一個思路或途徑。」
可以想像,聯邦學習將成為AI領域的下一個重點方向。從2016年由Google提出後,其發展勢頭堪稱迅猛。更為關鍵的是,在聯邦學習的眾多玩家中,在技術實現和商業落地方面結合較好,走在前列的微眾銀行、騰訊雲都是中國企業。這將為聯邦學習的生態建設和標準制定帶來更為利好的消息。
--------------------------------------------------------------------------------
TVP,即騰訊雲最具價值專家(Tencent Cloud Valuable Professional),是騰訊雲授予雲計算領域技術專家的一個獎項。TVP 計劃致力打造與行業技術專家的交流平臺,構建雲計算技術生態,實現「用科技影響世界」的美好願景。
TVP成立之初,便秉承「用科技影響世界」的願景,讓技術普惠大家,踐行科技向善的初心和本心。如今,IT技術的價值已經廣泛地為普羅大眾所認可,開發者的社會價值前所未有地凸現,我們希望能用這一系列高端、前沿的技術閉門會,在這個疫情發生的艱難時刻,匯聚行業專家,幫助產業找到應對之法。