聯邦學習,解開數據產業「鐐銬」的金鑰匙

2020-12-17 大眾要聞

沒有哪一項技術像人工智慧一樣,綿延數十年,引領數次風口。從60年前的達特茅斯會議到深藍西洋棋再到AlphaGo,人工智慧一直在持續著迭代、創新。聯邦學習,就是人工智慧與大數據行業一個新興的技術,它的出現,有望解決數據孤島的難題。

但一項技術,如果沒有商業落地場景,其價值也將大打折扣。聯邦學習如何賦能數據產業,幫助企業挖掘數據價值?3月22日,騰訊雲TVP技術閉門會討論了這個走在時代前沿的話題。

聯邦學習激活了跨雲大數據合作

「從整體趨勢來看,國家對數據方面的監管是趨嚴的,對於數據保護的法律法規不斷完善,開始向GDPR的思路靠攏,嚴格定義數據的控制權和監管數據的流動,在這種情況下跨雲大數據合作基本不可行了。」

微眾銀行人工智慧部副總經理陳天健老師在分享聯邦學習帶來的變化前,先為與會者介紹了跨雲大數據合作的真實現狀。跨機構間的大數據合作在嚴格的合規要求下難以推進,機構內的大數據合作卻也遭遇了真實的瓶頸。

「很多企業解決內部數據流通的方式是搭建一個數據中臺,設想中的這個數據中臺建立以後,各部門非常和諧,通力合作,用大數據解決一系列問題。但實際上,決策者對數據中臺的幻想,最後都變成了妄想。各個部門知道數據的價值,都希望使用別的部門數據,但是又不願意洩露自己業務核心數據。權責不對等、安全性等問題,讓企業內部的數據合作同樣陷入困境。」

陳天健老師指出,數據合作難題背後有一個第一性原理需要解決:保證數據安全是大數據合作的基本命題。保證數據安全是大數據行業從第一天開始就一直在研究解決的問題,也是聯邦學習出現的歷史沿革:

上世紀90年代到2000年左右,聯邦資料庫的概念被提出,力圖解決存儲安全。

2010年到2015年間,安全多方計算的概念被提出,力圖解決計算安全。

2017年到現在,聯邦學習的概念橫空出世,力圖保證信息安全。

「聯邦學習希望做到各個企業的自有數據不出本地,而後聯邦系統可以通過加密機制下的參數交換方式,即在不違反數據隱私法規情況下,建立一個虛擬的共有模型。這個虛擬模型就好像大家把數據聚合在一起建立的最優模型一樣。但是在建立虛擬模型的時候,數據本身不移動,也不洩露隱私和影響數據合規。」

陳天健老師解釋道,聯邦學習目前有三種:橫向聯邦學習、縱向聯邦學習和聯邦遷移學習。相比較而言,縱向聯邦學習的業務場景更多,目前行業上能做到縱向聯邦學習的就只有微眾銀行、騰訊和VMware三家。

微眾銀行在Linux基金會開源了一個工業級的聯邦學習系統——FATE。據陳天健老師介紹,FATE不僅提供了聯邦學習原理性可以驗證的全套代碼,同時在系統的可用性、可靠性、數據安全可審計的特性,以及架構的可擴展性和其他軟體的互操作性方面都進行了大量的工作和研究。

「FATE在開源給社區以後,增加了管理功能,升級為FATE-Cloud,希望打破數據孤島,為跨機構間,機構內部不同組織間提供安全,合規數據合作網絡構建解決方案。也歡迎大家來試用,進一步理解聯邦學習。」

在分享最後,陳天健老師也回答了一些關於聯邦學習的觀眾提問,他還提到:與國外比較,中國在聯邦學習方面不好說是否領先,但在商業化進展和技術社區推進的角度看,起碼是與國外處於齊頭並進的狀態。

利用聯邦學習強化數據價值

「聯邦學習的能力不管是在公有還是私有場景下都會有很多訴求,騰訊雲神盾聯邦學習團隊希望將聯邦學習能力產品化,提升用戶在使用過程中的易用性,為數據供需雙方提供商業價值。」

騰訊雲大數據團隊研發副總經理雷小平向與會者解釋了騰訊雲的聯邦學習思路。他指出,不管是公有雲還是私有雲,對聯邦學習的訴求都很多,而公有雲能為聯邦學習帶來更多數據,讓數據變得更活,這是騰訊雲的解題思路。

雷小平在分享之初解釋了聯邦學習產生的背景,他重點提到了聯邦學習的典型應用場景有風控應用場景和廣告營銷場景。這兩個場景在數據應用當中都會有各自的特殊需求,傳統的解決方案無外乎三種,且都有短板:

數據脫敏後直接傳給另一方融合建模。短板:安全合規問題嚴重、審批流程複雜、可用數據範圍有限;

各自建模後融合模型。短板:模型效果未能挖掘全部潛力,還有巨大的業務提升空間;

數據脫敏後統一放在可信環境做融合模型。短板:可信環境並不公平,安全問題仍然存在。

隨後,雷小平老師總結了聯邦學習的三種思路:

ID匹配。不洩露查詢方ID、不洩露非重疊ID;

四則運算。不洩露計算各方的數值;

機器學習。改造模型,減少數據交互;將數據交互抽象為四則運算。

基於此,聯邦學習應運而生。雷小平老師指出,目前聯邦學習並不能解決所有數據融合上的安全問題,它主要針對比較典型的機器學習場景,包括機器學習前的特徵維度,以及學習完之後的數據服務都是聯邦學習的範疇。對多方數據做sql安全計算目前還不屬於聯邦學習範疇下。

為服務於廣大的To B場景客戶,滿足他們挖掘數據價值的需求,騰訊雲神盾聯邦學習團隊做了一套完整的解決方案。雷小平介紹到,目前神盾產品具有兩個典型場景,一個是拉新場景模型,另一個是首頁預測模型。這個產品在用戶側的使用十分簡單,從創建任務到安全求交、特徵工程、特徵選擇、結果展示只需五步。

「我們的底層模型、訓練框架是目前是基於微眾銀行的FATE框架做的,FATE框架現在是比較成熟的聯邦學習框架,能夠滿足我們模型所有的要求,我們要做的就是在上層做環境的安全以及產品化易用性以及場景化的改造工作。」

雷小平老師最後指出,騰訊雲神盾聯邦學習產品是首批通過信通院認證的產品,在實際的客戶案例中,給客戶帶來了實際的效能提升,真正做到了賦能大數據產業,讓數據變「活」。

在最後的線上交流環節,雷小平老師也針對觀眾提問做出了精彩回答。

聯邦學習是AI的新興領域

VMware首席架構師張海寧老師作為本場閉門會主持人,同時也是聯邦學習的資深人士,他對本場活動做出了極具概括性的總結:

「在我看來,聯邦學習是AI領域一個非常新興的方向。它能夠滿足用戶進行聯合建模,構造精確的人工智慧模型,同時可以保證雙方數據的隱私安全性。如果企業希望數據能夠增值,把數據變成資產,同時收取一定的服務費,這是聯邦學習非常有價值的點。20世紀石油是巨大的財富和資產,但是到了21世紀,一個公司最大的資產是數據,數據是最有價值的東西,數據如何變現產生新的價值,聯邦學習可能是其中的一個思路或途徑。」

可以想像,聯邦學習將成為AI領域的下一個重點方向。從2016年由Google提出後,其發展勢頭堪稱迅猛。更為關鍵的是,在聯邦學習的眾多玩家中,在技術實現和商業落地方面結合較好,走在前列的微眾銀行、騰訊雲都是中國企業。這將為聯邦學習的生態建設和標準制定帶來更為利好的消息。

--------------------------------------------------------------------------------

TVP,即騰訊雲最具價值專家(Tencent Cloud Valuable Professional),是騰訊雲授予雲計算領域技術專家的一個獎項。TVP 計劃致力打造與行業技術專家的交流平臺,構建雲計算技術生態,實現「用科技影響世界」的美好願景。

TVP成立之初,便秉承「用科技影響世界」的願景,讓技術普惠大家,踐行科技向善的初心和本心。如今,IT技術的價值已經廣泛地為普羅大眾所認可,開發者的社會價值前所未有地凸現,我們希望能用這一系列高端、前沿的技術閉門會,在這個疫情發生的艱難時刻,匯聚行業專家,幫助產業找到應對之法。

相關焦點

  • 中國信通院「卓信大數據計劃」——聯邦學習技術安全評估專項
    聯邦學習提出的背景隨著網際網路等信息技術的發展,以人工智慧和大數據技術為代表的新型信息技術已經深入到經濟社會發展的各個方面,並在一定程度上改變了傳統產業的發展模式。以人工智慧、大數據為基礎開發的各類管理和銷售系統有效提升了各企業的生產能力和銷售效率。另一方面,數據安全和數據隱私問題近年來受到了前所未有的重視。
  • 微眾銀行倡建大數據合作生態 聯邦學習為AI開通「綠色發展通道」
    楊強解釋說,聯邦學習是有多方共同參與,在保護數據隱私條件下的協同學習,作為AI研究領域的新興方向,它聚焦人工智慧落地應用中存在的現實問題,依靠數據隱私保護、模型參數保護、建模能力效果更好等諸多優勢,拔除AI蓬勃發展中的「暗礁」險阻。如何通俗理解聯邦學習?
  • 【牛勢牧歌】牛產業成為鄉村振興「金鑰匙」
    【牛勢牧歌】牛產業成為鄉村振興「金鑰匙」 2020-12-17 21:00 來源:澎湃新聞·澎湃號·政務
  • AI落地遭「卡脖子」困境:為什麼說聯邦學習是解決良方?
    AI落地需要數據來優化模型效果,但大部分企業不會輕易把數據無條件提供給AI公司使用,因為數據某種程度上是它們賴以生存的底牌,這也導致少數巨頭公司壟斷大量數據,而小公司很難獲得數據的局面,另一方面,由於法律法規對數據隱私保護的規定,數據融合難上加難。數據孤島問題似乎成了無法解開的死結,人工智慧落地進程嚴重受阻。
  • 百融雲創:聯邦學習技術構建數據安全新壁壘
    2017年,我國實施《中華人民共和國網絡安全法》;2018年,歐盟實施《通用數據保護條例》。這些法案都對數據共享規則和數據保護提出了明確的要求。在這樣的背景之下,聯邦學習技術隨之出世,這是一種加密的分布式機器學習技術,可實現各個企業自有數據不出本地,通過加密機制下的參數交換方式,在不違反數據法規隱私的情況下,建立一個虛擬的共有模型,最終通過聯合建模提升模型的效果。
  • 破解數據孤島壁壘,三篇論文詳細解讀聯邦學習
    從遷移學習到聯邦學習近幾年,領域發現還存在另一種與遷移學習相似,但更有挑戰性、也更有應用價值的問題,但無法直接用遷移學習的方法解決:現代組織機構雖然數據多,但是互相之間數據不共享,比如不同的視頻網站都會收集各自用戶的數據,各自持有分別的資料庫,用於各自的推薦系統模型訓練。
  • 微眾銀行發布世界第一本《聯邦學習》專著:大數據時代,效率和隱私...
    在大數據時代,在機器學習日新月異的時代,數據安全和隱私邊界成了最難解決的問題之一。那麼如何在保證用戶隱私安全的前提下合法合規獲取數據?已經成為當下人工智慧大規模應用於產業的關鍵。聯邦學習(Federated Learning),正是解決這一矛盾的利器。
  • AI訓練遇隱私難題 聯邦學習這樣打通數據孤島
    但隨著法規的完善和監控愈加嚴格,如果數據離開收集方或者用戶不清楚模型的具體用途,運營者都可能會觸犯法律。同時,數據是以孤島的形式存在的,解決孤島的直接方案就是把數據整合到一方進行處理。但目前粗暴地將數據聚合是法律法規所禁止的。  範力欣表示,聯邦學習正是針對數據孤島和隱私保護而產生的一種解決方式。值得一提的是,2019年4月,李開復也曾在演講中提到聯邦學習。
  • 加大聯邦學習技術研究投入,FATE生態成員建信金科挖掘金融數據的...
    近日,北京金融科技產業聯盟發布了《金融科技發展研究專項課題項目清單》,其中FATE技術委員會(下稱TSC)成員——建信金科申請的「基於隱私保護計算技術的金融領域數據融合應用研究」項目成為四項一類重點課題之一。
  • 微眾銀行範力欣:數據價值聯盟將是聯邦學習的最終願景
    研討會上,微眾銀行人工智慧首席科學家範力欣在《從數據孤島到隱私保護:聯邦學習對各行業 AI 落地之影響》報告中回顧了聯邦學習被提出的歷史背景,進一步闡述聯邦學習落地的必要性。範力欣博士表示:如今我們正在經歷網際網路的第四次信息革命,坐擁海量的信息與數據。「這些數據如果能夠用 AI 的方式進行解讀,對我們的生活會產生一個大的提升。」
  • 中國聯邦學習「五大流派」
    各方無需共享數據資源,即數據不出本地的情況下,進行數據聯合訓練,建立共享的機器學習模型。聯邦學習也根據數據集用戶特徵和樣本的不同重疊情況,分為了橫向聯邦學習(即特徵重疊較多)、縱向聯邦學習(即樣本重疊較多)和聯邦遷移學習(樣本、特徵都重疊較少)。
  • 百融雲創:AI聯邦學習有效打破「數據孤島」難題
    但是因為收集的訓練數據有限和算力不足,神經網絡沒有得到大規模發展,相反,傳統的基於統計的機器學習模型被廣泛應用。而2010年以後,隨著雲計算、大數據計算和並行處理的算力不斷發展,以及大量標籤數據的存在,深度學習逐步走向前臺,人類能夠訓練出更大、更複雜的基於神經網絡的模型,其圖像識別的準確率大幅提高,逐步超越人的能力。
  • 聯邦學習算法綜述
    (2)數據屬性機器學習的主要目的是尋找數據的概率分布,這在數據集滿足獨立同分布的情況下相對比較容易。分布式機器學習與經典機器學習處理的數據往往是獨立同分布的,聯邦學習則有所不同。由於客戶端的地理位置、時間等分布的差異性,聯邦學習系統的原始數據往往是非獨立同分布的。同時,橫向聯邦學習和縱向聯邦學習也是根據客戶端數據的不同屬性來進行分類的。
  • 聯邦學習 OR 遷移學習?No,我們需要聯邦遷移學習
    機器之心分析師網絡作者:仵冀穎編輯:H4O在這篇文章中,作者通過 4 篇論文詳細介紹了聯邦學習中的聯邦遷移學習問題,並探討了向經典聯邦學習中引入遷移學習的目的和意義。海量訓練數據是現代機器學習算法、人工智慧技術在各個領域中應用獲得成功的重要條件。
  • 數據不出本地,還能享受大數據訓練模型,聯邦學習提供一種應用廣闊...
    聯邦學習之所以能夠在如此短的時間裡迅速由一個構想變為一門學科,主要原因在於聯邦學習技術作為一種學習範式,能夠在確保用戶數據隱私的同時解決「數據孤島」問題。不過不同於國內主要關注企業之間針對「數據孤島」的聯邦學習,Blaise 等人(或許也在某種程度上代表谷歌)關注更多的則是設備上的聯邦學習,這也是聯邦學習概念被提出之初的應用場景。1. 提出聯邦學習的初始動力Blaise五年前加入谷歌后不久,便開始了聯邦學習的研究。
  • 大數據合作新方向 多機構聯合發布聯邦學習新版白皮書
    而AI、大數據等創新領域的行業應用也因此受阻,作為極其依賴龐大數據的行業,如無法解決數據安全隱私保護問題,將面臨著輿論、監管的巨大挑戰。聯邦學習作為新興的技術範式,能夠在數據不出本地的前提下,實現安全數據模型共建與AI協作。「數據不出本地」這一特性可以保證數據隱私保護,而AI聯合建模則可以最大程度挖掘數據價值,也因此,聯邦學習技術近兩年來市場呼聲極高。
  • 同盾AI研究院深度學習首席專家李宏宇:解構知識聯邦,開創數據...
    此前同盾在數據聯邦、聯邦學習和安全多方計算的基礎上演化出統一框架體系「知識聯邦」,並基於知識聯邦體系發布了國產原創、自主可控的智邦平臺(iBond)及《知識聯邦白皮書》。本次課程中,李宏宇詳細講述了知識聯邦的技術細節,以及信用分評估、多頭共債風險、用戶體驗A/B test等多個典型場景的聯邦學習應用案例。
  • 當傳統聯邦學習面臨異構性挑戰,不妨嘗試這些個性化聯邦學習算法
    通過上述多輪學習和通信的方法,聯邦學習消除了在單個設備上聚合所有數據的需要,克服了機器學習任務中的隱私和通信挑戰,允許機器學習模型學習分散在各個用戶(客戶機)上存儲的數據。聯邦學習自提出以來獲得了廣泛的關注,並在一些場景中得以應用。聯邦學習解決了數據匯聚的問題,使得一些跨機構、跨部門的機器學習模型、算法的設計和訓練成為了可能。
  • 「羊吃草」論數據隱私保護難題?世界第一本聯邦學習專著問世
    該書對聯邦學習這一人工智慧新興技術進行了系統性闡釋,並且全面分享了微眾銀行在聯邦學習領域的深厚積累。出於國內外的數據隱私保護法律法規,這些企業是不能直接把各方數據加以合併的,因為數據的原始提供者,即他們各自的用戶可能不同意這樣做。但他們各自的數據量和種類都不足以單獨建立高質量模型來得到最優結果。聯邦學習就是要解決這個問題:建立一個共有模型。
  • AICC2019 AI技術訓練營將首次開授聯邦學習及PaddlePaddle
    2019全球AI人才報告顯示,美國和中國是世界AI產業發展的兩強,AI人才儲備將決定著後續的發展走向。如何形成學術界和產業界的良好互動,讓前沿技術理論研究和產業落地實踐相結合,是AI人才培養的關鍵。AICC大會期間舉辦的AI技術訓練營,以硬核乾貨著稱,並設有動手實踐環節,是學習先進AI技術和落地實踐經驗的難得機會。