AI訓練遇隱私難題 聯邦學習這樣打通數據孤島

2020-12-17 中華人民共和國國家網際網路信息辦公室

  數據可以說是人工智慧的燃料。但隨著AI落地各個應用場景,數據隱私洩露問題日益嚴重。數據的交流使用和數據的隱私保護似乎成為了不可調和的矛盾。

  如何在不洩露各自數據隱私的情況下實現數據的共享和模型的共建,同時連通數據割裂的孤島是當前所面臨的問題。目前各機構正試圖利用聯邦學習打通人工智慧應用的最後一公裡,促進人工智慧落地。

  數據孤島阻礙機器學習訓練

  「網際網路時代產生的海量數據,其背後的價值如何能挖掘出來,又會對我們產生什麼樣的影響?」近日,在由中國計算機學會發起的第四次聯邦學習主題研討會上,微眾銀行人工智慧首席科學家範力欣說,如何發掘和利用這些信息是現在一個非常熱門的研究方向,但要安全合規地發揮這些海量數據背後的價值,就涉及到隱私保護問題。

  隨著人工智慧的發展,其可能帶來的隱私洩露風險也日益凸顯。為了應對隱私洩露風險,各國都採取了相應措施。如2018年歐盟出臺了首個關於數據隱私保護的法案《通用數據保護條例》;2019年5月美國舊金山禁用人臉識別,禁止政府機構購買和使用人臉識別技術,以此來消除技術帶來的隱患;從2009年開始到2019年十年間,我國也出臺了非常嚴格的隱私保護法案。

  但同時,數據隱私的保護也對依賴數據的機器學習形成了巨大挑戰。如《通用數據保護條例》要求公司在使用數據前要先向用戶聲明模型的作用,這份條例的實行讓許多大數據公司在數據交流方面非常謹慎。

  「人工智慧需要通過大量的數據學習才能把數據後面的知識挖掘、整理出來,把價值發揮出來。但現實的情況是一方面很多數據質量不好,缺乏標籤;另一方面,數據完全分散在各個數據主體、企業的個案裡面,是一個個數據孤島,無法把它們連接起來。」範力欣說,如何在保護數據隱私同時打破數據孤島是我們現在面臨的問題。

  聯邦學習或將提供解決辦法

  在人工智慧領域,傳統的數據處理模式往往是一方收集數據,再轉移到另一方進行處理、清洗並建模,最後把模型賣給第三方。但隨著法規的完善和監控愈加嚴格,如果數據離開收集方或者用戶不清楚模型的具體用途,運營者都可能會觸犯法律。同時,數據是以孤島的形式存在的,解決孤島的直接方案就是把數據整合到一方進行處理。但目前粗暴地將數據聚合是法律法規所禁止的。

  範力欣表示,聯邦學習正是針對數據孤島和隱私保護而產生的一種解決方式。值得一提的是,2019年4月,李開復也曾在演講中提到聯邦學習。他表示,為了防止最嚴重的數據濫用,需要制定相應的法規。與此同時也可以嘗試「以子之矛攻己之盾」——用更好的技術解決技術帶來的挑戰,例如同態加密、聯邦學習等技術。

  作為一種分布式機器學習技術,聯邦學習可以實現各個企業的自有數據不出本地,而是通過加密機制下的參數交換方式共建模型,即在不違反數據隱私法規的情況下,建立一個虛擬的共有模型。由於數據本身不移動,因此也不會涉及隱私洩露和數據合規問題。這樣,建好的模型將在各自的區域僅為本地的目標服務。在這樣一個聯邦機制下,參與各方可以在不披露底層數據和底層數據的加密(混淆)形態下共建模型,各個參與者的身份和地位相同,這就是為什麼這個體系叫做聯邦學習。

  微眾銀行人工智慧部高級研究員範濤介紹,如SecureBoost聯邦模型,核心是大家共同構建了一棵「樹」,每一方都可以看見這棵「樹」,但是每一方看見的東西是不一樣的。通過構建這樣一棵「樹」能夠實現算法的性能提升。

  「聯邦學習所使用的數據是不能移動的,但數據背後的知識、數據背後的價值是可以移動、轉移、共建的。所有貢獻數據的參與者都有同等的權利、獲得同等的回饋,這是共同獲益的機制。」範濤說。

  如此,大家就有了動力共建聯邦學習的生態。

  「聯邦學習大體可以分為橫向聯邦和縱向聯邦。橫向聯邦特徵維度都一樣,通過擴充樣本的方式提升模型質量;縱向聯邦樣本相通,通過擴充特徵的方式來實現數據的信息互通,提升模型質量。」範濤說,比如目前的傳統反洗錢模型存在樣本少、數據質量低的問題,使用橫向聯邦的技術可以解決這樣的問題,在橫向聯邦裡面,不需要進行樣本對齊。

  正在邁向積累經驗的落地階段

  事實上,聯邦學習早在2015年就被提出了,當時只是作為一個算法工具。隨後,隨著聯邦學習切實地解決了上述問題,開始受到關注。「現在聯邦學習已經進入一個新的時期,就是落地時期。」微眾銀行首席人工智慧官楊強表示,在經歷以隱私保護為重點的第一階段之後,目前的聯邦學習正在邁向積累經驗的落地階段。

  「在聯邦學習這個生態之中,我們可以看到各種各樣的落地場景,比如智慧城市、智慧終端、智慧醫療等。」範力欣說,比如在醫療領域,健康監護需要在普適環境下實現開放域用戶行為的智能感知和理解,而面向疾病診斷的智能算法研究存在著限制移動、時空受限等缺陷。

  針對以上難題,中科院計算所泛在計算系統研究中心主任研究員陳益強及其團隊利用聯邦學習技術,將範式驅動的限定場景下面向疾病的診斷模型向普適場景下的健康狀態監測進行聯邦遷移。

  「此外雲服務也是聯邦學習一個比較理想的落地途徑,聯邦學習其自身具備的特點,適合在雲上和多個用戶進行部署和使用,例如可以把在公有雲裡面聯邦學習的機構組織加進來,形成一個異構系統或者生態系統,為不同的組織之間的數據對接提供平臺。」VMware中國研發中心技術總監張海寧說。

  與此同時,聯邦學習也正面臨著諸多挑戰和機會。「工業實踐者在具體部署聯邦學習技術以滿足業務合規化的同時,還需要為現有的聯邦學習配置『保護鎖』與『疫苗』,以更好地保護自身的商業機密。」創新工場南京國際人工智慧研究院執行院長馮霽介紹,聯邦學習框架內不同模塊可能會遇到的潛在攻擊方式,如數據下毒、信道監聽以及對抗樣本等都是聯邦學習需要面臨的挑戰。

  範力欣表示,建立數據價值聯盟將是聯邦學習的最終願景。「長期來看,聯邦學習的期望是把數據背後的知識和價值拿出來,參與各方共建一個數據價值聯盟,這個聯盟裡有的成員作出了貢獻,讓其他成員享受到其所提供的服務,當然其他成員也需要付出他們認為該付出的,來進行對等交換。」據了解,聯邦學習標準草案預計將於2020年2月推出。(記者 馬愛平 馬 越)

相關焦點

  • 百融雲創:AI聯邦學習有效打破「數據孤島」難題
    但是因為收集的訓練數據有限和算力不足,神經網絡沒有得到大規模發展,相反,傳統的基於統計的機器學習模型被廣泛應用。而2010年以後,隨著雲計算、大數據計算和並行處理的算力不斷發展,以及大量標籤數據的存在,深度學習逐步走向前臺,人類能夠訓練出更大、更複雜的基於神經網絡的模型,其圖像識別的準確率大幅提高,逐步超越人的能力。
  • 「羊吃草」論數據隱私保護難題?世界第一本聯邦學習專著問世
    「聯邦學習(Federated Learning)」作為一種加密的分布式機器學習範式,可以使得各方在不披露原始數據的情況下達到共建模型的目的。即在不違反數據隱私保護法規的前提下,連接數據孤島,建立性能卓越的共有模型。
  • 兼顧保護隱私和打通數據孤島 藍象智聯發布GAIA系列隱私計算產品
    (原標題:兼顧保護隱私和打通數據孤島 藍象智聯發布GAIA系列隱私計算產品)
  • 平安科技聯邦學習技術成果入選EMNLP2020,業內聯邦學習NLP模型重磅...
    然而,由於用戶隱私政策、數據監管法規的限制,很多數據碎片化地保存在不同機構的資料庫裡,傳統的深度學習方法將無法在這樣的數據上進行訓練,聯邦學習正是為了解決這樣的數據孤島問題應運而生。在論文中,團隊在支持GPU的伺服器群集上成功部署了聯邦自然語言處理網絡。以一個常用的NLP模型:TextCNN為例,展示了聯邦學習在自然語言處理領域的應用潛力。此外,團隊在聯邦網絡訓練過程中引入了可管理的差分隱私技術,有效保護了聯邦學習參與者的數據安全(見圖1)。與現有的客戶端級別的隱私保護方案不同,團隊提出的差分隱私是定義在數據集樣本級別的,這與目標場景——機構間的聯邦合作訓練是一致的。
  • 聯邦學習新時代即將到來?同盾科技FLEX協議開源
    除了應用自身積累的數據資源外,使用其他企業機構、其他行業有價值的數據自然成為破解難題的方法之一。與之對應的,如何在使用過程中保障數據的安全,保障個人隱私不被洩露,禁止未授權數據被不當地傳播、存儲和使用成為了難題。聯邦學習被視為化解這個難題的絕佳技術。
  • AI落地遭「卡脖子」困境:為什麼說聯邦學習是解決良方?
    AI落地需要數據來優化模型效果,但大部分企業不會輕易把數據無條件提供給AI公司使用,因為數據某種程度上是它們賴以生存的底牌,這也導致少數巨頭公司壟斷大量數據,而小公司很難獲得數據的局面,另一方面,由於法律法規對數據隱私保護的規定,數據融合難上加難。數據孤島問題似乎成了無法解開的死結,人工智慧落地進程嚴重受阻。
  • 聯邦學習新時代即將到來?同盾科技FLEX協議開源!
    社會進入網際網路時代至今,企業生產、管理,運營過程的數位化已經在許多行業逐步實現,數據的積累和數據價值的挖掘成為目前關注的重點。除了應用自身積累的數據資源外,使用其他企業機構、其他行業有價值的數據自然成為破解難題的方法之一。與之對應的,如何在使用過程中保障數據的安全,保障個人隱私不被洩露,禁止未授權數據被不當地傳播、存儲和使用成為了難題。
  • 同盾AI研究院深度學習首席專家李宏宇:解構知識聯邦,開創數據...
    以下為李宏宇課程全場和互動問答精選,雷鋒網AI金融評論做了不影響原意的編輯:天平兩端:數據隱私性和便利性兩年前,我們接觸到區塊鏈和聯合建模中數據安全需求,就已在探索聯邦學習應用。近年來聯邦學習熱度變高,一個主要原因還是數據孤島現象,不僅僅有邏輯上的存在,也有物理上的。
  • 平安科技聯邦學習技術成果入選EMNLP2020,業內聯邦學習NLP模型重磅發布
    聯邦學習為深度學習提供了一種數據可用不可見的訓練方式,因而在深度學習領域激起了新的熱潮。利用大量的訓練樣本,深度學習能夠學習到幾乎任意任務的數學模型。然而,由於用戶隱私政策、數據監管法規的限制,很多數據碎片化地保存在不同機構的資料庫裡,傳統的深度學習方法將無法在這樣的數據上進行訓練,聯邦學習正是為了解決這樣的數據孤島問題應運而生。
  • 數據不出本地,還能享受大數據訓練模型,聯邦學習提供一種應用廣闊...
    聯邦學習之所以能夠在如此短的時間裡迅速由一個構想變為一門學科,主要原因在於聯邦學習技術作為一種學習範式,能夠在確保用戶數據隱私的同時解決「數據孤島」問題。不過不同於國內主要關注企業之間針對「數據孤島」的聯邦學習,Blaise 等人(或許也在某種程度上代表谷歌)關注更多的則是設備上的聯邦學習,這也是聯邦學習概念被提出之初的應用場景。1. 提出聯邦學習的初始動力Blaise五年前加入谷歌后不久,便開始了聯邦學習的研究。
  • 科研成果纍纍 平安科技聯邦學習技術團隊論文被EMNLP2020收錄
    然而,由於用戶隱私政策、數據監管法規的限制,很多數據碎片化地保存在不同機構的資料庫裡,傳統的深度學習方法將無法在這樣的數據上進行訓練,聯邦學習正是為了解決這樣的數據孤島問題應運而生。
  • 百融雲創:聯邦學習技術構建數據安全新壁壘
    現今,數據安全和數據隱私問題備受重視。首先來說,在當今這個時代裡,以人工智慧和大數據技術為代表的新型信息技術已經深入到經濟社會發展的各個方面,而我們日常衣食住行,手機號碼、消費記錄、信用記錄、出行記錄等都有可能成為大數據的一部分。  金融行業十分注重金融消費者個人隱私保護,數據和信息安全已經成為智能金融時代重要的信任基石。
  • 人工智慧新技術:聯邦學習的前世今生(上)
    然而,由於上述國內外數據隱私保護法規的推出,網際網路數據分散在不同企業或者終端形成「數據孤島」,不能直接共享或者交換,因此我們急需破解數據孤島的技術。在數據隱私安全保護需求和破解數據孤島需求的背景下,聯邦學習應時而生。它能夠實現在不洩露隱私數據的情況下實現企業間的數據融合建模,成為解決上述問題的首選技術。如此實用的技術發展之迅速,普及之廣泛,不足為奇。
  • 聯邦學習,解開數據產業「鐐銬」的金鑰匙
    聯邦學習,就是人工智慧與大數據行業一個新興的技術,它的出現,有望解決數據孤島的難題。但一項技術,如果沒有商業落地場景,其價值也將大打折扣。聯邦學習如何賦能數據產業,幫助企業挖掘數據價值?3月22日,騰訊雲TVP技術閉門會討論了這個走在時代前沿的話題。
  • 數據可用不可見是大勢所趨,這裡有一份來自同盾科技的「知識聯邦...
    解決數據孤島難題同樣可以採用聯邦的方式,聯邦連通了每個數據孤島所屬的機構。此時,每個機構就像一個個獨立的政治單元,他們自行管理自己的數據,是自治的;但是機構之間會通過一種協議聯合起來,共同參與組成一個整體作為聯邦機構,所有參與成員共同賦予聯邦機構一定的權利由其統一行使。因此,知識聯邦中的聯邦在本質上是一種數據和知識安全交換協議。
  • AICC2019 AI技術訓練營將首次開授聯邦學習及PaddlePaddle
    AICC大會期間舉辦的AI技術訓練營,以硬核乾貨著稱,並設有動手實踐環節,是學習先進AI技術和落地實踐經驗的難得機會。往屆學員對AI技術訓練營反響熱烈,紛紛表示課程非常實用,尤其是實戰課程,為人工智慧進階學習打下了良好的基礎。
  • 騰訊天衍實驗室聯合微眾銀行研發醫療聯邦學習,讓腦卒中預測準確率...
    數據問題讓醫療AI成了「空中樓閣」,在這一難題下,騰訊天衍實驗室聯合微眾銀行聯合研發了醫療聯邦學習框架,成功地實現了在保護不同醫院數據隱私下的疾病預測模型,破解醫療行業數據安全與隱私保護難題。這是聯邦學習在醫療健康大數據領域應用的首個成功案例,為醫療大健康的各種潛在應用如分診診療、慢病防控、疾病早篩、醫保控費的落地等探索出了新的方向。
  • 微眾銀行首席AI官楊強:萬字圖文詳談聯邦學習最前沿
    以「聯邦學習前沿的研究與應用」為題,全面詳盡地講解了聯邦學習如何直面數據孤島和隱私保護的雙重挑戰。國內也是法律嚴格化、全面化,各行各業的法律法規都面世了。聯邦學習衝破孤島,完成數據「拼圖」我們在訓練模型過程中希望有海量的大數據,現實卻是一個個數據的孤島。想把數據孤島連起來,形成一個大數據,卻遇到了法律法規的嚴格限制。
  • 人工智慧新技術:聯邦學習的前世今生
    然而,由於上述國內外數據隱私保護法規的推出,網際網路數據分散在不同企業或者終端形成「數據孤島」,不能直接共享或者交換,因此我們急需破解數據孤島的技術。在數據隱私安全保護需求和破解數據孤島需求的背景下,聯邦學習應時而生。它能夠實現在不洩露隱私數據的情況下實現企業間的數據融合建模,成為解決上述問題的首選技術。如此實用的技術發展之迅速,普及之廣泛,不足為奇。
  • 富數安全計算團隊實現高性能聯邦學習 模型訓練效率較行業提升300%
    富數科技首席科學家陳立峰博士認為,人工智慧和隱私保護不應該是矛盾關係。據了解,目前人工智慧在安全方面面臨兩大問題,一是數據孤島的問題,不同行業之間數據割裂,跨行業數據融合存在數據安全問題;目前的人工智慧離不開大數據的「餵養」,數據孤島讓人工智慧技術很難發揮出價值。