MICCAI論文精選:如何用聯邦學習解決醫學影像數據隱私問題?

2020-12-13 雷鋒網

雷鋒網(公眾號:雷鋒網)消息,日前,英偉達與倫敦國王學院以及一家法國初創公司Owkin合作,在新成立的倫敦醫學影像與人工智慧中心中應用了聯邦學習技術。

這項技術論文在今年的MICCAI 2019大會上發布,英偉達與倫敦國王學院研究人員在大會上介紹了聯邦學習技術的實施細節。

研究人員表示:「聯邦學習在無需共享患者數據的情況下,即可實現協作與分散化的神經網絡訓練。各節點負責訓練其自身的本地模型,並定期提交給參數伺服器。伺服器不斷累積並聚合各自的貢獻,進而創建一個全局模型,分享給所有節點。」

研究人員進一步解釋道,雖然聯邦學習可以保證極高的隱私安全性,但通過模型反演,仍可以設法使數據重現。為了幫助提高聯邦學習的安全性,研究人員研究試驗了使用ε-差分隱私框架的可行性。這個框架是一種正式定義隱私損失的方法,可以藉助其強大的隱私保障性來保護患者與機構數據。

據了解,試驗是基於取自BraTS 2018數據集的腦腫瘤分割數據實施的。BraTS 2018 數據集包含有285位腦腫瘤患者的MRI掃描結果。

NVIDIA團隊解釋到,聯邦學習有望有效聚合各機構從私有數據中本地習得的知識,從而進一步提高深度模型的準確性、穩健性與通用化能力。

以下為論文詳細內容,由雷鋒網AI掘金志學術組編譯。關注AI掘金志公眾號,在對話框回復關鍵詞「英偉達」,即可獲取原文PDF。

摘要

由於醫療數據的隱私規定,在集中數據湖中收集和共享患者數據通常是不可行的。這就給訓練機器學習算法帶來了挑戰,例如深度卷積網絡通常需要大量不同的訓練示例。聯邦學習通過將代碼帶給患者數據所有者,並且只在他們之間共享中間模型訓練的信息,從而避開了這一困難。儘管適當地聚合這些模型可以獲得更高精度的模型,但共享的模型可能會間接洩漏本地訓練數據。

在本文中,我們探討了在聯邦學習系統中應用微分隱私技術來保護病人數據的可行性。我們在BraTS數據集上應用並評估了用於腦腫瘤分割的實用聯邦學習系統。實驗結果表明,模型性能與隱私保護成本之間存在一種折衷關係。

1.介紹

深度學習神經網絡(DNN)在多種醫學應用中都顯示出很好的效果,但它高度依賴於訓練數據的數量和多樣性[11]。在醫學成像方面,這構成了一種特殊困難:例如,由於患者數量或病理類型的原因,所需的訓練數據可能無法在單個機構中獲得。同時,由於醫療數據隱私規定,在集中數據湖中收集和共享患者數據通常是不可行的。

解決此問題的一個最新方法是聯邦學習(FL)[7,9]:它允許在不共享患者數據的情況下對DNN進行合作和分布式訓練。每個節點都訓練自己的本地模型,並定期將其提交給參數伺服器。伺服器收集並聚合各個節點模型以生成一個全局模型,然後與所有節點共享。

需要注意的是,訓練數據對每個節點都是私有的,在學習過程中不會被共享。只共享模型的可訓練權重或更新,從而保持患者數據的私密性。因此,FL簡潔地解決了許多數據安全挑戰,將數據放在需要的地方,並支持多機構協作。

雖然FL可以在隱私方面提供高水平的安全性,但它仍然存在危險,例如通過模型逆推來重建單個訓練模型。一種應對措施是在每個節點的訓練過程中注入噪聲並對更新進行扭曲,以隱藏單個模型節點的貢獻並限制訓練節點之間共享信息的粒度。[3,1,10]然而,現有的隱私保護研究只關注一般機器學習基準,如MNIST和隨機梯度下降算法。

在這項工作中,我們實現並評估實用的聯邦學習系統,用於腦腫瘤分割。通過對BraTS 2018的一系列實驗,我們證明了醫學成像隱私保護技術的可行性。

我們的主要貢獻是:(1)盡我們所知,實現並評估第一個用於醫學圖像分析的隱私保護聯邦學習系統;(2)比較和對比聯合平均算法處理基於動量的優化和不平衡訓練節點的各個方面;(3)對稀疏向量技術進行了實證研究,以獲得一個較強的微分隱私保證。

2.方法

我們使用聯合平均算法研究基於客戶端-伺服器架構(如圖1(左)所示)的FL系統[7],其中集中伺服器維護全局DNN模型並協調客戶端的局部隨機梯度下降(SGD)更新。本節介紹客戶端模型訓練過程、伺服器端模型聚合過程以及部署在客戶端的隱私保護模塊。

2.1客戶端模型訓練過程

我們假設每個聯合客戶端都有一個固定的本地數據集和合適的計算資源來運行小批量SGD更新。客戶端也共享相同的DNN結構和損失函數。訓練程序詳見 Algorithm 1圖中。在聯合訓練t輪中,通過從伺服器讀取全局模型參數w(t)初始化本地模型,並通過運行多次SGD迭代將其更新為w(l,t)。在固定次數的迭代n(本地)之後,將模型差異△w(t)與聚合伺服器共享。

醫學圖像的DNN通常採用基於動量的SGD進行訓練。在優化過程中引入基於動量的梯度,在計算當前步驟時將上一步SGD步驟納入計算。它有助於加速訓練,減少振蕩。我們探索了在FL中處理這些步驟的設計選擇。在我們提出的過程(Algorithm1;以ADAM Optimiser[5]為例)中,我們在每輪聯合訓練開始時(第3行;表示為m.restart)重新初始化每個客戶端的基於動量的梯度。

由於本地模型參數是從聚合其他客戶端信息的全局模型參數初始化的,因此重新啟動操作有效地清除了可能干擾訓練過程的客戶端本地狀態。經驗性的與以下兩種方式進行比較(a)客戶端在不共享的情況下保留一組本地動量變量;表示為baseline m;(b)將動量變量視為模型的一部分,即變量在本地更新並由伺服器聚合(表示為m.aggregation)。雖然m.aggregation在理論上是合理的[12],但它需要將動量變量傳送到伺服器。這增加了通信開銷和數據安全風險。

2.2客戶端隱私保護模型

客戶端被設計為對共享的數據進行完全控制,並且本地訓練數據永遠不會離開客戶端的站點。不過,像參考文獻[4]中這樣的模型逆推侵襲可以從更新的△w(t) 或者聯合訓練中的全局模型w(t)提取中出病人隱私信息。我們採用選擇性參數更新和稀疏向量技術(SVT)來提供對間接性數據洩漏的強大保護。

選擇性參數更新:客戶端訓練結束時的完整模型可能會過擬合,並記憶了本地訓練示例。共享此模型會帶來暴露訓練數據的風險。選擇性參數共享方法限制客戶端共享的信息量。這是通過(1)只上傳△w(t)k的一部分:如果abs(wi)大於閾值τ(t)k,則共享△w(t)k的分量wi;(2)通過將值剪裁到固定範圍[-γ,γ]來進一步替換△w(t)k來實現的。這裡abs(x)表示x的絕對值;τ(t)k是通過計算abs(△w(t)k)的百分位數來選擇的;γ獨立於特定的訓練數據,並且可以在訓練前通過一個小型的公共可用驗證集來選擇。梯度剪裁作為一種模型正則化方法也被廣泛應用,以防止模型過擬合。

微分隱私模型:利用SVT可以進一步改善選擇性參數共享,使其具有很強的微分隱私保證。Algorithm 2描述了wi選擇和共享被打亂分量的過程。直觀地說,共享wi的每一個查詢都是由Laplacian機制控制的,而不是簡單地對abs(△w(t)k)進行閾值化並共享分量wi。這是首先通過比較剪接及加入噪聲的abs(wi)和噪聲閾值τ(t)+Lap(s/ε2)(第8行,Algorithm 2),然後僅共享噪聲結果(wi+Lap(qs/ε3),γ)(如果滿足閾值條件)。這裡Lap(x)表示從由x參數化的laplace分布中採樣的隨機變量;clip(x,γ)表示x的剪裁到[-γ,γ]的範圍內;s表示在這種情況下由γ限定的聯合梯度的靈敏度。重複選擇程序,直到釋放△w(t)k的q分數。此過程滿足(ε1+ε2+ε3)-差異隱私。

2.3伺服器端模型聚合

伺服器分布一個全局模型,並在每個聯合輪次接收來自所有客戶端的同步更新(Algorithm 3)。不同的客戶端可能有不同數量的本地迭代用於生成△w(t)k,因此客戶端的貢獻可以是不同訓練速度下的SGD更新。很重要的一點是要求客戶端提供一個n(local),並在聚合它們時對貢獻進行加權(第9行,Algorithm 3)。在部分模型共享的情況下,利用△w(t)k的稀疏特性來減少通信開銷是將來需要做的工作。

3.實驗

本節介紹了實驗配置,包括每個FL系統使用的常見超參數。

數據準備:BraTs 2018數據集包含285例腦腫瘤患者的多參數術前MRI掃描。每個受試者用四種方式掃描,即:(1)T1加權,(2)T1加權增強,(3)T2加權,(4)T2液體衰減反轉恢復(T2-FLAIR)。掃描結果被配準到相同的解剖模板上,重新取樣到1×1×1 mm3的空間解析度,並剝離顱骨。每個受試者數據還有經驗豐富的神經放射學專家的像素級標註,標註出「整個腫瘤」、「腫瘤核心」和「增強腫瘤」。有關數據採集和注釋協議的詳細信息,請參閱Bakas等人。這個已完全標註的腫瘤分割數據集以前用於評估機器學習算法的標準,並且是公開的。我們選擇使用它來評估具有多模態和多分類分割任務的FL算法。對於客戶端本地訓練,我們採用了最先進的訓練方法,最初是作為Nvidia Clara Train SDK3的一部分設計和實施的,用於數據集中訓練。

為了在受試者中測試模型泛化能力,我們將數據集隨機分成一個模型訓練集(n=242名患者)和一個驗證測試集(n=43名被試)。這些掃描圖像是從13個具有不同設備和成像協議的機構採集的,從而導致圖像特徵分布的不均勻性。為了使我們的聯合訓練更真實,我們進一步將訓練集分為13個不相交的子集,這些子集根據圖像數據的來源和分配給每個聯合客戶端。這種設置對FL算法來說是一個挑戰,因為(1)每個聯合客戶端只處理來自單一機構的數據,與數據集中訓練相比,該機構可能會遭受更嚴重的域轉移和過擬合問題;(2)它反映了數據集的高度不平衡性(如Fig1所示)。最大的機構擁有的訓練數據是最小機構的25倍。

聯合模型配置:FL的評估過程與卷積網絡結構的選擇是垂直的。在不失通用性的前提下,我們選擇Myronenko[8]提出的分割骨幹作為底層聯合訓練模型,對所有實驗使用相同的局部訓練超參數集:網絡的輸入圖像窗口大小為224×224×128像素,第一卷積層的空間丟棄率為0.2。與[8]類似,我們使用ADAM Optimiser將soft Dice loss 最小化,學習率為10-4,批量大小為1,β1為0.9,β2為0.999,l2重量衰減係數為10-5。對於所有聯合訓練,我們將聯合訓練輪次的數量設置為300,每個聯合訓練輪次中每個客戶端運行兩個本地epoch。本地epoch被定義為每個客戶端「看到」其本地訓練數據一次。在每個epoch的開始,在聯合訓練中,數據被本地打亂後給每個客戶端。為了比較模型的收斂性,我們還做了600個epoch的數據集中的訓練作為參考基準。

在計算代價方面,分割模型的參數約為1.2×106;使用nvidia tesla v100 gpu進行的訓練迭代大約需要0.85s。

模型評估:我們使用三種腫瘤區域和所有測試對象的平均Dice score來測量模型在測試集上的分割性能。對於FL系統,我們公布聯合客戶端之間共享的全局模型的性能。

隱私保護模塊設置:選擇性參數更新模塊有兩個系統參數:模型q的分數和梯度限幅值γ。我們通過改變兩者來測試模型性能。對於微分隱私模塊,我們根據文獻[6]將γ固定為10-4,靈敏度s固定為2γ,以及ε2 to(2qs)2/3ε1。下一節將介紹通過改變q、ε1和ε3而獲得的模型性能。

4. 結果

聯合VS數據集中訓練:將FL系統與Fig.2(左)中的數據集中訓練進行比較。在不共享客戶數據的情況下,我們提出的FL程序可以獲得不錯的分割性能。從訓練時間上看,數據集中模型在約300個訓練時段收斂,FL模型訓練在約600個訓練時段收斂。在我們的實驗中,使用Nvidia Tesla V100 GPU進行數據集中訓練(n=242)的時間為0.85s×242=205.70s/epoch。FL訓練時間由最慢的客戶端(n=77)決定,它需要0.85s×77=65.45s再加上用於客戶端-伺服器通信的少量時間。

動量重啟和權值平均:Fig.2(左)中也比較了FL程序的變體。對於處理動量變量,在每一輪聯合循環中重新啟動它們的效果優於所有其他變量。這表明(1)每一個客戶端維護一組獨立的動量變量會減慢聯合模型的收斂速度;(2)平均每個客戶端的動量變量會提高baseline m的收斂速度,但仍然得出比集中數據更差的全局模型。在伺服器端,模型參數的加權平均優於簡單的模型平均。這表明加權版本可以處理跨客戶端的不平衡本地訓練迭代次數。

局部模型共享:Fig.2(右)通過改變要共享的模型的比例和梯度剪切值來比較局部模型共享。這個數字表明,共享更大比例的模型可以獲得更好的性能。局部模型共享不影響模型的收斂速度,當客戶端共享整個模型的40%時,性能下降幾乎可以忽略不計。對梯度進行剪裁有時可以提高模型性能。但是,需要仔細調整該值。

微分隱私模型:通過改變微分隱私(DP)參數的模型性能如Fig.3所示。正如預期的那樣,DP保護和模型性能之間存在權衡。在相同的DP設置下,共享10%模型比共享40%模型表現出更好的性能。這是因為總的隱私成本ε是由訓練過程中增加的噪聲量和共享的參數數共同定義的。通過固定每個參數DP成本,共享較少的變量具有更少的總體DP成本,從而獲得更好的模型性能。

5. 結論

我們提出了一個用於腦腫瘤分割的聯邦學習系統,探索了聯合模型共享的各個實際應用方面,重點研究如何保護患者數據隱私。雖然提供了強大的差異性隱私保護措施,但隱私成本分配是保守的。在未來,我們將探索用於醫學圖像分析任務的微分隱私SGD算法(如參考文獻[1])。雷鋒網

參考文獻

1. Abadi, M., et al.: Deep Learning with Differential Privacy. ACM SIGSAC Conference on Computer and Communications Security pp. 308–318 (2016)

2. Bakas, S., et al.: Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the BRATS challenge. arXiv:1811.02629 (2018)

3. Geyer, R.C., Klein, T., Nabi, M.: Differentially private federated learning: A client level perspective. arXiv:1712.07557 (2017)

4. Hitaj, B., Ateniese, G., Perez-Cruz, F.: Deep models under the GAN: information leakage from collaborative deep learning. In: SIGSAC. pp. 603–618. ACM (2017)

5. Kingma, D.P., Ba, J.: Adam: A method for stochastic optimization.

arXiv:1412.6980 (2014)

6. Lyu, M., Su, D., Li, N.: Understanding the sparse vector technique for differential privacy. Proceedings of the VLDB Endowment 10(6), 637–648 (2017)

7. McMahan, H.B., et al.: Communication-Efficient Learning of Deep Networks from Decentralized Data. arXiv:1602.05629 [cs] (Feb 2016)

8. Myronenko, A.: 3D MRI brain tumor segmentation using autoencoder regularization. In: International MICCAI Brainlesion Workshop. pp. 311–320 (2018)

9. Sheller, M.J., et al.: Multi-institutional deep learning modeling without sharing patient data: A feasibility study on brain tumor segmentation. In: MICCAI Brain-lesion Workshop. pp. 92–104 (2018)

10. Shokri, R., Shmatikov, V.: Privacy-Preserving Deep Learning. In: ACM SIGSAC Conference on Computer and Communications Security. pp. 1310–1321 (2015)

11. Sun, C., Shrivastava, A., Singh, S., Gupta, A.: Revisiting Unreasonable Effectiveness of Data in Deep Learning Era. arXiv:1707.02968 [cs] (Jul 2017)

12. Yu, H., Jin, R., Yang, S.: On the linear speedup analysis of communication efficient momentum sgd for distributed non-convex optimization. arXiv:1905.03817 (2019)

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 字節跳動隱私保護論文入選 NeurIPS 2020 聯邦學習 Workshop
    自歐盟 2018 年出臺《通用數據保護條例》(GDPR)以及國內涉及數據隱私的法律法規逐步開始建立後,聯邦學習逐漸成為保護數據隱私的一個利器。它可以在雙方不公開各自隱私數據的情況下,實現機器學習模型的協同訓練,因此受到了越來越多企業的關注,產生了很多落地應用。
  • 破解數據孤島壁壘,三篇論文詳細解讀聯邦學習
    從遷移學習到聯邦學習近幾年,領域發現還存在另一種與遷移學習相似,但更有挑戰性、也更有應用價值的問題,但無法直接用遷移學習的方法解決:現代組織機構雖然數據多,但是互相之間數據不共享,比如不同的視頻網站都會收集各自用戶的數據,各自持有分別的資料庫,用於各自的推薦系統模型訓練。
  • 字節跳動隱私保護論文入選NeurIPS 2020聯邦學習...
    字節跳動隱私保護論文入選NeurIPS 2020聯邦學習Workshop 字節跳動在隱私保護上的最新研究,有利於打消聯邦學習上對標籤數據安全的顧慮,進一步推動隱私計算的發展。自歐盟2018年出臺《通用數據保護條例》(GDPR)以及國內涉及數據隱私的法律法規逐步開始建立後,聯邦學習逐漸成為保護數據隱私的一個利器。它可以在雙方不公開各自隱私數據的情況下,實現機器學習模型的協同訓練,因此受到了越來越多企業的關注,產生了很多落地應用。
  • AI訓練遇隱私難題 聯邦學習這樣打通數據孤島
    數據可以說是人工智慧的燃料。但隨著AI落地各個應用場景,數據隱私洩露問題日益嚴重。數據的交流使用和數據的隱私保護似乎成為了不可調和的矛盾。  如何在不洩露各自數據隱私的情況下實現數據的共享和模型的共建,同時連通數據割裂的孤島是當前所面臨的問題。目前各機構正試圖利用聯邦學習打通人工智慧應用的最後一公裡,促進人工智慧落地。
  • 用戶隱私與推薦精度兼得,星雲Clustar「聯邦安全矩陣分解」論文被...
    在論文中,星雲Clustar 算法工程師柴迪、星雲Clustar AI科學家王樂業等人基於聯邦學習環境提出一個名為FedMF的安全矩陣分解框架,在不犧牲任何準確度的前提下,保護用戶的隱私信息。該論文首次從數學上驗證了矩陣分解在橫向聯邦學習中交換梯度明文信息會造成隱私洩露,並提出了使用同態加密對梯度信息進行保護的解決方案。
  • 科研成果纍纍 平安科技聯邦學習技術團隊論文被EMNLP2020收錄
    然而,由於用戶隱私政策、數據監管法規的限制,很多數據碎片化地保存在不同機構的資料庫裡,傳統的深度學習方法將無法在這樣的數據上進行訓練,聯邦學習正是為了解決這樣的數據孤島問題應運而生。
  • 創投觀察 | 醫學影像AI到底可以解決什麼問題?
    可以看到,從2012年深度學習技術在自然圖像領域取得突破之後,在2015年開始大規模進入醫學影像領域,計算機視覺中的目標檢測、實例分割、圖像分類等幾個主要技術在醫學影像分析中都有應用,而且覆蓋了如MRI、CT、X-ray、Ultrasound等不同模態的數據,也涵蓋了各種不同的部位。
  • 「羊吃草」論數據隱私保護難題?世界第一本聯邦學習專著問世
    實際上,這本書「意義重大」,絕非童話,是用「羊吃草」的比喻給我們解釋:大數據時代,人工智慧在隱私安全前提下實現數據合作的最優解決方案。出於國內外的數據隱私保護法律法規,這些企業是不能直接把各方數據加以合併的,因為數據的原始提供者,即他們各自的用戶可能不同意這樣做。但他們各自的數據量和種類都不足以單獨建立高質量模型來得到最優結果。聯邦學習就是要解決這個問題:建立一個共有模型。
  • 周少華Kevin:醫學影像分析頂會MICCAI 17有哪些驚喜?
    現在西門子負責研發與醫學圖像相關的創新產品。他撰寫編輯了五本學術專著,發表了180+篇學術期刊及會議論文和著作章節,並擁有80+項批准專利。他多次獲獎,包括發明奧斯卡獎、西門子年度發明家、愛迪生專利獎、馬裡蘭大學ECE傑出校友獎。他是IEEE TMI和Medical Image Analysis期刊副主編、CVPR和 MICCAI 的領域主席、《視覺求索》主編、美國醫學與生物工程院 Fellow。
  • 微眾銀行發布世界第一本《聯邦學習》專著:大數據時代,效率和隱私...
    喜歡用哪款手機?每天給誰打電話最多?……你有沒有想過這些屬於你隱私的個人信息正在或者已經被洩露了嗎?網絡科技的發展帶給了人們更便捷和快速的生活,但同時在暴露出可怕的後果。垃圾簡訊、電話騷擾無孔不入,利用個人信息網絡詐騙和現實人身攻擊的案件也時有發生。在大數據時代,在機器學習日新月異的時代,數據安全和隱私邊界成了最難解決的問題之一。
  • 平安科技聯邦學習技術成果入選EMNLP2020,業內聯邦學習NLP模型重磅發布
    聯邦學習為深度學習提供了一種數據可用不可見的訓練方式,因而在深度學習領域激起了新的熱潮。利用大量的訓練樣本,深度學習能夠學習到幾乎任意任務的數學模型。然而,由於用戶隱私政策、數據監管法規的限制,很多數據碎片化地保存在不同機構的資料庫裡,傳統的深度學習方法將無法在這樣的數據上進行訓練,聯邦學習正是為了解決這樣的數據孤島問題應運而生。
  • 想了解風頭正勁的聯邦學習?這篇400多個參考文獻綜述論文滿足你
    聯邦學習使用局部數據收集和最小化的原則,能夠降低使用傳統中心化機器學習和數據科學方法帶來的一些系統性隱私風險和成本。近期社區對聯邦學習的研究出現爆發式增長,這篇論文探討了聯邦學習的近期進展,並展示了該領域所面臨的開放性問題和挑戰。本論文作者來自澳大利亞國立大學、CMU、康奈爾大學、谷歌、香港科技大學等機構。
  • 如何解決聯邦學習中的通信開銷問題?
    引言聯邦學習(Federated Learning)允許用戶在將數據保留在本地端不共享的前提下形成一個聯合體訓練得到全局模型,從而有效解決數據隱私和安全保護問題。同時,還可以有效應用聯合體各方用戶所掌握的標註數據,解決標註數據缺乏的問題。在聯邦學習架構的每一輪學習過程中,中央伺服器在當前全部客戶端中選定一些客戶端子集並將全局模型下發給這些客戶端子集。
  • 注重隱私保護,蜂巢聯邦智能平臺走在行業前列
    隱私計算迎元年,聯邦學習讓數據"可用不可見" 2020年,《數據安全法(草案)》、《網絡數據安全標準體系建設指南(徵求意見稿)》、《電信和網際網路行業數據安全標準體系建設指南(徵求意見稿)》等監管政策相繼出爐,數據安全問題備受重視,隱私計算有望迎來新的發展突破。
  • 聯邦學習誕生1000天的真實現狀丨萬字長文
    而聯邦學習加持下的服務則不會出現這種情況,因為服務本身就來自於本地。同時,聯邦學習的出現,也使得用戶從人工智慧的旁觀者,真正轉變為人工智慧發展的參與者。To B人工智慧的困局:隱私保護、小數據、數據孤島其實Google的聯邦學習,並沒有解決企業之間數據孤島問題。
  • 遠離了獨立同分布假設,聯邦學習的性能又該如何呢?
    本文是為了解決醫學圖像中 Non-IID 問題所提出的,但該算法是通用的,能夠有效處理各類訓練樣本數據間的層次關聯結構。2.與基線算法 FedSGD 相比,FedAvg 具有更好的實用性,從模型效果和通信效率兩個角度都能夠有效解決實際應用場景中的問題。3.《Federated Learning with Non-IID Data》是針對(2)的分析和改進,重點解決的是聯邦學習場景中存在數據嚴重傾斜的情況下,FedAvg 的性能影響及解決方案。
  • 現代醫學影像技術論文怎麼寫(最新)
    現代醫學影像學涵蓋醫學領域內所有以顯示人體器官和組織的大體形態學信息為目的的檢查方式,由於醫學影像成像技術的多樣化,使得醫學影像學成為包含醫學、數學、物理學、信息學等多學科交叉融合的學科。下面我們就來學習一下現代醫學影像技術論文怎麼寫。
  • 平安科技聯邦學習技術成果入選EMNLP2020,業內聯邦學習NLP模型重磅...
    然而,由於用戶隱私政策、數據監管法規的限制,很多數據碎片化地保存在不同機構的資料庫裡,傳統的深度學習方法將無法在這樣的數據上進行訓練,聯邦學習正是為了解決這樣的數據孤島問題應運而生。在論文中,團隊在支持GPU的伺服器群集上成功部署了聯邦自然語言處理網絡。以一個常用的NLP模型:TextCNN為例,展示了聯邦學習在自然語言處理領域的應用潛力。此外,團隊在聯邦網絡訓練過程中引入了可管理的差分隱私技術,有效保護了聯邦學習參與者的數據安全(見圖1)。與現有的客戶端級別的隱私保護方案不同,團隊提出的差分隱私是定義在數據集樣本級別的,這與目標場景——機構間的聯邦合作訓練是一致的。
  • 聯邦學習最新醫療場景發布:楊強團隊與劉琦團隊合作打破藥物數據...
    來自同濟大學生物信息系的劉琦教授課題組與微眾銀行楊強教授AI團隊合作,通過聯邦學習來進行本地藥物隱私數據的保障,以及模擬多個製藥機構(用戶)之間的藥物協同開發,助力製藥機構在保障自身藥物數據隱私安全的前提下進行協同藥物發現。
  • 聯邦學習,解開數據產業「鐐銬」的金鑰匙
    聯邦學習,就是人工智慧與大數據行業一個新興的技術,它的出現,有望解決數據孤島的難題。但一項技術,如果沒有商業落地場景,其價值也將大打折扣。聯邦學習如何賦能數據產業,幫助企業挖掘數據價值?3月22日,騰訊雲TVP技術閉門會討論了這個走在時代前沿的話題。