機器之心
機器之心分析師網絡
作者:仵冀穎
編輯:H4O
本篇提前看重點關注 ICLR 2020 中關於聯邦學習(Federated Learning)的最新研究進展。
2020 年的 ICLR 會議原計劃於4 月 26 日至 4 月 30 日在衣索比亞首都阿迪斯阿貝巴舉行,這本是首次在非洲舉辦的頂級人工智慧國際會議,但受到疫情影響,ICLR 2020 被迫取消線下會議改為線上虛擬會議。今年的 ICLR 論文接受情況如下:共計接收 679 片文章,其中:poster-paper 共 523 篇、Spotlight-paper(焦點論文)共 107 篇、演講 Talk 共 48 篇,另有被拒論文(reject-paper)共計 1907 篇,接受率為 26.48%。
本篇提前看重點關注 ICLR 2020 中關於聯邦學習(Federated Learning)的最新研究進展。聯邦學習是一種在分布式網絡中實現的客戶端本地存儲數據並訓練局部模型、中央伺服器匯聚各客戶端上載數據後訓練構建全局模型的分布式機器學習處理框架。聯邦學習能夠有效解決分布式網絡中兩方或多方數據使用實體(客戶端)在不貢獻出數據的情況下的數據共同使用問題,同時保證全局模型能夠獲得與數據集中式存儲相同的建模效果。關於聯邦學習,機器之心也有過相關的進展分析報導。
在 ICLR 2020 的接受論文中,共有 7 篇文章與聯邦學習相關,其中 2 篇為演講 Talk的文章,5 篇為poster-paper。本文從中選擇 3 篇進行分析,分別聚焦的是聯邦學習的總體優化目標設置、全局模型構建方法以及數據特徵對齊問題,具體為:
Poster Paper
Fair Resource Allocation in Federated Learning
Differentially Private Meta-Learning
DBA: Distributed Backdoor Attacks against Federated Learning
Generative Models for Effective ML on Private, Decentralized Datasets
Federated Adversarial Domain Adaptation
Talk
On the Convergence of FedAvg on Non-IID Data
Federated Learning with Matched Averaging
一、Fair Resource Allocation in Federated Learning
論文連結:https://arxiv.org/pdf/1905.10497v1.pdf
聯邦學習的目標是通過最小化經驗風險函數,使得模型能夠擬合由若干網絡設備中收集到的數據。通常情況下,聯邦學習網絡中的設備數量很大,從數百個到數百萬個不等。這種簡單直接的擬合操作可能會造成最終擬合的模型適合於一些設備,而在另外一些設備中不適用的問題。此外,不同設備中的數據存在大小不同、分布特徵不同等異質性問題。這篇文章所要探討的問題就是:是否可以設計一種優化方法來確保聯邦學習模型的性能(如準確度)公平地分布在各個設備之間?
受無線網絡公平資源分配工作的啟發,本文提出了一種解決聯邦學習中公平問題的優化目標算法 q-FFL(q-Fair Federated Learning)。q-FFL 通過引入 q 參數化的權重,實現了對不同設備損耗的重新加權計算,使得損耗較高的設備具有較高的相對權重,從而減小準確度分布方差,實現準確度更公平的分布。q-FFL 無需手工調整公平性約束,它構建的是一個靈活的框架,在該框架中可以根據所需的公平性自動調整目標。此外,本文提出了一種輕量級且可擴展的分布式 q-FFL 解決方法:q-FedAvg,該方法考慮了聯邦學習架構的重要特徵,例如通信效率和設備的低參與性等。
方法描述
經典聯邦學習通常是最小化以下目標函數:
其中,m 表示設備數量,F_k 是各個客戶端的局部目標函數,p_k 為客戶端對應的權重。局部目標函數的優化處理過程為:
其中,n_k 為第 k 個客戶端局部樣本數據數量,可以令 p_k=n_k/n,n 為整個聯邦學習網絡的數據集中符合經驗最小化目標的樣本總數。傳統方法通過以下方式實現全局目標最優化:每一輪選擇概率與 n_k 成正比的設備子集執行這些本地更新方法通過在每個設備上本地運行可變數量的迭代的優化器(例如 SGD)來實現靈活高效的通信。經典聯邦學習(FedAvg)的優化流程如下:
FedAvg 的優化過程會引入不同設備之間的不公平性。例如,所學習的模型可能偏向具有數據量大的設備,或者偏向於(通常是對設備加權)經常使用的一組設備等等。為了討論如何解決聯邦學習框架的不公平性問題,作者首先定義了什麼是聯邦學習中的公平性。
公平性定義:可以通過下面的方法衡量兩個模型 w 和 w~的公平性,如果模型 w 在 m 個設備上的性能方差 {a_1,...,a_m} 小於模型 w~在 m 個設備上的性能方差,則認為模型 w 更公平,即
從公平性定義的角度出發,解決 FedAvg 中存在的不公平性的問題的一個很直觀的辦法就是重新對目標進行加權,即將較高的權重分配給性能較差的設備,以減小模型的準確度分布方差。此外,重新加權的處理必須是動態完成的,因為設備的性能取決於所訓練的模型,這是無法進行先驗評估的。給定非負代價函數 F_k 和參數 q>0,定義 q-FFL 目標如下:
其中 (F_k).^(q+1) 表示 F_k 的 q+1 次冪,q 為調整所希望施加的公平性的權重參數。根據公平性定義,較大的 q 意味著 q-FFL 的目標強調(賦予較大權重)具有較高局部經驗損失的設備 F_k(w),從而減少訓練準確度分布的方差以及保證公平性。當 q 足夠大時,F_q(w) 就退化為經典的 min-max 問題,此時,性能最差(最大損耗)的設備將會控制主導目標。
本文作者首先提出了一種公平但效率較低的方法 q-FedSGD,以說明在解決 q-FFL 問題時使用的主要技術,之後,通過考慮聯邦學習的關鍵屬性(例如本地更新方案),作者提供了一種更有效的解決方法 q-FedAvg。首先,q-FedSGD 是對經典的聯合小批量 SGD(FedSGD)方法的擴展,其中使用動態步長替代了 FedSGD 中使用的常規固定步長。在 q-FedSGD 的每個步驟中,選擇設備的一個子集,對於該子集中的每個設備 k,在當前迭代中計算其∇F_k 和 F_k 並將其傳送到中央伺服器,此信息用於調整權重,以收集整合來自每個設備的更新。具體算法如下:
在經典聯邦學習方法中,在設備本地使用局部隨機解算器(而不是批處理)能夠改進本地計算與通信方面的靈活性,例如最著名的 FedAvg。然而,簡單地在使用 q-FFL 目標的 q-FedSGD 中引入局部隨機結算器是不成立的。這是由於當 q>0 時,不能使用局部 SGD 計算 (F_k)^(q+1)。作者提出將 q-FedSGD 步驟中的局部函數的梯度∇F_k 替換為通過在設備 k 上本地運行 SGD 獲得的局部更新矢量,從而實現基於 q-FFL 目標的 FedAvg,即 q-FedAvg。作者的詳細分析如下:優化 F_k 和優化 (F_k)^(q+1) 是等價的。如果通過簡單的平均來組合這些更新,類似於 FedAvg,它將優化(1)而不是(2)。類似於 q-FedSGD,本文使用由下式推導得到的權重組合本地更新。如果非負函數 f 具有常數 L 的 Lipchitz 梯度,則對於任意 q≥0 和任意點 w,可得到:
左式計算得到的權重是 w 點位置處梯度的局部 Lipchitz 常數的上界
在 q-FedAvg 的每個步驟中,選擇設備的一個子集,對於該子集中的每個設備 k,在當前迭代中計算其局部更新向量並將局部更新向量傳送到中央伺服器,此信息用於調整權重,以收集整合來自每個設備的更新。具體算法如下:
實驗分析
本文基於經典聯邦學習的合成資料庫和非合成資料庫進行實驗,實驗中同時使用凸模型和非凸模型,在 TensorFlow 中實現所有代碼,以一個伺服器和 m 個設備模擬一個聯邦學習網絡。
圖 1 給出了在每個數據集的 5 個隨機抽取的數據中平均的兩個目標(q = 0 和 q> 0 的調整值)的最終測試準確度分布。雖然平均測試準確度保持一致,但 q> 0 的目標能夠產生更集中(即更公平)的測試準確度分布,且方差較小。特別的,在保持大致相同的平均準確度的同時,q-FFL 將所有設備上的準確度方差平均降低了 45%。
圖 1. q-FFL 使得測試準確度分布更加公平
使用本文提出的聯邦學習框架需要解決一個問題:如何在 q-FFL 目標中調整 q,從而允許框架靈活選擇 q 以實現減小準確度分布方差和提高平均準確度之間的權衡。通常,可以根據可獲得的數據/應用程式和所需的公平性來調整此值。特別地,在實踐中,一種合理的方法是並行運行具有多個 q 的算法(詳見 q-FedAvg 的算法流程),以獲得多個最終全局模型,然後通過驗證數據性能(例如準確度)從中進行選擇。在這個過程中,聯邦學習網絡中的每個設備不僅可以從此過程中選擇一個最佳 q,還可以根據其驗證數據選擇特定於設備的模型。表 1 中顯示了這種針對特定設備的策略的性能改進。在表 1 中給出的實驗的訓練過程中,會獨立維護多個全局模型(對應於不同的 q)。儘管這增加了額外的本地計算和每輪的通信負載,但使用這種特定於設備的策略同時提升了最差 10% 準確度(Worst 10%)和最佳準確度(Best 10%)的設備準確度。圖 2 給出 q-FFL 與均勻採樣方案的準確度比較,在測試準確性方面 q-FFL 給出了更公平的解決方案。
表 1. 同時運行多個 q 的 q-FFL 的效果
圖 2. q-FFL(q> 0)與均勻採樣的準確度比較
最後,作者對比了 q-FedSGD 和 q-FedAvg 的效率。在每個通信回合中,q-FedAvg 在每個所選設備上運行一個 epoch 的本地更新,而 q-FedSGD 則是基於本地訓練數據運行梯度下降(SGD)。圖 3 的結果顯示,在大多數情況下使用 q-FedAvg 的本地更新方案收斂速度比 q-FedSGD 快。與 q-FedSGD 相比,在合成數據集上 q-FedAvg 收斂速度較慢,作者分析這可能是由於當存儲在各個設備中的本地數據分布高度異構時,本地更新方案可能會造成本地模型與初始全局模型相距太遠,進而影響收斂。
圖 3. 對於固定目標(即相同的 q),q-FedAvg(Algorithm 3),q-FedSGD(Algorithm 2)和 FedSGD 的收斂性
文章小結
在無線網絡中公平資源分配策略的啟發下,本文提出了一種聯邦學習的優化目標 q-FFL,目的是鼓勵在聯邦學習中實現更公平的準確度分配,此外本文還提出了一種高效且可擴展的方法 q-FedAvg,q-FedAvg 適用於使用新優化目標的聯邦學習優化框架。
二、Federated Adversarial Domain Adaptation
論文連結:https://arxiv.org/abs/1911.02054
聯邦學習是一種分散學習方法,它使多個客戶機能夠協作學習一個機器學習模型,同時將訓練數據和模型參數保存在本地設備上。聯邦學習提高了在分布式設備(如行動電話、物聯網和可穿戴設備等)網絡中進行機器學習的數據隱私性和效率。自提出聯邦學習框架以來,研究人員陸續提出了很多模型/方法,包括更新機器學習模型的安全聚合方案、支持多客戶端聯邦學習的隱私保護協同訓練模型等,但是這些方法大都忽略了以下事實:每個設備節點上的數據都是以非獨立同分布(non-i.i.d)的方式收集的,因此節點之間存在域遷移的問題。例如,一臺設備可能主要在室內拍攝照片,而另一臺設備主要在室外拍攝照片。這種域遷移(domain shift)問題,造成使用聯邦學習訓練得到的模型很難推廣到新設備。為了解決聯邦學習中的 Non-IID 問題,一些方法引入聯邦多任務學習,它為每個節點學習一個單獨的模型,或者是提出隱私保護環境下的半監督聯邦轉移學習算法。這些算法一般採用的都是有監督/半監督的方式。
無監督域適應(Unsupervised Domain Adaptation,UDA)的目的是將從標記的源域學習到的知識遷移到未標記的目標域中。經典 UDA 方法包括:基於差異的方法(discrepancy-based methods)、基於重構的 UDA 模型、基於對抗的方法等,例如可以通過對抗性訓練,在源域和目標域之間調整基於 CNN 的特徵提取/分類器。在聯邦學習架構中,數據存儲在各個客戶端本地而不能共享,這就導致經典的 UDA 方法都不適用,因為這些方法需要訪問標記的源數據和未標記的目標數據。本文主要解決的問題是,在聯邦學習架構下,在沒有用戶監督的情況下,將知識從分散節點轉移到具有不同數據域的新節點的問題,作者將該問題定義為:無監督聯邦域適應(Unsupervised Federated Domain Adaptation,UFDA)。
本文提出了一種解決 UFDA 問題的方法---聯邦對抗域適應(Federated Adversarial Domain Adaptation,FADA)方法,該方法能夠實現在不同的設備節點中學習到的表示與目標節點的數據分布相一致。FADA 是指:在聯邦學習的架構中使用對抗性適應技術,通過在每個源節點上訓練一個模型並通過源梯度(source gradients)的聚合來更新目標模型,同時保護數據隱私、減少域遷移。此外,本文還設計了一個動態注意力模型來應對聯邦學習中不斷變化的收斂速度,具體見圖 1。
圖 1.(a)本文針對 UFDA 問題提出了 FADA,在 FADA 中,不同域之間的數據不可共享,分別在每個源域上訓練模型,並使用動態注意力機制匯總它們的梯度以更新目標模型;(b)FADA 使用對抗域對齊(紅線)和特徵分離器(藍線)來提取域不變特徵。
圖 1(b)中提到 FADA 使用對抗域對齊和特徵分離器來提取域不變特徵。關於提取域不變特徵的問題,主要是指深度神經網絡能夠在多個隱藏因素高度糾纏的情況下提取特徵。學習分離表示有助於去除不相關和特定領域的特徵,從而只對數據變化的相關因素建模。為此,最近的研究探索了利用生成性對抗網絡(GANs)和變分自編碼(VAEs)學習可解釋表示以及領域不變特徵。在 FADA 中引入了一種利用對抗性訓練過程從領域特徵中分離領域不變特徵的方法。此外,通過引入最小化域不變特徵和域特定特徵之間的相互信息,以增強特徵分離。
方法介紹
令 D_S 和 D_T 分別表示輸入空間 X 上的源和目標分布,以及真實的標記函數 g:X→{0,1}。假設函數 h:X→{0,1},其誤差為實地標記函數 g,h 在 D_s 上的風險記為:
兩個分布 D 和 D』之間的 H-散度定義為:
其中 H 是輸入空間 X 的假設類,A_H 表示 X 的子集的集合,這些子集是 H 中某些假設的支持。對稱差空間 H∆H 定義為:
⊕表示 XOR 操作。將在源和目標上實現最小風險的最優假設表示為:
以及 h*的誤差為:
令 H 為 VC 維 d 的假設空間,D_S^和 D_T^為由 DS 和 DT 提取的大小為 m 的樣本的經驗分布。對於每個 h∈H,在樣本選擇上的概率至少為 1-δ:
定義 UFDA 中源域和目標域分別為
在聯邦學習的域自適應系統中,D_S 分布在 N 個節點上,並且數據在訓練過程中不可共享。經典的域自適應算法旨在最大程度地降低目標風險
但是,在 UFDA 系統中,出於安全和隱私的原因,一個模型無法直接訪問存儲在不同節點上的數據。為了解決這個問題,本文提出為每個分布式源域學習單獨的模型 h_S= {h_Si},目標假設 h_T 是 h_S 參數的集合。然後,可以得出以下誤差範圍:
其中λ_i 是 D_Si 和 T 的混合物的最優假設風險,而 S〜則是大小為 Nm 的源樣本的混合物。
該誤差範圍證明了權重α和差異 d H∆H(D_S,D_T)在 UFDA 中的重要性,受此啟發,本文提出了動態注意力模型來學習權重α和聯合對抗性對齊,以最大程度地減少源域和目標域之間的差異。
1、動態注意力機制
在聯邦學習的域自適應系統中,不同節點上的模型具有不同的收斂速度。此外,源域和目標域之間的域遷移是不同的,從而導致某些節點可能對目標域沒有貢獻甚至是負遷移。本文提出動態注意力機制,其原理是增加那些梯度對目標域有益的節點的權重,並限制那些梯度對目標域有害的節點的權重,利用差距統計數據來評估目標特徵 f^t 在無監督聚類算法(K-Means)中的聚類程度,具體的,差距統計計算為:
其中,C1,C2,...,Ck 為聚類,其中 Cr 表示聚類 r 中的觀測指標,而 nr = | Cr |。直觀上,較小的差距統計值表示要素分布具有較小的類內方差。通過兩次連續迭代之間的差距統計量增益來測量每個源域的貢獻:
其中,p 表示訓練步驟。該公式表示在建立目標模型之前和之後可以改進多少聚類。來自源域的梯度上的掩碼定義為:
2、聯合對抗對齊
在聯邦學習框架中存在多個源域,並且數據以隱私保護的方式存儲在本地,這意味著無法訓練可以同時訪問源域和目標域的單個模型。為了解決此問題,本文提出了聯合對抗對齊,聯合對抗對齊將優化分為兩個獨立的步驟:特定於域的局部特徵提取器和全局鑑別器。(1)針對每個域,對應於 Di 訓練一個本地特徵提取器 Gi,以及針對 Dt 訓練得到 Gt;(2)對於每個源-目標域對(Di,Dt),訓練一個對抗性域標識符 DI 來以對抗性的方式對齊分布:首先訓練 DI 以確定特徵來自哪個域,然後訓練生成器(Gi,Gt)來混淆 DI。需要注意的是,D 僅可訪問 Gi 和 Gt 的輸出向量,而不會違反 UFDA 設置。給定第 i 個源域數據 X^Si,目標數據 X^T,DI_s 的目標定義如下:
在第二步中,L_advD 保持不變,但是 L_advG 更新以下目標:
3、表徵分離
本文採用對抗性分離(Adversarial Disentanglement)來提取域不變特徵。如圖 1(b)所示,分離器 Di 將提取的特徵分為兩個分支。首先分別基於 f_di 和 f_ds 特徵訓練 K 路分類器 Ci 和 K 路類別標識符 CI_i 正確地預測具有交叉熵損失的標籤。目標為:
其中 f_di 和 f_ds 分別表示域不變和域特定特徵。在下一步中,凍結類標識符 CI_i,僅訓練特徵分解器通過生成特定於域的特徵 f_ds 來混淆類標識符 CI_i,如圖 1 所示。這可以通過最小化預測類別分布的負熵損失來實現。目的如下:
特徵分離可以通過保留 f_di、消除 f_ds 來促進知識遷移。為了增強分離,最小化域不變特徵和域特定特徵之間的相互信息:
儘管互信息是跨不同分布的關鍵度量,但互信息僅適用於離散變量。本文採用互信息神經估計器(Mutual Information Neural Estimator,MINE)利用神經網絡來估計連續變量的互信息:
為了避免計算積分,本文利用蒙特卡洛積分來計算估計值
其中(p,q)從聯合分布中採樣,q』從邊際分布中採樣,T(p,q,θ)是由θ參數化的神經網絡,用於估計 P 和 Q 之間的互信息。域不變和域特定的特徵被轉發給具有 L2 損失的重構器以重構原始特徵,同時保持表徵的完整性,如圖 1(b)所示。可以通過調整 L2 丟失和互信息丟失的超參數來實現 L2 重建和互信息的平衡。
4、優化
本文模型以端到端的方式訓練。使用隨機梯度下降訓練聯邦對齊和表徵分離組件。聯合對抗性對準損失和表徵分離損失與任務損失一起被最小化。詳細的訓練過程在算法 1 中給出:
實驗分析
為了更好地探索模型中不同組成部分的有效性,本文提出了三種不同的剝離方法,包括:模型 I,具有動態關注度;模型 II,I +對抗性對齊;模型 III,II +表徵分離。
本文首先基於 Digit-Five 資料庫進行實驗。Digit-Five 是由五個數字識別基準資料庫組成的集合,這五個資料庫分別是:MNIST,合成數字,MNIST-M,SVHN 和 USPS。在本文實驗中,輪流將一個域(來自於其中一個資料庫)設置為目標域,將其餘域設置為分布式源域,從而生成五項遷移任務。本文將 FADA 與流行的域適應基準模型進行比較,包括:域對抗神經網絡(DANN),深度適應網絡(DAN),自動域對齊層(AutoDIAL)和自適應批歸一化(AdaBN)等。具體而言,DANN 通過梯度反轉層將源域和目標域之間的域差異最小化。DAN 應用多內核 MMD 損失以在「再生核希爾伯特空間」中將源域與目標域對齊。AutoDIAL 在深層模型中引入了域對齊層,以將源特徵分布和目標特徵分布與參考分布進行匹配。AdaBN 應用批處理規範化層來促進源域和目標域之間的知識遷移。在進行基準實驗時,本文分別使用原模型的作者提供的代碼並修改原始設置以適合聯邦域對抗域適應設置(即每個域都有自己的模型),用 f-DAN 和 f-DANN 表示。此外,為了說明 UFDA 難以通過單一模型訪問所有源數據的困難,本文還執行了相應的多源域適應實驗(共享源數據)。實驗結果列於表 1。從表 1 的結果可以得出以下結論:(1)模型 III 的平均準確度達到 73.6%,明顯優於基線模型;(2)模型 I 和模型 II 的結果證明了動態注意力和對抗性對準的有效性;(3)聯合域適應顯示的結果比多源域適應弱得多。
表 1.「Digit-Five」資料庫的準確度(%)
為了進一步了解 FADA 的特徵表示性能,圖 2 給出了不同模型得到的特徵表示的 t-SNE 嵌入。與 f-DANN 和 f-DAN 相比,FADA 得到的特徵嵌入具有較小的類內方差和較大的類間方差,這表明 FADA 能夠生成所需的特徵嵌入並能夠提取跨域的不變特徵。
圖 2. 特徵可視化:僅源特徵的 t-SNE 圖
表 2 中給出了在 Office-Caltech10 數據集上的實驗結果,該數據集包含 Office31 和 Caltech-256 數據集共享的 10 個常見類別,以及包含四個域:Caltech(C),這是從 Caltech-256 數據集採樣的;Amazon(A),這是從 amazon.com 收集的圖像;Webcam(W)和 DSLR(D),這是由網絡攝像頭以及辦公環境下的數碼單眼相機拍攝的圖像。由表 2 可以得出以下觀察結論:(1)本文提出的 FADA 模型使用 AlexNet 可以達到 86.5%的準確度,使用 ResNet 可以達到 87.1%的準確度,優於基線模型。(2)當選擇 C,D,W 作為目標域時,所有模型的性能都相似,但是當選擇 A 作為目標域時,各個模型的性能都較差。這可能是由較大的域差異引起的,因為 A 中的圖像是從 amazon.com 收集的,並且包含白色背景。
表 2. Office-Caltech10 資料庫的準確度(%)
亞馬遜評論(Amazon Review)數據集是專門應用於文本跨域情感分析的測試資料庫,即確定評論的情緒是正面還是負面。該數據集包含來自 amazon.com 用戶的針對四個流行商品類別的評論:書籍(B),DVD(D),電子產品(E)和廚房用具(K)。本文利用 400 維詞袋錶示法及完全連接的深度神經網絡進行實驗,實驗結果見表 3。從表 3 結果中可以得出兩個主要觀察結論:(1)FADA 模型不僅對視覺任務有效,將其應用於語言任務也表現出了較好的性能。(2)從模型 I 和 II 的結果可以觀察到動態注意力和聯邦對抗的對齊方式對提高性能很有幫助。
表 3.「Amazon Review」資料庫的準確度(%)
最後為了證明動態注意力的有效性,本文給出了消融(ablation)研究分析。表 4 給出了 Digit-Five,Office-Caltech10 和 Amazon Review 基準測試的結果。在沒有應用動態注意力模型的情況下,大多數實驗的性能都會下降,因此動態注意力模塊對於 FADA 是非常重要的。使用動態注意力模型能夠有效應對聯邦學習中不斷變化的收斂速度,即不同的源域具有自己的收斂速度的問題。另外,當特定域和目標域之間的域遷移較小時,它將增加特定域的權重,相反,則降低權重。
表 4. 消融研究結果
文章小結
在本文中,作者定義了無監督聯邦域適應(UFDA)問題,並給出了對 UFDA 的理論推廣。此外,本文提出了一種稱為-聯邦對抗域適應(FADA)的聯邦學習模型,通過動態注意力模式能夠有效地將從分布式源域學到的知識遷移到未標記的目標域。
三、Federated Learning with Matched Averaging
論文連結:http://arxiv.org/abs/2002.06440
聯邦學習允許邊緣設備協作學習共享模型,同時將訓練數據保留在本地設備中,從而實現將模型訓練與數據存儲在雲中的需求分離開來。本文針對卷積神經網絡(CNN)和長短期記憶網絡(LSTM)等現代神經網絡結構的聯邦學習問題,提出了一種聯邦匹配平均(Federated Matched Averaging,FedMA)算法。FedMA 通過匹配和平均具有相似特徵提取特徵的隱藏元素(即卷積層的通道;LSTM 的隱藏狀態;完全連接層的神經元等)以層的方式構建共享全局模型。
經典聯邦學習 FedAvg 的一個缺點是直接對模型參數進行加權平均,可能會對模型性能產生嚴重的不利影響,並顯著增加通信負擔,而這一問題主要是由於神經網絡(NN)參數的置換不變性而導致的。比如,模型訓練後的有些參數會在不同的變體中處於不同的位置,因此,直接對模型進行基於參數位置的加權平均可能使得某些參數失效。本文所提出的 FedMA 引入貝葉斯非參數方法以解決數據中的異質性問題。
方法介紹
本文首先討論神經網絡(NN)架構的置換不變性,並在 NNs 的參數空間中建立平均的概念。首先從最簡單的單層隱藏層全連接 NN 開始介紹,之後針對深度架構、卷積和循環架構進行分析。
1、全連接架構的置換不變性
基本的全連接(FC)NN 可以表示為
在不失一般性的前提下,上式省略了偏差以簡化表示,σ是非線性的(entry-wise)。擴展上式,得到
其中 i·和·i 分別表示第 i 行和第 i 列,L 是隱藏單元的數目。進一步,將 FC 的置換不變性寫作:
置換矩陣是一個正交矩陣,當應用於左側時,它作用於行,而應用於右側時,則作用於列。假設 {W1,W2} 是最佳權重,那麼從兩個同質數據集 X_j,X_j』訓練獲得的權重分別為 {W_1Π_j,(Π_j)^TW_2} 和 {W_1Π_j』,(Π_j』)^TW_2}。現在可以很容易地看出為什麼在參數空間中進行簡單的直接平均處理是不合適的。
令 w_jl 表示資料庫 j 中學習得到的第 l 個神經元(W(1)Π_j 中的第 l 列)。θi 表示全局模型中的第 i 個神經元,c(·,·) 表示一對神經元之間的相似函數。以下優化問題的解決方案是所需的置換:
給定 J 個客戶端提供的權重 {W_j,1,W_j,2},計算得到聯邦神經網絡權重:
基於上式與最大二分匹配問題之間的關係,本文將此方法稱為匹配平均(matched averaging)。如果 c(·,·)是歐式距離的平方,則可以得到類似於 k-means 聚類的目標函數,當然,該目標函數對「聚類分配」π 附加有額外的約束,以確保它們能夠形成置換矩陣。
2、關鍵(深度、卷積、循環)架構的置換不變性
在介紹卷積和遞歸架構之前,首先討論深度 FC 中的置換不變性和相應的匹配平均方法。
在 FC 置換不變性的基礎上擴展,得到遞歸定義的深度 FC 網絡
其中,n=1,...,N 表示層索引,π_0 是按照輸入特徵 x=x_0 排序的無歧義表徵,π_N 表示輸出類中對應的表徵。σ(·) 為身份表徵函數(或者是 softmax 函數,如果想要的是概率而不是邏輯值)。當 N=2 時,恢復得到一個與 FC 置換不變性一樣的單隱藏層變量。為了對從 J 個客戶機獲得的深層 FCs 進行匹配平均,需要為每個客戶端的每一層找到置換。然而任何連續的中間層對內的置換都是耦合的,這是一個 NP-hard 的組合優化問題。本文考慮遞歸(層內)匹配平均方法:假設有 {∏_(j,n-1)},將 {(∏_(j,n-1))^T W_j,n} 插入上式中,從而找到 {∏_(j,n)} 並移動到下一層。
與神經元不同,卷積 NN(CNNs)的不變性體現在通道(channel)不變性上。令 Conv(x,W)表示輸入 x 的卷積運算,W 為權重。對權重的輸出維度應用任何置換,以及對後續層的輸入通道維度應用相同的置換,都不會改變相應的 CNN 的前向反饋。CNNs 的元素表示為:
上式允許在通道內進行池操作。為了對第 n 個 CNN 層應用匹配平均,按照公式(2)轉換輸入形式為:
其中 D 是 (∏_(j,n-1))^T W_j,n 的展平後的維度數。類似於 FCs,可以遞歸地在深度 CNNs 上執行匹配平均。
遞歸結構(RNN)中的置換不變性與隱藏狀態的順序有關。遞歸結構與 FC 結構相似,主要區別在於隱藏層到隱藏層的權重 H∈ R^(L×L) 排列不變性,其中,L 是隱藏狀態的數目。隱藏狀態的排列同時影響 H 的行和列。對於一個經典 RNN h_t= σ(h_t−1 H + x_t W),其中 W 是隱藏權重的輸入。為了解釋隱藏態的置換不變性,對於任何 t,h_t 的所有維度都應該以相同的方式進行置換,即
為了匹配 RNN,需要將歐氏距離相似的兩個客戶端的隱藏權重與隱藏權重對齊。本文的匹配平均 RNN 解是利用公式在輸入到隱藏層的權重 {W_j} 中來找到 {∏_j},隱藏層權重輸入的計算方式與之前一致,聯邦隱藏層到隱藏層的權重 H 計算為
LSTMs 有多個單元格狀態,每個狀態都有其各自的隱藏到隱藏的和輸入到隱藏的權重。在外匹配平均過程中,當計算置換矩陣時,將輸入到隱藏權重的信息疊加到 S D×L 權重矩陣(S 是單元狀態數,D 是輸入維數,L 是隱藏狀態數)中,然後如前所述平均所有權重。LSTMs 通常也有一個嵌入層,將這一層當作一個 FC 層來處理。最後,以類似於深度 FCs 的遞歸方式處理深度 LSTMs。
3、FedMA 的完整算法流程
首先,數據中心(中央伺服器)只從客戶端收集第一層的權重,並執行前面描述的單層匹配以獲得聯邦模型的第一層權重。然後數據中心(中央伺服器)將這些權重廣播給客戶端,客戶端繼續訓練其數據集上的所有連續層,同時保持已經匹配的聯邦層凍結。然後,將此過程重複到最後一層,根據每個客戶端數據的類比例對其進行加權平均。FedMA 方法要求通信輪數等於網絡中的層數。具體流程見算法 1:
實驗分析
圖 1 展示了層匹配 FedMA 在更深的 VGG-9CNN 和 LSTM 上的性能。在異構環境中,FedMA 優於 FedAvg、FedProx(LeNet 和 LSTM 為 4,VGG-9 為 9)和其他基線模型(即客戶端個人 CNN 及其集成)訓練得到的 FedProx。
圖 1. 基於 MNIST 的 LeNet;基於 CIFAR-10 數據集的 VGG-9;基於 Shakespeare 數據集的 LSTM 上有限通信量的各種聯邦學習方法的比較:(a)同構數據劃分(b)異構數據劃分
FedMA 的優點之一是它比 FedAvg 更有效地利用了通信輪次,即 FedMA 不是直接按元素平均權重,而是識別匹配的卷積濾波器組,然後將它們平均到全局卷積濾波器中。圖 2 給出了可視化的一對匹配的本地濾波器、聚合的全局濾波器和 FedAvg 方法在相同輸入圖像上返回的濾波器所生成的表示。匹配濾波器和用 FedMA 生成的全局濾波器能夠提取輸入圖像的相同特徵,即客戶端 1 的濾波器 0 和客戶端 2 的濾波器 23 提取馬腿的位置,而相應的匹配全局濾波器 0 也提取馬腿的位置。對於 FedAvg,全局濾波器 0 是客戶端 1 的濾波器 0 和客戶端 2 的濾波器 0 的平均值,這明顯篡改了客戶端 1 的濾波器 0 的腿部提取結果。
圖 2. 由局部訓練模型、FedMA 全局模型和 FedAvg 全局模型的第一卷積層生成的表示
最後,作者研究了 FedMA 的通信性能。通過將 FedMA 與 FedAvg、FedProx 進行比較,在數據中心(中央伺服器)和客戶端之間交換的總消息大小(以千兆字節為單位)和全局模型實現良好效果所需的通信輪數(完成一次 FedMA 過程需要的輪數等於本地模型中的層數)測試數據的性能。此外,還比較了集成方法(Assemble)的性能。本文在 VGG-9 本地模型的 J=16 客戶端的 CIFAR-10 資料庫和 1 層 LSTM 的 J=66 客戶端的 Shakespeare 資料庫上評估了異構聯邦學習場景下的所有方法。實驗確定了 FedMA、FedAvg 和 FedProx 允許的總通信輪數,即 FedMA 為 11 輪,FedAvg 和 FedProx 分別為 99/33 輪,用於 VGG-9/LSTM 實驗。FedMA 在所有情況下都優於 FedAvg 和 FedProx(圖 3),當在圖 3(a)和圖 3(c)中將收斂性作為消息大小的函數進行評估時,它的優勢尤其明顯。
圖 2. 兩種聯合學習場景下各種方法的收斂速度:在 CIFAR-10 上訓練 VGG-9,J=16 個客戶端;在 Shakespeare 上訓練 LSTM,J=66 個客戶端
文章小結
本文提出了 FedMA----一種為現代 CNNs 和 LSTMs 體系結構設計的分層聯邦學習算法,它考慮了神經元的排列不變性,並實現了全局模型大小的自適應變化。本文證明了 FedMA 可以有效地利用訓練後的局部模型,這也是聯邦學習算法和架構主要考慮的問題。在後續工作中,作者考慮利用近似二次分配解(Approximate Quadratic Assignment Solutions)的方法引入額外的深度學習構建塊,例如剩餘連接和批處理規範化層,從而進一步改進 LSTMs 的聯邦學習效果。此外,作者提出,探索 FedMA 的容錯性並研究其在更大資料庫上的性能非常重要,特別是針對那些即使在數據可以聚合的情況下也無法進行有效訓練的資料庫。
作者介紹:仵冀穎,工學博士,畢業於北京交通大學,曾分別於香港中文大學和香港科技大學擔任助理研究員和研究助理,現從事電子政務領域信息化新技術研究工作。主要研究方向為模式識別、計算機視覺,愛好科研,希望能保持學習、不斷進步。
關於機器之心全球分析師網絡 Synced Global Analyst Network
機器之心全球分析師網絡是由機器之心發起的全球性人工智慧專業知識共享網絡。在過去的四年裡,已有數百名來自全球各地的 AI 領域專業學生學者、工程專家、業務專家,利用自己的學業工作之餘的閒暇時間,通過線上分享、專欄解讀、知識庫構建、報告發布、評測及項目諮詢等形式與全球 AI 社區共享自己的研究思路、工程經驗及行業洞察等專業知識,並從中獲得了自身的能力成長、經驗積累及職業發展。
感興趣加入機器之心全球分析師網絡?點擊閱讀原文,提交申請。閱讀原文
原標題:《7篇ICLR論文,遍覽聯邦學習最新研究進展》
閱讀原文