如何解決聯邦學習中的通信開銷問題?

2021-02-08 澎湃新聞

原創 Synced 機器之心

機器之心分析師網絡

作者:仵冀穎

編輯:H4O

本文是我們聯邦學習系列研究文章中的一篇,重點聚焦的是聯邦學習中的通信開銷問題(Communication Cost)。

0. 引言

聯邦學習(Federated Learning)允許用戶在將數據保留在本地端不共享的前提下形成一個聯合體訓練得到全局模型,從而有效解決數據隱私和安全保護問題。同時,還可以有效應用聯合體各方用戶所掌握的標註數據,解決標註數據缺乏的問題。在聯邦學習架構的每一輪學習過程中,中央伺服器在當前全部客戶端中選定一些客戶端子集並將全局模型下發給這些客戶端子集。然後,這些客戶端子集在本地運行隨機梯度下降(SGD)等優化處理步驟後生成本地模型。最後,客戶端子集將本地模型發送回中央伺服器。反覆執行訓練過程直到模型收斂,生成最終的全局模型。

目前,聯邦學習的應用面臨四個主要問題:通信開銷問題、隱私保護問題、客戶端無狀態問題和客戶端中數據非獨立同分布問題。其中,通信開銷問題主要是由客戶端和中央伺服器之間經由網絡連接和傳輸數據(模型、參數)所造成的。隱私保護問題主要是指經由網絡傳輸時用戶信息、模型信息的隱私和安全保護問題。客戶端無狀態問題是指一般情況下在多輪訓練期間,沒有一個客戶端會參與超過一次的訓練。客戶端中數據非獨立同分布問題則是指不同客戶端,特別是邊緣設備,所收集到的數據通常不是獨立的,也不具備相同的數據分布特性。本文重點關注通信開銷問題的最新研究進展。通信帶寬是聯邦學習的主要瓶頸,因為大量的設備都將其本地更新發送到中央伺服器中。因此,對於一個通信效率高的聯邦學習算法來說,這種更新必須以壓縮和不頻繁的方式發送。

在實際場景中,特別是在所需的全局模型規模較大的情況下,網絡帶寬限制和工作節點數量可能會加劇聯邦學習的通信瓶頸,從而造成客戶端設備掉隊 / 退出的問題。在經典的聯邦學習框架下,系統會將一些網絡帶寬受限或訪問受限的客戶端排除在訓練的輪次之外,即不將全局模型發送給這些客戶端進行本地優化。這種簡單的處理方式會大大影響這些客戶端所提供的服務,進而影響用戶的使用體驗。

針對通信開銷問題最簡單直接的解決方案是以犧牲模型準確度為代價、在聯邦學習的整體框架中僅訓練佔用通信空間較小的低容量模型。從這個角度出發,來自 Google 的研究人員 Koneˇcný et al. 提出了一種降低上行通信成本(Client-to-Server FL Communication)的方法 [1]:客戶端只將本地計算得到的模型更新傳遞到中央伺服器,而不是完整的本地模型。很顯然,這種方法雖然能夠降低通信成本,但是並不能滿足複雜場景下業務應用需要。在此基礎上,來自同一研究小組的 Caldas et al. 提出了一種能夠有效降低下行通信成本(Server to Client Communication)同時與已有降低上行通信成本方法無縫集成的方法[2],具體包括在伺服器到客戶端的全局模型上使用有損壓縮,以及允許用戶在全局模型的較小子集上高效完成本地訓練的、能夠同時減少客戶端到伺服器的通信成本和本地計算的 Federated Dropout。

與這兩篇文章的思路類似,Rothchild el al. 提出了一種使用 Count Sketch 對客戶端模型更新進行壓縮處理的方法 FedSGD [3]。由於 Count Sketch 是線性的,可以通過 Sketch 計算動量和誤差累積,從而將動量和誤差累積的計算任務從客戶端轉移到中央伺服器,克服了稀疏客戶端參與更新的問題,同時保持高壓縮率和良好的收斂性。

Reisizadeh et al. 提出了一種周期平均和量化的處理方法 FedPAQ [6],量化處理本身也是壓縮的一種方式。FedPAQ 允許網絡中的客戶端在與中央伺服器同步之前執行本地訓練,僅將活躍客戶端的更新發送回中央伺服器,且發回的僅為本地信息的量化版本。

與上述從壓縮角度出發的工作較為不同的是,Hamer el al. 提出了一種主要解決下行通信成本問題的集成方法:FedBoost [4]。集成方法是機器學習中的一種通用技術,用於組合多個基本預測因子或專家來創建一個更精確的模型。FedBoost 主要通過學習一組預先訓練好的基本預測因子(Base Predictors)實現聯邦集成(Federated Ensembles)。

此外,Malinovsky el al. 提出了一種高效通信的分布式定點優化方法(Fixed-point optimization)[5],從解決優化問題或尋找凸凹函數的鞍點的角度出發限制客戶端本地計算,從而解決聯邦學習通信開銷瓶頸問題。

1. 解決通信開銷問題的研究進展

1.1 通過壓縮方法解決通信開銷問題

通過壓縮處理減少聯邦學習框架中上行、下行傳遞的數據量是最直接的解決通信開銷問題的方法。我們首先來看一看這一類方法的研究進展情況。

1.1.1 模型更新上傳方法 [1]

聯邦學習的目標是從存儲在大量客戶端的數據中學習包含在真實矩陣 W 中參數的模型。在第 t 輪訓練過程中,中央伺服器將當前模型 W_t 分發給總共 n_t 個客戶端的子集 S_t。這些客戶端子集根據其本地數據獨立訓練並更新本地模型。具體介紹,第 i 個客戶端的更新過程如下式所示:

這些更新可以是在客戶端上計算得到的單個梯度值,也可以是使用更複雜的計算方式得到的結果,例如,在客戶端的本地數據集上執行多個隨機梯度下降(Stochastic Gradient Descent,SGD)處理。選定的客戶端會將更新發送回中央伺服器,中央伺服器通過聚合所有客戶端更新來計算得到全局模型:

其中,η_t 表示中央伺服器中的學習速率。

作者介紹兩種部分模型更新上傳至中央伺服器的方法。值得注意的是,本文只關注了客戶端 - 中央伺服器這一段的上行通信成本。第一種方法為結構更新(Structure Update)。令更新(H_t)^i 為預先定義的結構。本文具體考慮兩種結構:低秩(Low-Rank)和隨機掩模(Random Mask)。在低秩情況下,令(H_t)^i=(A_t)^i ・(B_t)^i。在後續計算過程中,隨機生成(A_t)^i 並在本地訓練過程中將其考慮為一個常數,只優化(B_t)^i。在實際實現中,可以將(A_t)^i 壓縮成隨機種子的形式,客戶端只需要向中央伺服器發送訓練後的(B_t)^i。在每一輪次的更新中為每個客戶端重新生成(A_t)^i 矩陣。在隨機掩模的情況下,令(H_t)^i 為一個遵循預定義的隨機稀疏模式(即隨機掩模)的稀疏矩陣。在每一輪次的更新中每個客戶端獨立生成新的掩模。與低秩方法類似,稀疏掩模可以通過一個隨機種子生成,因此只需要將(H_t)^i 的非零項值與種子一起發送。

第二種方法為草圖更新(Sketched Update)。首先,在客戶端完整的計算模型更新(H_t)^i。在發送至中央伺服器之前,以有損壓縮進行編碼處理。中央伺服器收到編碼後解碼再進行聚合處理。生成 Sketch 的方法包括:(1)下採樣(Subsampling),採樣更新的平均值是真實平均值的無偏估計值 E[H^_t]=H_t。與隨機掩模的結構化更新類似,下採樣掩碼在每輪中也是在每個客戶端獨立隨機採樣的,並且掩碼本身可以存儲為同步種子。(2)概率量化(Probabilistic quantization),即將模型的權重(weights)量化處理。對於更新(H_t)^i,令 h=(h_1, ..., h_(d1x2d))=vec((H_t)^i),h_max=max_j(h_j),h_min=min_j(h_j)。h 的壓縮更新為:

對於 4 個字節的浮點數,這種方法實現了 32 倍的壓縮。對於一個比特的量化處理來說,首先均勻區分 [h_min, h_max] 為 2^b 個間隔。h_i 落在 h』和 h』』限定的區間內。量化操作將上述方程的 h_min 和 h_max 分別替換為 h』和 h』』。設定參數 b 以平衡準確度和通信成本,並通過隨機化旋轉改進量化。當尺度在不同維度上近似相等時,上述 1 比特和多比特量化方法效果最好。當 max=1,min=-1,且大部分值為 0 時,1 比特量化將會導致較大誤差,一般可以通過在量化前對 h 進行隨機旋轉(h 乘以隨機正交矩陣)來解決這個問題。在解碼階段,中央伺服器需要在聚合所有更新之前執行反向旋轉。

作者在實驗中對比的是結構更新和草圖更新兩種方法的模型效果,如圖 1 CIFAR 庫和圖 2 REDDIT 庫中的結果。CIFAR 庫中使用的模型有 9 個卷積層,其中第一層和最後一層的參數明顯少於其他層。在壓縮處理過程中只壓縮內部 7 層,每個層都具有相同的參數。圖 1 中使用關鍵字「mode」表示這種方法。對於低秩更新,「mode=25%」表示更新的秩被設置為全層變換的秩的 1/4,對於隨機掩模(Random Mask)或草圖繪製(Sketching),「mode=25%」的意思是對 25% 以外的所有參數進行置零處理。由圖 1,結構化的隨機掩模方法效果更優。

圖 1. 在 CIFAR 資料庫中結構化隨機掩碼更新和無量化 Sketched 更新的對比結果。

基於 REDDIT 資料庫,作者訓練了一個 LSTM 單詞預測模型。該模型被訓練成給定當前單詞和前一時間傳遞的狀態向量來預測下一個單詞。為了減少更新的規模,除一些內存消耗小於 0.01% 的微小變量(例如 bias)外對所有模型變量進行 Sketching 處理。圖 2 中使用 AccuracyTop1 進行評估,即模型賦予最高概率的單詞是正確的預測結果。

圖 2. Sketching 比較,在 Reddit 數據上訓練一個 LSTM 模型,每輪隨機抽樣 50 個客戶端。

1.1.2 有損壓縮方法 [2]

在 1.1.1 節中提出的模型更新傳遞方法也是一種有損壓縮策略,它主要解決的是客戶端 - 中央伺服器的上行通信開銷問題,本節中的方法主要聚焦中央伺服器 - 客戶端的下行通信開銷,同時還能與處理上行通信開銷的方法進行無縫集成。

圖 3. 有損壓縮方法整體思路。

該有損壓縮方法的整體思路如圖 3 所示。(1)通過 Federated Dropout 構造子模型,(2)對生成的對象進行無損壓縮,來減小通信模型的大小。然後將這個壓縮模型發送給客戶端,(3)客戶端使用本地數據對其進行解壓縮和訓練,(4)壓縮最終的本地更新。將本地更新發送回中央伺服器,(5)中央伺服器執行解壓縮,(6)中央伺服器聚合生成全局模型。

在方法第(2)步中所提到的「無損壓縮」借鑑的是節 1.1.1 中闡述的方法,包括基本變換、下採樣、概率量化等。只不過本文將這些壓縮應用於中央伺服器到客戶端的交換中,這也意味著,這種方法不能利用在中央伺服器端通過無損壓縮平均噪聲解壓縮處理(Averaging the Noisy Decompressions)的改進。關於下採樣和概率量化處理本節不再詳述。關於基本變換的處理,作者 Koneˇcný et al. 在文獻 [1] 中並未詳述。實際上文獻 [1] 中的基本變換為隨機 Hadamard 變換(HD),目的是均勻地將向量信息分布在各個維度上。而本文中除隨機 Hadamard 變換外,還考慮了 Kashin 表徵方法(K)從而儘可能在每個維度上傳播向量的信息。

為了進一步降低通信成本,本文引入 Federated Dropout 的有損壓縮方式,即每個客戶端不需要局部訓練全局模型的更新,只是訓練一個更小的子模型的更新。在傳統的 Dropout 方法中,使用一個隨機的二進位掩碼乘以隱藏單元,以便在每次訓練經由網絡傳輸時丟棄一部分期望的神經元。因為每個過程中的掩碼都會發生變化,所以每一個過程都需要計算相對於不同子模型的梯度。這些子模型可以有不同的大小(結構),具體取決於每層中丟棄多少個神經元。在本文處理中,為了滿足節省聯邦學習通信開銷的要求,在每個全連接層上都將固定數量的激活歸零,這樣使所有子模型都具有相同的簡化體系結構。如圖 4 所示。

圖 4. 應用於兩個全連接層的 Federated Dropout。

中央伺服器可以將必要的值映射到這個簡化的架構中,這意味著只將必要的係數傳輸到客戶端,重新打包成更小的密集矩陣。客戶端(可能完全不知道原始模型的架構)訓練其子模型並發送其更新,然後中央伺服器將其映射回全局模型。對於卷積層來說,將激活歸零不會實現任何空間的節省,因此,作者去掉了一定比例的濾波器。

除了節省伺服器到客戶端的通信開銷外,Federated Dropout 還帶來了另外兩個好處。首先,客戶端到中央伺服器更新的規模也減少了。其次,本地訓練過程現在只需要運行較少的梯度更新。當前所有的矩陣乘法都是較小維度的(相對於全連接層來說),或者是只需要使用較少的濾波器(對於卷積層來說)。因此,使用 Federated Dropout 進一步降低了聯邦學習中的本地計算成本。

在實驗部分,作者首先分別基於 CIFAR-10 和 EMNIST 庫驗證了壓縮處理對本文方法的影響。由圖 5 的實驗結果,(1)對於每一個模型,都能找到一組至少與基線方法(no compression)相匹敵的壓縮參數設置;(2)Kashin 表徵方法對量化處理最為有用;(3)在中央伺服器到客戶端的通信過程中進行下採樣處理的效果並不好。

圖 5. 有損壓縮參數對 CIFAR-10 和 EMNIST 的影響。

然後,作者通過實驗驗證 Federated Dropout 方法對全局模型準確度的影響。圖 6 給出了模型在不同的 Federated Dropout 率下的收斂情況。在本文模型中,將每層保留的神經元(或卷積層的過濾器)的百分比定義為 Federated Dropout 率。將每個實驗重複 10 次,最終報告 10 次重複實驗結果的平均值。由圖 6,對於每個模型來說都存在小於 1.0 的 Federated Dropout 率與基線方法效果相當。在某些情況下,甚至可以提高模型的最終準確度。此外,Federated Dropout 率為 0.75 的情況下不同模型都可以獲得較好的效果。這種 Dropout 率相當於丟棄掉 25% 的行和全連接層的權重矩陣的列(即,相當於減少了 43%),並減少相應百分比的濾波器。如果 Federated Dropout 率過高,往往會減慢模型的收斂速度,儘管較高的 Federated Dropout 率有時可能獲得更高的準確度。

圖 6. Federated Dropout 的結果,改變每層保留的神經元百分比。

最後,作者進行了實驗以驗證將兩種策略(有損壓縮和 Federated Dropout)與客戶端到伺服器壓縮方案(節 1.1.1 中文獻 [1] 提出的方法)相結合時本文方法的效果。作者評估了本文模型在 3 種不同的壓縮方案(Aggressive、Moderate 和 Conservative)和 4 種不同的 Federated Dropout 率(0.5、0.625、0.75 和 0.875)的表現。圖 7 給出了 CIFAR-10 和 EMNIST 中的實驗結果。重複每個實驗 5 次,最終報告 5 次重複實驗結果的平均值。對於所有三個模型,除了 Aggressive 壓縮方案外,Federated Dropout 率為 0.75 時在所有壓縮方案下都不會造成模型準確度下降。對於 MNIST 和 EMNIST,中央伺服器到客戶端的通信成本節省了 14 倍,客戶端到中央伺服器的通信成本節省了 28 倍,本地計算量減少了 1.7 倍,所有這些通信開銷成本的節約都不會降低最終全局模型的準確性(有時甚至還能夠提高準確性)。

圖 7. 壓縮和 Federated Dropout 對 CIFAR-10 和 EMNIST 的影響。

1.1.3 Count Sketch 壓縮處理 [3]

這篇文章中提出的 FetchSGD 使用 Count Sketch 來壓縮模型更新,然後利用 Sketches 的可合併性來將不同客戶端的模型更新進行合併。FetchSGD 設計中的一個關鍵問題是,由於 Count Sketch 是線性的,動量和誤差累積都可以在 Count Sketch 中進行。這使得該方法能夠將動量和誤差累積從客戶端轉移到中央伺服器中,從而在克服稀疏客戶端參與挑戰的同時,確保高壓縮率和良好的收斂性。FetchSGD 的完整方法見圖 8:(1)在客戶端本地計算梯度,(2)將梯度的 sketches 發送到中央伺服器中,中央伺服器聚合梯度(3)sketches(4)動量和誤差累積(5),(6)提取近似的 top-k 值,(7)中央伺服器將稀疏值更新到參與下一輪訓練的客戶端設備中。

圖 8. FetchSGD 完整方法圖示。

在 FetchSGD 的每次迭代中,第 i 個參與的客戶端使用部分(或全部)本地數據計算隨機梯度 (g_i)^t,然後使用稱為 Count Sketch 的數據結構壓縮(g_i)^t。每個客戶端將 Sketch S((g_i)^t) 作為其模型更新發送到聚合器(中央伺服器)。Count Sketch 是一種隨機的數據結構,它可以通過將向量多次隨機投影到低維空間來壓縮向量,以便後續近似地恢復高幅值(High-Magnitude Elements)數據。如下式:

由於 Count Sketch 具備線性特性,中央伺服器可以在給定 S((g_i)^t)的情況下,計算出每個小批量梯度 g^t 的 sketch:

此外,Count Sketch 的另一個有用特性是,對於 sketching 操作符 S(),有一個對應的解壓操作符 U()返回原始向量的無偏估計,從而實現對向量高幅值元素的近似:

簡而言之,U()近似地「撤消」由 S() 計算的投影,然後使用這些重建來估計原始向量。基於 Sketch S((g_i)^t),中央伺服器利用下式更新全局模型:

Top-k(g^t) 不是 g^t 的無偏估計,因此不具備經典 SGD 的聚合性。不過,研究人員也證明了如果有偏梯度壓縮方法累積了有偏梯度壓縮算子所產生的誤差,並在以後的優化中重新引入誤差,則仍然可以收斂。在 FetchSGD 中,由 Top-k 引入的 bias 可以在中央伺服器端進行誤差累積,從而將其重新零初始化(zero-initialized)為 sketch S_e:

相比之下,其他有偏梯度壓縮方法在壓縮梯度時會給客戶端帶來偏差,因此客戶端本身必須保持單獨的誤差累積向量。這在聯邦學習中是很難保證的,這是由於客戶端僅能參與一次更新,這樣就沒有機會在下一輪中重新引入錯誤。從另一個角度看,由於 S()是線性的,並且誤差累積只包含線性操作,因此在 S_e 的中央伺服器上進行誤差累積相當於在每個客戶端上進行誤差累積,並將結果 Sketch 上傳到中央伺服器。更進一步,我們注意到動量也只包含線性操作,因此動量可以等價地在客戶端或中央伺服器上執行。推廣上述方程可以得到:

完整的 FetchSGD 計算流程如下:

本文實驗主要在小型本地數據集和 Non-IID 數據上完成,因為作者認為這是聯邦學習中一個重要且相對未解決的問題。經典的梯度稀疏化方法是將每個客戶端的局部 top-k 梯度元素聚合在一起訓練全局模型的,當各個客戶端的本地數據集非常小或相互之間差異非常大時,這種方法在近似全局梯度的真正 top-k 梯度元素時的表現就會非常差。在這種情況下,與經典方法相比 FetchSGD 有一個關鍵的優勢:FetchSGD 的壓縮算子是線性的。在 FetchSGD 中「只使用具有 N 個數據的單個客戶端執行一個步驟相當於使用 N 個客戶端執行一個步驟」,因此,每個客戶端只貢獻一次數據,小型客戶端本地數據集不會帶來任何問題。獨立同分布的問題也可以通過隨機選擇客戶端得到解決,FetchSGD 將參與訓練的各個客戶端的數據聚合起來,因此可以得到更完整的數據分布樣本。

實驗中,作者以上傳和下載的總字節數表徵相對於未壓縮的 SGD 所實現的壓縮效果。這些數據中沒有考慮到的一個重要因素是,在 FedAvg 中,客戶端必須在參與之前立即下載一個完整的模型,因為每個模型的權重在每一輪中都會得到更新。相比之下,局部 Top-k 和 FetchSGD 每輪只更新有限數量的參數,因此未參與的客戶端可以相對更新當前模型,從而減少了必須在參與之前立即下載的新參數的數量。這使得本地 Top-k 和 FetchSGD 的上傳壓縮比下載壓縮更重要。下載壓縮對於這三種方法(FedAvg、Top-k、FetchSGD)也不那麼重要,因為目前邊緣設備的網際網路連接的下載速度往往遠遠高於上傳速度。作者給出了整體壓縮(包括上傳和下載)的結果,在圖 9 中把這些圖分成單獨的上傳和下載部分進行展示。FetchSGD 在不同的數據集和上傳、下載和整體壓縮的任務中,表現都較優。

圖 9. CIFAR10(左)和 CIFAR100(右)的上傳(頂部)、下載(中間)和整體(底部)壓縮效果比對。為了提高可讀性,每個圖只顯示該圖中顯示的壓縮類型的運行的帕累託邊界。

1.1.4 周期平均和量化的壓縮處理方法 [6]

這篇文章介紹了一種周期平均和量化處理的聯邦學習方法(a Communication-efficient Federated learning algorithm with Periodic Averaging and Quantization, FedPAQ)。其中的量化處理也可以看作是一種壓縮方式。

在經典聯邦學習框架中,為了利用客戶端節點上所有可用的數據樣本,參與訓練的客戶端在每次訓練迭代中通過中央伺服器同步其模型,因此,客戶端和中央伺服器之間要進行多次通信,從而導致網絡上的通信爭用造成較大通信開銷。本文提出的周期平均和量化處理方法令客戶端進行本地更新並定期通過中央伺服器進行同步。一旦某客戶端節點從中央伺服器中獲取到更新的模型,客戶端節點每隔 τ 次本地 SGD 就向中央伺服器發送更新信息以更新聚合模型。這種周期平均方案減少了中央伺服器和客戶端之間的通信次數,從而降低了訓練模型的總體通信成本。如果在客戶端中運行 T 次 SGD 迭代,則客戶端需要與中央伺服器進行 K=T/τ 輪通信,從而將總通信成本降低為原成本的 1/τ。這就是「周期平均」的處理思路。

從 K=T/τ 的計算公式可以直觀看出,選擇較大的 τ 值可以減少固定迭代次數 T 的通信次數,進而降低通信成本。但是這種降低是以犧牲模型準確度為代價的。增大 τ,會增加系統的噪聲,進而客戶端中的局部模型會逐漸收斂到局部最優解,而不是全局最優解。因此,作者考慮運行更多次迭代 T 來使模型達到特定的準確度。事實上,我們需要解決的一個關鍵問題是找到最優 τ,以使整個過程通信成本最小化。

在聯邦學習網絡中,通常有大量的設備(如智慧型電話)與中央伺服器(基站)進行通信。但是,基站本身的下載帶寬有限,因此只有少數設備能夠同時將其消息上載到基站。由於這一限制,從客戶端設備發送的消息將在中央伺服器基站中進行流水線式的串行傳輸,這導致訓練速度大大減慢。另一方面,如果讓所有的客戶端設備都參與到整個訓練過程中,將會造成巨大的、昂貴的網絡通信開銷。此外,在實際應用中,並不是所有的客戶端都在每一輪訓練的過程中發揮作用的。有很多因素決定客戶端是否參與當前的訓練過程:設備需在當前狀態下處於中央伺服器基站通信可達的範圍內、客戶端設備在當前狀態下為空閒可用狀態、客戶端設備通電且聯網等等。

考慮到上述因素,FedPAQ 假設,在總共 n 個客戶端設備中每輪訓練中只有 r 個節點(r ≤ n)可用,且這 r 個可用設備在網絡上隨機且均勻地分布。在第 k 個訓練周期內,中央伺服器將其當前模型 x_k 發送給本輪選定的參與訓練的 S_k 個客戶端子集中的 r 個客戶端節點,r 個客戶端節點在該子集的總共 n 個客戶端節點之間隨機均勻分布。另一方面,聯邦學習中的設備上行鏈路帶寬有限,這使得從客戶端到中央伺服器的通信緩慢且昂貴,這也是前面幾節中各種壓縮方法所考慮的主要問題。本文所提出的方法是在傳輸信息中使用量化算子,通過交換量化更新來降低網絡通信開銷。

在進行 τ 輪本地 SGD 更新後,每個客戶端 i∈S_k 中擁有本地模型 (x_k,τ)^i,其中 x_k 為最新從中央伺服器中獲取的全局模型。每個客戶端對 x_k 和(x_k,τ)^i 的差值應用量化算子 Q(),並將量化結果 Q((x_k,τ)^i-x_k) 發送至中央伺服器。中央伺服器接收到量化結果後進行反量化解碼處理,並基於處理結果生成新的全局模型 x_k+1。本文使用的量化算子為:

其中,ξ_i(x,s) 為以概率 |x_i|/||x||)s-l 確定值為 (l+1)/s 的隨機變量。控制參數 s 表徵量化水平,l∈[0,s) 為滿足下式的整數:

完整的 FedPAQ 方法如下:

總的來說,FedPAQ 通過使用三個模塊來降低通信負載:周期平均、部分客戶端參與和量化處理。然而,這種通信減少帶來了收斂準確度降低的問題,因此需要更多次的訓練迭代。作者在原文中還進行了 FedPAQ 的收斂性分析,並給出了 FedPAQ 強凸和非凸損失函數的近似最優理論證明。我們在這裡不再詳述。

作者在實驗中對比了通信開銷和收斂性的 tradeoff 的結果分析。實驗以總的訓練時間為代價目標,包括通訊時間和計算時間。首先,定義網絡帶寬(Bandwidth,BW),每輪的通訊時間為上傳的總比特數除以 BW。每輪的總比特數計算為 r ・ | Q(p,s)|,其中 | Q(p,s)| 表示根據具有 s 級(s levels)的特定量化算子對 p 維向量進行量化編碼所需的比特數。在本文實驗中使用的量化算子中,假定它需要 pF 位來表示長度為 p 的未量化向量,其中 F 為 32 位。然後,利用梯度計算時間的位移指數模型(Shifted-Exponential Model)確定計算時間。假設對於任何客戶端,計算一個周期內的 τ 次迭代和批量大小為 B 的梯度需要確定位移 τ ・ B ・ scale^(-1) ,其中 shift 和 scale 分別是位移指數模型的位移和尺度參數,實驗中 B 確定為 10。每輪的總計算時間就是 r 個貢獻客戶端節點中最大的本地計算時間。最後,計算通信 - 計算比為:

在圖 10 中,前四個圖展示了在 MNIST 數據集('0'和'8'位)上,T=100 次迭代的正則化邏輯回歸問題的訓練時間。聯邦學習網絡中共有 n=50 個客戶端節點,每個節點加載 200 個樣本。設置 C_comm/C_comp=100/1 來捕獲通信瓶頸。第一列圖中曲線顯示了在中央伺服器上每輪的訓練時間與所獲得的訓練損失之間的關係。第二列圖中曲線顯示了參與更新的客戶端數量 n 的影響。第三列論證了周期長度 τ 在通信 - 計算 tradeoff 中的作用。最後一列圖比較了 FedPAQ 與其他兩個基線方法 FedAvg 和 QSGD 的訓練時間。後四個圖為 CIFAR-10 資料庫中神經網絡的實驗結果。具體圖例與 MNIST 中結果相同。

圖 10. 訓練損失與訓練時間:MNIST 的 Logistic 回歸分析(上),CIFAR-10 的神經網絡結果(下)。

1.2 其它處理方法

1.2.1 集成方法 [4]

針對聯邦學習的通信開銷問題,這篇文章提出了利用集成方法(Ensemble method)的思路。集成方法是機器學習中的一種通用技術,用於組合多個基本預測因子(Base predictors)或專家(Experts)來創建一個更精確的模型。作者認為,聯邦學習中的通信開銷問題是由每輪從中央伺服器發送到客戶端(下行)和從客戶端發送到中央伺服器(上行)的參數數量引起的。在每輪訓練過程中,中央伺服器將當前模型的迭代狀態發送給全部參與的客戶端,直接將集成方法應用於這種聯邦學習框架中會由於每輪都需要傳遞預測值而導致通信爆炸。本文提出的 FedBoost 能夠在降低通信成本的同時實現計算加速、收斂保證和隱私保護。這種方法可以通過聯邦學習使用客戶端設備上的數據來訓練一個原本可能超過客戶端的通信帶寬和存儲容量的模型。此外,FedBoost 能夠同時降低中央伺服器到客戶端(下行)和客戶端到中央伺服器(上行)的通信成本。

集成方法通過聯邦學習的框架在中央伺服器端只需要學習混合權重,所需要經由客戶端發送給中央伺服器的數據量非常小。因此,作者認為在集成方法中客戶端到中央伺服器(上行)的通信成本可以忽略不計。本文提出了標準(Standard)和任務不可知(Agnostic)的聯邦學習集成方法,以解決中央伺服器到客戶端(下行)的通信瓶頸問題。

首先介紹標準聯邦學習集成方法。給定一組預先訓練的基本預測因子或假設:H≜{h_1, ..., h_q}。在標準集成方法中,將全部的假設都發送給每個參與的客戶端。然而,在實踐中,由於中央伺服器和客戶端之間的通信帶寬以及客戶端的內存和計算能力的限制,這種處理方式是不可行的。作者提出了一種抽樣方法,只將其中一部分假設發送給客戶端。這雖然可以降低通信複雜度,但同時會帶來整體梯度偏差的問題以及集成收斂性的不確定性問題。經典的集成方法為:

其中,D_k 表示第 k 個域分布,h 為預先確定的假設,B_F 表示域分布 D_λ與假設估計 h 之間的 Bregman 散度。

給定確定的基本預測因子,引入一個集成權重 α。令 L_k(α)表示經驗損失函數,L_D(k)(h_α) 表示域 k 中 m_k 個樣本的集成:

其中的集成權重 h_α,定義為:

設 C 為每輪發送給客戶端的最大基本預測因子數,即 C 能夠表徵通信效率。中央伺服器端的目標函數是學習一組針對預先訓練的基本估計量 h_k 的係數 α:

FedBoost 的完整算法流程如下:

在每輪訓練中,FedBoost 在中央伺服器上抽取兩個子集:一個預訓練假設子集,其中每一個子集以概率 γ_k,t 抽取得到(用 H_t 表示);N 個客戶端的隨機子集(用 S_t 表示)。定義以下 Bernoulli 指標:

在隨機採樣的條件下,t 時刻的集成為:

針對該集成的偏置估計為:

通過除以概率γ_k,t 的方式來解決這一問題,從而得出對集成的無偏估計:

作者提出了兩種計算概率 γ_k,t 的方法。一是均勻抽樣,γ_k,t=C/q。二是加權隨機抽樣,

然後,我們介紹任務不可知的聯邦學習集成方法。作者將上述標準聯邦學習環境中的集成方法推廣到任務不可知的聯邦學習中。在不可知損失函數中,優化問題涉及兩組參數:集成權重 α 和混合權重 λ。不可知損失函數如下:

其中,L_k(α) 為標準聯邦學習中域 k 的經驗損失。針對 L(α,λ)的優化問題為一個兩人博弈問題,找到最小化目標函數和對手的 α,同時使用λ最大化目標函數。最終目標是找到給定 α_opt 的極小極大博弈的均衡,它使得對於混合權重λ_opt 的損失最小化。l 為凸函數,可以使用一般鏡像下降(generic mirror descent)或其他基於梯度的算法來優化解決這個問題。

作者提出了任務無關的 AFLBoost 方法優化上述目標函數。AFLBoost 可以看作是 FedBoost 和針對任務無關損失函數的隨機鏡像下降算法 [7] 的結合。AFLBoost 的詳細算法流程如下:

作者在實驗中證明了 FedBoost 在不同通信成本下對密度估計(Density estimation)任務的有效性。具體包括三種方法:(1)無通信效率處理(無採樣):γ_k,t=1。(2)均勻抽樣:γ_k,t=C/q。(3)加權隨機抽樣:γ_k,t ∝ α_k,t·C。

作者首先創建了一個 p=100 的合成數據集,其中每個 h_k 是單個元素上的點質分布(Point-mass distribution),初始化每個 α_k 為 1/p,混合權重λ遵循冪律分布(Power law distribution)。實驗結果見圖 11。由圖 11 左,加權抽樣的性能優於均勻抽樣,兩種方法的損失都在穩步下降。由圖 11 中,在通信預算為 64 的情況下,不考慮通信效率均勻抽樣和加權抽樣的性能與 FedBoost 相同。此外,作者還在經典 Shakespeare 數據集中進行實驗。如圖 11 右,加權隨機抽樣比均勻抽樣的表現更好,在這個庫中加權抽樣的表現甚至優於 FedBoost,具有更好的收斂性能。

圖 11. 實驗對比圖。左:合成數據集的損失曲線比較;中:合成數據集中取樣方法的比較;右:Shakespeare 聯邦學習數據集的損失曲線比較。

1.2.2 分布式不動點優化方法 [5]

針對聯邦學習的通信開銷問題,一些研究人員的解決思路是利用客戶端的本地計算。也就是說,在通信和模型聚合處理之前,在每個客戶端設備中進行更多的本地計算,從而減少獲得全局有意義的解決方案所需的通信總輪數。在這種思路下,研究人員集中考慮了一些局部梯度下降算法以改進本地計算的效果。本文就是這種思路的工作之一。但是本文的工作並不局限於通過梯度下降來最小化目標函數,作者引入了計算 M 個操作算子平均值的不動點的方法。實際上,大多數迭代方法都屬於不動點方法(Fix-Point method),其目的是尋找某個算子的不動點。

為了從不動點方法角度進行分析,首先介紹經典的分布式不動點優化模型。令分布式系統中共包括 M 個並行計算節點(客戶端)。每個節點中處理的變量可看作是歐氏空間中的向量。令Τ_i 表示歐氏空間的操作算子,平均算子為:

本文方法的核心是找到Τ的不動點,即找到向量 x* 滿足 Τ(x*)=x*。可以通過在每個節點重複應用Τ_i,同時進行平均化處理以達到共識來最終獲得目標解 x*。本文作者考慮,經過多次迭代後,每個客戶端節點將其變量同步傳遞到遠程中央伺服器中。然後中央伺服器計算所接收到的向量的平均值並將其廣播到所有節點。

本文考慮兩種不動點優化策略:第一種策略是對於每個客戶端計算節點,迭代執行若干次某個操作序列(稱之為局部步驟,local steps)。第二種策略是減少通信步驟的數量,即僅以一定的較低概率到中央伺服器中共享信息,並且只在中間過程進行局部計算。

將 T 定義為歐氏空間中的一個操作算子,令 Fix(T) 表示 T 的不動點集合,對於歐氏空間中的每個 x 和 y,如果 T 滿足下式,則稱 T 是χ-Lipschitz 連續的:

此外,如果 T 是 1-Lipschitz 連續和χ- 收縮的,則稱 T 是非擴張的。如果 T 是收縮的,則它具有存在且唯一的不動點。對於任意 α∈(0,1],如果對於一些非擴張算子 T』 ,如果存在 T=αT』+Id,則稱 T 是 α 平均的。如果 T 是 1/2 平均的,則稱 T 是堅決不擴張的。

令(t_n)_n∈N 表示通信過程中的整數序列。在每次迭代過程中,操作算子Τ_i 應用於節點 i,並利用參數λ進行鬆弛。對於一定數量的迭代,M 個計算節點全部將其本地向量傳輸給中央伺服器的主節點,主節點計算平均值並將平均值廣播給全部節點。全部節點在新的一輪迭代開始時擁有相同的變量 (x^)^k。該算法是局部梯度下降法(Federated Averaging)的推廣。

我們把一系列本地迭代稱為一個 epoch,然後求取平均值。也就是說,第 n 個 epoch 是指數 k+1=t_(n-1)+1,...,t_n 的迭代序列。假設在兩個聚合計算平均值步驟之間的每個 epoch 的迭代次數由某個整數 H 限定。則對於每個 n≥1,有 1≤t_n - t_(n-1) ≤H。具體,第一種策略的詳細算法流程如下:

接下來,作者提出了第二種策略。第一種策略中的本地處理步驟可以看作是兩個通信步驟之間的內環(Inner Loop),將內環用概率聚合(Probabilistic Aggregation)來代替,即可得到第二種策略。在以下意義上,它是通信 - 有效的:在第一種策略中,通信輪數除以 H(或是非均勻情況下 t_n - t_(n-1)的平均值),而在第二種策略中該值乘以概率 p≤1。第二種策略的詳細算法流程如下:

在原文中,作者對兩種策略算法的收斂性能進行了充分的論證,我們在這裡不再詳述。

作者選擇經典分類問題的邏輯回歸進行實驗。相應的目標函數如下:

其中,a_i∈R^d,b_i∈{-1,+1} 為數據樣本。使用 LIBSVM 庫中的「a9a」和「a4a」數據集,並將 k 設為 L/n,其中 n 是數據集的大小,L 是ᐁf 第一部分的 Lipschitz 常數,且沒有經過正則化處理。

本文實驗中考慮梯度下降(Gradient Descent,GD)作為操作算子。也就是說,我們考慮最小化有限和問題:

其中,函數 f_i 為凸且 L 平滑的。令:

使用 1/L 作為步長,則每個Τ_i 都是堅決不擴張的。

使用第一種策略的算法 1 和使用第二種策略的算法 2 的實驗結果見圖 12 和圖 13。參數 H 和λ的值越大,初始收斂速度越快,但鄰域半徑越大。就計算時間而言,該算法沒有太大的優勢,因為實驗是在一臺機器上進行的,通信時間可以忽略不計。但是在通信速度較慢的分布式環境中,本文的算法就有明顯的優勢。我們也可以觀察到圖中實驗結果曲線沒有出現振蕩。因此,當只需要達到有限的準確度時,本文提出的本地方法具有明顯的優勢。

圖 12. 具有梯度下降步長的算法 1 在均勻通信時間 t_n=nH 下的收斂性,(a)不同 H 值的通訊輪數,λ=0.5,(b)不同 H 值的計算時間,λ=0.5,(c)不同λ值的計算時間,H=4。

圖 13. 梯度下降步長算法 2 的收斂性,λ=0.5,(a)梯度步長相同情況下,不同 p 值的通訊輪次數量,(b)梯度步長相同情況下,不同 p 值的計算時間,(c)梯度步長與 p 是成比例的,不同 p 值的通訊輪次數量。

2. 總結

我們在這篇文章重點關注了聯邦學習框架中的通信開銷研究進展。目前,大多數文章都從壓縮的角度出發解決通信開銷問題,這種方法的思路很直觀:壓縮後需要上行、下行傳遞的數據量就會減小,從而減輕通信開銷。當然,壓縮的方法有很多,例如有損壓縮、提取 sketch、量化等等。此外,我們也分析了兩篇非壓縮思路的文章,作者分別使用了集成方法和加強本地計算的方法。在不同的文章中,作者對比和分析的實驗指標各不相同,這說明目前還沒有標準化、統一化、權威性的衡量聯邦學習通信開銷的指標,畢竟通信開銷和計算效率是一對 tradeoff 的指標。單純用通信時間或通信數據量去衡量方法的優劣並不客觀。

目前,隨著 5G 技術的發展,5G 網絡中通信速率問題變得不再是問題。依託 5G,使用邊緣設備的應用場景也越來越多,例如校園安全監控、明廚亮灶監控、移動執法等等。在這種情況下,是否能夠緩解聯邦學習中的通信開銷問題,進而推動聯邦學習更快的發展和應用?讓我們拭目以待吧!

參考文獻

[1] Jakub Koneˇcný, H Brendan McMahan, Felix X Yu, Peter Richtárik, Ananda Theertha Suresh, and Dave Bacon.

Federated learning: Strategies for improving communication efficiency. arXiv preprint arXiv:1610.05492, 2016b. https://arxiv.org/pdf/1610.05492.pdf.

[2] Caldas, S., Koneˇcny, J., McMahan, H. B., and Talwalkar, A. Expanding the reach of federated learning by reducing

client resource requirements. arXiv preprint arXiv:1812.07210, 2018.

[3] Rothchild, D. , Panda, A. , Ullah, E. , Ivkin, N. , Stoica, I. , & Braverman, V. , et al. (2020). FetchSGD: communication-efficient federated learning with sketching, ICML 2020, http://arxiv.org/abs/2007.07682v1.

[4] Jenny Hamer, Mehryar Mohri , Ananda Theertha Suresh, FedBoost: A Communication-Efficient Algorithm for Federated Learning,ICML 2020.

[5] Malinovsky, G. , Kovalev, D. , Gasanov, E. , Condat, L. , & Richtarik, P. . (2020). From local sgd to local fixed point methods for federated learning, ICML 2020, https://arxiv.org/abs/2004.01442.

[6] Reisizadeh A , Mokhtari A , Hassani H , et al. FedPAQ: A Communication-Efficient Federated Learning Method with Periodic Averaging and Quantization[J]. arXiv, 2019.https://arxiv.org/pdf/1909.13014.pdf.

[7] Mohri, M., Sivek, G., and Suresh, A. T. Agnostic federated learning. In International Conference on Machine Learning, pp. 4615–4625, 2019.

分析師介紹:

仵冀穎,工學博士,畢業於北京交通大學,曾分別於香港中文大學和香港科技大學擔任助理研究員和研究助理,現從事電子政務領域信息化新技術研究工作。主要研究方向為模式識別、計算機視覺,愛好科研,希望能保持學習、不斷進步。

關於機器之心全球分析師網絡 Synced Global Analyst Network

機器之心全球分析師網絡是由機器之心發起的全球性人工智慧專業知識共享網絡。在過去的四年裡,已有數百名來自全球各地的 AI 領域專業學生學者、工程專家、業務專家,利用自己的學業工作之餘的閒暇時間,通過線上分享、專欄解讀、知識庫構建、報告發布、評測及項目諮詢等形式與全球 AI 社區共享自己的研究思路、工程經驗及行業洞察等專業知識,並從中獲得了自身的能力成長、經驗積累及職業發展。

原標題:《如何解決聯邦學習中的通信開銷問題?》

閱讀原文

相關焦點

  • MICCAI論文精選:如何用聯邦學習解決醫學影像數據隱私問題?
    在本文中,我們探討了在聯邦學習系統中應用微分隱私技術來保護病人數據的可行性。我們在BraTS數據集上應用並評估了用於腦腫瘤分割的實用聯邦學習系統。實驗結果表明,模型性能與隱私保護成本之間存在一種折衷關係。1.介紹深度學習神經網絡(DNN)在多種醫學應用中都顯示出很好的效果,但它高度依賴於訓練數據的數量和多樣性[11]。
  • 當傳統聯邦學習面臨異構性挑戰,不妨嘗試這些個性化聯邦學習算法
    在一些應用場景中,例如金融行業、政府行業等,受限於數據隱私和安全的要求,根本無法實現對數據的集中存儲;另一方面,這種方法會增加通信開銷。在物聯網等一些大量依賴於移動終端的應用中,這種數據匯聚的通信開銷成本是非常巨大的。聯邦學習允許多個用戶(稱為客戶機)協作訓練共享的全局模型,而無需分享本地設備中的數據。由中央伺服器協調完成多輪聯邦學習以得到最終的全局模型。
  • 聯邦學習 OR 遷移學習?No,我們需要聯邦遷移學習
    機器之心分析師網絡作者:仵冀穎編輯:H4O在這篇文章中,作者通過 4 篇論文詳細介紹了聯邦學習中的聯邦遷移學習問題,並探討了向經典聯邦學習中引入遷移學習的目的和意義。海量訓練數據是現代機器學習算法、人工智慧技術在各個領域中應用獲得成功的重要條件。
  • 聯邦學習算法綜述
    圖1 聯邦學習算法結構2 聯邦學習概述2.1 聯邦學習的定義2016年,谷歌研究院在解決面向用戶個體的鍵盤輸入法優化問題時,提出了聯邦學習這一全新的人工智慧解決方案。聯邦學習面向的場景是分散式多用戶,每個用戶客戶端擁有當前用戶的數據集。
  • 微眾銀行與星雲Clustar大牛解讀聯邦學習中的同態運算與密文傳輸
    本次專場講解中,黃啟軍老師從聯邦學習中的隱私保護問題,以及其在實際應用案例兩個角度進行分析,全面解析聯邦學習在同態計算中的挑戰與原理。胡水海老師著重分析同態運算和密文傳輸的問題,並就如何提高同態計算和密文傳輸的效率,進行相應的方案解析。
  • 「聯邦學習」—FedML 開源庫介紹
    介紹聯邦學習是一種分布式學習,提出該概念的初衷是為了解決數據孤島問題,從分散、孤立的數據中訓練機器學習模型。聯邦學習與傳統基於數據中心的分布式學習主要有三方面的不同:統計異構 Statistical heterogeneous(例如數據的非獨立同分布、部分數據無標籤)。系統約束 System constraints(例如通信和計算能力的差異)。
  • 遠離了獨立同分布假設,聯邦學習的性能又該如何呢?
    而在聯邦學習 (Federated Learning)中,也存在同樣的問題,導致我們的模型性能下降。這是因為在聯邦學習的應用場景中,各個設備上的數據是由設備/用戶獨立產生的,不同設備/用戶的非同源數據具有不同的分布特徵,而每一個設備在進行本地學習的時候,所學習的訓練數據是 Non-IID 的,任何特定用戶的本地數據集都不能代表總體分布。
  • 星雲Clustar首席科學家胡水海:GPU在聯邦機器學習中的探索
    近期,星雲Clustar首席科學家胡水海,以「GPU在聯邦機器學習中的探索」為題,全面詳盡地講解了目前解決聯邦學習的性能與效率問題,以及解決思路。加速聯邦學習跨機構跨區域通信的探索上面講的是如何應對聯邦學習計算方面的挑戰,那麼在傳輸方面,即在加速聯邦學習跨機構跨區域通信方面,主要考慮聯邦學習通信的兩大場景:場景一是數據中心內部不同機構間通信(主要是雲伺服器),場景二是不同機構的數據中心跨區域通信(地理位置不同)。
  • 平安科技聯邦學習技術成果入選EMNLP2020,業內聯邦學習NLP模型重磅...
    然而,由於用戶隱私政策、數據監管法規的限制,很多數據碎片化地保存在不同機構的資料庫裡,傳統的深度學習方法將無法在這樣的數據上進行訓練,聯邦學習正是為了解決這樣的數據孤島問題應運而生。在σ限制不同時,固定相同的batch size,對應不同的client數據集大小可能導致訓練迭代次數的限制,因此部分訓練曲線在未完全收斂時被迫中止) 蜂巢聯邦智能平臺人工智慧的發展需要大量數據,而大數據時代下,隱私是最易觸犯的紅線。如何有效解決當下人工智慧領域發展的難題?聯邦學習成為當下最熱門的技術研究方向之一。
  • 平安科技聯邦學習技術成果入選EMNLP2020,業內聯邦學習NLP模型重磅發布
    聯邦學習為深度學習提供了一種數據可用不可見的訓練方式,因而在深度學習領域激起了新的熱潮。利用大量的訓練樣本,深度學習能夠學習到幾乎任意任務的數學模型。然而,由於用戶隱私政策、數據監管法規的限制,很多數據碎片化地保存在不同機構的資料庫裡,傳統的深度學習方法將無法在這樣的數據上進行訓練,聯邦學習正是為了解決這樣的數據孤島問題應運而生。
  • 人工智慧新技術:聯邦學習的前世今生
    有意思的是,這個問題引發了更多的相關研究,並逐漸發展成為密碼學的一個重要分支。「百萬富翁問題」是這樣的:兩個爭強好勝的富翁A和B在街頭相遇,如何在不暴露各自財富的前提下比較出誰更富有?這個問題的難點在於,兩個富翁都不想暴露自己的財富數量,既不想直接告訴對方也不願藉助第三方機構的幫助。如何直觀地解決這個問題?我們可以參考一種「變換」的方法。
  • 字節跳動在聯邦學習領域的探索及實踐
    數據是人工智慧時代的石油,但是由於監管法規和商業機密等因素限制,"數據孤島"現象越來越明顯。
  • AI落地遭「卡脖子」困境:為什麼說聯邦學習是解決良方?
    Google 率先建立建立聯邦學習系統來解決用戶個人終端設備的數據隱私問題,在安卓系統的手機用戶中,首先將初始化模型下載到各終端,然後根據其本身的數據更新模型參數,不同終端隨之產生不同的更新結果送到雲端進行聚合,匯總後的模型參數將作為下一次更新的初始參數,一直迭代直到收斂。
  • 7篇ICLR論文,遍覽聯邦學習最新研究進展
    聯邦學習能夠有效解決分布式網絡中兩方或多方數據使用實體(客戶端)在不貢獻出數據的情況下的數據共同使用問題,同時保證全局模型能夠獲得與數據集中式存儲相同的建模效果。關於聯邦學習,機器之心也有過相關的進展分析報導。在 ICLR 2020 的接受論文中,共有 7 篇文章與聯邦學習相關,其中 2 篇為演講 Talk的文章,5 篇為poster-paper。
  • 聯邦學習+推薦場景,微眾銀行首創業界聯邦推薦技術
    FATE:首個支持聯邦學習架構體系的工業級聯邦學習開源框架微眾銀行在「數據孤島」和「隱私保護」問題上,是業界的引領者,它提出的聯邦學習解決方案能夠讓多個機構同時協作聯邦推薦:微眾銀行首次將聯邦學習應用於推薦場景推薦系統中算法的目標是挖掘用戶和內容、商品之間的聯繫,根據問題的特點,微眾銀行將聯邦推薦算法總結成三類,如下圖所示,包括橫向聯邦推薦算法(也可稱為基於商品的聯邦推薦)、縱向聯邦推薦算法(也可稱為基於用戶的聯邦推薦)和遷移聯邦推薦
  • 美國聯邦通信委員會駁回華為請求
    打開APP 美國聯邦通信委員會駁回華為請求 OFweek電子工程網 發表於 2020-12-11 13:41:16 據路透社報導,美國聯邦通信委員會(FCC)當地時間10日表示,已駁回中國華為公司提出的重新考慮「將該公司列為美國通信網絡國家安全威脅企業」決定的請求。
  • 想了解風頭正勁的聯邦學習?這篇400多個參考文獻綜述論文滿足你
    在為期兩天的研討會中,對調研聯邦學習領域眾多開放性挑戰的綜述論文的需求逐漸變得明晰。研討會上討論的很多問題都有一個核心特性:它們本質上是跨學科的。解決這些問題不僅需要機器學習,還需要分布式優化、加密學、安全、差分隱私、公平性、壓縮感知、系統、資訊理論、統計學等學科的技術。最難的問題出現在這些學科的交叉領域,因此本論文認為合作是促進聯邦學習領域發展的必經之路。
  • 中國聯邦學習「五大流派」
    聯邦學習作為新一代人工智慧基礎技術,正在滲透到AI商用瓶頸的根源,通過解決數據隱私與數據孤島問題,重塑金融、醫療、城市安防等領域。近兩年,在楊強教授等世界級專家的聯合推動下,國內外諸多科技巨頭,均已開始搭建聯邦學習的研究與應用團隊。
  • 如何從系統層面優化深度學習計算?
    深度學習計算優化的挑戰和機會目前,優化深度學習的計算存在以下幾個主要的挑戰:1)單機單計算單元(如GPU)的資源限制往往不能滿足對大規模數據和模型的處理要求,那麼就需要使用多機多計算單元來橫向擴展計算的規模。如何才能最大限度地減少通信的開銷從而最大化多機的並行度?
  • 在推薦系統中,我還有隱私嗎?聯邦學習:你可以有
    本文是使用聯邦學習框架實現隱私保護推薦系統的第一次嘗試,是基於 CF 的推薦系統實現的。在這篇文章中,作者表示將會繼續探索基於模擬器的對真實世界場景的分析,以持續異步的方式(在線學習)從客戶端收集更新。此外,對通信有效載荷和通信效率的分析有助於評估此類系統在實際場景中的應用效果。最後作者計劃進一步通過結合安全聯邦學習方法來研究攻擊和威脅對推薦系統的影響。