FedReID - 聯邦學習在行人重識別上的首次深入實踐

2021-01-19 AI 科技評論

作者 | 莊偉銘

編輯 | 陳大鑫

行人重識別的訓練需要收集大量的人體數據到一個中心伺服器上,這些數據包含了個人敏感信息,因此會造成隱私洩露問題。聯邦學習是一種保護隱私的分布式訓練方法,可以應用到行人重識別上,以解決這個問題。但是在現實場景中,將聯邦學習應用到行人重識別上因為數據異構性,會導致精度下降和收斂的問題。

數據異構性:數據非獨立分布 (non-IID) 和 各端數據量不同。

本文介紹一篇來自 ACMMM20 Oral 的論文,這篇論文主要通過構建一個 benchmark,並基於 benchmark 結果的深入分析,提出兩個優化方法,提升現實場景下聯邦學習在行人重識別上碰到的數據異構性問題。

論文地址:https://arxiv.org/pdf/2008.11560.pdf

開原始碼:https://github.com/cap-ntu/FedReID

論文第一作者:莊偉銘,商湯和新加坡南洋理工大學聯合博士項目二年級學生,導師是文勇剛教授,本科畢業於新加坡國立大學,現在主要進行聯邦學習相關的研究。

本文主要對這篇文章的這三個方面內容做簡要介紹:

Benchmark: 包括數據集、新的算法、場景等Benchmark 的結果分析優化方法:知識蒸餾、權重重分配

1

Benchmark

數據集

數據集由9個最常用的 行人重識別 數據集構成,具體的信息如下:

這些數據集的數據量、ID數量、領域都不同,能夠有效的模擬現實情況下的數據異構性問題。

算法

傳統聯邦學習算法 Federated Averaging (FedAvg) 要求端邊全模型同步,但是 ReID 的分類層的維度由 ID數量決定,很可能是不同的。

所以這篇論文提出了只同步部分的模型 Federated Partial Averaging (FedPav).

FedPav 的每一輪訓練可以通過4個步驟完成:

Server 下發一個全局模型到每個 Client每個 Client 收到全局模型後,將全局模型加上本地的分類器,用本地數據進行訓練,每個 Client 得到一個 local modelClient 將 local model 的 backbone 上傳到 ServerServer 對所有 client 收到的 model 進行加權平均。完整的算法可以參考下圖:

2

Benchmark結果

通過 Benchmark 的實驗,論文裡描述了不少聯邦學習和行人重識別結合的洞見。這邊著重提出兩點因數據異構性導致的問題。

1. 大數據集在聯邦學習中的精度低於單個數據集訓練的精度

FedPav: 聯邦學習模型的精度FedPav Local Model: 聯邦學習各邊端模型模型上傳前在各自邊端測試的精度Local Training: 基準,每個數據集單獨訓練和測試的精度

Local Training 效果比聯邦學習的效果好,說明這些大數據集沒法在聯邦學習中受益。需要有更好的算法來提高精度。

2. 聯邦學習訓練不收斂

通過這兩個數據集測試曲線可以看出,因為數據異構性的影響,精度波動較大,收斂性差。

3

優化方法

採用知識蒸餾,提高收斂

因為數據的異構性的原因,導致參與聯邦學習多方上傳前的本地模型的性能優於雲端伺服器進行模型融合後的模型性能,另外數據異構性還導致了訓練的不穩定性和難收斂的問題。

針對這個問題,本方案提出使用知識蒸餾的方法,將參與聯邦學習的多方的本地模型當成教師模型,雲端伺服器的模型作為學生模型,用知識蒸餾的方法更好的將教師模型的知識傳遞到學生模型,以此提高了模型訓練的穩定性和收斂性。

完整算法可以參考下圖:

下面的實驗結果顯示,採用知識蒸餾(橙線)的訓練收斂效果能夠得到有效提高。

提出權重重分配,提高精度

原算法在 Server 上做模型整合,採用的是加權平均的方法,用每個 Client 的數據量作為權重,進行加權平均。每個 Client 的數據量差距可能非常大,有的佔比 40%,有的佔比不到 1%,所以該論文提出了進行權重分配。

調整聯邦學習模型融合時各方模型更新的權重:給訓練效果越好的邊端,分配更大的權重,在模型融合時產生更大的影響。

訓練效果的衡量是通過比較每一方本地訓練前後模型用一批數據做推理產生的特徵的餘弦距離,餘弦距離越大,該訓練產生的變化越大,該分配的權重越大。完整算法可以參考下圖:

下表格的實驗結果顯示,權重重分配使所有邊端模型的性能都超過 Local Training,帶來普遍的性能提升。

4

總結

針對數據隱私問題,這篇論文將聯邦學習應用到行人重識別,並做了深入的研究分析。構建了一個 Benchmark,並基於實驗結果帶來的洞見,提出了使用知識蒸餾和權重重分配的方法來解決數據異構性帶來的性能問題。

算法細節和更多實驗結果,推薦閱讀原論文和開原始碼。

[贈書福利]

在AI科技評論今天(10月19日)頭條文章《專訪吳軍:未來10年,AI的發展方向是應用,不會出現重大的理論突破》一文留言區留言,談一談吳軍博士對你的啟示,或你對信息技術發展的理解。

AI 科技評論將會在留言區選出 10 名讀者,每人送出《信息傳》一本。

活動規則:

1. 在留言區留言,留言點讚最高的前 10 位讀者將獲得贈書。獲得贈書的讀者請聯繫 AI 科技評論客服(aitechreview)。

2. 留言內容會有篩選,例如「選我上去」等內容將不會被篩選,亦不會中獎。

3. 本活動時間為2020年10月19日 - 2020年10月23日(23:00),活動推送內僅允許中獎一次。

NeurIPS 2020論文接收列表已出,歡迎大家投稿讓更多的人了解你們的工作~

相關焦點

  • 阿里行人重識別(ReID)算法刷新業內新紀錄
    近日,機器智能技術實驗室在行人重識別(Person Re-identification)算法上獲得突破性成果。該技術團隊通過最新算法,在不使用任何時序信息的情況下,在行人重識別主庫(Market1501,DukeMTMC-reid和CUHK03)上各項指標均取得第一的好成績,刷新了業內的最好成績。其性能的提高主要來源於技術層面的創新:該團隊通過局部信息的挖掘,專注於解決行人在識別過程中表觀姿態變化劇烈,不容易對齊的問題。
  • 騰訊行人重識別算法突破成世界第一
    [導讀]近日,騰訊優圖在行人重識別(Person Re-ID)算法上獲得突破性成果
  • 行人重識別(ReID)的應用場景及技術難點分析
    舉報   跨鏡追蹤(Person Re-identification,簡稱為ReID)技術,也稱為行人重識別
  • 深度學習行人重識別綜述與展望,TPAMI 2021 最新文章
    ,圖像中行人將會佔據大部分面積;訓練數據標註,包含相機標籤和行人標籤等其他信息;重識別模型訓練,設計模型(主要指深度學習模型),讓它從訓練數據中儘可能挖掘「如何識別不同行人的隱藏特徵表達模式」;行人檢索,將訓練好的模型應用到測試場景中,檢驗該模型的實際效果。
  • 帶你認識步態識別&行人重識別
    比如人臉識別技術,只提取人的臉部特徵信息,在戴口罩、或者燈光黑暗、拍攝角度不佳、帽子遮擋等情況下,人臉識別技術難以發揮效用。為此,彌補人臉識別技術不足的一些技術也應運而生,比如步態識別技術、行人重識別ReID技術,這兩個技術都能在一定程度上彌補人臉識別的不足。
  • 可微圖學習&弱監督,中山大學提出新型行人重識別方法和史上最大...
    在本文中,中山大學研究者提出的弱監督行人重識別方法恰恰克服了這兩方面的障礙,並發布了一個大型行人重識別數據集。近期,中山大學發布了一種基於可微圖學習的弱監督行人重識別(person re-ID)方法和一個大型數據集。該方法結合可微圖學習和弱監督學習方法,為行人重識別深度神經網絡加入自動生成訓練標籤的模塊並與其一體訓練。
  • 騰訊優圖8篇論文入選,涵蓋目標跟蹤、行人重識別、人臉識別等領域
    在競爭越來越激烈的情況下,本次ECCV 騰訊優圖實驗室共入選8篇論文,涵蓋目標跟蹤、行人重識別、人臉識別、人體姿態估計、動作識別、物體檢測等熱門及前沿領域,再次展示了騰訊在計算機視覺領域的科研及創新實力。
  • 京東數科自研聯邦學習平臺Fedlearn正式亮相
    相較於傳統的數據共享交換方法,Fedlearn平臺創新性地提出了並行加密算法、異步計算框架、創新聯邦學習等技術架構,在保證數據安全的前提下提升學習效率,並逐步達到融合億級規模數據的能力。在京東數科開發Fedlearn平臺的過程中,實現了「基於核的非線性聯邦學習算法」。
  • ECCV 2020 | 騰訊優圖8篇論文入選,涵蓋目標跟蹤、行人重識別...
    在競爭越來越激烈的情況下,本次ECCV 騰訊優圖實驗室共入選8篇論文,涵蓋目標跟蹤、行人重識別、人臉識別、人體姿態估計、動作識別、物體檢測等熱門及前沿領域,再次展示了騰訊在計算機視覺領域的科研及創新實力。
  • 如何解決行人重識別中的換裝問題?雪梨科技大學在讀博士黃延下周講解
    Re-ID(Person Re-identification),即行人重識別,是一種利用計算機視覺技術判斷圖像或者視頻序列中是否存在特定行人的技術。其廣泛被認為是一個圖像檢索的子問題,給定一個監控行人圖像,檢索跨設備下的該行人圖像。當前行人重識別的研究工作主要集中在短期場景中,即數據中人物的外在服飾沒有發生變化,不考慮衣服、化妝、配飾等因素的影響。
  • 英特爾和賓夕法尼亞大學利用聯邦學習來識別腦腫瘤
    英特爾和賓夕法尼亞大學正在訓練人工智慧模型來識別腦瘤——重點是保護隱私。 賓夕法尼亞大學佩雷爾曼醫學院正與英特爾實驗室合作,共同開發基於聯邦學習技術。聯邦學習是一種機器學習技術,它在不同設備之間訓練算法,而無需交換數據樣本。
  • ICCV 2017 spotlight論文解讀:如何提高行人再識別的準確率
    雷鋒網(公眾號:雷鋒網) AI科技評論按,本文作者孫奕帆,本文首發於知乎專欄行人重識別,行人再識別問題(Person-reID)研究熱度逐漸上升。與與人臉識別相比,它在採集圖像時不需要行人主動配合,在安防等領域具有極大的應用潛力。基於深度學習的行人再識別方法,在近幾年快速進步,在絕大部分公開數據集上,深度學習特徵均超過了手工設計特徵。這篇文章的工作主要圍繞利用如何更好地學習的深度特徵,提高行人再識別的準確率進行。
  • 聯邦學習算法綜述
    從3個層面系統闡述聯邦學習算法。首先通過聯邦學習的定義、架構、分類以及與傳統分布式學習的對比來闡述聯邦學習的概念;然後基於機器學習和深度學習對目前各類聯邦學習算法進行分類比較和深入分析;最後分別從通信成本、客戶端選擇、聚合方式優化的角度對聯邦學習優化算法進行分類,總結了聯邦學習的研究現狀,並提出了聯邦學習面臨的通信、系統異構、數據異構三大難題和解決方案,以及對未來的期望。
  • 平均精度均值88.3% 雲天勵飛行人重識別算法達到行業領先水平
    近日,人工智慧獨角獸企業雲天勵飛在行人重識別算法上取得重大突破。在四個國際權威的行人重識別數據集Market1501、DukeMTMC-reID、CUHK03、MSMT17上,其關鍵指標mAP(平均精度均值)分別達到88.3%、79.3%、75.1%和60.1%,達到行業領先水平,促進人工智慧從「刷臉」向「識人」邁進。近年來,人臉識別技術日益成熟,促使機器在辨別人臉的能力上超過人類,在平安城市、智慧城市建設等方面也得到廣泛應用。
  • 江蘇銀行與騰訊安全合作探索聯邦學習 開啟信用卡智能經營之路
    來源:金融界網站金融界網站訊 4月17日,江蘇銀行與騰訊安全共同舉行聯邦學習線上發布會。江蘇銀行不僅是第一家通過聯邦學習實現融合騰訊安全黑灰產庫的銀行,也是第一家借力騰訊業務環境,實現信用卡智能化管理、助力信用卡盈利規模化的銀行。
  • 聯邦學習誕生1000天的真實現狀丨萬字長文
    近兩年,在楊強教授等世界級專家的聯合推動下,國內外多數科技巨頭,均已開始搭建聯邦學習的研究與應用團隊。基於此,雷鋒網(公眾號:雷鋒網)《AI金融評論》與《AI科技評論》聯合邀請五位頂尖聯邦學習專家,啟動《金融聯邦學習公開課》。其中在昨日的首節公開課上,微眾銀行首席AI官楊強教授分享了《聯邦學習前沿與應用價值討論》。
  • 京東數科首度公開聯邦學習戰略全布局,薄列峰詳解兩大算法突破
    對計算機視覺、自然語言語音識別等領域而言,2006年深度學習(的出現)是非常大的推動。大家熟悉的語音識別、語音合成、人臉識別等應用,都是大量深度學習模型在背後發揮作用。深度學習、梯度下降與橫向聯邦學習三種典型深度學習首先是深度神經網絡(Deep Neural Networks,DNN)在語音識別誤差上有30%的簡化,性能有非常大的提升。
  • 用Keras+LSTM+CRF的實踐命名實體識別NER
    文本分詞、詞性標註和命名實體識別都是自然語言處理領域裡面很基礎的任務,他們的精度決定了下遊任務的精度,其實在這之前我並沒有真正意義上接觸過命名實體識別這項工作,雖然說讀研期間斷斷續續也參與了這樣的項目,但是畢業之後始終覺得一知半解的感覺,最近想重新撿起來,以實踐為學習的主要手段來比較系統地對命名實體識別這類任務進行理解
  • 想了解風頭正勁的聯邦學習?這篇400多個參考文獻綜述論文滿足你
    聯邦學習使用局部數據收集和最小化原則,降低傳統中心化機器學習方法帶來的一些系統性隱私風險和成本。近期該領域在研究和應用層面都受到了極大關注。這篇論文將介紹聯邦學習的定義性特徵和面臨的挑戰,重點介紹重要的實踐局限和考量因素,並列舉大量珍貴的研究方向。本論文旨在提出具備重大理論和實踐意義的研究問題,鼓勵大家對這些問題展開研究,進而為現實世界帶來巨大影響。