谷歌:引領ML發展的遷移學習,究竟在遷移什麼?丨NeurIPS 2020

2020-12-24 博客園

  來源:新智元

  在機器學習領域大熱的分類學習任務中,為了保證訓練得到的分類模型具有準確性和高可靠性,一般會作出兩個基本假設:

  用於學習的訓練樣本與新的測試樣本滿足獨立同分布;

  必須有足夠可用的訓練樣本才能學習得到一個好的分類模型。

  但實際情況很難滿足這兩個條件。

  很多 ML 技術只有在訓練數據和測試數據處於相同的特徵空間中或具有相同分布的假設下才能很好地發揮作用,一旦隨著時間推移,標籤可用性變差或標註樣本數據缺乏,效果便不盡如人意。

  因此,這就引起 ML 中另一個需要關注的重要問題,如何利用源領域(Source domian)中少量的可用標籤訓練樣本 / 數據訓練出魯棒性好的模型,對具有不同數據分布的無標籤 / 少可用標籤的目標領域(Target domain)進行預測。

  由此,遷移學習(Transfer Learning)應運而生,並引起了廣泛的關注和研究。

  近幾年來,已經有越來越多的研究者投入到遷移學習中。每年機器學習和數據挖掘的頂級會議中都有關於遷移學習的文章發表。

  顧名思義,遷移學習就是把一個領域已訓練好的模型參數遷移到另一個領域,使得目標領域能夠取得更好的學習效果。鑑於大部分的數據具有存在相關性,遷移學習可以比較輕鬆地將模型已學到的知識分享給新模型,從而避免了從頭學習,這加快效率,也大大提高樣本不充足任務的分類識別結果。

  今年的 NeurIPS 上,谷歌的一支研究團隊發表了一篇名為 What is being transferred in transfer learning? 的論文,揭示了關於遷移學習的最新研究進展。

  在這篇論文中,作者便向我們提供了新的工具和分析方法,從不同的角度剖析了不同模塊的作用及影響成功遷移的因素,得到了一些有趣的結論,例如,相比高層的特徵,預訓練模型適合遷移的主要是低層的統計信息。

  具體而言,通過對遷移到塊混洗圖像(block-shuffled images)的一系列分析,他們從學習低層數據統計中分離出了特徵復用(feature reuse)的效果,並表明當從預訓練權重進行初始化訓練時,該模型位於損失函數 「地圖」 的同一 「盆地」(basin)中,不同實例在特徵空間中相似,並且在參數空間中接近(註:basin 一詞在該領域文獻中經常使用,指代參數空間中損失函數相對較低值的區域)。

  遷移學習應用現狀

  前百度首席科學家吳恩達(Andrew Ng)曾經說過:遷移學習將會是繼監督學習之後,下一個機器學習商業成功的驅動力。

  在 2016 年的 NIPS 會議上,吳恩達曾給出了一個未來 AI 方向的技術發展判斷:毋庸置疑,目前成熟度最高、成功商用的是監督學習,緊隨其後,下一個近 5 年內最可能走向商用的 AI 技術將會是遷移學習。

  DeepMind 執行長 Demis Hassabis 也曾表示,遷移學習也是最有前途的技術之一,有朝一日可能會觸發通用人工智慧的誕生(AGI)。在當下深度學習的發展大潮中看來,遷移學習確實如此。

  如今距離這兩位 AI 學者的 「預測」 已經過去了近 5 年。那麼,目前遷移學習應用正呈現怎樣的局面?

  在計算機視覺領域,遷移學習已經有了很多成功的應用,甚至在一些任務中,機器能以超越人類精確度的水平完成某項任務。

  而在 NLP 領域,遷移學習也是一系列研究突破中的關鍵組成部分,尤其在跨域情感分析上展現了其潛力。

  與此同時,遷移學習所存在的問題也隨之暴露。研究人員發現,某些案例中,源域和目標域之間在視覺形式上仍存在不小的差異。對於研究人員而言,已經很難理解什麼能夠成功進行遷移,以及網絡的哪些部分對此負責。在這篇論文中,研究團隊專注於研究視覺領域的遷移學習。

  文中涉及的兩大數據集分別是:

  CheXpert 數據集,這是在 2019 年 AAAI 上,吳恩達的斯坦福團隊發布的大型 X 射線數據集,此數據集考慮到了不同疾病的胸部 X 射線醫學影像,它包含 65,240 位病人的 224,316 張標註好的胸部 X 光片以及放射科醫師為每張胸片寫的病理報告;

  DomainNet 數據集,該數據集發布在 2019 年 ICCV 上,此論文作者收集並注釋了迄今為止最大的 UDA 數據集,專門用於探究不同領域中的遷移學習。其中存在顯著的領域差異和大量的類別劃分,包含 6 個域和分布在 345 個類別中的近 60 萬幅圖像,範圍從真實圖像到草圖,剪貼畫和繪畫樣本,解決了多源 UDA 研究在數據可用性方面的差距。

  4 種網絡的遷移學習

  他們分析了四種不同情況下的網絡:

  1. 預訓練網絡(P, pre-trained model);

  2. 隨機初始化的網絡(RI, random initialization);

  3. 在源域上進行預訓練後在目標域上進行微調的網絡(P-T, model trained/fine-tuned on target domain starting from pre-trained weights);

  4. 隨機初始化對目標域進行普通訓練的模型(RI-T, model trained on target domain from random initialization)。

  首先,團隊通過改組數據研究了特徵復用。將下遊任務的圖像劃分為相同大小的塊並隨機排序,數據中的塊混洗破壞了圖像的視覺特徵。該分析表明了特徵復用的重要性,並證明了不受像素混洗幹擾的低級統計數據在成功傳輸中也起作用。

  然後,需要比較經過訓練的模型的詳細行為。為此,他們調查了從預訓練和從零開始訓練的模型兩者間的異同。實驗證明,與通過隨機初始化訓練的模型相比,使用預訓練的權重訓練的模型的兩個實例在特徵空間上更為相似。

  再就是調查了預訓練權重和隨機初始化權重訓練的模型的損失情況,並觀察到從預訓練權重訓練的兩個模型實例之間沒有性能降低,這表明預訓練權重能夠將優化引導到損失函數的 basin。

  接下來,我們結合文章中的實驗和結果來詳細的分析方法論並探討 「What is being transferred?」。

  什麼被遷移了?

  人類視覺系統的組成具有層次化的特徵,視覺皮層中的神經元對邊緣等低級特徵做出響應,而上層的神經元對複雜的語義輸入進行響應。一般認為,遷移學習的優勢來自重用預先訓練的特徵層。如果下遊任務因為太小或不夠多樣化而無法學習良好的特徵表示時,這會變得特別有用。

  因此,很容易理解,大家認為遷移學習有用的直覺思維就是,遷移學習通過特徵復用來給樣本少的數據提供一個較好的特徵先驗。

  然而,這種直覺卻無法解釋為什麼在遷移學習的許多成功應用中,目標領域和源領域在視覺上差異很大的問題。

  圖 1 。圖片出處:arXiv

  為了更清楚地描述特徵復用的作用,作者使用了圖 1 中包含自然圖像(ImageNet)的源域(預訓練)和一些與自然圖像的視覺相似度低的目標域(下遊任務)。

  圖 2 可以看到,real domain 具有最大的性能提升,因為該域包含與 ImageNet 共享相似視覺特徵的自然圖像。這能夠支撐團隊成員的假設 —— 特徵復用在遷移學習中起著重要作用。另一方面,在數據差別特別大的時候(CheXpert 和 quickdraw),仍然可以觀察到遷移學習帶來的明顯的性能提升。

  除最終性能外,在所有情況下,P-T 的優化收斂速度都比 RI-T 快得多。這也暗示出預訓練權重在遷移學習中的優勢並非直接來自特徵復用。

  為了進一步驗證該假設,團隊修改了下遊任務,使其與正常視覺域的距離進一步拉大,尤其是將下遊任務的圖像劃分為相等大小的塊並隨機排序。

  混洗擾亂了那些圖像中的高級視覺功能,模型只能抓住淺層特徵,而抽象特徵沒法很好地被提取。

  其中,塊大小 224*224 的極端情況意味著不進行混洗;在另一種極端情況下,圖像中的所有像素都將被混洗,從而使得在預訓練中學到的任何視覺特徵完全無用。

  在本文中,團隊成員創造出了一種特殊情況,每個通道的像素都可以獨立的移動,並且可以移動到其他通道中。

  圖 3 。圖片出處:arXiv

  圖 3 顯示了不同塊大小對最終性能和優化速度的影響。我們可以觀察到以下幾點:

  隨著打亂程度的加劇,RI-T 和 P-T 的最終性能都會下降,任務越發困難;

  相對精度差異隨塊尺寸(clipart, real)的減小而減小,說明特徵復用很有效果;

  quickdraw 上情況相反是由於其數據集和預訓練的數據集相差過大,但是即便如此,在 quickdraw 上預訓練還是有效的,說明存在除了特徵復用以外的因素;

  P-T 的優化速度相對穩定,而 RI-T 的優化速度隨著塊尺寸的減小時存在急劇的下降。這表明特徵復用並不是影響 P-T 訓練速度的主要因素。

  由上述實驗得出結論,特徵復用在遷移學習中起著非常重要的作用,尤其是當下遊任務與預訓練域共享相似的視覺特徵時。但是仍存在其他因素,例如低級別的統計信息,可能會帶來遷移學習的顯著優勢,尤其是在優化速度方面。

  失誤和特徵相似性

  這部分主要通過探究不同模型有哪些 common mistakes 和 uncommon mistakes 來揭示預訓練的作用。

  為了理解不同模型之間的差異,作者首先比較兩個 P-T,一個 P-T 加一個 RI-T 和兩個 RI-T 之間的兩類錯誤率並發現 P-T 和 RI-T 模型之間存在許多 uncommon mistakes,而兩個 P-T 的 uncommon mistakes 則要少得多。對於 CheXpert 和 DomainNet 目標域,都是這種情況。

  在 DomainNet 上可視化每個模型的兩類錯誤並觀察得到,P-T 不正確和 RI-T 正確的數據樣本主要包括模稜兩可的例子;而 P-T 是正確的數據樣本和 RI-T 是不正確的數據樣本也包括許多簡單樣本。

  這符合假設,P-T 在簡單樣本上的成功率很高,而在比較模糊難以判斷的樣本上比較難 (而此時 RI-T 往往比較好), 說明 P-T 有著很強的先驗知識,因此很難適應目標域。

  為了加強對上述想法的驗證,團隊成員又對特徵空間中兩個網絡的相似性進行了研究。

  通過中心核對齊 (CKA, Centered Kernel Alignment) 這一指標發現,P-T 的兩個實例在不同層之間非常相似,在 P-T 和 P 之間也是如此。但是 P-T 和 RI-T 實例或兩個 RI-T 實例之間,相似性非常低。

  表 2 。圖片出處:arXiv

  也就是說,基於預訓練的模型之間的特徵相似度很高,而 RI-T 與其他模型相似度很低,哪怕是兩個相同初始化的 RI-T。這顯然在說明預訓練模型之間往往是在重複利用相同的特徵,也就強調了特徵復用的作用。表 2 為不同模型的參數的距離,同樣能夠反映出上述結論。

  泛化性能

  更好度量泛化性能的常用標準,是研究在最終解決方案附近的損失函數裡 basin 程度。

  作者用Θ和Θ̃表示兩個不同檢查點的所有權重,通過兩個權重的線性插值{Θ휆=(1-λ)Θ+λΘ̃:λϵ[0,1]} 評估一系列模型的表現。

  由於神經網絡的非線性和組成結構,兩個性能良好的模型權重的線性組合不一定能定義效果良好的模型,因此通常會沿線性插值路徑預期到性能降低。

  但是,當兩個解屬於損失函數的同一 basin 時,線性插值仍保留在 basin 中,此時的結果是,不存在性能障礙。此外,對來自同一 basin 的兩個隨機解進行插值通常可以產生更接近 basin 中心的解,這可能比端點具有更好的泛化性能。

  團隊將重點放在凸包(convex hull)和線性插值上,以避免產生瑣碎的連通性結果。需要強調的是,要求 basin 上的大多數點的凸組合也都在 basin 上,這種額外的約束使得通過低損耗(非線性)路徑連接或不連接多個 basin。

  此概念的具體形式化以及將凸集設置為 basin 的三點要求論文中均給出了詳細說明,在此便不再贅述。

  圖 4 中所顯示出的插值結果,左為 DomainNet real, 右為 quickdraw。圖片出處:arXiv

  一方面,兩次隨機運行的 P-T 解決方案之間沒有觀察到性能降低,這表明預訓練的權重將優化引導到了損失函數的 basin。另一方面,在兩個 RI-T 運行的解決方案之間清楚地觀察到了障礙。可見預訓練模型之間的損失函數是很光滑的,不同於 RI-T。

  模塊重要度

  如果我們將訓練好的模型的某一層參數替換為其初始參數,然後觀察替換前後的正確率就能一定程度上判斷這個層在整個網絡中的重要性,那麼,模塊重要度就是一個這樣的類似的指標。

  圖5。圖片出處:arXiv

  圖 5 反映了不同模塊不同層的重要度。在監督學習案例中也有類似的模式。唯一的區別可能是,「FC」 層對於 P-T 模型的重要性是可預料的。

  接下來,作者使用擴展定義以及原始定義來研究不同模塊的重要度。很容易可以注意到,優化和直接路徑都為模塊的重要度提供了有趣的見解。或許,與最終值相比,權重的最佳值是進行此分析的更好的起點選擇。

  而圖 6 顯示了對 「 Conv1」 模塊的分析,正如圖 5 所示,這是一個關鍵模塊。

  圖6。圖片出處:arXiv

  圖7。圖片出處:arXiv

  通過初始化來自預訓練優化路徑上不同檢查點的預訓練權重,比較遷移學習的好處。圖 7 顯示了從不同的預訓練檢查點進行微調時的最終性能和優化速度。

  總體而言,預訓練的好處隨著檢查點指數的增加而增加,可得出以下結論:

  在預訓練中,在學習率下降的 epoch 30 和 epoch 60 觀察到了很大的性能提升。但是,從檢查點 29、30、31(和類似的 59、60、61)初始化不會顯示出明顯不同的影響。另一方面,特別是對於 real 和 clipart 的最終性能,當從訓練前性能一直處於平穩狀態的檢查點(如檢查點 29 和 59)開始時,可以觀察到顯著的改進。這表明,預訓練性能並不總是作為預訓練權重對遷移學習有效性的忠實指標。

  quickdraw 在預訓練中發現最終性能的收益要小得多,並在檢查點 10 迅速達到平穩狀態,而 real 和 clipart 直到檢查點 60 都不斷看到的性能的顯著改進。另一方面,隨著檢查點索引的增加,所有三個任務在優化速度改進上均具有明顯的優勢。

  優化速度在檢查點 10 處開始達到平穩狀態,而對於 real 和 clipart,最終結果則不斷提升。在訓練前的早期檢查點是在收斂模型的 basin 之外,在訓練期間的某個點便進入 basin。這也解釋了在一些檢查點之後性能停滯不前的原因。

  因此,我們可以早一步地選取檢查點,這樣便不會損失微調模型的準確性。這種現象的起點取決於預訓練模型何時進入其最終 basin。

  總而言之,這項研究明確闡述了遷移學習中所遷移的內容以及網絡的哪些部分正在發揮作用。

  對於成功的遷移,數據的特徵復用和底層統計都非常重要。通過對輸入塊進行混洗來研究特徵重用的作用,表明當從預訓練權重初始化進行訓練時,網絡停留在解決方案的同一 basin 中,特徵相似並且模型在參數空間中的距離附近。

  作者還進一步確認了,較低的層負責更一般的功能,較高層的模塊對參數的擾動更敏感。通過對損失函數 basin 的發現可用於改進集成方法,對低級數據統計數據的觀察提高了訓練速度,這可能會導致更好的網絡初始化方法。利用這些發現來改善遷移學習,將十分具有價值。

  Refrence:

  [1]https://arxiv.org/pdf/2008.11687.pdf

相關焦點

  • 聯邦學習 OR 遷移學習?No,我們需要聯邦遷移學習
    與此同時,基於遷移學習的的特性,FTL 的參與方可以擁有自己的特徵空間,而無需強制要求所有參與方都擁有或使用相同特徵的數據,這使得 FTL 適合於更多的應用場景。本文關注聯邦遷移學習方法,在介紹聯邦學習和遷移學習相關知識的基礎上,重點探討向經典聯邦學習中引入遷移學習的目的和意義。
  • 谷歌:服務中斷源自公司數據遷移問題
    據國外媒體報導,當地時間周五穀歌表示,Gmail、YouTube等主要服務之所以出現大規模中斷,是因為用戶ID系統出現錯誤。
  • 自監督學習知識遷移
    用更深層次的網絡來解決藉口任務作者使用VGG-16來解決前置任務並學習表徵。由於VGG-16的容量增加,它可以更好地處理 "Jigsaw++"任務帶來的額外複雜性,從而提取更好的表徵。c. 將知識遷移至AlexNet對來自VGG-16的表示進行聚類,並將聚類中心轉換為偽標籤。然後,AlexNet被訓練來對偽標籤進行分類。d.
  • 谷歌:源自公司數據遷移問題
    據國外媒體報導,當地時間周五穀歌表示,Gmail、YouTube等主要服務之所以出現大規模中斷,是因為用戶ID系統出現錯誤。谷歌判定,本周早些時候,其在線識別系統出現了錯誤,導致Gmail和YouTube等主要服務出現大面積中斷。
  • |利用基於遷移學習策略的transformer 模型進行Heck...
    該文研究者創新性地提出使用遷移學習(transfer learning)來突破這個困局,使小數據的高精度預測能夠成為現實。值得注意的是,該文所使用的遷移學習,是一類經典的機器學習優化手段。該方法通過將化學領域的基礎知識轉移到特定的小數據預測,可以有效地提高模型對於小數據集的知識理解和性能預測。
  • 再婚後戶口如何遷移,戶口遷移流程是什麼?
    除了財產分割和孩子的撫養權,婚後的戶口遷移問題也在困擾著許多人。那麼再婚後戶口如何遷移,戶口遷移流程是什麼?網友諮詢:再婚後戶口如何遷移,戶口遷移流程是什麼?>廣東丹柱律師事務所張秋雲律師解答:在當事人符合戶口遷入地的準入政策,並且當地的村(居)委會及戶主都同意接收的前提下,手續及需要的證件,可以參照如下辦理:1、帶上當事人的身份證、戶口本、結婚證等證件;2、去戶口所在地村(居)委會出具同意戶口遷移的證明
  • 阿里、浙大聯合推出遷移學習模型「DEPARA」入選CVPR 2020:可將...
    【TechWeb】近日,浙江大學與阿里安全的研究員聯合編寫的論文《DEPARA: Deep Attribution Graph for Deep Knowledge Transferability》收錄至CVPR 2020 Oral。
  • 谷歌130億參數多語言模型mT5重磅來襲,101種語言輕鬆遷移
    Facebook剛剛開源多語種機器翻譯模型「M2M-100」,這邊谷歌也來了。谷歌宣布,基於T5的mT5多語言模型正式開源,最大模型130億參數,與Facebook的M2M相比,參數少了,而且支持更多語種。
  • 「深度學習」基於RNN實現特定庫的分子生成的遷移學習指南
    通過對不同的遷移學習的配置實驗,作者提出了在基於RNN的分子生成任務中使用遷移學習的經驗性原則和建議。——背景——得益於大型資料庫(如ZINC,ChEMBL等)的出現和機器學習技術的蓬勃發展,深度學習技術已經被廣泛的應用到了藥物設計中,而分子生成正是其中主要的一類任務。
  • 「一加搬家」上架谷歌商店 可方便一加手機數據遷移
    現在最新消息,有外媒發現一加在谷歌商店上架了「一加搬家」APP。據消息了解,來自外媒Android Police透露,一加公司最近在谷歌商店上架了自家的數據遷移工具,簡稱「一加搬家」,該應用程式可以運行在任何Android版本為5.0以上的設備上。可惜的是,這款工具需要有一臺一加設備作為目標。
  • 《王者榮耀》角色遷移是指什麼 角色遷移意思介紹
    導 讀 王者榮耀手遊中,「角色遷移」指的是把帳號創造的某個角色從所處的區服轉移到另一個區服,也就轉區(轉服
  • 什麼是遷移農業?
    遷移農業又稱移動式耕作,移動農業與固定農業相對稱。包括三種形態:1、由移動部落經營的移動農業。2、由定居農民從事的耕地的輪作體系。3、由於土壤肥力很快下降,工作收入低,放棄原有耕地而另闢農田的農業。熱帶雨林移動農業是一種原始農業,也是一種非常落後的農業生產方式,它反映了生產力水平較低情形下,人們對自然的依賴,目前全世界的熱帶雨林,熱帶草原地區仍存在著大量遷移農業。
  • 聚焦遷移學習反向傳播缺陷,百度資深工程師帶來全新 ICML 工作分享
    CV 在前,NLP 在後,遷移學習技術的應用為這兩個領域所帶來的進展和突破,不可謂不矚目。其中,預訓練模型作為當下遷移學習的一種主流方法,讓「從零開始訓練一個新模型」的時代一去不復返。,提升低層次特徵的學習,從而顯著提升遷移學習的效果。
  • 王者榮耀角色遷移入口位置 王者榮耀角色遷移怎麼玩
    王者榮耀角色遷移入口位置 王者榮耀角色遷移怎麼玩時間:2020-02-15 21:39   來源:今日頭條   責任編輯:毛青青 川北在線核心提示:原標題:王者榮耀角色遷移入口位置 王者榮耀角色遷移怎麼玩 王者榮耀可以角色遷移了?好多小夥伴們都在問是真的還是假的呢,要怎麼遷移呢?
  • 陰陽師遷移序列號申請規則 如何申請遷移序列號
    遷移序列號是幫助玩家轉移遊戲數據的,那麼這個遷移序列號申請規則是什麼呢,我們要怎麼做才能申請呢,這裡面的具體情況都是什麼樣的呢,接下來就一起來看看具體的內容是什麼樣的吧。
  • 關於遷移的成語,你分得清嗎?
    學習遷移也稱訓練遷移,是指一種學習對另一種學習的影響,或習得的經驗對完成其他活動的影響,如通常所說的「舉一反三」、「觸類旁通」。而這裡很多考生在備考時產生混淆,在具體區分之前,還要明白與之相關的同化性遷移是什麼意思?同化性遷移是指不改變原有的認知結構,直接將原有的認知經驗應用到本質特徵相同的一類事物中去。
  • 王者營地角色遷移功能在哪 角色遷移轉區功能入口
    王者營地角色遷移功能在哪呢?今天小編給大家帶來的是王者榮耀角色遷移轉區功能入口哦!想知道的小夥伴就和小編一起來看看吧!
  • 遷戶口是什麼意思 戶口遷移如何辦理
    那麼遷戶口是什麼意思呢,這個問題涉及到很多人的戶口問題。那麼戶口遷移如何辦理呢,一些相關的小常識可以多了解和參考一下,這樣的話對於具體的戶口遷移這個問題會有很好的了解和參考,下面小編就來介紹吧。遷戶口是什麼意思戶口遷移,是中國戶口登記制度實行在常住地登記戶口的原則。
  • XSKY發布XMotion納管熱遷移技術,OpenStack集群遷移效率提升超10倍
    這些都涉及到虛擬機的遷移。根據遷移操作對業務的影響,虛擬機的遷移一般分為兩類:1、冷遷移(Cold Migration / Non-live Migration)虛擬機需要先停機,等待與此虛擬機相關的計算和存儲等資源遷移完成後,再重新啟動。在遷移期間,業務無法訪問,只有遷移完成後,業務才能恢復。
  • uefi系統遷移圖文詳解
    有朋友說自己購買了一款固態硬碟,想將機械硬碟裡面的系統遷移到固態硬碟,該怎麼操作呢?操作的方法其實很簡單,下面小編就來給大家介紹一下電腦怎麼uefi轉移系統。uefi系統遷移圖文詳解:準備工具diskgenius分區工具操作流程1,打開diskgenius分區工具,點擊界面左上角的「硬碟」按鈕,選擇「系統遷移」下一步。