自監督圖像論文復現 | BYOL(pytorch)| 2020

2021-12-28 機器學習煉丹術

自監督SOTA框架 | BYOL(優雅而簡潔) | 2020

筆記 | 吳恩達新書《Machine Learning Yearning》

圖片質量評估論文 | 無監督SER-FIQ | CVPR2020

圖像分割論文 | DRN膨脹殘差網絡 | CVPR2017

圖像質量評估論文 | Deep-IQA | IEEETIP2018

圖像質量評估論文 | rank-IQA | ICCV2017

注意力論文解讀(1) | Non-local Neural Network | CVPR2018 | 已復現

卷積網絡可解釋性復現 | Grad-CAM | ICCV | 2017

目錄:

主要模型代碼

augment

encoder+projector

predictor

loss_fn


繼續上一篇的內容,上一篇講解了Bootstrap Your Onw Latent自監督模型的論文和結構

現在我們看看如何用pytorch來實現這個結構,並且在學習的過程中加深對論文的理解。

github:https://github.com/lucidrains/byol-pytorch

【前沿】:這個代碼我沒有實際跑過,畢竟我只是一個沒有GPU的小可憐。

主要模型代碼
class BYOL(nn.Module):
    def __init__(
        self,
        net,
        image_size,
        hidden_layer = -2,
        projection_size = 256,
        projection_hidden_size = 4096,
        augment_fn = None,
        augment_fn2 = None,
        moving_average_decay = 0.99,
        use_momentum = True
    ):
        super().__init__()
        self.net = net

        # default SimCLR augmentation

        DEFAULT_AUG = torch.nn.Sequential(
            RandomApply(
                T.ColorJitter(0.8, 0.8, 0.8, 0.2),
                p = 0.3
            ),
            T.RandomGrayscale(p=0.2),
            T.RandomHorizontalFlip(),
            RandomApply(
                T.GaussianBlur((3, 3), (1.0, 2.0)),
                p = 0.2
            ),
            T.RandomResizedCrop((image_size, image_size)),
            T.Normalize(
                mean=torch.tensor([0.485, 0.456, 0.406]),
                std=torch.tensor([0.229, 0.224, 0.225])),
        )

        self.augment1 = default(augment_fn, DEFAULT_AUG)
        self.augment2 = default(augment_fn2, self.augment1)

        self.online_encoder = NetWrapper(net, projection_size, projection_hidden_size, layer=hidden_layer)

        self.use_momentum = use_momentum
        self.target_encoder = None
        self.target_ema_updater = EMA(moving_average_decay)

        self.online_predictor = MLP(projection_size, projection_size, projection_hidden_size)

        # get device of network and make wrapper same device
        device = get_module_device(net)
        self.to(device)

        # send a mock image tensor to instantiate singleton parameters
        self.forward(torch.randn(2, 3, image_size, image_size, device=device))

    @singleton('target_encoder')
    def _get_target_encoder(self):
        target_encoder = copy.deepcopy(self.online_encoder)
        set_requires_grad(target_encoder, False)
        return target_encoder

    def reset_moving_average(self):
        del self.target_encoder
        self.target_encoder = None

    def update_moving_average(self):
        assert self.use_momentum, 'you do not need to update the moving average, since you have turned off momentum for the target encoder'
        assert self.target_encoder is not None, 'target encoder has not been created yet'
        update_moving_average(self.target_ema_updater, self.target_encoder, self.online_encoder)

    def forward(self, x, return_embedding = False):
        if return_embedding:
            return self.online_encoder(x)

        image_one, image_two = self.augment1(x), self.augment2(x)

        online_proj_one, _ = self.online_encoder(image_one)
        online_proj_two, _ = self.online_encoder(image_two)

        online_pred_one = self.online_predictor(online_proj_one)
        online_pred_two = self.online_predictor(online_proj_two)

        with torch.no_grad():
            target_encoder = self._get_target_encoder() if self.use_momentum else self.online_encoder
            target_proj_one, _ = target_encoder(image_one)
            target_proj_two, _ = target_encoder(image_two)
            target_proj_one.detach_()
            target_proj_two.detach_()

        loss_one = loss_fn(online_pred_one, target_proj_two.detach())
        loss_two = loss_fn(online_pred_two, target_proj_one.detach())

        loss = loss_one + loss_two
        return loss.mean()

先看forward()函數,發現輸入一個圖片給模型,然後返回值是這個圖片計算的loss如果是推理過程,那麼return_embedding=True,那麼返回的值就是online network中的encoder部分輸出的東西,不用在考慮後面的predictor,這裡需要注意代碼中的encoder其實是論文中的encoder+projector;圖片經過self.augment1和self.augment2處理成兩個不同的圖片,在上一篇中,我們稱之為view;兩個圖片都經過online-encoder,這裡可能會有疑問:不是應該一個圖片經過online network,另外一個經過target network嗎?為什麼這兩個都經過online-encoder,你說的沒錯,這裡只是方便後面計算symmetric loss,因為要計算對稱損失,所以兩個圖片都要經過online network和target network。在target network中推理的內容,都不需要記錄梯度,因為target network是根據online network的參數更新的如果self.use_momentum=False,那麼就不使用論文中的更新target network的方式,而是直接把online network複製給target network,不過我發現!這個github代碼雖然有600多stars,但是這裡的就算你的self.use_momentum=True,其實也是把online network複製給了target network啊哈哈,那麼就不在這裡深究了。最後計算通過loss_fn計算損失,然後return loss.mean()

所以,目前位置,我們發現這個BYOL的結構其實很簡單,目前還有疑點的地方有4個:

augment

從上面的代碼中可以看到這一段:

# default SimCLR augmentation

        DEFAULT_AUG = torch.nn.Sequential(
            RandomApply(
                T.ColorJitter(0.8, 0.8, 0.8, 0.2),
                p = 0.3
            ),
            T.RandomGrayscale(p=0.2),
            T.RandomHorizontalFlip(),
            RandomApply(
                T.GaussianBlur((3, 3), (1.0, 2.0)),
                p = 0.2
            ),
            T.RandomResizedCrop((image_size, image_size)),
            T.Normalize(
                mean=torch.tensor([0.485, 0.456, 0.406]),
                std=torch.tensor([0.229, 0.224, 0.225])),
        )

        self.augment1 = default(augment_fn, DEFAULT_AUG)
        self.augment2 = default(augment_fn2, self.augment1)

可以看到:

這個就是圖像增強的pipeline,而augment1和augment2可以自定義,默認的話就是augment1和augment2都是上面的DEFAULT_AUG;from torchvision import transforms as T

比較陌生的可能就是torchvision.transforms.ColorJitter()這個方法了。

從官方API上可以看到,這個方法其實就是隨機的修改圖片的亮度,對比度,飽和度和色調

encoder+projector
class NetWrapper(nn.Module):
    def __init__(self, net, projection_size, projection_hidden_size, layer = -2):
        super().__init__()
        self.net = net
        self.layer = layer

        self.projector = None
        self.projection_size = projection_size
        self.projection_hidden_size = projection_hidden_size

        self.hidden = None
        self.hook_registered = False

    def _find_layer(self):
        if type(self.layer) == str:
            modules = dict([*self.net.named_modules()])
            return modules.get(self.layer, None)
        elif type(self.layer) == int:
            children = [*self.net.children()]
            return children[self.layer]
        return None

    def _hook(self, _, __, output):
        self.hidden = flatten(output)

    def _register_hook(self):
        layer = self._find_layer()
        assert layer is not None, f'hidden layer ({self.layer}) not found'
        handle = layer.register_forward_hook(self._hook)
        self.hook_registered = True

    @singleton('projector')
    def _get_projector(self, hidden):
        _, dim = hidden.shape
        projector = MLP(dim, self.projection_size, self.projection_hidden_size)
        return projector.to(hidden)

    def get_representation(self, x):
        if self.layer == -1:
            return self.net(x)

        if not self.hook_registered:
            self._register_hook()

        _ = self.net(x)
        hidden = self.hidden
        self.hidden = None
        assert hidden is not None, f'hidden layer {self.layer} never emitted an output'
        return hidden

    def forward(self, x, return_embedding = False):
        representation = self.get_representation(x)

        if return_embedding:
            return representation

        projector = self._get_projector(representation)
        projection = projector(representation)
        return projection, representation

這個就是基本的encoder+projector,裡面包含encoder和projector。

encoder

這個在初始化NetWrapper的時候,需要作為參數傳遞進來,所以看了訓練文件,發現這個模型為:

from torchvision import models, transforms
resnet = models.resnet50(pretrained=True)

所以encoder和論文中說的一樣,是一個resnet50。如果我記得沒錯,這個resnet輸出的是一個(batch_size,1000)這樣子的tensor。

projector

調用到了MLP這個東西:

class MLP(nn.Module):
    def __init__(self, dim, projection_size, hidden_size = 4096):
        super().__init__()
        self.net = nn.Sequential(
            nn.Linear(dim, hidden_size),
            nn.BatchNorm1d(hidden_size),
            nn.ReLU(inplace=True),
            nn.Linear(hidden_size, projection_size)
        )

    def forward(self, x):
        return self.net(x)

是全連接層+BN+激活層的結構。和論文中說的差不多,並且在最後的全連接層後面沒有加上BN+relu。經過這個MLP,返回的是一個(batch_size,projection_size)這樣形狀的tensor。

predictor
self.online_predictor = MLP(projection_size, projection_size, projection_hidden_size)

這個predictor,其實就是和projector一模一樣的東西,可以看到predictor的輸入和輸出的特徵數量都是projection_size。

這裡因為我對自監督的體系沒有完整的閱讀論文,只是最先看了這個BYOL,所以我無法說明這個predictor為什麼存在。從表現來看,是為了防止online network和target network的結構完全相同,如果完全相同的話可能會讓兩個模型訓練出完全一樣的效果,也就是loss=0的情況。假設

loss_fn
def loss_fn(x, y):
    x = F.normalize(x, dim=-1, p=2)
    y = F.normalize(y, dim=-1, p=2)
    return 2 - 2 * (x * y).sum(dim=-1)

這部分和論文中一致。

綜上所屬,這個BYOL框架是一個簡單,又有趣的無監督架構。

擴展之Tensorflow2.0 | 21 Keras的API詳解(下)池化、Normalization層

擴展之Tensorflow2.0 | 21 Keras的API詳解(上)卷積、激活、初始化、正則

擴展之Tensorflow2.0 | 20 TF2的eager模式與求導

擴展之Tensorflow2.0 | 19 TF2模型的存儲與載入

擴展之Tensorflow2.0 | 18 TF2構建自定義模型

擴展之Tensorflow2.0 | 17 TFrec文件的創建與讀取

擴展之Tensorflow2.0 | 16 TF2讀取圖片的方法

擴展之Tensorflow2.0 | 15 TF2實現一個簡單的服裝分類任務

小白學PyTorch | 14 tensorboardX可視化教程

小白學PyTorch | 13 EfficientNet詳解及PyTorch實現

小白學PyTorch | 12 SENet詳解及PyTorch實現

小白學PyTorch | 11 MobileNet詳解及PyTorch實現

小白學PyTorch | 10 pytorch常見運算詳解

小白學PyTorch | 9 tensor數據結構與存儲結構

小白學PyTorch | 8 實戰之MNIST小試牛刀

小白學PyTorch | 7 最新版本torchvision.transforms常用API翻譯與講解

小白學PyTorch | 6 模型的構建訪問遍歷存儲(附代碼)

小白學PyTorch | 5 torchvision預訓練模型與數據集全覽

小白學PyTorch | 4 構建模型三要素與權重初始化

小白學PyTorch | 3 淺談Dataset和Dataloader

小白學PyTorch | 2 淺談訓練集驗證集和測試集

小白學PyTorch | 1 搭建一個超簡單的網絡

小白學PyTorch | 動態圖與靜態圖的淺顯理解

圖片質量評估論文 | 無監督SER-FIQ | CVPR2020

圖像質量評估論文 | Deep-IQA | IEEETIP2018

圖像質量評估論文 | rank-IQA | ICCV2017

輪廓檢測論文解讀 | Richer Convolutional Features| CVPR | 2017

輪廓檢測論文解讀 | 整體嵌套邊緣檢測HED | CVPR | 2015

注意力論文解讀(1) | Non-local Neural Network | CVPR2018 | 已復現

卷積漲點論文復現 | Asymmetric Conv ACNet | ICCV | 2019

pytorch實現 | Deformable ConvNet 可變卷積(下) | CVPR | 2017

圖像處理論文詳解 | Deformable Convolutional Networks (上)| CVPR | 2017

卷積網絡可解釋性復現 | Grad-CAM | ICCV | 2017

孿生網絡入門(下) Siamese Net分類服裝MNIST數據集(pytorch)

孿生網絡入門(上) Siamese Net及其損失函數

圖像分割必備知識點 | Unet++ 超詳解+註解

圖像分割必備知識點 | Unet詳解 理論+ 代碼

圖像分割必備知識點 | Dice損失 理論+代碼

3D卷積入門 | 多論文筆記 | R2D C3D P3D MCx R(2+1)D

小白學論文 | EfficientNet強在哪裡

小白學論文 | 神經網絡初始化Xavier

小白學論文 | 端側神經網絡GhostNet(2019)

小白學目標檢測 | RCNN, SPPNet, Fast, Faster

小白學圖像 | BatchNormalization詳解與比較

小白學圖像 | Group Normalization詳解+PyTorch代碼

小白學圖像 | 八篇經典CNN論文串講

圖像增強 | CLAHE 限制對比度自適應直方圖均衡化

小白學卷積 | 深入淺出卷積網絡的平移不變性

小白學卷積 | (反)卷積輸出尺寸計算

損失函數 | 焦點損失函數 FocalLoss 與 GHM

<<小白學機器學習>>

小白學ML | 隨機森林 全解 (全網最全)

小白學SVM | SVM優化推導 + 拉格朗日 + hingeLoss

小白學LGB | LightGBM = GOSS + histogram + EFB

小白學LGB | LightGBM的調參與並行

小白學XGB | XGBoost推導與牛頓法

評價指標 | 詳解F1-score與多分類F1

小白學ML | Adaboost及手推算法案例

小白學ML | GBDT梯度提升樹

小白學優化 | 最小二乘法與嶺回歸&Lasso回歸

小白學排序 | 十大經典排序算法(動圖)

雜談 | 正態分布為什麼如此常見

Adam優化器為什麼被人吐槽?

機器學習不得不知道的提升技巧:SWA與pseudo-label

決策樹(一)基尼係數與信息增益

決策樹(二)ID3,C4.5和CART

五分鐘理解:BCELoss 和 BCEWithLogitsLoss的區別

<<小白面經>>

秋招總結 | 一個非Top學校的跨專業的算法應屆研究生的幾十場面試

【小白面經】快手 AI算法崗 附答案解析

【小白面經】 拼多多 AI算法崗 附帶解析

【小白面經】八種應對樣本不均衡的策略

【小白面經】之防止過擬合的所有方法

【小白面經】梯度消失爆炸及其解決方法

【小白面經】 判別模型&生成模型



相關焦點

  • BYOL:輕鬆進行自監督學習
    假設沒有MLP層的話,網絡可以通過將權重降低到零方便的使所有圖像的表示相似化,可這樣模型並沒有學到任何有用的東西,而MLP層可以識別出數據轉換並預測目標隱向量。這樣避免了權重趨零,可以學習更恰當的數據表示!訓練結束後,捨棄目標網絡編碼器,只保留一個編碼器,根據該編碼器,所有訓練數據可生成自洽表示。這正是BYOL能夠進行自監督學習的關鍵!
  • 考慮下用BYOL輕鬆進行自監督學習!附代碼、論文解讀連結
    基於此,自監督學習成為深度學習的研究熱點,旨在從未標記樣本中進行學習,以緩解數據標註困難的問題。自監督學習的目標很簡單,即訓練一個模型使得相似的樣本具有相似的表示,然而具體實現卻困難重重。經過谷歌這樣的諸多先驅者若干年的研究,自監督學習如今已取得一系列的進步與發展。
  • PyTorch Hub輕鬆解決論文可復現性
    用戶可以提交、瀏覽模型,極大的改善了論文的可復現性難題。機器學習論文的可復現性一直是個難題。許多機器學習相關論文要麼無法復現,要麼難以重現。有時候論文讀者經常為了調用各種經典機器學習模型,還要重複造輪子。隨著提交給arXiv以及各種會議上的論文數量開始暴漲,可復現性的重要性也越來越凸顯。
  • 庫、教程、論文實現,這是一份超全的PyTorch資源列表(Github 2.2K星)
    該部分項目涉及語音識別、多說話人語音處理、機器翻譯、共指消解、情感分類、詞嵌入/表徵、語音生成、文本語音轉換、視覺問答等任務,其中有一些是具體論文的 PyTorch 復現,此外還包括一些任務更廣泛的庫、工具集、框架。
  • 【Github 3.5K 星】PyTorch資源列表:450個NLP/CV/SP、論文實現、庫、教程&示例
    >論文實現PyTorch 其他項目自然語言處理和語音處理該部分項目涉及語音識別、多說話人語音處理、機器翻譯、共指消解、情感分類、詞嵌入/表徵、語音生成、文本語音轉換、視覺問答等任務,其中有一些是具體論文的 PyTorch 復現,此外還包括一些任務更廣泛的庫、工具集、框架。
  • DALL·E才發布兩天就被復現?官方論文還沒出,大神們就在自製代碼和...
    蕭簫 發自 凹非寺量子位 報導 | 公眾號 QbitAI沒想到,OpenAI剛公布DALL·E,就已經有人在復現了。DALL·E是前兩天剛公布的文字轉圖像網絡框架,目前只公布了項目結果,甚至連官方論文都還沒出。論文還沒出,就開始復現了論文復現的依據,來自一位叫做Yannic Kilcher的博主製作的油管視頻。他在視頻中,對DALL·E的原理結構進行了猜測。
  • 對比自監督學習浪潮迅猛來襲,你準備好了嗎?
    ,科研人員在基於對比學習的自監督方法方面進行了大量研究。 論文地址:https://arxiv.org/abs/2009.00104 在過去的一年中,一類「新穎」的自監督學習(AMDIM、CPC、
  • Github 2.2K星的超全PyTorch資源列表
    該部分項目涉及語音識別、多說話人語音處理、機器翻譯、共指消解、情感分類、詞嵌入/表徵、語音生成、文本語音轉換、視覺問答等任務,其中有一些是具體論文的 PyTorch 復現,此外還包括一些任務更廣泛的庫、工具集、框架。
  • 用Keras復現DCN算法
    放假前幾天一直在按老師的要求修改聚類框架,老師想要將論文《Towards K-means-friendly Spaces: Simultaneous DeepLearning and Clustering》中的聚類方法DCN應用到我們的框架中。
  • 經典論文復現 | InfoGAN:一種無監督生成方法
    隨著人工智慧領域的發展,打破不可復現性將是必要的。為此,PaperWeekly 聯手百度 PaddlePaddle 共同發起了本次論文有獎復現,我們希望和來自學界、工業界的研究者一起接力,為 AI 行業帶來良性循環。
  • 從 SimCLR, MoCo, BYOL 了解目前圖像自監督對比學習預訓練在做什麼
    在不使用任何的標籤的情況下,使用自監督對比學習預訓練出的CNN編碼器參數能夠在分類、分割、檢測等基礎任務上都有上佳的表現。這篇文章重點總結了SimCLR, MoCo, BYOL三個經典的CV領域無監督對比學習預訓練的方法。
  • 自注意力可以替代CNN,能表達任何卷積濾波層
    △論文地址:https://arxiv.org/abs/1911.03584這項工作來自洛桑理工學院,研究表明:只要有足夠的頭(head)和使用相對位置編碼,自注意力可以表達任何CNN卷積濾波層。此外,還中選ICLR 2020,在Twitter上也受到了廣泛的關注。
  • CVPR論文經不起復現推敲?是學術會議水了還是我飄了
    機器之心報導機器之心編輯部很多人工智慧學者都在抱怨目前的 AI 頂級會議接收論文數量大幅膨脹,論文質量也顯著下降,其中有一部分經不起復現的推敲。最近,在 Reddit 上一個「較真」的網友就對 CVPR2018 的一篇大會接收論文進行復現,發現了其中的問題。此貼在 Reddit 上引發了眾人的熱烈討論,其中包括對學術會議同行評審機制的審視。
  • 2020 年,那些「引爆」了 AI 社區的熱門論文...
    公眾號關注 「Python遇見機器學習」轉自 | 機器之心2020 年出現了哪些引爆機器學習社區的論文和庫呢?哪些模型和方法登頂各領域基準排行榜呢?這篇文章給你答案。不平凡的 2020 年終於過去了!不久前,資源網站 Papers with Code 發文總結了 2020 年 Top 10 熱門的論文、庫和基準,涵蓋自然語言處理、圖像分類、目標檢測、語義分割、實例分割、姿態估計、行人重識別等諸多領域。
  • 不需要負樣本對的SOTA的自監督學習方法:BYOL
    概要與之前工作SimCLR和MoCo不同,最近的一篇來自DeepMind的論文"Bootstrap Your Own Latent" 展示了一個先進的自監督學習的方法,不需要明確的對比損失函數我們復現BYOL的時候,強調了兩個令人驚訝的發現:(1)在刪除batch normalization時,BYOL的性能通常不比random好(2)batch normalization的存在隱式地導致了一種對比學習的形式
  • CVPR 2020文本圖像檢測與識別論文/代碼
    共收錄 1470篇文章,算法主要領域:圖像與視頻處理,圖像分類&檢測&分割、視覺目標跟蹤、視頻內容分析、人體姿態估計、模型加速、網絡架構搜索(NAS)、生成對抗(GAN)、光學字符識別(OCR)、人臉識別、三維重建等方向。
  • CVPR 2020|弱監督怎樣做圖像分類?上交大提出自組織記憶網絡
    機器之心發布作者:塗逸近日,計算機視覺頂會 CVPR 2020 接收論文結果公布,從 6656 篇有效投稿中錄取了 1470 篇論文,錄取率約為 22%。本文介紹了上海交通大學被此頂會接收的一篇論文《Learning from Web Data with Memory Module》。在這篇論文中,研究者利用網絡數據研究圖像分類任務 (image classification)。
  • 【Facebook AI】自監督學習在計算機視覺應用最新概述,108頁ppt Self-supervised learning
    最新的一期是來自Facebook AI的研究科學家Ishan Misra講述了計算機視覺中的自監督學習最新進展,108頁ppt,很不錯報告。在這一節中,我們了解了自監督學習背後的動機,定義了它是什麼,並看到了它在NLP和計算機視覺中的一些應用。我們了解了如何通過SSL幫助前置任務,並在圖像、視頻和聲音視頻中看到一些前置任務示例。
  • 新出爐的最佳論文:CVPR 2020線上分享,一作帶你玩轉無監督3D圖像重構
    新出爐的最佳論文:CVPR 2020線上分享,一作帶你玩轉無監督3D圖像重構 2020-06-29 17:08 來源:澎湃新聞·澎湃號·湃客
  • pytorch+Unet圖像分割:將圖片中的鹽體找出來
    本文將先簡單介紹Unet的理論基礎,然後使用pytorch一步一步地實現Unet圖像分割。因為主要目的是提供一個baseline模型給大家,所以代碼主要關注在如何構造Unet的網絡結構。Unet圖1: Unet的網絡結構Unet主要用於圖像分割問題。圖1是Unet論文中的網絡結構圖。