一文概覽2017年Facebook AI Research的計算機視覺研究進展

2021-01-07 機器之心Pro

本文概述了 2017年Facebook AI 研究院(FAIR)在計算機視覺上的研究進展,包括基礎構建模塊創新、CNN、one shot 目標檢測模塊等,然後介紹實例分割方面的創新,最後介紹用弱半監督方式來擴展實例分割。

特徵金字塔網絡(FPN)

首先我們先來介紹著名的特徵金字塔網絡[1](發表在 CVPR 2017 上)。FPN 論文非常棒,要知道,構建一個可在多項任務、子主題和應用領域中使用的基線模型並不簡單。FPN 是通用特徵提取網絡(如 ResNet、DenseNet)的擴展。你可以從喜歡的 DL 庫中選擇預訓練的 FPN 模型,然後像使用其他模型一樣使用它!

圖像目標通常有多個尺度和大小。一般的數據集無法捕捉所有這些屬性,因此人們使用圖像金字塔(圖像的多種解析度降級),以方便 CNN 處理。但是這樣很慢。因此人們使用單個尺度預測,一些人可能從中間層獲取預測結果,它是在特徵空間中進行的。這很好理解,在幾個 ResNet 模塊後放置一個反卷積層,獲取分割輸出(就分類而言,可能是 1x1 卷積和 GlobalPool)。現在大量此類架構在有輔助信息和輔助損失的情況下使用。

回到主題,FPN 的作者發現一種有效改善上述方法的方式。他們不只使用側向連接,還使用自上而下的路徑。這非常有效!他們使用一個簡單的 MergeLayer(mode=『addition』)將二者結合起來。該想法的關鍵是底層特徵圖(初始卷積層)的語義不夠強,無法用於分類。而深層特徵圖有更強的語義。這裡還有一個優勢,即自上而下的路徑 FMaps(特徵圖),可以達到最深層網絡同樣的效果。這是因為結合了側向連接和自上而下的連接。

細節

金字塔:同樣大小的所有特徵圖屬於同一個階段。最後一層的輸出是金字塔的 reference FMaps。如:ResNet,第 2、3、4、5 個模塊的輸出。你可以根據內存和特定使用情況改變金字塔。

側向連接:1x1 卷積和自上而下的路徑都經過兩倍上採樣。上層特徵自上而下生成粗糙的特徵,而側向連接從自下而上的路徑添加更細粒度的細節。

那篇論文中介紹了一個簡單的 demo,展示了這個想法結合簡單的設計思路的效果。

如前所述,這是一個可以在多項任務中使用的基線模型,如目標檢測、分割、姿態估計、人臉檢測,以及所有應用領域。這篇論文問世不過寥寥數月,但引用量已經超過 100!這篇論文的題目是《FPNs for Object Detection》,因此作者繼續在 RPN(區域建議網絡)和 Faster-RCNN 網絡中使用 FPN 作為基線模型。所有關鍵細節這篇論文中都有講述,這裡我列出了一些要點。

實驗要點

在 RPN 中使用 FPN:將單個尺度 FMap 替換成 FPN。他們在每一級都有單尺度 anchor(由於使用了 FPN,所以沒必要使用多尺度 anchor)。作者還展示了金字塔所有層級都共享類似的語義水平。Faster RCNN:他們用類似圖像金字塔輸出的方式處理這個金字塔。因此 RoI 使用以下公式被分配至特定的級別:

其中 w、h 代表寬度、高度。k 代表 RoI 被分配的級別。k_0 是 w,h=224,224 映射至的級別。

在 COCO 數據集上獲取當前最優結果,沒有任何不必要的功能。他們對每個模塊的功能進行了 ablation 研究,因此他們能夠從一開始就證明了自己的說法。他們還基於 DeepMask 和 SharpMask 論文展示了如何使用 FPN 進行分割建議生成(segmentation proposal generation)。

對實現細節、實驗設置等感興趣的同學應該認真閱讀這篇論文。

代碼

Official Caffe2 - https://github.com/facebookresearch/Detectron/tree/master/configs/12_2017_baselinesCaffe - https://github.com/unsky/FPNPyTorch - https://github.com/kuangliu/pytorch-fpn (just the network)MXNet - https://github.com/unsky/FPN-mxnetTensorflow - https://github.com/yangxue0827/FPN_Tensorflow

RetinaNet:在密集目標檢測中使用 Focal Loss

該架構由同一個團隊所開發,也是同一個一作。這篇論文 [2] 在 ICCV 2017 上發表。該論文中有兩個關鍵點:通用損失函數 Focal Loss(FL)和單階段的目標檢測器 RetinaNet。兩者的組合使其在 COCO 目標檢測任務中表現得非常好,並打敗了上述的 FPN 基準結果。

Focal Loss

該論文中的方法相當聰明和簡單。如果你熟悉加權損失的話,那麼該方法其實就是使用了巧妙的加權,讓訓練更加聚焦於分類難度高的樣本。公式如下所示,其含義是很明顯的。

γ是一個可改變的超參數。p_t 是分類器輸出的樣本概率。將 γ 設為大於 0 將減小分類結果較好的樣本的權重。α_t 是通常的加權損失函數中的類別權重。在論文中它被稱為 α-balanced 損失。需要注意,這個是分類損失,它將和 smooth L1 損失結合,用於 RetinaNet 的目標檢測任務。

RetinaNet

FAIR 竟然會發布單階段檢測器,這令人難以置信。直到目前,YOLOv2 和 SSD 仍在單階段場景中佔據主導地位。但作者指出,它們都沒有接近當前最佳的結果。而 RetinaNet 可以輕鬆地做到,僅使用了單階段,並且速度很快。他們稱其頂尖結果源於新型損失函數的應用,而不是簡單的網絡(其後端為 FPN)。其中利用的思想是單階段檢測器將面臨很多背景和正類別不平衡的情況(不是正類別之間的不平衡)。作者稱加權損失函數僅僅是為了平衡,而 FL 是針對難度小/大的樣本,而兩者是可以結合的。

注意:

兩階段檢測器無需擔心不平衡的情況,因為第一階段就移除了幾乎所有不平衡。兩部分:主幹網絡(卷積特徵提取器,如 FPN)和兩個特定任務的子網絡(分類器和邊界框回歸器)。在選擇不同的組件設計時,(性能)沒有太多變化。Anchor 或 AnchorBoxes 是 RPN 的相同 Anchor [5]。其中心圍繞滑動窗口,且與長寬比有關。大小和長寬比分別對應 32^2 到 51^2 和 {1:2, 1:1, 2:1}。在 FPN 的每一階段,我們都有 cls+bbox 子網絡,給出 anchor 中所有位置的對應輸出。

代碼

Official Caffe2 - https://github.com/facebookresearch/Detectron/tree/master/configs/12_2017_baselinesPyTorch - https://github.com/kuangliu/pytorch-retinanetKeras - https://github.com/fizyr/keras-retinanetMXNet - https://github.com/unsky/RetinaNet

Mask R-CNN

Mask R-CNN[3] 幾乎是同一個團隊開發的,發表在 ICCV 2017 上,該模型用於實例分割。對於外行來說,這不過是不使用邊界框的目標檢測,任務是給出目標的準確分割掩碼。你可以說它只是一個簡單的想法,但是使之運行並成為當前最佳,為預訓練模型提供最快的實現,這可是驚人的工作!

TL;DR:如果你了解 Faster-RCNN,那麼 Mask R-CNN 很簡單,只需要添加一個用於分割的 head(分支)。因此基本上是 3 個分支,分別用於分類、邊界框回歸和分割。

再次強調,其重點在於使用簡單、基礎的網絡設計來展示該方法的效率。他們不需要什麼花哨的功能就實現了當前最佳。

我很喜歡這篇論文,它很簡單,但是看似簡單的東西有大量解釋。例如,多項式掩碼 vs 獨立掩碼的使用(softmax vs sigmoid)。此外,它並未假設大量先驗知識,也沒有要解釋一切。

如果你仔細查看這篇論文,你可能會找到他們(基於現有設置)的新想法無法有效運行的原因。以下解釋基於你對 Faster RCNN 已經有了基礎了解:

Mask R-CNN 與 FasterRCNN 類似,兩階段,第一階段是 RPN。添加一個並行分支用於預測分割掩碼——FCN。損失是 L_cls、L_box、L_maskLcls、L_box、L_mask 的總和。用 ROIAlign 層替換 ROIPool。這不像 ROIPool 那樣將你的(x/spatial_scale)fraction 四捨五入成整數,而是通過雙線性內插法找出特定浮點值的像素。例如:ROI 高度和寬度分別是 54、167。空間尺度基本上是圖像大小/FMap 大小(H/h),在此語境中也叫作 stride。通常是 224/14 = 16 (H=224,h=14)。ROIPool: 54/16, 167/16 = 3,10ROIAlign: 54/16, 167/16 = 3.375, 10.4375現在,我們使用雙線性內插法對其進行上採樣。類似的邏輯適用於根據 ROIAlign 輸出形狀(如 7x7)將對應的區域分割成合適的子區域。使用 Chainer folks 檢查 ROIPooling 的 Python 實現,並嘗試自己實現 ROIAlign。ROIAlign 代碼可在不同庫中獲取,可查看下面給出的代碼 repo。主幹網絡是 ResNet-FPN。

我曾專門寫文章介紹過 Mask-RCNN,文章地址:https://coming.soon/。

代碼

Official Caffe2 - https://github.com/facebookresearch/Detectron/tree/master/configs/12_2017_baselinesKeras - https://github.com/matterport/Mask_RCNN/PyTorch - https://github.com/soeaver/Pytorch_Mask_RCNN/MXNet - https://github.com/TuSimple/mx-maskrcnn

學習分割 Every Thing

如題目《Learning to Segment Every Thing》所示,這篇論文是關於分割的,具體來說,是實例分割問題。計算機視覺中的標準分割數據集對於現實應用而言規模太小。即使是 2018 年最流行、最豐富的 COCO 數據集 [7] 也僅有 80 個目標類別。這根本無法達到實用的要求。相比之下,目標識別和目標檢測數據集如 OpenImages [8] 就有將近 6000 個分類類別和 545 個檢測類別。除此之外,來自斯坦福的另一個數據集 Visual Genome 擁有 3000 個目標類別。那為什麼人們不選用這些數據集呢?因為每個類別中包含的目標數量太少了,從而 DNN 無法在這個數據集上取得足夠好的性能,即使這些數據集在實際應用上更加豐富、有用。需要注意的是該數據集並沒有任何分割標註,僅有 3000 個目標檢測(邊界框)標籤類別。

接下來介紹論文 [4]。實際上,就領域而言,邊界框和分割標註之間並不存在太大的區別,區別僅在於後者比前者更加精確。因此既然 Visual Genome [9] 數據集中有 3000 個類別,那麼為什麼不用來訓練分割任務呢?這正是作者所做的,這種方法可稱為弱監督學習(或弱半監督)學習,其中不需要相關任務的完整監督信息。如果他們使用的是 COCO+Visual Genome 數據集(即分割標籤 + 邊界框標籤),這同樣可稱為半監督學習。

這篇論文簡直不能再 cool,其網絡架構有如下特點:

它建立在 Mask-RCNN 之上。同時使用有掩碼和無掩碼的輸入進行訓練。在掩碼和邊界框掩碼之間添加了一個權重遷移函數。當傳遞了一個沒有掩碼的輸入時,將 ω_seg 函數預測的權重和掩碼特徵相乘。當傳遞了一個有掩碼的輸入時,則不使用該函數,而使用一個簡單的 MLP。如下圖所示:A 是 COCO 數據集,B 是 VG 數據集。注意其中對不同輸入的不同訓練路徑。將兩個損失同時進行反向傳播將導致 ω_seg 的權重不一致,因為對於 COCO 和 VG 之間的共有類別,有兩個損失(掩碼和邊界框),而對於非共有類別,則僅有一個損失(邊界框)。作者使用的修改方法是:Fix:當反向傳播掩碼損失時,計算預測掩碼權重 (τ) 關於權重遷移函數參數θ的梯度,而對邊界框權重ω^c_det 不進行該計算。w^c_seg=τ(stop_grad(w^c_seg); θ),其中 τ 預測掩碼權重。

圖 2:Mask^X RCNN 方法的細節展示。Mask^X RCNN 使用學得的權重遷移函數 τ,從對應的檢測參數ω_det 預測類別的分割參數 ω_seg,而不是直接學習掩碼預測參數 ω_seg。在訓練過程中,τ 僅需要數據集 A 中類別的掩碼數據,而在測試時可以應用到 A、B 數據集的所有類別。作者還用補充性的全連接多層感知機(MLP)增強了掩碼頭(mask head)。

由於 VG 數據集沒有分割標註,從而無法給出在該數據集上的分割準確率。因此他們在可驗證的數據集上展示結果。PASCAL-VOC 數據集有 20 個類別,全部包含於 COCO 數據集。因此,對於這 20 個類別,他們使用 VOC 的分割標註和 COCO 中這 20 個類別的邊界框標籤進行訓練。論文展示了在 COCO 數據集中這 20 個類別上的實例分割任務結果。此外由於兩個數據集包含兩種真實標註,他們還對相反的情況進行了訓練。結果如下圖所示。

表 2:Mask^X RCNN 的端到端訓練。如表 1 所示,作者使用了 τ 的 'cls+box、2-layer、LeakyReLU' 實現,並添加了 MLP 掩碼分支(遷移函數+MLP),然後使用相同的評估流程。作者還報告了 AP_50 和 AP_75(0.5 和 0.75 IoU 閾值的平均精度評估),以及在小、中、大型目標上的 AP 值(AP_S、AP_M、AP_L)。該方法使用 ResNet-50-FPN 和 ResNet-101-FPN 主幹架構時(沒有使用掩碼訓練數據)都顯著超越了數據集 B 上的基線結果。

參考文獻

[1] Lin, Tsung-Yi, Piotr Dollár, Ross B. Girshick, Kaiming He, Bharath Hariharan and Serge J. Belongie.「Feature Pyramid Networks for Object Detection.」*2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)* (2017): 936-944.

[2] Lin, Tsung-Yi, Priya Goyal, Ross B. Girshick, Kaiming He and Piotr Dollár.「Focal Loss for Dense Object Detection.」*2017 IEEE International Conference on Computer Vision (ICCV)* (2017): 2999-3007.

[3] He, Kaiming, Georgia Gkioxari, Piotr Dollár and Ross B. Girshick.「Mask R-CNN.」*2017 IEEE International Conference on Computer Vision (ICCV)* (2017): 2980-2988.

[4] Hu, Ronghang, Piotr Dollár, Kaiming He, Trevor Darrell and Ross B. Girshick.「Learning to Segment Every Thing.」*CoRR*abs/1711.10370 (2017): n. pag.

[5] Ren, Shaoqing, Kaiming He, Ross B. Girshick and Jian Sun.「Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks.」*IEEE Transactions on Pattern Analysis and Machine Intelligence* 39 (2015): 1137-1149.

[6] Chollet, Franois.「Xception: Deep Learning with Depthwise Separable Convolutions.」2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2017): 1800-1807.

[7] Lin, Tsung-Yi, Michael Maire, Serge J. Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár and C. Lawrence Zitnick.「Microsoft COCO: Common Objects in Context.」ECCV (2014).

[8] Krasin, Ivan and Duerig, Tom and Alldrin, Neil and Ferrari, Vittorio et al. OpenImages: A public dataset for large-scale multi-label and multi-class image classification. Dataset available from https://github.com/openimages

[9] Krishna, Ranjay, Congcong Li, Oliver Groth, Justin Johnson, Kenji Hata, Joshua Kravitz, Stephanie Chen, Yannis Kalantidis, David A. Shamma, Michael S. Bernstein and Li Fei-Fei.「Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations.」International Journal of Computer Vision 123 (2016): 32-73.

相關焦點

  • Facebook開源多款AI工具,支持遊戲、翻譯
    GitHub 地址:https://github.com/facebookresearch/StarSpaceGitHub地址:https://facebook.ai/developers/tools/densepose
  • 深度 | 致研究者:2018 AI研究趨勢
    blog(http://www.research.ibm.com/ai/)在其中,結果得以清晰展現,所以即使是不諳於研究的人也能看出這有多「酷」。當然,這需要大量的工作,但是現在只有這種研究形式才能吸引更多的人——基本上,你可以同時向以下三種人同時展現成果:研究者,他們可以評估你的數學成果;開發者,他們可以從可視化圖像中了解你的研究意圖;投資者,他們可以了解你的研究,懂得它該如何應用。我相信,在接下來的幾年裡,最佳研究就是這樣發布的。如果科技巨頭正在這麼做——你不妨也試試!
  • Facebook的AI識菜譜,把皮卡丘認成了煎蛋……|技術前沿洞察
    這周有啥技術進展呢:從6G 到海水淡化,從仿真AI 視頻到打通機器人的視覺和觸覺,一起來看!大公司5G 剛剛開始落地,有關6G 的信息就已經曝光。更多技術細節可以訪問:https://ai.facebook.com/blog/open-sourcing-pyrobot-to-accelerate-ai-robotics-research/美國高校對於人類來說,觸覺幫助我們感受物理世界,而視覺幫助我們看到物理世界的樣子。
  • 一文帶你讀懂計算機視覺
    自動駕駛的圖像分割近年來,計算機視覺取得了很大進展。這些是自2000年以來在opencv中出現的舊的計算機視覺方法。Facenet谷歌研究人員在2015年推出了Facenet https://然後採用現有的計算機視覺架構,例如inception(或resnet),再用計算臉部的嵌入層替換目標識別神經網絡的最後一層。對於數據集中的每個人,(使用啟發式方法)選擇三張臉(負樣本,正樣本,第二正樣本)並將其饋送到神經網絡。這產生了3個嵌入embeddings。
  • 致研究者:2018 AI 研究趨勢
    2017 年是機器學習領域最有成效、最具創意的一年。現在已經有很多博文以及官方報導總結了學界和業界的重大突破。本文略有不同,Alex Honchar在Medium發文,從研究者的角度分享機器學習明年發展的走向。本文的預測基於 2012 年以來我關注的學術界和科技巨頭實驗室的研究思路演變。
  • 學界| Facebook新論文介紹相似性搜索新突破:在GPU上實現十億規模
    近日,Facebook 人工智慧研究團隊在 arXiv 發布的新論文《Billion-scale similarity search with GPUs》宣稱在這一問題上取得了重大進展,在 GPU 上實現了十億規模級的相似性搜索。該團隊已經將相關實現的代碼進行了開源。機器之心在此對該研究論文及其代碼項目進行了簡單介紹。
  • 計算機視覺(及卷積神經網絡)簡史
    在三維到二維展示之後,Larry寫下了二維到三維的構造是計算機輔助三維系統的一個良好開端,他完全正確。我們應該注意到Lawrence並沒有在計算機視覺這方面花費太多精力,相反他加入了DARPA,現在以網際網路發明被人所熟知的項目。在1960s,AI成為了一門學科,一些研究人員關於這塊領域的未來非常樂觀,他們相信用不了25年時間就能造出和人類一樣智能的計算機。
  • Facebook AI的DETR:一種基於Transformer的目標檢測方法
    前不久,Facebook開源了一個這樣的框架,DETR(DEtection TRansformer)在本文中,我們將快速了解目標檢測的概念,然後研究DETR及其帶來的好處。目標檢測在計算機視覺中,目標檢測是一項將對象與背景區分開,並預測圖像中存在的對象的位置和類別的任務。當前的深度學習方法試圖將其作為分類問題或回歸問題或綜合兩者的目標檢測任務來解決。
  • Facebook挑戰賽:利用AI檢測惡意圖文,還有很長的路要走
    作者發表博文《Hateful Memes Challenge and Data Set》(https://ai.facebook.com/hatefulmemes)概述了這項研究。另外幾個Facebook研究人員發表的另一篇博文《AI advances to better detect hate speech》(https://ai.facebook.com/blog/ai-advances-to-better-detect-hate-speech)廣泛地探討了AI檢測仇恨言論的話題。
  • 2018,一文看盡AI發展真相
    拋開劑量談毒性是耍流氓,拋開數據集和特定任務談人工智慧進展也一樣。「state of the art.ai」是MIT和UNAM的學生做的一個網站,收進了目前最優的算法,涵蓋了計算機視覺、遊戲、自然語言處理、網絡圖和知識庫、程序歸納和程序合成、音頻處理、時間序列處理七個領域。
  • 視覺Transformer上榜!DeepMind科學家:2020年AI領域十大研究進展
    DeepMind NLP科學家Sebastian Ruder在這篇文章中概述了2020年機器學習和自然語言處理領域在10個振奮人心和影響深遠的研究方向上的進展。2020年見證了語言與對話模型的規模日益宏大,比如聊天機器人Meena 、圖靈-自然語言生成模型、BST模型和GPT-3模型。與此同時,研究人員也逐漸意識到這些模型存在成本高和能源消耗大的問題,從而專注於設計規模更小的模型並取得了一定的進展:最新的方法依賴於剪枝、量化、蒸餾和壓縮。其他方法側重於提高Transformer架構本身的效率。
  • 華人研究團隊推出AI「諷刺」檢測模型,準確率達86%
    最近,中國北京的信息工程研究所和中國科學院聯合推出的一款AI模型,『諷刺』識別準確率高達86%。而且,這項研究成果還登上了計算機語言協會(ACL)。聽到這裡你可能會好奇,AI為甚麼要識別『諷刺』???最新的研究成果在2019年,首次引入多模態檢測的AI模型HFM,其準確率能夠達到83%。而近日,該項研究取得突破性進展,其準確率提升了2.74%。這項成果來自中國北京的信息工程研究所和中國科學院聯合研究團隊,他們研發的新型多模態AI諷刺檢測模型,經過Twitter數據集檢測準確率可達到86%。
  • 從FPN到Mask R-CNN,一文告訴你Facebook的計算機視覺有多強
    翻譯 | 人工智慧頭條(ID:AI_Thinker)參與 | 林椿眄本文概述了 Facebook AI Research(FAIR)近期在計算機視覺領域的研究進展
  • 何愷明團隊計算機視覺最新進展:從特徵金字塔網絡、Mask R-CNN到...
    圖來自Learning to Segment Everything  新智元編譯來源:skrish13.github.io作者:krish 編譯:肖琴  【新智元導讀】這篇文章介紹了FAIR何愷明、Tsung-Yi Lin等人的團隊在計算機視覺領域最新的一些創新,包括特徵金字塔網絡
  • Facebook 今年被 CVPR 收錄的論文都說了啥?
    我們建議利用視頻將普通的單聲道音頻轉換成雙聲道音頻,其關鍵思想是,視覺幀揭示了重要的空間線索:儘管單聲道音頻在完成過程中明顯缺乏這些空間線索,但它們與空間線索緊密相連。我們的多模態方法可以從未經標註的視頻中還原空間線索與單聲道音頻的這一聯繫。我們設計了一個深卷積神經網絡,通過注入有關目標和場景配置的視覺信息,將單聲道(單通道)原聲解碼成對應的雙聲道。
  • Facebook全球崩潰11小時,暴露了科技巨頭們用AI為你打的標籤
    (自 2017 年起,Facebook 就已經對未打標籤的照片賦予了這種功能)至少從 2016 年 4 月以來,Facebook 就一直以這種方式利用機器學習來「讀取」圖片,這是該公司「accessibility efforts」計劃的重要組成部分。Facebook 利用這些標籤向視力障礙用戶描述照片和視頻內容。
  • 成立5 周年:一文覽盡 Facebook 人工智慧研究院歷年重要成果
    FAIR 在接下來的兩年內繼續對這一方法進行改進,無論在研究範圍還是探索領域上都擴充了許多。他們開發出一款可以從序列中以無監督的方式進行訓練的增強式 RNN,它帶有一個支持 push、pop 的堆棧,也就是 StackRNN(https://research.fb.com/downloads/stack-rnn/)。
  • 來了解下計算機視覺的八大應用
    當然,這篇文章主要介紹的是計算機視覺的應用,計算機視覺也算是這 16 個方向裡面最熱門也是發展最成熟的其中一個方向了。計算機視覺可以分為以下幾大方向:圖像分類目標檢測圖像分割風格遷移圖像重構超解析度圖像生成人臉其他雖然這裡說的都是圖像,但其實視頻也屬於計算機視覺的研究對象,所以還有視頻分類、檢測、生成,以及追蹤,但篇幅的關係,以及目前研究工作方向也集中於圖像,暫時就不介紹視頻方面應用的內容
  • 深度 | 從修正Adam到理解泛化:概覽2017年深度學習優化算法的最新研究進展
    年深度學習優化算法的最新進展,他主要從Adam算法的局限性與提升方法、學習率衰減方案、超參數搜索、怎樣學習優化和理解泛化性能等角度向我們展示近來研究者對最優化方法的思考與探索。Adam(Kingma and Ba, 2015)[18] 在 2015 年被提出,可以認為其在今天仍然是最常用的算法。因此從機器學習從業者的角度看來,深度學習最好的優化算法開發近年來基本沒有太大的突破。然而,今年我們開發了好幾種新的方法被,它們有望優於當前最佳的方法,並用於未來複雜模型的優化中。在這篇博客中,我將介紹深度學習優化算法中幾個最有意義的進展以及最有潛力的方向。
  • 計算機視覺新手指南
    在過去的幾年中,準確性得到了很大的提高,但是當機器被要求處理帶有混合物體的圖像時,機器仍然會犯錯誤。,可以在下面找到一系列初學者需要了解的基礎知識點。在機器學習中,我們更多地使用了統計工具,而計算機視覺同時使用了統計工具和非統計工具。例如,計算機視覺領域的3D重建任務中使用機器學習工具的頻率要比圖像分類和對象識別等技術要低。許多計算機視覺任務都有其自己的需求,我們為此開發了特定的機器學習工具。 對於任何想開始學習該領域的學生,我建議他們通過研究人員的網頁來選擇他們感興趣的問題來學習。