​深度學習-關於圖像分類的經典10篇文章

2021-02-20 深度學習與計算機視覺

本文介紹十年來最佳圖像分類論文,來幫助你快速學習計算機視覺

前言計算機視覺是一門將圖像和視頻轉換成機器可理解信號的學科,有了這些信號,程式設計師可以基於這種高階進一步控制機器的行為。在計算機視覺任務中,圖像分類是最基本的任務之一,它不僅可以用於許多真實的產品,比如googlephoto的標籤和AI內容調節,而且還是許多更高級的視覺任務奠定了基礎,比如目標檢測和視頻理解。自從深度學習技術爆發以來,由於該領域的快速變化,初學者往往會覺得學習起來太困難,與典型的軟體工程學科不同,使用DCNN進行圖像分類的好書並不多,理解這一領域的最好方法是閱讀學術論文。但讀什麼論文呢?我從哪裡開始讀起呢?在本篇文章中,我將為初學者介紹10篇最佳論文。通過這些論文,我們可以看到這一領域是如何發展的,以及研究人員是如何根據先前的研究成果提出新的想法的,即使你已經在這個領域工作了一段時間,但它仍然有助於你理清脈絡。那麼,讓我們開始吧。1998年:LeNetLeNet於1998年推出,為未來使用卷積神經網絡的圖像分類研究奠定了基礎。許多經典的CNN技術(例如池化層,全連接層,填充和激活層)被該模型用來提取特徵並進行分類,藉助均方誤差損失函數和20個訓練周期,在MNIST測試集上的準確率達到99.05%。即使在20年後,許多最先進的分類網絡仍然大體上遵循這種模式。2012年:AlexNet儘管LeNet取得了巨大的成就,顯示了CNN的潛力,但由於計算能力和數據量有限,該領域的發展停滯了10年。CNN似乎只能解決一些簡單的任務,如數字識別,但是對於更複雜的特徵(如人臉和物體),帶有SVM分類器的HarrCascade或SIFT特徵提取器是更可取的方法。然而,在2012年ImageNet大規模視覺識別挑戰賽中,Alex Krizhevsky提出了一種基於CNN的解決方案,並將ImageNet測試集top-5的準確率從73.8%大幅提高到84.7%。他們的方法繼承了LeNet的多層CNN思想,但大大增加了CNN的規模。從上圖中可以看出,與LeNet的32x32相比,AlexNet的輸入為224x224,LeNet卷積核有6個通道,但AlexNet的有192個通道。雖然設計沒有太大的變化,但隨著參數的增加,網絡捕捉和表示複雜特徵的能力也提高了數百倍。為了訓練一個大模型,亞歷克斯使用了兩個GTX580GPU,每個GPU有3GB的內存,這開創了GPU訓練的潮流,此外,ReLU非線性函數的使用也有助於降低計算成本。除了為網絡帶來更多的參數外,它還探討了一個大網絡使用一個Dropout層帶來的過擬合問題。雖然它的局部響應規範化方法在後來並沒有得到太多的普及,但是啟發了其他重要的規範化技術,如 BatchNorm 被用來解決梯度飽和問題。總之,AlexNet定義了未來10年的分類網絡框架:卷積、ReLu非線性激活、MaxPooling和全連接層的組合。2014年:VGG利用CNN進行視覺識別取得了巨大成功,整個研究界都大吃一驚,所有人都開始研究為什麼這種神經網絡能夠如此出色地工作,例如在2013年發表的「可視化和理解卷積網絡」中,馬修·齊勒(Matthew Zeiler)討論了CNN如何獲取特徵並可視化中間表示,突然之間,每個人都開始意識到CNN在2014年將成為計算機視覺的未來。在所有直接關注者中,Visual Geometry Group的VGG網絡是最吸引眼球的網絡,在ImageNet測試集上,top-5的準確度達到93.2%,top-1的準確度達到了76.3%。遵循AlexNet的設計,VGG網絡有兩個主要更新:1)VGG不僅使用了像AlexNet這樣更廣泛的網絡,而且使用了更深的網絡,VGG-19具有19個卷積層,而AlexNet中只有5個。2)VGG還展示了一些小的3x3卷積濾波器可以代替AlexNet的單個7x7甚至11x11濾波器,在降低計算成本的同時實現更好的性能。由於這種優雅的設計,VGG也成為了其他計算機視覺任務中許多開拓性網絡的骨幹網絡,例如用於語義分割的FCN和用於對象檢測的Faster R-CNN。隨著網絡的層數越來越大,從多層反向傳播中消失梯問題成為一個更大的問題,該問題限制了研究人員繼續添加更多的網絡層,因為太深的網絡層數會造成網絡很難擬合。為了解決這個問題,VGG還討論了預訓練和權重初始化的重要性,但是兩年後,學術界為此找到更好的解決方案。2014年:GoogLeNetVGG外形美觀,結構簡單易懂,但在ImageNet 2014年的所有決賽中,它的表現並不是最好的。GoogLeNet,又名InceptionV1,贏得了最後的獎項。與VGG一樣,GoogLeNet的主要貢獻之一就是通過22層結構來推動網絡深度的極限,這再次證明,向更深更廣的方向發展確實是提高準確性的正確方向。與VGG不同的是,GoogLeNet試圖正面解決計算和梯度遞減問題,而不是提出一種具有更好的預訓練模式和權重初始化的解決方案。首先,它通過使用一個名為Inception的模塊探索了非對稱網絡設計的思想(見上圖)。理想情況下,他們希望通過稀疏卷積或密集層來提高特性效率,但現代硬體設計並不是針對這種情況而定製的,因此他們認為網絡拓撲級別的稀疏性也有助於功能的融合,同時有利於利用現有的硬體功能。其次,它借鑑了《網絡中的網絡》(Network in Network)一文的思想,解決了計算量大的問題。1x1卷積濾波器被引入,以在通過像5x5卷積內核這樣的繁重計算操作之前減少特徵的維數,這種結構後來被稱為「瓶頸」,在許多後續網絡中得到了廣泛的應用,同時它還使用了平均池層來代替最終的全連接層,以進一步降低成本。第三,為了幫助梯度流到更深的層,GoogLeNet還對一些中間層輸出或輔助輸出使用了監控。由於其複雜性,這種設計在以後的圖像分類網絡中並不是很流行,而是在計算機視覺的其他領域如沙漏網絡的姿態估計中得到了廣泛的應用。作為後續工作,谷歌團隊為Inception系列撰寫了一系列的論文。InceptionV2:「批量標準化:通過減少內部協變量的變化來加速深度網絡訓練」2015年的InceptionV3:「重新思考計算機視覺的初始架構」2015年的InceptionV4:「Inception-v4,Inception ResNet和殘餘連接對學習的影響」每一篇論文都在原有的初始網絡基礎上進行了更多的改進,取得了較好的效果。2015年:批量標準化批量標準化:通過減少內部協變量的變化來加速深度網絡的訓練Inception網絡幫助研究人員在ImageNet數據集上達到了超人般的精確度,然而CNN作為一種統計學習方法,受到特定訓練數據集統計性質的限制。因此,為了獲得更好的準確性,我們通常需要預先計算整個數據集的平均值和標準差,然後使用它們來規範化我們的輸入,以確保網絡中的大多數層輸入是接近的,這意味著更好的激活響應性。這種近似方法非常麻煩,有時對於新的網絡結構或新的數據集根本不起作用,因此深度學習模型仍然被視為難以訓練。為了解決這個問題,Sergey Ioffe和創建GoogLeNet的Chritian Szegedy決定發明一種更聰明的方法,稱為批處理規範化。批處理規範化的思想並不難:只要訓練足夠長的時間,我們就可以使用一系列小批量的統計數據來近似整個數據集的統計信息,此外我們可以引入兩個更可學習的參數「scale」和「shift」,而不是手動計算統計數據,這可以讓網絡學習如何自己規範每一層。上圖顯示了計算批次標準化值的過程。如我們所見,我們取整個小批量的平均值並計算方差,接下來,我們可以用這個小批量的均值和方差來規範化輸入,最後通過一個尺度和一個移位參數,網絡將學習如何調整批量標準化結果,以最適合以下層(通常是ReLU)。有一點需要注意的是,我們在推理過程中沒有小批量信息,所以解決方法是在訓練期間計算移動平均值和方差,然後在推理路徑中使用這些移動平均值,這個小小的創新是如此的有影響力,所有後來的網絡都馬上開始使用它。2015: ResNet2015年可能是十年來計算機視覺發展最好的一年,我們看到了很多偉大的想法,不僅在圖像分類方面,而且在各種各樣的計算機視覺任務(如對象檢測,語義分割等)中都應運而生。2015年誕生了一個新的網絡,稱為ResNet,或稱為殘差網絡,該網絡由Microsoft Research Asia的一組中國研究人員提出。正如我們在前面討論的VGG網絡,進一步深入的最大障礙是梯度消失問題,也就是說,當反向傳播到更深的層時,導數變得越來越小,最終達到現代計算機體系結構無法真正有意義地表示的程度。GoogLeNet試圖通過使用輔助監督和非對稱初始模塊來解決這一問題,但它只在一定程度上緩解了這個問題。如果我們想用50層甚至100層,有沒有更好的方法讓漸變流通過網絡?ResNet的答案是使用殘差模塊。ResNet為輸出添加了一個Identity輸入,每個殘差模塊不能預測輸入的是什麼,從而不會迷失方向。更重要的是,殘差模塊不是希望每一層都直接適合所需的特徵映射,而是嘗試學習輸出和輸入之間的差異,這使得任務更加容易,因為所需的信息增益較少。假設你正在學習數學,對於每一個新的問題,你都會得到一個類似問題的解決方案,所以你需要做的就是擴展這個解決方案,並努力使它發揮作用,這比為你遇到的每一個問題想出一個全新的解決方案要容易得多。或者正如牛頓所說,我們可以站在巨人的肩膀上,Identity輸入就是殘差模塊的那個巨人。除了Identity Mapping,ResNet還借用了Inception networks的瓶頸和批處理規範化,最終它成功地建立了一個有152個卷積層的網絡,在ImageNet上達到了80.72%的最高精度。殘差法後來也成為了許多其他網絡的默認選擇,如exception、Darknet等,並且由於其簡潔美觀的設計,在當今許多生產性視覺識別系統中仍被廣泛應用。隨著殘差網絡的大肆宣傳,出現了許多的不變量。在《Identity Mappings in Deep Residual Networks》中,ResNet的原作者把激活放在殘差模塊之前,取得了更好的效果,這一設計後來被稱為ResNetV2。此外,在2016年的一篇論文「Aggregated Residual Transformations for Deep Neural Networks(聚合深度神經網絡的殘差變換)」中,研究人員提出了ResNeXt,它為殘差模塊添加了並行分支,以聚合不同變換的輸出。2016年:Xception隨著ResNet的發布,圖像分類器中的大多數容易實現的目標看起來已經被搶先實現了,研究人員開始考慮研究CNN的內部機制原理。由於跨通道卷積通常會引入大量參數,因此Xception網絡選擇調查此操作以了解其效果的全貌。就像它的名字一樣,Xception源自Inception網絡。在Inception模塊中,將不同轉換的多個分支聚合在一起以實現拓撲稀疏性,但是為什麼這種稀疏起作用了?Xception的作者,也是Keras框架的作者,將這一思想擴展到了一種極端情況,在這種情況下,一個3x3卷積對應於最後一個串聯之前的一個輸出通道,在這種情況下,這些並行卷積核實際上形成了一個稱為深度卷積的新操作。如上圖所示,與傳統的卷積不同,傳統的卷積方法只對每個通道分別計算卷積,然後將輸出串聯在一起,這減少了通道之間的特徵交換,但也減少了許多連接,因此產生了一個參數較少的層,但是此操作將輸出與輸入相同數量的通道(如果將兩個或多個通道組合在一起,則輸出的通道數更少),因此,一旦信道輸出被合併,我們需要另一個常規的1x1濾波器,或點卷積,來增加或減少信道的數量,就像常規卷積一樣。這個想法早在一篇名為「Learning visual representations at scale(學習視覺表徵的規模)」的論文中有描述,偶爾也會在InceptionV2中使用。Exception更進一步的用這種新類型取代了幾乎所有的卷積。模型實驗結果很好,它超越了ResNet和InceptionV3,成為一種新的SOTA圖像分類方法,這也證明了CNN中的交叉相關和空間相關性的映射可以完全解耦,此外,Exception與ResNet有著相同的優點,它的設計也簡單美觀,因此它的思想也被許多後續的研究所使用,如MobileNet、DeepLabV3等。2017年:MobileNetMobileNets:用於移動視覺應用的高效卷積神經網絡Exception在ImageNet上獲得了79%的top-1準確率和94.5%的top-5準確率,但與之前的SOTA InceptionV3相比,這兩項改進分別只有0.8%和0.4%。一種新的圖像分類網絡的邊際收益越來越小,因此研究者開始將注意力轉移到其他領域。MobileNet在資源受限的環境中引領了圖像分類的重大進展。與Exception類似,MobileNet使用了上述的深度可分離卷積模塊,並強調了高效率和低參數。上式中的分子是深度可分卷積所需的參數總數,分母是相似正則卷積的參數總數,這裡D[K]是卷積核的大小,D[F]是特徵映射的大小,M是輸入通道的數目,N是輸出通道的數目。由於我們將通道和空間特徵的計算分開了,所以我們可以將乘法轉化為加法,這是一個較小的數量級,而且從這個比率可以看出,輸出通道的數目越大,使用這種新的卷積就可以節省更多的計算。MobileNet的另一個貢獻是寬度和解析度乘數。MobileNet團隊希望找到一種標準的方法來縮小行動裝置的模型尺寸,而最直觀的方法就是減少輸入和輸出通道的數量,以及輸入圖像的解析度。為了控制這種行為,比率alpha與通道相乘,比率rho與輸入解析度相乘(這也會影響特徵映射的大小),因此參數總數可以用以下公式表示:儘管這一變化在創新方面看起來很幼稚,但它具有巨大的工程價值,因為這是研究人員首次總結出一種規範的方法來調整網絡以適應不同的資源限制,同時它也總結了改進神經網絡的最終解決方案:更大解析度的輸入導致更好的精度,更薄和低解析度的輸入導致更差的精度。2018年和2019年晚些時候,MobiletNet團隊還發布了MobileNetV2和MobileNetV3。在MobileNetV2中,使用了倒置殘差結構。在MobileNetV3中,它開始使用神經體系結構搜索技術來搜索最佳架構組合,我們將在下面介紹。2017年:NASNet就像資源受限環境下的圖像分類一樣,神經架構搜索是2017年左右出現的另一個領域。通過ResNet、Inception和exception,我們似乎達到了一個人類可以理解和設計的最佳網絡拓撲結構,但是如果有一個更好、更複雜的組合遠遠超出人類的想像呢?2016年,一篇名為「Neural Architecture Search with Reinforcement Learning(強化學習的神經結構搜索)」的論文提出了一種利用強化學習在預先定義的搜索空間內搜索最優組合的思想。強化學習是一種尋找最優解的方法,具有明確的目標和對搜索主體的獎勵,但是由於計算能力的限制,本文只討論了在一個小型CIFAR數據集上的應用。為了找到像ImageNet這樣的大型數據集的最佳結構,NASNet為ImageNet定製了一個搜索空間。希望設計一個特殊的搜索空間,使CIFAR上的搜索結果也能在ImageNet上正常運行。首先,NASNet假設在像ResNet和exception這樣的良好網絡中常見的手工製作的模塊在搜索時仍然有用,因此NASNet不再搜索隨機連接和操作,而是搜索這些模塊的組合,這些模塊已經在ImageNet上被證明是有用的。其次,實際的搜索仍然是在解析度為32x32的CIFAR數據集上執行的,因此NASNet只搜索不受輸入大小影響的模塊。為了使第二點起作用,NASNet預定義了兩種類型的模塊模板:Reduction和Normal。與輸入相比,還原單元可以具有簡化的特徵映射,而對於正常單元,則是相同的。儘管NASNet比人工設計網絡有更好的指標,但它也有一些缺點,即搜索最優結構的成本非常高,只有像谷歌和Facebook這樣的大公司才能負擔得起,而且最終的結構對人類來說沒有太大意義,因此在生產環境中更難維護和改進。2018年晚些時候,「MnasNet:Platform-Aware Neural Architecture Search for Mobile」通過使用預定義的鏈式塊結構限制搜索步驟,進一步擴展了NASNet的思想,同時通過定義權重因子,mNASNet給出了一種在特定資源約束下更系統地搜索模型的方法,而不是僅僅基於FLOPs進行評估。2019年:效率網EfficientNet:對卷積神經網絡模型縮放的再思考2019年,CNN的監督圖像分類似乎再也沒有令人興奮的想法了。網絡結構的急劇變化通常只會提高一點點精度,更糟糕的是,當同一個網絡應用於不同的數據集和任務時,先前聲稱的技巧似乎不起作用了,這就導致了對這些網絡的批評,認為這些改進是否只是過度適應了ImageNet數據集。另一方面,有一個技巧永遠不會辜負我們的期望:使用更高解析度的輸入,為卷積層添加更多通道,並添加更多層。雖然看上去簡單粗暴,但似乎有一個原則性的方法來擴大網絡的需求。MobileNetV1在2017年提出了這一點,但後來重點轉移到了更好的網絡設計上。在NASNet和mNASNet之後,研究人員意識到即使在計算機的幫助下,架構的改變也不會帶來太多的好處,所以他們開始退回到擴大網絡的規模上,效率網就是建立在這個假設之上的。一方面,它使用從MNASNET的最佳構建塊來確保開始的良好基礎。另一方面,它定義了三個參數alpha、beta和rho來控制網絡的深度、寬度和解析度,通過這樣做,即使沒有一個大的GPU池來搜索最佳結構,工程師仍然可以依賴這些原則性參數來根據他們的不同需求來調整網絡。最後,EfficientNet給出了8種不同寬度、深度和解析度的變體,在小型和大型模型上都取得了良好的性能,換言之,如果你想要高精度,就選擇600x600和66M參數的EfficientNet-B7,如果你想要低延遲和更小的型號,請選擇224x224和5.3M參數的EfficientNet-B0。閱讀更多如果你讀完了以上10篇論文,那麼你應該對CNN的圖像分類的發展歷史有了一個相當好的了解。如果你想繼續學習這個領域,可以閱讀下面列出的一些其他有趣的論文,這些論文雖然不在前十名之列,但它們在各自領域都很有名,並激勵了許多其他研究者的研究。2014年:SPPNetSPPNet從傳統的計算機視覺特徵提取中借鑑了特徵金字塔的思想,這種金字塔形成了一個具有不同尺度特徵的詞包,可以適應不同的輸入大小,擺脫了固定大小的全連接層。這個想法也進一步啟發了DeepLab的ASPP模塊,以及用於目標檢測的FPN。2016年:DenseNet康奈爾大學的DenseNet進一步擴展了ResNet的思想,它不僅提供了層間的跳轉連接,而且還提供了所有前一層的跳轉連接。2017年:SENetSqueeze-and-Excitation NetworksExcitation Networks表明,交叉信道相關性與空間相關性沒有太大關係,但是作為上一屆ImageNet競賽的冠軍,SEnet設計了一個Squeeze和Excitation塊,並講述了另一個不同的看法。SE塊首先使用全局池將所有通道壓縮到較少的通道中,應用全連接的變換,然後使用另一個全連接層將它們「激發」回原始通道數。從本質上講,FC層幫助網絡學習輸入特徵映射的注意信息。2017年:ShuffleNetShuffleNet:一種用於行動裝置的高效卷積神經網絡基於mobilenev2的倒置瓶頸模塊,ShuffleNet認為深度可分離卷積中的逐點卷積犧牲了精度,以換取更少的計算量。為了彌補這一點,ShuffleNet增加了一個額外的通道Shuffle操作,以確保逐點卷積不會總是應用於同一個「點」。而在ShuffleNetV2中,這種通道Shuffle機制也進一步擴展到ResNet的Identity輸入分支,因此Identity輸入分支也會被用於Shuffle。2018年:Bag of TricksBag of Tricks主要介紹了圖像分類領域中常用的技巧。當工程師需要提高基準性能時,它可以作為一個很好的參考。這些技巧,如混合增強和餘弦學習率,有時比一個新的網絡架構能取得更好的改善。結論隨著EfficientNet的發布,ImageNet分類基準測試似乎走到了盡頭。在現有的深度學習方法下,除非發生另一種範式轉換,否則我們永遠不會有一天在ImageNet上達到99.999%的準確率,因此,研究者們正積極研究一些新的領域,如用於大規模視覺識別的自監督或半監督學習,同時在現有的方法下,工程師和企業家面臨的更大問題是如何找到這種不完美的技術在現實世界中的應用。參考文獻Y. Lecun, L. Bottou, Y. Bengio, P. Haffner, Gradient-based Learning Applied to Document Recognitionhttp://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdfAlex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton, ImageNet Classification with Deep Convolutional Neural Networkshttps://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdfKaren Simonyan, Andrew Zisserman, Very Deep Convolutional Networks for Large-Scale Image Recognitionhttps://arxiv.org/abs/1409.1556Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich, Going Deeper with Convolutionshttps://arxiv.org/abs/1409.4842Sergey Ioffe, Christian Szegedy, Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shifthttps://arxiv.org/abs/1502.03167Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Deep Residual Learning for Image Recognitionhttps://arxiv.org/abs/1512.03385François Chollet, Xception: Deep Learning with Depthwise Separable Convolutionshttps://arxiv.org/abs/1610.02357Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam, MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applicationhttps://arxiv.org/abs/1704.04861Barret Zoph, Vijay Vasudevan, Jonathon Shlens, Quoc V. Le, Learning Transferable Architectures for Scalable Image Recognitionhttps://arxiv.org/abs/1707.07012Mingxing Tan, Quoc V. Le, EfficientNet: Rethinking Model Scaling for Convolutional Neural Networkshttps://arxiv.org/abs/1905.11946Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognitionhttps://arxiv.org/abs/1406.4729Gao Huang, Zhuang Liu, Laurens van der Maaten, Kilian Q. Weinberger, Densely Connected Convolutional Networkshttps://arxiv.org/abs/1608.06993Jie Hu, Li Shen, Samuel Albanie, Gang Sun, Enhua Wu, Squeeze-and-Excitation Networkshttps://arxiv.org/abs/1709.01507Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin, Jian Sun, ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Deviceshttps://arxiv.org/abs/1707.01083Tong He, Zhi Zhang, Hang Zhang, Zhongyue Zhang, Junyuan Xie, Mu Li, Bag of Tricks for Image Classification with Convolutional Neural Networkshttps://arxiv.org/abs/1812.01187參考連結:https://towardsdatascience.com/10-papers-you-should-read-to-understand-classification-in-the-deep-learning-era-4b9d792f45a7如果看到這裡,說明你喜歡這篇文章,請轉發、點讚。微信搜索「uncle_pn」,歡迎添加小編微信「 mthler」,每日朋友圈更新一篇高質量博文。

星標|在看|轉發 不迷路

相關焦點

  • 深度學習必讀10篇經典算法論文總結
    在許多計算機視覺任務中,圖像分類是最基本的任務之一。它不僅可以用於許多實際產品中,例如Google Photo的標籤和AI內容審核,而且還為許多更高級的視覺任務(例如物體檢測和視頻理解)打開了一扇門。自從深度學習的突破以來,由於該領域的快速變化,初學者經常發現它太笨拙,無法學習。與典型的軟體工程學科不同,沒有很多關於使用DCNN進行圖像分類的書籍,而了解該領域的最佳方法是閱讀學術論文。
  • 10篇論文帶你入門深度學習圖像分類(附下載)
    在許多計算機視覺任務中,圖像分類是最基本的任務之一。它不僅可以用於許多實際產品中,例如Google Photo的標籤和AI內容審核,而且還為許多更高級的視覺任務(例如物體檢測和視頻理解)打開了一扇門。自從深度學習的突破以來,由於該領域的快速變化,初學者經常發現它太笨拙,無法學習。與典型的軟體工程學科不同,沒有很多關於使用DCNN進行圖像分類的書籍,而了解該領域的最佳方法是閱讀學術論文。
  • 【深度】從經典深度學習模型探討圖像識別新方向
    【導讀】1月22日,深度學習工程師George Seif發布一篇文章,主要介紹了一些經典的用於圖像識別的深度學習模型,包括AlexNet、VGGNet、GoogLeNet、ResNet、DenseNet的網絡結構及創新之處,並展示了其在ImageNet的圖像分類效果。
  • 圖像分類 | 深度學習PK傳統機器學習
    圖像分類的傳統方法是特徵描述及檢測,這類傳統方法可能對於一些簡單的圖像分類是有效的,但由於實際情況非常複雜,傳統的分類方法不堪重負。現在,我們不再試圖用代碼來描述每一個圖像類別,決定轉而使用機器學習的方法處理圖像分類問題。目前,許多研究者使用CNN等深度學習模型進行圖像分類;另外,經典的KNN和SVM算法也取得不錯的結果。
  • 圖像分類之:經典機器學習 Battle 深度學習
    前段時間,有個朋友和我提到,自己最近正打算用機器來判別圖片中的場景是古鎮還是園林,所以我這一期特地寫了一篇文章,來描述圖像的分類算法。
  • 深度學習算法用於黑色素瘤圖像分類
    摘要  今天給大家介紹的是深度學習算法黑色素瘤皮膚鏡圖像分類問題上的應用
  • 【深度學習】CNN圖像分類:從LeNet5到EfficientNet
    深度學習筆記在對卷積的含義有了一定的理解之後,我們便可以對CNN在最簡單的計算機視覺任務圖像分類中的經典網絡進行探索。CNN在近幾年的發展歷程中,從經典的LeNet5網絡到最近號稱最好的圖像分類網絡EfficientNet,大量學者不斷的做出了努力和創新。本講我們就來梳理經典的圖像分類網絡。自從神經網絡和深度學習方法引入到圖像領域,經過近些年來的發展,從一開始的圖像分類逐漸延伸到目標檢測和圖像分割領域,深度學習也逐漸在計算機視覺領域佔據絕對的主導地位。
  • 深度學習角度 | 圖像識別將何去何從?
    整理 | 專知本文主要介紹了一些經典的用於圖像識別的深度學習模型,包括AlexNet、VGGNet、GoogLeNet、ResNet
  • 【2019年第六期文章推薦】Softmax分類器深度學習圖像分類方法應用綜述
    2 Softmax在深度學習圖像分類中的應用自Softmax分類器問世以來,其在圖像分類領域的應用越來越廣泛,基於深度學習Softmax的圖像分類算法採用神經網絡模型與Softmax分類器級聯的形式實現圖像分類[17]。
  • 【深度學習】深度學習經典數據集匯總
    深度學習筆記很多朋友在學習了神經網絡和深度學習之後,早已迫不及待要開始動手實戰了。作為個人學習和實驗來說,很難獲得像工業界那樣較高質量的貼近實際應用的大量數據集,這時候一些公開數據集往往就成了大家通往AI路上的反覆摩擦的對象。計算機視覺(CV)方向的經典數據集包括MNIST手寫數字數據集、Fashion MNIST數據集、CIFAR-10和CIFAR-100數據集、ILSVRC競賽的ImageNet數據集、用於檢測和分割的PASCAL VOC和COCO數據集等。
  • 【學術論文】基於深度學習的圖像分類搜索系統
    深度學習是機器學習研究中的一個新的領域,其動機在於建立、模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據,例如圖像、聲音和文本。該系統基於Caffe深度學習框架,首先對數據集進行訓練分析構建深度學習網絡,提取數據集圖像特徵信息,得到數據對應的分類模型,然後以bvlc-imagenet訓練集模型為基礎,對目標圖像進行擴展應用,實現「以圖搜圖」Web應用。
  • 機器學習&深度學習經典資料匯總(續)
    計算機科學研究所副所長.內部課程《機器學習入門資源不完全匯總》》介紹:好東西的乾貨真的很多《收集從2014年開始深度學習文獻》介紹:從硬體、圖像到健康、生物、大數據、生物信息再到量子計算等,Amund Tveit等維護了一個DeepLearning.University小項目:收集從2014年開始深度學習文獻,相信可以作為深度學習的起點,github《EMNLP
  • 零基礎入門深度學習(六):圖像分類任務之LeNet和AlexNet
    :0001 導讀本課程是百度官方開設的零基礎入門深度學習課程,主要面向沒有深度學習技術基礎或者基礎薄弱的同學,幫助大家在深度學習領域實現從0到1+的跨越。>個性化推薦算法的原理、實踐本周為開講第四周,百度深度學習技術平臺部資深研發工程師孫高峰,開始講解計算機視覺中圖像分類任務。
  • 圖像識別中的深度學習:挑戰、現狀和未來
    AI 前線導讀:近年來,深度學習在計算機視覺領域已經佔據了絕對的主導地位,在許多相關任務和競賽中都獲得了最好的表現。這些計算機視覺競賽中最有名的就是 ImgaeNet。參加 ImageNet 競賽的研究人員通過創造更好的模型來儘可能精確地分類給定的圖像。過去幾年裡,深度學習技術在該競賽中取得了快速的發展,甚至超越了人類的表現。
  • 近200篇機器學習&深度學習資料分享
    具體內容推薦閱讀:http://intelligent-optimization.org/LIONbook/《深度學習與統計學習理論》介紹:作者是來自百度,不過他本人已經在 2014 年 4 月份申請離職了。但是這篇文章很不錯如果你不知道深度學習與支持向量機/統計學習理論有什麼聯繫?那麼應該立即看看這篇文章.
  • 深度學習與圖像識別
    經典的人臉識別算法Eigenface [6] 在這個測試集上只有60%的識別率。在非深度學習的算法中,最好的識別率是96.33% [7]。目前深度學習可以達到99.47%的識別率[8]。在學術界收到廣泛關注的同時,深度學習也在工業界產生了巨大的影響。在Hinton的科研小組贏得ImageNet比賽之後6個月,谷歌和百度發都布了新的基於圖像內容的搜尋引擎。
  • 關於MATLAB 圖像處理與深度學習的作用分析和介紹
    接下來我們將介紹如何創建該算法,並說明為何深度學習和圖像處理對於對象檢測和圖像分類同樣十分有用。 圖像處理與深度學習 我們重點介紹兩種技術: 圖像處理 按像素級別變換或者修改圖像。比如,過濾、模糊、去模糊和邊緣檢測等; 深度學習 通過學習樣本圖像自動識別圖像特點。近幾年,深度學習已經徹底改變了圖像處理領域。
  • 深度神經網絡中的對抗樣本與學習7篇文章
    攻擊者的目標是找到一個小的、不可察覺擾動的現有圖像,以強制分類器去錯誤分類,而同個圖像仍能被人類正確分類。用於產生對抗圖像的先前技術依賴於對完整訓練集的訪問和網絡中的隱藏權重。這篇文章表明, 所有你需要的就是將輸入傳遞給分類器,學習後預測類別。攻擊通過使用目標DNN作為oracle來訓練替代模型。目標輸入是合成生成,傳遞給oracle(受攻擊的系統),輸出標籤成為替代模型的訓練標籤。可以使用一般的白盒技術創建成功的對抗圖像。
  • 深度學習經典數據集匯總
    很多朋友在學習了神經網絡和深度學習之後,早已迫不及待要開始動手實戰了。作為個人學習和實驗來說,很難獲得像工業界那樣較高質量的貼近實際應用的大量數據集,這時候一些公開數據集往往就成了大家通往AI路上的反覆摩擦的對象。計算機視覺(CV)方向的經典數據集包括MNIST手寫數字數據集、Fashion MNIST數據集、CIFAR-10和CIFAR-100數據集、ILSVRC競賽的ImageNet數據集、用於檢測和分割的PASCAL VOC和COCO數據集等。
  • 海康威視提出:無監督圖像分類的深度表徵學習
    論文:https://arxiv.org/abs/2006.11480最近因為工作原因,對半監督和無監督論文比較感興趣,今天看到一篇講圖像分類無監督的文章"Unsupervised Image Classification