從特徵檢測器到視覺轉換器:卷積神經網絡的時代到此結束了嗎?

2021-01-09 讀芯術

全文共1958字,預計學習時長5分鐘

圖源:unsplash

近十年來,卷積神經網絡一直在全球計算機視覺研究領域發揮著主導作用。但研究者們正在提出一種新方法,想要利用轉換器的功能賦予圖像更深層的意義。

轉換器最初是為自然語言處理任務而設計的,主攻神經網絡機器翻譯。後來,谷歌研究院的阿列克謝·多索維斯基(Alexey Dosovitskiy)、盧卡斯·拜爾(Lucas Beyer)等人撰寫了一篇題目為《一幅圖像值得16x16個字符:大規模用於圖像識別的轉換器》的論文,提出了一種名為視覺轉換器(ViT)的架構,該架構可通過轉換器處理圖像數據。

卷積神經網絡(CNN)存在的問題

在深入研究視覺轉換器的運行方式之前,釐清卷積神經網絡的缺點和根本缺陷很有必要。首先,卷積神經網絡無法編碼相對空間信息。也就是說,它僅關注於檢測某些特徵,而忽略了相對空間位置。

上面兩幅圖像都會被識別為人臉,因為卷積神經網絡只關注輸入圖像中是否存在某些特徵,而忽略了它們相對於彼此的位置。

卷積神經網絡的另一個主要缺陷是池化層。池化層會丟失很多有用的信息,比如最活躍的特徵檢測器的準確位置。換句話說,它能檢測到某些特徵,但卻無法傳達其在圖像中的準確位置。

轉換器簡介

從本質上說,轉換器應用了自我注意的概念。這個概念可以分為兩部分:自我和注意。注意指的僅僅是可訓練的權重,它可以模擬輸入句子中各部分的重要程度。

從以上示例中,大家可以發現,轉換器中的注意單元正在比較單詞「it」與句子中包括「it」在內的其他所有單詞的位置。不同的顏色代表著同時獨立運行的多個注意單元,目的是發現這些聯繫中的不同模式。

一旦通過上述比較計算出一個分數,它們就會經由結構簡單的前饋神經元層發送出去,最後進行規範化處理。在訓練期間,轉換器學習了這些注意向量。

模型架構

和常規轉換器通過單詞了解句子一樣,視覺轉換器通過像素獲得類似的圖像效果。不過,這裡有一個問題。與文字不同,單一像素本身並不傳達任何含義,這也是我們選擇使用卷積過濾器的原因之一(它可對一組像素進行操作)。

它們將整個圖像分成小塊圖像或單詞。所有小塊圖像都通過線性投影矩陣展平,同它們在圖像中的位置一起送入轉換器(如上圖所示)。在這一過程中,研究人員們選擇了大小為16x16的小塊圖像,所以才有了這樣詩意的研究題目。

現在,這些嵌入的小塊圖像通過多方面自我注意的交替層、多層感知器(結構簡單的前饋神經元層)和類似於常規轉換器中的層規範化,分類頭安裝在轉換器編碼器的末端,從而預測最終分類。像其他的卷積模型一樣,人們可以使用預先訓練好的編碼器庫和一個自定義MLP層來微調模型,以適應其分類任務。

重點

論文作者在ImageNet、CIFAR-10/100和JFT-300M(谷歌的私有數據集,擁有3億張高解析度圖像)等各種標註數據集上訓練了該模型。在準確性方面,他們的模型幾乎和其他先進的卷積模型一樣準確(在很多情況下甚至更準確),但訓練時間大大減少了(減少了大約75%),而且使用的硬體資源也更少。

視覺轉換器的另一個優點是能夠很早地了解到更高層級的關係,原因是它使用了全球注意而非局部注意。人們甚至在一開始就可以注意到那些相對於卷積神經網絡很遙遠的事物。除了在訓練過程中保持高效以外,視覺轉換器還會隨著訓練數據的增多而表現愈佳。

圖源:unsplash

難道這意味著卷積神經網絡已經過時,而視覺轉換器成為了新常態嗎?

當然不是!雖然卷積神經網絡存在不足,但它在處理對象檢測和圖像分類等任務方面仍然十分高效。作為最先進的卷積架構,ResNet和EfficientNet仍然佔據著處理此類任務的主導地位。然而,轉換器在自然語言處理任務(比如語言翻譯)方面取得了突破,在計算機視覺領域顯示出了不小的潛力。

在這個不斷發展的研究領域,未來會發生什麼?只有時間會告訴我們答案。

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範

相關焦點

  • 深度學習技術和卷積神經網絡(CNN)讓機器視覺識別更智能
    隨著人工智慧技術的進步,深度學習技術(DL)和卷積神經網絡技術(CNN)領域的人工智慧(AI)被引入到機器視覺圖像處理系統的應用中來,從而幫助機器學習和機器檢測缺陷更加高效,使機器視覺識別的過程更加精確。也讓使用這些技術的企業可以從智能化中獲得更高的生產經營效益。
  • AI入門:卷積神經網絡
    第二步:特徵抽樣,即縮小圖片。然後重複第一、第二步(具體重複多少次,人為決定)。第三步:全連接,把第一、二步的結果,輸入到全連接的神經網絡中,最後輸出結果。1.(如果不知道卷積怎麼運行的話,可以去問下百度)那過濾器是什麼呢?——過濾器就是用來檢測圖片是否有某個特徵,卷積的值越大,說明這個特徵越明顯。說到這裡,我們回顧一下前面提到的問題:我怎麼知道取哪個局部,我怎麼知道貓耳在圖片的哪個部位?
  • Transformer在CV領域有可能替代CNN嗎?|卷積|神經網絡|算子|上下文...
    對於高效性來說,以感知機為例, 它利用多個MLP來進行特徵的學習從而來表徵輸入數據 。但是這樣有很明顯的缺陷,一方面計算量是非常龐大的,另一方面直接將輸入flatten為一個列向量,會破壞圖像中目標原有的結構和上下文聯繫。  在此基礎上,我們可以繼續優化它,把它推廣到更一般的表示——CNN,MLP其實是CNN的一種特例。  3.
  • 從圖(Graph)到圖卷積(Graph Convolution):漫談圖神經網絡 (二)
    在從圖(Graph)到圖卷積(Graph Convolution): 漫談圖神經網絡 (一)中,我們簡單介紹了基於循環圖神經網絡的兩種重要模型,在本篇中,我們將著大量筆墨介紹圖卷積神經網絡中的卷積操作。接下來,我們將首先介紹一下圖卷積神經網絡的大概框架,藉此說明它與基於循環的圖神經網絡的區別。
  • 深度學習之卷積神經網絡經典模型
    卷積核可以是5x5的十字形,這28×28個神經元共享卷積核權值參數,通過卷積運算,原始信號特徵增強,同時也降低了噪聲,當卷積核不同時,提取到圖像中的特徵不同;C2層是一個池化層,池化層的功能在上文已經介紹過了,它將局部像素值平均化來實現子抽樣。
  • 刷臉背後:卷積神經網絡的數學原理
    計算機視覺技術在日常生活中有著非常普遍的應用:發朋友圈之前自動修圖、網上購物時刷臉支付……在這一系列成功的應用背後,卷積神經網絡功不可沒。本文將介紹卷積神經網絡背後的數學原理。
  • 人工智慧之卷積神經網絡(CNN)
    ^_^本文引用地址:http://www.eepw.com.cn/article/201806/381807.htm  20世紀60年代,Hubel和Wiesel在研究貓腦皮層中用於局部敏感和方向選擇的神經元時發現其獨特的網絡結構可以有效地降低反饋神經網絡的複雜性,繼而提出了卷積神經網絡CNN(Convolutional Neural Networks)。
  • 從基本組件到結構創新,67頁論文解讀深度卷積神經網絡架構
    (CNN)是一種特殊類型的神經網絡,在各種競賽基準上表現出了當前最優結果。CNN的歷史始於Hubel和Wiesel(1959,1962)進行的神經生物學實驗[14],[59]。他們的工作為許多認知模型提供了平臺,後來幾乎所有這些模型都被CNN取代。幾十年來,人們為提高CNN的性能做出了不同的努力。圖3中用圖形表示了這一歷史。這些改進可以分為五個不同的時代,下面將進行討論。
  • PyTorch可視化理解卷積神經網絡
    如今,機器已經能夠在理解、識別圖像中的特徵和對象等領域實現99%級別的準確率。生活中,我們每天都會運用到這一點,比如,智慧型手機拍照的時候能夠識別臉部、在類似於谷歌搜圖中搜索特定照片、從條形碼掃描文本或掃描書籍等。造就機器能夠獲得在這些視覺方面取得優異性能可能是源於一種特定類型的神經網絡——卷積神經網絡(CNN)。
  • 環信人工智慧專家李理:詳解卷積神經網絡
    接下來介紹一種非常重要的神經網絡——卷積神經網絡。這種神經網絡在計算機視覺領域取得了重大的成功,而且在自然語言處理等其它領域也有很好的應用。換句話說,全連接的網絡比卷積網絡的參數多了40倍。 當然,我們不能直接比較兩種網絡的參數,因為這兩種模型有本質的區別。但是,憑直覺,由於卷積網絡有平移不變的特性,為了達到相同的效果,它也可能使用更少的參數。由於參數變少,卷積網絡的訓練速度也更快,從而相同的計算資源我們可以訓練更深的網絡。 「卷積」神經網絡是因為公式(1)裡的運算叫做「卷積運算」。
  • 萬字長文|如何直觀解釋卷積神經網絡的工作原理?
    作者:YJango 日本會津大學|人機互動實驗室博士生 量子位 已獲授權編輯發布 該文是對卷積神經網絡的介紹,並假設你理解前饋神經網絡。 如果不是,強烈建議讀完《如何簡單形象又有趣地講解神經網絡是什麼?》
  • 一文了解卷積神經網絡基礎,建議收藏
    今天給大家講一下卷積神經網絡,主要包括四個部分:卷積神經網絡的歷史、全連接層、卷積層和池化層。CNN的英文全稱是Convolutional Neural Network,雛形是LeCun在1998年發明的LeNet網絡結構。
  • 一份完全解讀:是什麼使神經網絡變成圖神經網絡?
    這是一種有趣的方法,但在很多情況下它並不能全面的表示出一個人的面部特徵,因此可以通過卷積網絡從面部紋理中出捕捉到更多信息。相反,與2D標誌相比,基於人臉的3D網格的推理看起來更合理(Ranjan等人,ECCV,2018)。
  • 要想了解卷積神經網絡,首先需要了解三種基本架構
    卷積網絡是研究關於圖像(紋理,圖像尺度等)的抽象層面的一種網絡,跟傳統網絡不同的是,它不僅可以根據一個固定尺寸圖像生成物體識別數據,還可以對圖像其他部分進行其他操作。卷積可以有多個,它的作用是「放大」和「增強」圖像的抽象空間。那麼卷積可以用於哪些場景呢?
  • 知識普及:卷積神經網絡模型是怎樣工作的?可以做些什麼?
    知識普及:卷積神經網絡模型是怎樣工作的?可以做些什麼?而這就要歸功於計算機視覺領域最新的技術革新。 眾所周知,在過去的幾年裡,卷積神經網絡(CNN或ConvNet)在深度學習領域取得了許多重大突破,但對於大多數人而言,這個描述是相當不直觀的。因此,要了解模型取得了怎樣大的突破,我們應該先了解卷積神經網絡是怎樣工作的。 卷積神經網絡可以做些什麼? 卷積神經網絡用於在圖像中尋找特徵。
  • 一文讓你徹底了解卷積神經網絡
    卷積神經網絡(Convolutional Neural Network,CNN)是一種前饋神經網絡,它的人工神經元可以響應一部分覆蓋範圍內的周圍單元,對於大型圖像處理有出色表現。 它包括卷積層(convolutional layer)和池化層(pooling layer)。
  • ...神經網絡重現生物視覺系統,發《自然:神經科學》後再中NeurIPS...
    作者們設計了一個淺層人工神經網絡 CORnet-S,它的結構可以直接對應到生物大腦視覺系統的四個腦區,並且帶有循環信號連接。作者們也設計了一個新的評價指標 Brain-Score,用來評價人工模型還原生物視覺系統的功能保真度,其中有大量的神經和行為測試。
  • 圖神經網絡越深,表現就一定越好嗎?
    然而,日前帝國理工學院教授Michael Bronstein 發出了靈魂拷問:圖神經網絡的深度,真的會帶來優勢嗎?「深度圖神經網絡」是否被誤用了?或者說,我們是否應該重新審視以前認為「圖神經網絡越深,效果就會越好」的思路,說不定「深度」反而對基於圖的深度學習不利呢?眾所周知,深度圖神經網絡的訓練過程非常艱難。
  • 如何從信號分析角度理解卷積神經網絡的複雜機制?
    機器之心原創作者:Qintong Wu參與:Jane W隨著複雜和高效的神經網絡架構的出現,卷積神經網絡(CNN)的性能已經優於傳統的數字圖像處理方法,如 SIFT 和 SURF。在計算機視覺領域,學者們開始將研究重點轉移到 CNN,並相信 CNN 是這一領域的未來趨勢。但是,人們對成效卓著的 CNN 背後的機理卻缺乏了解。
  • 深入理解卷積網絡的卷積
    卷積神經網絡是一種特殊的神經網絡結構,是自動駕駛汽車、人臉識別系統等計算機視覺應用的基礎,其中基本的矩陣乘法運算被卷積運算取代。它們專門處理具有網格狀拓撲結構的數據。例如,時間序列數據和圖像數據可以看作是一個二維像素網格。