空間金字塔池化SPP改進RCNN的重要思想

2020-11-24 百家號

既然池化和卷積都對輸入圖片大小沒有要求,那麼就只有全連接層對圖片結果有要求了。因為全連接層連接權值矩陣的大小W,經過網絡訓練後,大小就固定了。

本文的背景是論文《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》,是對RCNN的region proposal要進行大量繁雜計算的重要改進。

R-CNN中region proposal的缺陷

R-CNN的候選框是通過selective search方法得到的,一張圖片大概有2k左右個region proposals,然後通過crop/warp進行處理,將每個region proposal送入CNN中進行卷積特徵的提取。

R-CNN中,要求輸入固定大小的圖片,這些圖片經過裁切(Crop)或者經過變形縮放(Warp),都在一定程度上導致圖片信息的丟失和變形,限制了識別精確度。兩種方式如下所示。

無論是crop還是warp,都無法保證不失真:

- crop:物體可能會被截斷,尤其是長寬比大的圖片

- warp:物體被拉伸,失去"原形",尤其是長寬比大的圖片

這兩方面的事實導致以下兩個缺陷:

◆ 訓練時間非常慢,因為一張圖片產生2k左右的region proposals,都會進入CNN中進行訓練;

識別準確率很低,因為產生的region proposals都會通過crop/warp操作,resize到同一大小送入CNN中進行訓練,這樣會造成圖片信息的缺失或者變形失真,會降低圖片識別的正確率。

SPP空間金字塔池化的重要思想

本文提出了空間金字塔池化(Spatial Pyramid Pooling layer) 來解決這一問題,使用這種方式,可以讓網絡輸入任意的圖片,而且還會生成固定大小的輸出。這樣,整體的結構和之前R-CNN有所不同。

對於第一個問題,我們能不能將一張圖片整體送入CNN中進行特徵提取,然後將一張圖片的多個region proposals映射到最後的特徵層上,形成每個region proposal的feature maps,進而加速特徵的提取;

對於第二個問題,我們能不能不resize,直接用不同大小的region proposals的feature maps?

實際上,卷積層是不需要輸入固定大小的圖片的,並且還可以生成任意大小的特徵圖,只是全連接層需要固定大小的輸入。因此,固定長度的約束僅限於全連接層。

分析如下:

CNN大體包含3部分,卷積、池化、全連接。

卷積:卷積操作對圖片輸入的大小會有要求嗎?比如一個5*5的卷積核,輸入的圖片是30*81的大小,可以得到(26,77)大小的圖片,並不會影響卷積操作。輸入600*500,它還是照樣可以進行卷積,也就是卷積對圖片輸入大小沒有要求。任意大小的圖片進入,都可以進行卷積。

池化:池化對圖片大小會有要求嗎?比如我池化大小為(2,2)我輸入一張30*40的,那麼經過池化後可以得到15*20的圖片。輸入一張53*22大小的圖片,經過池化後,我可以得到26*11大小的圖片。因此池化這一步也沒對圖片大小有要求。輸入任意大小的圖片,都可以進行池化。

全連接層:既然池化和卷積都對輸入圖片大小沒有要求,那麼就只有全連接層對圖片結果有要求了。因為全連接層連接權值矩陣的大小W,經過網絡訓練後,大小就固定了。比如我們從卷積到全連層,輸入和輸出的大小,分別是50、30,那麼權值矩陣50×30大小的矩陣了。因此空間金字塔池化,要解決的就是從卷積層到全連接層之間的一個過度。

也就是說,在最後一個卷積層與第一個全連接層(fc)之間需要訓練一個大小固定的二維數組,這樣可以得到的特徵更完整一些,提高了定位與識別的準確率。如下圖所求:

SPP的具體實現過程

SPP為的就是解決上述的問題,做到的效果為:不管輸入的圖片是什麼尺度,都能夠正確的傳入網絡。

具體方案如下圖所示:

不管最後一個卷積層得到的特徵圖(feature maps)的大小,都可將其轉化為了(4*4+2*2+1*1)*256的全連接層,也就是這些特徵圖的大小不同,但通道是相同的,那麼如何將不同大小的特徵圖進行spp 呢?

假設輸入的大小為a*a*c,然後呢,這些特徵圖分別被分成了[1*1,2*2,4*4]大小的塊,期望的輸出為1*1*c,2*2*c,4*4*c,變形為(1*1+2*2+4*4)*c的二維數組,這全部是通過池化操作實現的,不過池化層的size和stride是不同的,具體有如下:

輸入為[a,a],輸出為[n,n],那麼pool_size= n/a ,stride= n/a ,這樣我們就將其轉化為了n*n*c的矩陣,例如13*13、10*10要轉化為4*4的大小,那麼採用[p_s=4,,s=3],[p_s=3,s=2]的池化操作後便可以得到。

如果原圖輸入是227x227,對於conv5出來後的輸出,是13x13x256的,可以理解成有256個這樣的filter,每個filter對應一張13x13的激活圖。

如果像上圖那樣將激活圖池化成4x4 2x2 1x1三張子圖,做max pooling後,出來的特徵就是固定長度的(16+4+1)x256那麼多的維度了.如果原圖的輸入不是227x227,出來的特徵依然是(16+4+1)x256;直覺地說,可以理解成將原來固定大小為(3x3)窗口的pool5改成了自適應窗口大小,窗口的大小和激活成比例,保證了經過pooling後出來的feature的長度是一致的.

如果要金字塔的某一層輸出n x n個特徵,只需要用窗口大小為:(w/n,h/n)進行池化即可。

當我們有很多層網絡的時候,網絡輸入的是一張任意大小的圖片,這個時候我們可以一直進行卷積、池化,直到即將與全連接層連接的時候,就要使用金字塔池化,使得任意大小的特徵圖都能夠轉換成固定大小的特徵向量,這就是空間金字塔池化的奧妙之處!

AI火箭營

相關焦點

  • 日媒:新技術助研究人員發現胡夫金字塔隱蔽空間
    參考消息網10月17日報導 日媒稱,在埃及運用日本最新數碼技術調查金字塔內部結構的研究小組15日宣布,位於首都開羅近郊吉薩的胡夫金字塔已確認存在隱蔽的空間。這將有助於摸清有很多未解之謎的金字塔的結構。據日本共同社10月16日,調查小組中除了名古屋大學的研究人員外,還有埃及和法國的專家參與。
  • 中國推出自我改進金字塔立體網絡 改進自動駕駛車輛深度估計功能
    研究人員提出了一種自我改進金字塔立體網絡,後續無需複雜處理就可直接復原差距,而且在不適定的區域,該網絡也展現了較強的魯棒性。 此外,通過在線學習,該模型不僅解決了數據局限性問題,還在實際應用中節省了培訓時間和硬體資源。同時,面對新場景,具備自我改進的能力,能夠根據測試數據及時快速調整,以提高預測的準確性。
  • TPM(全員生產保全)金字塔
    TPM從二十世紀五十年代發展起來,距今已有70多年的歷史了,經過這麼多年各國、各行業的發展,方法、手段、理念、思想、階段、步驟等多種多樣,需要不斷地學習和了解。而且針對的層級不同,需要了解的內容也不同。為了更全面的了解TPM推進所涉及到的各方面內容,我們把每個層級所對應的方法、手段、理念、思想、階段等按照三角形的形狀搭建成一個面。
  • 除了未知空間 埃及胡夫金字塔還有哪些未知?
    除了未知空間 胡夫金字塔還有哪些未知  近日,據日本共同社報導,日本和法國的科學家經過兩年的研究,發現胡夫金字塔內部存在未知的巨大空間。「此次在大金字塔中發現的空間,或許之前沒有被盜過,這樣很可能保留了一些遺物或銘文,或許對於揭開金字塔的若干謎團有幫助。」中國社會科學院世界史研究所郭子林副研究員告訴科技日報記者。
  • DetectoRS目標檢測:改進主幹網,成就新高度!
    主要思想DetectoRS的思想來自成功的目標檢測算法如Faster RCNN 、Cascade R-CNN所體現出的哲學:looking and thinking twice (無論是兩階段還是級聯檢測器,都體現出信息的反覆利用和提精)作者是把這一思想應用於主幹網的改進上,主要創新如圖:
  • 揭開金字塔驚人之謎與金字塔能量療愈
    當今,金字塔的時代仿佛已然來臨了。世界各地的藝術家、建築師和新時代的金字塔謎們,正尋求賦與古老金塔全新的風貌。金字塔能量療愈與人體冥想禪修時的大衛星金字塔能開始流行和普及(如下圖,來自大衛星金字塔的網絡圖片)。而我們能量孕教體系裡的LⅤ遠程光療也正是建立在金字塔能冥想與金字塔療愈基礎上的線上療愈個案。
  • 「拍X光」暴露金字塔新密室,未知空間功能成謎
    他們最終在金字塔深處,發現了一個與「大畫廊」完全一致的秘密「空間」(void)。新確認的空間全長超過30米,位於大畫廊的空間正上方,空間截面積與寬1—2米、高8.6米的大畫廊幾乎相同。但是他也承認,金字塔會有空室或者其他洞穴,而此次發現的具體意義,仍然有待時間證明。畫廊、密室、空洞?胡夫金字塔又添未解之謎此次發現給埃及考古界留下了新問題——新發現的空間是什麼?此前發現的墓室中的寶藏已經被盜墓賊洗劫一空,甚至法老胡夫的木乃伊也下落不明,那麼新空間是否保留有法老的珍寶?
  • 加強和改進高校思想政治工作座談會發言摘登
    二、強化教育帶動,築牢教師理想信念根基  一是抓思想引領。校黨委制定《關於進一步加強和改進教師思想政治工作的意見》,突出教師理想信念教育。學校堅持邀請地方黨委主要負責同志作報告的優良傳統。實施骨幹教師輪訓計劃。二是抓師德師風。開展「大討論、大展評、大建設」活動,全校教職工舉行各類討論學習會600餘次,累計參與2萬餘人次。
  • 貫徹落實中央8號文件精神 進一步加強和改進未成年人思想道德建設
    貫徹落實中央8號文件精神 進一步加強和改進未成年人思想道德建設  《中共中央國務院關於進一步加強和改進未成年人思想道德建設的若干意見》(以下簡稱中央8號文件)下發後,教育部黨組及時對貫徹落實工作進行了部署,印發了《關於學習貫徹〈中共中央國務院關於進一步加強和改進未成年人思想道德建設的若干意見〉的實施意見》,召開了視頻會、座談會,舉辦了廳局長研修班、德育處長研修班等,動員廣大幹部教師以積極的態度投入到學習貫徹落實文件精神上來。
  • 埃及之旅重要一站,埃及金字塔
    下午去金字塔,提到金字塔,可以說是世界著名的建築,無人不知,無人不曉,很多旅客來埃及最重要的參觀地。金字塔在埃及和美洲等地均有分布,埃及有數十座金字塔,這些金字塔大小各不相同,最大的胡夫金字塔用了數十萬勞工近二十年建造完成,高146.5米,底長230米,每塊石料大約重2.5頓,都是從亞斯文運來的。
  • 2019年期刊分區表升級版(試行):改進和優勢
    自「《2019年中國科學院文獻情報中心期刊分區表升級版(試行)》正式發布」以來,很多用戶對升級版充滿期待,想進一步了解升級版改進內容以及優勢。升級版延續了基礎版跨學科比較的理念和「金字塔形」分區思想,並針對現有期刊評價體系的瓶頸問題作了相應的擴展和改進。引入論文主題體系升級版首次將論文主題體系引入到期刊評價,作為影響力歸一化的基礎。論文主題體系是基於引用和文本生成,將每篇論文都劃分到一個主題。
  • 如何構建金字塔?
    上文中介紹了金字塔的基本原則與結構(金字塔原理十六字原則),那應該如何構造金字塔?構建金字塔結構有兩種方法:自上而下法和自下而上法。自上而下法自上而下法是在對問題和成果有了總體認知,只需把清晰的結構表達出來時,使用的方法。
  • 不同於古埃及金字塔,瑪雅金字塔外形豐富,更具有天文觀測功用
    瑪雅金字塔與古埃及金字塔不同遠在古老而神秘的奧爾梅克文明時代,瑪雅的金字塔神廟就已經出現了,而且這種金字塔神廟的外形與其他的主要特徵,在那個時期就已經形成了一種全新建築風格。古埃及的金字塔是以其近乎相同而且完美的建築外形,吸引著人們的目光,而瑪雅的金字塔種類則豐富多彩,建築外形千姿百態,它們不再是單一的相同外形。
  • 金字塔黃金時代的到來
    據說,正是由於上一任法老在建金字塔的坍塌,也有很大可能是他的金字塔——不管怎麼說,這次塌塔事件極大地震撼了法老本人,他以為是自己得罪了無處不在的神靈,於是立即要求改進修建的方式。美杜姆金字塔,塌過的金字塔第一次改進之後是這樣:
  • 以加強黨的政治建設為統領 加強改進高校黨建和思想政治工作
    日前召開的部屬高校黨的建設和思想政治工作座談會,對以黨的政治建設為統領,進一步加強改進高校黨建和思想政治工作作出部署。我國高校是黨領導下的高校,必須堅持以習近平新時代中國特色社會主義思想為指導,以加強黨的政治建設為統領,堅持辦學正確政治方向,著力培養愛黨愛國愛社會主義、立志為中國特色社會主義奮鬥終身的有用人才。堅持黨對高校工作的領導。
  • 讓我學習麥肯錫的:金字塔原理、MECE法則
    金字塔原理是一種重點突出、邏輯清晰、主次分明的邏輯思路、表達方式和規範動作,該原理可應用於商務寫作、商務演示、表達與演說。金字塔原理的基本結構是:中心思想明確,結論先行,以上統下,歸類分組,邏輯遞進。先重要後次要,先全局後細節,先結論後原因,先結果後過程。
  • 深度學習閱讀導航 | 03 FPN:基於特徵金字塔網絡的目標檢測
    這種網絡內要素層次結構生成了不同空間解析度的特徵圖,但由於深度不同導致了較大的語義鴻溝。高解析度地圖具有低級特徵,這損害了它們對目標識別的表徵能力。SSD是使用ConvNet的金字塔特徵層次結構的首批嘗試之一,形式如圖(c)一樣。理想情況下,SSD樣式的金字塔將重複使用在正向傳遞中計算的不同層的多比例特徵地圖,因此是耗時間的。