動態生成掩膜預測網絡生成模型CondInst,助力FCN重奪實例檢測顛峰

2020-12-08 極客網FromGeek

實例分割是計算機視覺領域的基礎任務,需要算法預測出圖像中每個實例的掩膜和對應的分類標籤。Mask R-CNN作為一種性能優異的算法,在實例分割領域取得了巨大成功,這種兩階段的方法主要依賴於ROI操作來獲取最終的實例掩膜。

而在這篇文章中,作者從全新的角度解決了實例分割問題,來自澳大利亞阿德萊德大學的研究人員在實例條件下提出了動態實例生成的網絡模型,代替了先前逐個實例的ROI區域作為預測的輸入。

這種全卷積網絡消除了對於ROI區域測裁剪操作和特徵配準方法,其次由於動態生成的條件卷積大幅提升了網絡容量使得mask分支變得非常緊湊,推理速度得到了大幅度提升。實驗表明這種方法無需更長時間的訓練,在COCO數據集上取得了比Mask R-CNN更好的結果,同時在精度和速度上都得到了明顯提升。

實例分割

Mask R-CNN是近幾年來實例分割領域非常重要的突破,它使用了Faster R-CNN來為每個實例預測邊界框,而後針對每個實例利用ROIAlign操作對在特徵圖中進行ROI區域裁剪,最後利用緊湊的全卷積網絡來對每一個實例的掩膜進行預測。

然而這種基於ROI的方法也有著諸多需要克服的困難:

首先ROI一般都是和圖像坐標軸對齊的邊框,當遇到非常規不規則物體時框中就會包含較多的背景或者其他實例的部分。雖然可以通過旋轉ROI解決這一問題,但隨之而來是更為複雜的計算代價和處理流程;其次為了區分前景和背景或者其他雜亂的實例,mask端需要堆疊更多的卷積層來獲取更大的感受野,這使得計算量大幅增加;第三由於ROI尺寸各不相同,為了有效利用批(batch)處理計算它們會被重置為相同的大小,這會限制大範圍實例的解析度。

在計算機視覺領域與實例分割最相近的要數語義分割了,全卷積網絡FCN在這一任務上取得了巨大的成功。此外FCN同時也在其他逐像素的預測任務上表現優異,像圖像去噪、超分辨這類底層圖像處理任務、光流估計和邊緣檢測這類中級任務,單發目標檢測、單目深度估計和目標計數這類高級任務都有著FCN的貢獻。但在實例分割任務中幾乎所有的純粹FCN方法都沒有達到最先進的水平。究竟是什麼原因讓強大的FCN在實例分割中敗下陣來呢?

研究人員發現主要的問題在於,網絡對於同一張圖像需要針對不同類別預測出不同的掩膜,這會讓FCN陷入兩難的境地。例如針對兩個人A和B,在圖像中具有相同的外觀和形狀特徵,但在預測A的掩膜時網絡需要將B視為背景,這會讓網絡陷入到一定程度的迷茫中。所以ROI才需要將目標區域特徵圖剪切出來。

本質上來講,實例分割網絡需要兩種類型的信息:外觀形狀特徵信息用於確定目標類別、位置信息用於從同一類中區分出不同的實例。基於ROI的方法都隱式地編碼了目標實例的位置信息。而這篇文章的方法則探索對對於實例位置敏感的卷積層來嘗試解決目標位置信息問題。

基於這樣的考量,研究人員提出了新的解決方法,來代替標準的、由一系列固定權重濾波器組成的ConvNet來作為實例預測端針對所有實例進行處理,利用了一種參數基於待預測實例自適應的網絡結構來進行預測。在動態濾波器和條件卷積的啟發下,控制子網絡會針對每一個實例動態生成mask FCN的網絡參數(也就是基於帶預測實例的中心區域來生成),隨後這些參數實例化為mask FCN用於預測對應實例的掩膜。

其中的思想在於網絡參數能夠編碼實例的特徵、並僅激活這一實例的像素,巧妙地避開了前面提到的問題。得到的條件mask端作用於整個特徵圖免去了獲取ROI的操作。這一方法也許在有的人看來會帶來非常多的網絡參數(由於實例的數量很多),但研究人員巧妙地利用了動態生成的濾波器來構建緊湊的FCN mask預測端,在提高性能的同時,大幅度減少了計算複雜性。

CondInst

實例分割模型的目標在於通過輸入圖像為圖中的實例預測出對應的掩膜,實例數量的不確定對於傳統的FCN來說十分困難。本文工作的核心在於,針對圖中待處理的K個實例,模型會動態生成K個不同的掩膜處理端,每個掩膜處理分支將目標實例的特徵包含在了其參數中。當其作用於特徵圖時僅僅會激活實例上的像素用於掩膜預測。下圖顯示了模型的主要架構:

12下一頁>

(免責聲明:本網站內容主要來自原創、合作媒體供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,並對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或連結內容可能涉嫌侵犯其智慧財產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,並提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件後,將會依法儘快聯繫相關文章源頭核實,溝通刪除相關內容或斷開相關連結。 )

相關焦點

  • Survey | 基於生成模型的分子設計
    第二種生成模型是生成對抗網絡(GAN),該模型是通過兩個神經網絡相互競爭,直到二者達到納什均衡來實現的。其中,一個網絡生成候選數據(生成網絡),另一個評估這些數據(判別網絡)。生成對抗網絡GAN通過對先驗概率分布Pz進行一系列的非線性變換,以逼近真實數據分布Px。然而,生成網絡G只接收先驗分布作為輸入而不接觸任何真實數據,它只能通過判別網絡D進行訓練,如圖1(B)。
  • 十個生成模型(GANs)的最佳案例和原理 | 代碼+論文
    將這兩個網絡聯合訓練,經過大量回合「交鋒」後,鑑別器將無法區分生成樣本和實際數據。做個比喻,生成器就像是想製作一些高仿品的生產商,而鑑別器就像是試圖檢測出這些仿製品的警察。由於整個過程是自動完成的,僅受限於實際的計算能力,因此GANs可用來實現一些很有趣的功能。以下是一些用GANs完成的酷炫應用。
  • The Relightables可生成動態人體3D模型
    作者:DIGITIMES陳明陽Google AI開發的"The Relightables"系統結合可調整動態人體3D模型照明的重建技術,以及全視點(free-viewpoint)容積測量捕捉(volumetric capture)技術,可生成高解析度、光源可調的動態人體3D模型,
  • Ian Goodfellow:GAN相比其他生成模型的優缺點及應用
    (GAN)的發明人 Ian Goodfellow 在 Quora上回答有關 GAN 的兩個問題,即:生成對抗網絡相比其他生成模型的優缺點是什麼?:Image-to-Image Translation with Conditional Adversarial Nets,我們可以看到GAN已經被引入到了各種以往深度神經網絡的任務中,例如從分割圖像恢復原圖像(左上角第一對),給黑白圖片上色(右上角第一對),根據紋理圖上色(右下角第一對),另外,GAN還可以做圖像超解析度,動態場景生成等,關於GAN的更多應用請見另一篇博客深度學習在計算機視覺領域的前沿進展
  • arXiv | 藥物組合的深度生成模型
    面對計算藥物組合設計中存在的巨大化學空間中「藥物組合爆炸」問題,Yang Shen課題組首次提出使用生成模型來加速發現抗耐藥性的藥物組合。(1)層次變分圖自編碼器(HVGAE)學習基因和疾病表徵第一層輸入為基因-基因網絡數據,使用圖神經網絡(GNN)學習基因特徵表示,將鄰接張量和學習到的基因特徵利用變分自編碼器生成基因表徵。
  • GAN(生成對抗網絡)萬字長文綜述
    GAN的基本概念GAN(Generative Adversarial Networks)從其名字可以看出,是一種生成式的,對抗網絡。再具體一點,就是通過對抗的方式,去學習數據分布的生成式模型。所謂的對抗,指的是生成網絡和判別網絡的互相對抗。
  • 研究動態|語音驅動姿勢生成模型來了,肢體語言比總統候選人還豐富
    甚至還能控制一側手臂的高度位置:此外,該方法還可以生成全身的姿勢動態之後,學得的網絡將這些指令轉換為適當的身體姿勢序列。在交互場景中,實時生成自然動畫的系統是塑造可信和關聯角色的關鍵所在。瑞典皇家理工學院的研究者通過對 MoGlow 這一基於深度學習的動作合成方法進行改進,提出了一種新的生成模型,該模型可實現當前最優的語音驅動姿勢生成。
  • 一文看懂生成對抗網絡
    其中生成模型和判別模型合起來的框架被稱為GAN網絡。通過下圖我們來理清判別模型和生成模型之間的輸入輸出關係:生成模型通過輸入隨機噪聲 z(z 屬於 p_z) 產生合成樣本;而判別模型通過分別輸入真實的訓練數據和生成模型的訓練數據來判斷輸入的數據是否真實。
  • 萬字綜述之生成對抗網絡(GAN)
    文章目錄如下:GAN的基本介紹生成對抗網絡(GAN,Generative Adversarial Networks)作為一種優秀的生成式模型,引爆了許多圖像生成的有趣應用。GAN的基本概念GAN(Generative Adversarial Networks)從其名字可以看出,是一種生成式的,對抗網絡。再具體一點,就是通過對抗的方式,去學習數據分布的生成式模型。所謂的對抗,指的是生成網絡和判別網絡的互相對抗。
  • 用飛槳做自然語言處理:神經網絡語言模型應用實例
    想要讓模型能落地奔跑,就需藉助深度學習框架之力,Tensorflow、PyTorch自然是主流,但在Dropout都成獨家專利之後,不儲備「B計劃」,多少讓人有些擔驚受怕 這裡有一份飛槳(PaddlePaddle)語言模型應用實例,從基礎概念到代碼實現,娓娓道來,一一說明。現在,量子位分享轉載如下,宜學習,宜收藏。
  • 揭秘騰訊變臉魔法,生成對抗網絡GAN的威力是什麼?
    隨著GAN網絡在生成質量上的不斷提高,它越來越頻繁地落地到社交娛樂場景中,給用戶帶去最直觀、新鮮的AI體驗。左右互搏生成完美圖片,AI界的"網紅"技術那麼使得新型變臉特效得以實現的生成式對抗網絡 GAN,究竟是什麼?它是由美國科學家Ian Goodfellow發明,試圖讓計算機自己生成逼真圖片的AI技術。
  • 生成對抗網絡的最新研究進展
    ,生成對抗網絡是一類功能強大、應用廣泛的神經網絡。1.模型崩潰(Mode collapse)自然數據分布是高度複雜和多模態的。也就是說,數據分布有很多「峰值」或「模型」。每種模型代表相似數據樣本的濃度,且不同於其他模型。在模型摺疊期間,生成器生成屬於一組有限模型的樣本。當生成器相信它可以通過鎖定到單個模型來騙過判別器時,就會發生這種情況。
  • 中科院自動化所提出BIFT模型:面向自然語言生成,同步雙向推斷
    但是,自然語言生成由於都默認自左往右地逐詞產生文本輸出,預測某個時刻的輸出只能利用上文的歷史信息而無法訪問還未生成的未來信息。例如將漢語句子「有五個人」自動翻譯為英語時,從左到右的理想預測結果是「There」、「are」、「five」 和「persons」。
  • GPT-GNN:圖神經網絡的生成式預訓練方法
    事實上,在NLP任務中也同樣存在著類似的問題,作者利用自然語言處理中預訓練的思想: "從大量的未標記語料庫中訓練一個模型,然後將學習到的模型轉移到只有少量標記的下遊任務",嘗試通過對圖神經網絡進行預訓練,使得GNN能夠捕獲輸入圖的結構和語義屬性,從而輕鬆地將其推廣到任何下遊任務。預訓練的目標是允許一個模型(通常是神經網絡)用預訓練的權重初始化它的參數。
  • 生成式對抗網絡GAN的高級議題
    深層生成模型分類本文的大部分內容將涉及編碼GAN以及對GAN的一些更高級實現的廣泛介紹。GAN的簡短回顧本文將講述GAN如何使用pandas實例工作。最近引入了生成對抗網作為訓練生成模型的新方法,即創建能夠生成數據的模型。它們由兩個"對抗"模式:生成模型G獲得數據和判別模型D來估計訓練數據提供的樣本的準確性。G和D可能是一個非線性映射函數,如多層感知。在生成對抗網絡(GAN)中,我們有兩個神經網絡在零和遊戲中相互對抗,其中第一個網絡,即生成器,其任務是欺騙第二個網絡,即鑑別器。
  • AAAI 2020 論文解讀:關於生成模型的那些事
    機器之心分析師網絡分析師:王子嘉編輯: H4O提到生成模型,每個人首先要考慮的問題應該都是這兩個——生成什麼,如何生成。本文介紹的三篇論文就包含了三種生成模型(GNN、RL、VAE,即怎麼生成),同時也介紹了這些生成模型各自當前的應用場景(場景圖生成、序列生成、任務型對話生成,即生成什麼)。機器學習模型的一種分類方式就是將模型分為分類模型和生成模型,GAN 的出現使得生成模型一度大火,GAN 也開始被應用於各個領域,但是生成模型並不只是 GAN。
  • 18個生成對抗網絡(GAN)的絕妙應用!你確定不收藏一下?
    圖片來源:pexels.com/@gravitylicious生成對抗網絡(GAN)是生成模型的一種神經網絡架構。生成模型指在現存樣本的基礎上,使用模型來生成新案例,比如,基於現存的照片集生成一組與其相似卻有細微差異的新照片。GAN是使用兩個神經網絡模型訓練而成的一種生成模型。其中一個稱為「生成器」或「生成網絡」模型,可學習生成新的可用案例。另一個稱為「判別器」或「判別網絡」,可學習判別生成的案例與實際案例。
  • 程式設計師學習人工智慧,生成式對抗網絡(GAN)1,簡介與算法原理
    一、簡介生成式對抗網絡(GAN, Generative Adversarial Networks )是一種深度學習模型,是近年來複雜分布上無監督學習最具前景的方法之一。模型通過框架中(至少)兩個模塊:生成模型(Generative Model)和判別模型(Discriminative Model)的互相博弈學習產生相當好的輸出。原始 GAN 理論中,並不要求 G 和 D 都是神經網絡,只需要是能擬合相應生成和判別的函數即可。但實用中一般均使用深度神經網絡作為 G 和 D 。