解讀目標檢測新範式:Segmentations is All You Need

2021-01-14 極市平臺

加入極市專業CV交流群,與6000+名企名校視覺開發者互動交流,每月大咖直播分享、真實項目需求對接、乾貨資訊匯總,行業技術交流點擊文末「閱讀原文」立刻申請入群~

ps.6月5日(本周三)晚20:00,極市邀請了英特爾(中國)資深視覺應用工程師周兆靖,為我們分享:如何利用開源OpenVINO™工具集加速深度學習推理,歡迎各位小夥伴參與直播,與嘉賓互動交流~


本文轉自機器之心

多年來,基於候選區域網絡(RPN)的現有模型在目標檢測任務中得到了廣泛認可,NMS 是該模型的基礎,但這種模型也存在一定缺陷,如在複雜遮擋情況下召回率很低。為了解決這一問題,程澤華等研究者提出使用弱監督分割多模態注釋,在沒有 NMS 的情況下實現了高度穩健的目標檢測性能。


作者利用注釋質量較差的邊界框在困難環境中實現穩健的目標檢測性能,避免了與 anchor 框或 NMS 相關的所有超參數。他們提出的模型超越了之前基於 anchor 的一步和多步檢測器,而且簡單得多。該模型在準確性和召回率方面都達到了當前最佳水平。這項工作的一作,程澤華對該論文進行了解讀。


論文:Segmentations is All You Need

論文連結:https://arxiv.org/pdf/1904.13300v3.pdf


RPN 系統的基本邏輯定位和分類已經在很多檢測任務中已經取得了不錯的成績,然而這並不符合人認知事物的過程——人做檢測,一步到位。也就是說,無論是 anchor 還是 NMS,都不應該存在於整個訓練過程。論文中提到的新標註方法可以直接把檢測(detection)標註轉化成一個二值化的多模態標註,沒有 NMS,也沒有 Anchor。


邊界框(Bounding Box)不應該存在


雖然 anchor 的存在減少了很多計算量,但是也帶來了超參數增加、人為調參過擬合評測數據集、前後景目標類別不平衡等一系列令人頭疼的問題。


讓我們回到邊界框的本質。所有的邊界框其實都是一種無限制保證前景物體像素召回率的標註方式,它會儘可能貼著外輪廓,因此會導致背景像素大量進入框內。然而,真實世界的物體可以隨意轉動,不同的機位拍一個 3D 物體出現的結果可以大不相同,因此用框作為一個表徵工具來把東西框起來,本身就不穩健。而且,框的標註本身也帶有一定的隨機性,畢竟要遵守標註規則把框標得非常好可能花的成本也會很高。


非極大值抑制(NMS)不應該存在


NMS 是一項很神奇的工作,目標檢測領域用 NMS 作為選框策略已經有大概幾十年了,因為沒有一項工作能超越它。然而如上所述,既然邊界框本身並不穩健,選出的框再優秀也無濟於事。更何況選出的框也不會格外優秀,因為真實世界裡不可能有一個具體的閾值來控制所有的場景,例如遮擋問題。現實世界中的遮擋問題十分複雜,擋了一部分和擋了一大半完全不是同一種情況。既然如此,用一個單一的閾值怎麼可能解決問題?事實上,在之前的工作中,動態調整 NMS 的 SoftNMS、動態調整 IoU 的 Cascade RCNN 方案都取得了很不錯的結果,但是前者依然迴避了「複雜遮擋」的複雜性,後者參數量激增,速度慢到難以想像。


如上所言,邊界框靠不住,NMS 也靠不住。


那麼為什麼不直接做分割?分割存在哪些問題?


分割(segmentation)的問題所在


Anchor Free 方法已經不新鮮了,相信這些問題早已經讓一些一線工作的研究人員頭疼很久了。那麼為什麼難?


分割糊成一團,很難用;

分割很貴;

YOLO 又快又簡單,能滿足客戶要求。


第一個問題用 Instance Aware 可以解決,但為了完成 Instance Aware,計算量可能增加;第二個問題幾乎無解;第三個問題主要還是 YOLO 太出名,darknet 寫的是真的好,而後得過且過。


解決方案就是分割


熟悉 Kaggle 的人可能對「檢測轉分割」這個解決方案不是很陌生。檢測問題用分割標籤來做,性能就會提高很多。因為分割的表徵能力真的很強——分割樣本更少,得到的模型收斂更快,並且檢測裡的難題可以得到很好的解決。對於之前提到的第二個問題,論文給出了一個轉化方法,即將檢測的標籤轉化成一個二值化的多模態標註。


論文給出的分割結果如下:



也就是說,原圖的框變成橢圓,而後分成了普通的分割形狀、邊界以及邊界交集三個不同的標籤。作者拿這些標籤來訓練,解決了不 Instance Aware 和複雜遮擋問題,而後只需要把一個二值化的輸出做一個輪廓追蹤(Contour Tracing),把分割的結果加個邊(注意,這個標註是算法直接就能跑出來的,不是標的。)


模型推理過程


推理過程很有意思。分割的模型跑出來之後做一個簡單的集合運算就能得到一個 Instance-Aware 的結果。而這個結果和其他十分複雜的模型設計相比,似乎更簡單——二值集合運算能花多少時間?


論文中的方案兼顧了高平均查準率(AP)和高召回率(AR):


WSWA-Seg(論文中的方法)在 COCO 數據集上的 AP


WSWA-Seg(論文中的方法)在 COCO 數據集上的 AR


即使在 WIDERFACE 這種極端的數據集中,模型的表現也很不錯:


WSWA-Seg(我們的方法)在 WIDERFACE 數據集上的 F1 值


前面一直在說檢測標註的缺陷,那麼分割標註就是完美的嗎?其實不然。可以參考 CityScapes 等分割標註數據集,跟 Detection 比,它最大的問題就是,當發生嚴重遮擋時,一個實例可能對應兩個甚至獨立的連通域。


我們一直在思考一個自下而上的理念:明白五官,你才能更好地識別人臉。明白四肢,才能更好地識別人體。同理,萬事萬物都應該有「五官、四肢」這種概念。用已有的豐富經驗,把檢測化為關鍵點問題,再用自下而上的豐富經驗解決它。而人體關鍵點、人臉關鍵點對遮擋不敏感說明,「將被遮擋的部分也計入 Ground Truth、計入 IoU」是非常重要的。GAN 擁有類似分割的結構,能「腦補」細節,那分割問題也應該有「腦補」空間遮擋的能力。


但是我們還要解決第三個問題,即是否對晶片友好、是否對通信友好。在任何一個歷史時代,計算能力不足和通信能力不足是一直存在的兩件事,我們不可能跨越地球科技發展的歷史,憑空變出一整套超越時代的計算晶片、通信晶片來,這個是做任何事情的「邊界條件」。不明白邊界條件對於解決方案的重要性,相當於不明白項目預算對於項目的重要性一樣,會讓人盲目地好大喜功、事倍功半。


值得慶賀的是,不像 MobileNet、剪枝、空洞卷積、ROIAlign/ROIPooling、NMS 以上任何一點的是,低精度推斷、帶有跳過連接的 UNet with、Hourglass 以及類似 CurveGCN(https://arxiv.org/pdf/1903.06874.pdf,一作來自 UToronto,這篇的指標已經完全只看 IoU 了)的設計都能夠在集成電路上高效運行,較少地依賴訪存通信資源、存儲器件峰值速度,而且最終得到的結果是方便在網絡 API 上獲得的。如果對我們的工作感興趣,歡迎閱讀我們的工作。


點擊左下角閱讀原文」,即可申請加入極市目標跟蹤、目標檢測、工業檢測、人臉方向、視覺競賽等技術交流群,更有每月大咖直播分享、真實項目需求對接、乾貨資訊匯總,行業技術交流,一起來讓思想之光照的更遠吧~



覺得有用麻煩給個在看啦~  

相關焦點

  • AI瘋狂進階——Depthwise Separable Conv is all you need?
    3.Depthwise Separable Convolution is all you need?隨著深度學習的發展,卷積神經網絡變得越來越普遍。3.Depthwise Separable Convolution is all you need?
  • Distribution is all you need:這裡有12種做ML不可不知的分布
    在這其中,概率論有其獨特的地位,模型的預測結果、學習過程、學習目標都可以通過概率的角度來理解。與此同時,從更細的角度來說,隨機變量的概率分布也是我們必須理解的內容。在這篇文章中,項目作者介紹了所有你需要了解的統計分布,他還提供了每一種分布的實現代碼。
  • 一步步解析Attention is All You Need!
    本文將通過細節剖析以及代碼相結合的方式,來一步步解析Attention is all you need這篇文章。
  • 視覺新範式Transformer之ViT
    Attention is all you need. In NIPS, 2017.[2] Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Joan Puigcerver, Jessica Yung, Sylvain Gelly,and Neil Houlsby.
  • 語音識別新範式:完全的「端到端」模型,優勢在哪裡?
    託馬斯·庫恩在其發表於 1962 年的經典著作《科學革命的結構》中提出的「範式轉換」一詞,如今已成為大家耳熟能詳的技術用語。大的「範式轉換」存在於基礎科學領域,小的「範式轉化」也存在於幾乎每個細分的技術領域。
  • 一知影視傳媒工作室:I need you,期待與你的強強聯合!
    如果您來影棚製作拍攝,我們的staff也由您指揮需要您: 有自己的原創節目或者有完整的策劃案 可以與我們」和藹可親」討論、協商 良好的合作精神和職業素養你可以: 是個有才藝的個人 享受鏡頭的個人 有自己的創意社團(相聲、舞蹈、二次元……)03I need
  • All you just have to see in Muscat, the mighty Omani capital...
    Across the intervening millennia, the region (which would ultimately become modern-day Oman) was dominated by the Assyrians, the Babylonians and the Persians, all
  • need的用法(包含Need to do與need doing的區別)
    一.need的定義及用法:need 表示「需要;必要」,既可以做情態動詞,又可以做實義動詞。1.need用作情態動詞時,後接動詞原形,此時其沒有人稱和數的變化,通常用於否定句和疑問句中。例如:Need I come back home now?我現在需要回家嗎?
  • 雅思口語:you need to arrive early for an appointment
    點擊查看>>>>近期雅思口語高頻話題   在回答雅思口語考官「Describe a time you need to arrive early for an appointment」之前,一定要搞清楚appointment什麼意思,我們來查查牛津高階,上面的解釋是這樣的
  • The New E-Bike Rules: What You Can Do
    The most common view was told to us by two electric scooter/e-bike manufacturers, who said that if you have a bike that is heavier than 55kg or does over 25km/h then all you
  • 最深情的R&B | The Way I Still Love You
    it's no use但仍然無濟於事Don't know what's going on with me我不知道自己究竟是怎麼了But all I know it's haunting me但我清楚的是你仍縈繞我心頭I need your love to set me free我需要你的愛讓我自由Listen to me請聽我說
  • We need WTO more than ever
    In March, when novel coronavirus pneumonia was most serious in Thailand, you published an article in Bangkok Business magazine titled "Novel Coronavirus Is Common Enemy of The World", which you wrote the
  • Panda Pi | For you and empowered by you
    Panda Pi | For you and empowered by youThank you for taking the time to read this article.Please give us two minutes to let us tell you all about ourselves!
  • 【智能製造】以三體智能解讀智能製造三個範式
    這是三位資深專家第二次聯袂撰文解讀該報告,以三體模型的視角闡述他們對智能製造以及三個範式的深刻認識。內容非常豐富,視角比較獨到,值得認真閱讀。   圖1 工程院提出的智能製造三個範式   在上月寫過一篇解讀文章的基礎上,筆者嘗試在本文中,以「三體智能模型」基本視角,對智能和智能化做一個多角度、多階段的梳理,試圖探討智能的要義以及人造系統走向「智能化」的演變過程,加深對智能製造發展戰略中的「智能化」的理解,同時對中國工程院提出的智能製造三個範式給出了進一步的解讀與優化建議。
  • Attention is All You Need?LSTM提出者:我看未必
    這種帶有連續狀態的新 Hopfield 網絡保留了離散網絡的特點:指數級的存儲容量和極快的收斂速度。在發現新 Hopfield 網絡更新規則與 Transformer 注意力機制的等價性之後,研究者利用這一發現分析了 BERT 等基於 Transformer 的模型。
  • 「少即是多」的目標檢測算法Sparse R-CNN
    近幾年來,目標檢測算法發展迅速,許多新出現的目標檢測範式有著很強的相同之處,如Anchor-Free的方法中不依賴於Anchor的目標檢測範式:CenterNet兼有結構簡單和高的準確率;FCOS創新性目標檢測思路。
  • You'll Never Know You Could be So Dope.
    Confirm with the seller that you do not want the plastic packaging, then place an order. 2. Think twice, you might not even need the thing you are buying! 3.
  • Tomorrow, Ecosia Helps You Plant Trees For Australia
    On Thursday, January 23, all Ecosia searches will plant trees in Australia.Even eucalyptus trees, which are well-adapted to fires, might not all survive.
  • 30 Behaviors That Will Make You Unstoppable
    Consequently, you』ll need to immediately and completely forgive anyone who has wronged you. However, forgiveness doesn’t mean you forget.
  • Eco - Life|You can be sustainable, but can your pet as well?
    If you chuck the poop into the bin with the compostable bag, then it will go to the landfill- that's the horrible place where all the plastic, Taobao impulse purchases, and fast-fashion ends up.