圖像分割研究者的煩惱與未來

2021-02-14 黃含馳

本渣:

1.試試數據驅動結合模型驅動,想想咋巧用先驗?不要純DL,近年來組合數學中關於圖割的研究咋嵌入其中?傳統精華思想也多復用?這塊做的工作是不是很少,可能思考周期長且偏理論和偏應用的研究者交流不充分吧~2.知乎搜「圖像分割 組合優化」,只搜到叫獸一個比較系統的回答,其他都基本純DL,為致敬傳統算法,在講述圖像分割難點和未來前先貼下叫獸的回答~3.本渣心中較新較棒的融合傳統算法的seminar是Combinatorial Optimization in Machine Learning and Computer Vision https://hci.iwr.uni-heidelberg.de/teaching/optml-seminar-WiSe18,感興趣的小夥伴還可點擊https://www.google.com/search?q=Combinatorial+Optimization+in+graph+segmentation&newwindow=1&safe=active&rlz=1C1CHBD_zh-CNHK912HK912&sxsrf=ALeKk03VXZfeNQsClTaiwsjUEp6H5yT5uA:1599127636710&source=lnt&tbs=qdr:y&sa=X&ved=2ahUKEwj97PHV3szrAhXbMd4KHTfzCjMQpwV6BAgNECA&biw=1920&bih=867,自動顯示進1年的CO in graph segmentation的成果~

其他資料安利:研討會:Deep Geometric Learning  https://www.ipam.ucla.edu/programs/workshops/workshop-iv-deep-geometric-learning-of-big-data-and-applications/?tab=schedule video:幾何感知深度學習:等變表示的簡要歷史和最新結果 http://www.ipam.ucla.edu/abstract/?tid=15584&pcode=GLWS4 http://www.ipam.ucla.edu/abstract/?tid=16117&pcode=GLWS4在深度學習中利用3D幾何和世界結構 http://www.ipam.ucla.edu/abstract/?tid=16117&pcode=GLWS4 PPT: GMNN: Graph Markov Neural Networks http://helper.ipam.ucla.edu/publications/glws4/glws4_16001.pdf 如何學習結合傳統算法和神經網絡,見下圖第三趴~

https://hci.iwr.uni-heidelberg.de/teaching/optml

正文

*

當前主流的圖像分割研究方向都有哪些?- 留德華叫獸的回答 - 知乎 https://www.zhihu.com/question/33599013/answer/107350053

2017年summer semester,叫獸於海德堡大學數學與計算機系開一個組合優化的seminar,主題希望cover圖像分割graph based model20年來的發展,到時talk的slide和report都會掛在他的個人主頁。最後歡迎學術訪問海德堡大學組合優化實驗室,以及圖像處理中心。

(本渣補充:滑鐵盧大學組合數學相關組也和他們CS部門合作緊密, 滑鐵盧組合數學&CS的系列研討會很棒:https://www.math.uwaterloo.ca/~wnotice/notice_prgms/wreg/list_notices_p.pl?dept=all_depts&time_frame=month比如2020年9月4日,星期五,下午3: 30 "Recent proximity results in integer linear programming")

*

https://zhuanlan.zhihu.com/p/145009250

圖像分割難點:

研究進展趨緩,甚至已進入瓶頸期,提升 0.5 mIoU 都非常困難;

數據集受限,少有的幾個數據集已經刷到接近天花板;

算力消耗大,學界和一些小型業界團隊往往被算力掣肘;

領域內卷,研究同質化嚴重,很容易被審稿人 diss,不容易中頂會

*

https://zhuanlan.zhihu.com/p/72743589

圖像分割的難點

雖然定義分割的種類不一樣,但是分割領域裡面存在一些共同的問題,常見的問題比如,因為相機和拍攝物體的距離遠近引起的同一個物體在圖像中可能佔不同大小的畫幅->多尺度問題;拍攝角度物體的不同->物體多姿態(多視角)問題;外界的光照不同->光照問題等。另外再提些關注的人還不太多的難點:

1.分割邊緣不準2.在同一副圖像中不同類別或實例的像素不均衡的問題。不同物體分割的難度也並不一樣。

3.標註費事費力,且標註中是可能存在噪聲的。

4.如何對遮擋區域進行建模?

5.CNN的分割網絡耗顯存的問題。

6.如何定義圖像的上下文問題。

7.模型的設計上缺少顯示的不同圖像中語義相同區域特徵的交互。

8.如何簡單有效區分同一類物體的不同實例?

如何破局?

1對網絡輸出的分割的邊界增加額外損失,或讓網絡對邊界的特徵和區域內部的特徵分開建模學習。其本質上的思想還是讓網絡同時做兩個任務:分割和邊緣檢測。另外,提高輸入圖像的輸入解析度和中間層特徵圖的解析度同樣也是簡單有效的。

2.利用loss動態加權或者在圖像二維空間上採樣來解決同一張圖像中不同語義的像素個數不均衡以及學習的難易程度不同的問題。

3.利用半監督或者弱監督學習的方法減少標註昂貴的問題。利用多個標籤有噪聲的樣本或其特徵構建虛擬的標籤乾淨的虛擬樣本或特徵來減少標籤的噪聲。

4.利用合理的上下文的建模機制,幫助網絡猜測遮擋部分的語義信息。

5.在網絡中構建不同圖像之間損失或者特徵交互模塊。

分詞條詳述見原文~

*

作者:周博磊 連結:https://www.zhihu.com/question/390783647/answer/1226097849

很多回答在抱怨語義分割到達了研究瓶頸,分刷不上去了,我倒是覺得很大程度上是沒找對問題。我上面說的這些問題,比如說如何去進行小樣本物體檢測與分割,如何檢測和分割小件物體等,都是目前語義分割和物體檢測需要去克服的難題。之所以大家沒有注意到這些本質問題,是因為現有的資料庫把這些問題都規避掉了。比如說COCO資料庫,人為定出80類物體,手工平衡標定樣本的數量,裡面還有很多諸如baseball pat這種我們一輩子見不到幾次的物體。自然場景中物體的分布本來就是power law的,我們需要去直面這些few-shot learning的問題。

……

物體檢測算法在COCO資料庫上的upper bound顯然不是100%,應該是多少呢,哪位同學來分析下也許會做成一篇比刷分。

……

語義分割問題本身我也帶同學做過一些新的嘗試。比如說跟Bowen Pan同學一起做的從第一視角輸入分割頂部語義圖的Cross-view Scene Parsing以及跟Tete Xiao@Jason Hsiao一起做的從單張圖片分割出多層次語義概念的Unified Perceptual Parsing. 這些都是語義分割方向一些新的有趣嘗試。

*

作者:湃森 連結:https://www.zhihu.com/question/390783647/answer/1221984335

可在注意力機制、卷積結構、多尺度模塊、損失函數、池化結構、歸一化模塊、學習衰減策略、優化算法、數據增強、骨幹網絡的各種方法上搭積木,各子部分的具體方法見湃森大佬的回答~

*

作者:Jianping Shi 連結:https://www.zhihu.com/question/390783647/answer/1233078978

Segmentation難點:

1.Segmentation沒有結構化的輸出,沒辦法讓下遊應用更有效的接入。它可以表示一切,卻也需要碰到每個問題都需要design一套後處理來接入。2.怎麼更好的定義問題(怎麼教標註員標數據),怎麼更高效的標註數據(怎麼標便宜)變得很重要,但學界paper重視度不夠,算法不大work且算力換取的性能提升不夠。

Segmentation好處:

1.可將分割問題看做其他問題的backbone的優化,所以分割所做的各種module可直接加到其他方案中;2.同語義分割類似的像素級應用,把最後一層softmax換成回歸,你將收穫一批其他同類型問題。

作者在打比賽刷高10個點奪冠後從以下角度研究語義分割:

語義分割問題的各類Extension:怎麼訓分割小模型、視頻分割……語義分割問題的兄弟問題們:Instance Segmentation、Object Detection、車道線檢測(其實應該叫車道線分割問題)、Stereo Matching……怎麼更高效的利用數據Domain Adaptation、利用GAN生成數據來擴充訓練集Lidar感知方向(L4的自動駕駛使用點雲比攝像頭現階段更可靠)Lidar檢測、Lidar MOT

*

作者:Fisher Yu 連結:https://www.zhihu.com/question/390783647/answer/1245032140

語義分割是一種最fundamental的計算機視覺的問題,這個問題上的每一個突破都會對其他的問題有新的啟發,而且和representation learning有緊密的連接。現在無論是語義分割還是representation learning,都還有很多有待解決的問題。比如語義分割如何能做到appearance,shape和scene layout的disentangled representation,使得同一個物體在不同的場景中都可以被有效地分割出來,這樣我們也許只要少量數據就可以訓練出非常穩定的模型。對這個問題的理解也會幫助我們解決很多domain adaptation的問題。在這些方面,我們還需要更多的奠基性工作。

*

作者:匿名用戶 連結:https://www.zhihu.com/question/390783647/answer/1223320083

不要入坑。原因:沒錢沒卡(基本八卡起步) + 提升空間有限(邊緣和小物體) + 內卷(做的人多,看另一個回答(點點點):審稿人說投的都一樣)+  可能被各種鄙視(比如高贊的回答,入坑2個月就說整個領域水,https://www.zhihu.com/question/294617103/answer/1222992648 ,比如前年面試MSRA就被diss了) 所以文章不好中(大概率為分母)。建議:實在想做可以考慮做一些特定cases下的, 問題驅動的,我們業界超愛的有木有!!比如domain adaption 或者 特定數據集的(關注一些新的分割數據集),分割車道線,夜間語義分割。

*

作者:立夏之光

連結:https://www.zhihu.com/question/390783647/answer/1223902660語義分割的的瓶頸

1.研究方式的受限。目前的研究方案,大都構建在Dilated FCN之上。在這一設定下,研究者在做的都是戴著鐐銬跳舞。既往的研究,能做的無非如下兩種選擇:

設計一個更有效的語義分割head;修改feature flow,現在多用NAS形式。

2.數據集受限。語義分割所用數據集需要大量標註數據,這造成了如下兩個現象:

少有的幾個數據集刷到接近天花板,這直接導致近些年工作顯得「沒有突破」數據量少,支撐不起 training from scratch。

3.領域內卷。

如何破局

強者應該針對現有某一瓶頸深入思考,解決某一問題;representation learning有深入思考的同行,語義分割是你們很好的試金石;不要失去了對經典的深入理解;儘管瓶頸讓人頭禿但引人思考的文章仍不斷湧現:a.遠有ASPP和Dilated FCN,它們定義了dilated conv這一操作,而今已是深度學習的入門基礎。能成為人人皆知的基礎知識,可見之影響力。b.近有 @Yanwei Li 的Dynamic routing,打破了上述「研究方式的受限」,讓人意識到還有比NAS更靈活的存在。c.而一系列對注意力機制的不斷思考與探索,也讓人見識到:注意力不止是注意力。https://zhuanlan.zhihu.com/p/77834369

*

作者:ICOZ連結:https://www.zhihu.com/question/390783647/answer/1223513344如果對業界科研界有很大的雄心,可以硬啃fully supervised segmentation的setting。

也可考慮些比較實用性的方向,更多的setting,或考慮其他分割相關task~

實用方向輕量級語義分割。把參數量,計算時間等因素考慮進來,或者做一些low bit,二值化的網絡,便於落地到行動裝置裡。NAS for segmentation。Deeplab的作者最近搞了挺多,坑也不多了。interactive segmentation。在deeplearning之前,這個做的很多。現在結合DL之後,也慢慢多起來了。用來摳圖實用性還是很大的。更多settingweakly supervised segmentation。這個也趨近於飽和了,做的最多的就是 image label supervision。還有其他的extreme point, bounding box,scribble等等等。few shot segmentation。小樣本學習和分割結合,目前還在起步階段,paper日漸增多。co segmentation/group segmentation。 傳統的segmentation task, 結合新的數據集和DL,又有了新的benchmark。其他分割相關task href="http://1.video/">1.video segmentation。非常硬核,卡少最好別做。2.點雲分割。3. panoptic segmentation。語義分割和實例分割一起做,更加的有挑戰性。但是越是複雜的task,可發揮的地方就越多。也是卡少勸退。

相關焦點

  • AI|圖像分割研究者的煩惱與未來
    圖像分割是CV領域的經典難題與熱點所在,了解圖像分割的發展、瓶頸與未來方向對CV研究有著重大意義。知乎搜「圖像分割 組合優化」,只搜到叫獸一個比較系統的回答,其他都基本純DL,為致敬傳統算法,在講述圖像分割難點和未來前先貼下叫獸的回答~當前主流的圖像分割研究方向都有哪些?
  • 渲染思路做圖像分割:何愷明等人提出PointRend
    研究者表示,這一方法可作為已有的圖像分割架構的一個模塊來使用。他們在 Mask R- CNN 和 DeepLabV3 等模型上進行了測試,性能提升明顯,而且算力佔用很小。這篇論文的作者包括我們熟悉的何愷明和吳育昕,他們多次在一些研究中合作。此外還有與何愷明在 TensorMask 等論文中合作的 Ross Girshick。
  • 滑動窗口也能用於實例分割,陳鑫磊、何愷明等人提出圖像分割新範式
    選自arXiv作者:Xinlei Chen、Ross Girshick、Kaiming He、Piotr Dollar機器之心編譯滑動窗口在目標檢測中非常重要,然而最近何愷明等研究者表明,這個範式同樣可以用於實例分割。
  • 圖像語義分割
    圖像語義分割是計算機視覺中十分重要的領域。上圖為語義分割的一個實例,其目標是預測出圖像中每一個像素的類標籤。圖像語義分割是圖像處理和計算機視覺技術中關於圖像理解的重要的一環。語義分割對圖像中的每一個像素點進行分類,確定每個點的類別(如屬於背景、邊緣或身體等)需要和實例分割區分開來。語義分割沒有分離同一類的實例;它關心的只是每個像素的類別,如果輸入對象中有兩個相同類別的對象,則分割本身不會將它們區分為單獨的對象。
  • Ross、何愷明等人提出:渲染思路做圖像分割,提升Mask R-CNN性能
    研究者表示,這一方法可作為已有的圖像分割架構的一個模塊來使用。他們在 Mask R- CNN 和 DeepLabV3 等模型上進行了測試,性能提升明顯,而且算力佔用很小。這篇論文的作者包括我們熟悉的何愷明和吳育昕,他們多次在一些研究中合作。此外還有與何愷明在 TensorMask 等論文中合作的 Ross Girshick。
  • 2020入坑圖像分割,我該從哪兒入手?
    初識圖像分割 顧名思義,圖像分割就是指將圖像分割成多個部分。在這個過程中,圖像的每個像素點都和目標的種類相關聯。圖像分割方法主要可分為兩種類型:語義分割和實例分割。語義分割會使用相同的類標籤標註同一類目標(下圖左),而在實例分割中,相似的目標也會使用不同標籤進行標註(下圖右)。
  • 圖像分割方法介紹及應用
    從數學角度來看,圖像分割是將數字圖像劃分成互不相交的區域的過程。圖像分割的過程也是一個標記過程,即把屬於同一區域的像素賦予相同的編號。現有的圖像分割方法主要分以下幾類:基於閾值的分割方法、基於區域的分割方法、基於邊緣的分割方法、基於特定理論的分割方法、基於小波變換的分割方法以及基於神經網絡的分割方法。
  • 經驗 | 圖像分割的實用技巧
    ,涵蓋數據增強、建模、損失函數、訓練技巧等多個方面,不失為一份可以參考的圖像分割技巧資料。圖像分割是圖像處理和計算機視覺的熱點之一,是根據圖像內容對指定區域進行標記的計算機視覺任務。它基於某些標準將輸入圖像劃分為多個相同的類別,簡言之就是「這張圖片裡有什麼,其在圖片中的位置是什麼?」以便提取人們感興趣的區域。圖像分割是圖像分析和圖像特徵提取及識別的基礎。
  • 腦部MR圖像的Sigma-IFCM分割算法分析
    圖像分割是把圖像分割成互不相交的區域,使每個區域內的像素具有某種相似的特徵,以便對圖像進行後續處理。圖像分割是圖像分析的難點之一,至今沒有一個通用且有效的圖像分割方法能夠滿足不同的需求。在腦部MR圖像分析中該問題尤為突出。
  • 基於Sigma-IFCM分割算法的腦部MR圖像
    圖像分割是把圖像分割成互不相交的區域,使每個區域內的像素具有某種相似的特徵,以便對圖像進行後續處理。圖像分割是圖像分析的難點之一,至今沒有一個通用且有效的圖像分割方法能夠滿足不同的需求。在腦部MR圖像分析中該問題尤為突出。
  • 數字圖像處理中常用圖像分割算法有哪些?
    1.多數的圖像分割算法2.圖像邊緣分割3.圖像閾值分割4.基於區域的分割5.形態學分水嶺算法多數的圖像分割算法 均是基於灰度值的不連續和相似的性質。在前者中,算法以灰度突變為基礎分割一幅圖像,如圖像邊緣分割。假設圖像不同區域的邊界彼此完全不同,且與背景不同,從而允許基於灰度的局部不連續性來進行邊界檢測。
  • 使用PixelLib來實現圖像分割
    目前流行的計算機視覺技術如圖像分類、目標檢測等已被廣泛應用於解決許多計算機視覺問題。在圖像分類中,對整個圖像進行分類。在目標檢測中,則是通過檢測圖像中單個目標的位置來擴展圖像分類。圖像分割一些計算機視覺問題需要讓計算機對圖像內容有更深入的理解。分類和目標檢測可能不適合解決這些問題,我們非常需要一種有效的技術來解這類的計算機視覺問題,圖像分割技術應運而生。每個圖像都由一組像素值組成。
  • 基於OpenCV的圖像分割處理!
    圖像閾值化分割是一種傳統的最常用的圖像分割方法,因其實現簡單、計算量小、性能較穩定而成為圖像分割中最基本和應用最廣泛的分割技術。通常情況下對於色彩均衡的圖像,直接將閾值設為127即可,但有時圖像灰度級的分布是不均衡的,如果此時還將閾值設為127,那麼閾值處理的結果就是失敗的。所以需要找出圖像的最佳的分割閾值。OTSU就是獲得最佳閾值的方法。OTSU(大津法)是一種確定圖像二值化分割閾值的算法,由日本學者大津於1979年提出。
  • 100個深度圖像分割算法,紐約大學UCLA等最新綜述論文
    圖像分割是圖像處理和計算機視覺領域的一個重要課題,其應用領域包括場景理解、醫學圖像分析、機器人感知、視頻監控、增強現實和圖像壓縮等。研究我們的調研涵蓋了圖像分割的最新文獻,並討論了到2019年提出的一百多種基於深度學習的分割方法。我們對這些方法的不同方面提供了全面的回顧和見解,包括培訓數據、網絡架構的選擇、損失功能、培訓策略以及它們的關鍵貢獻。我們對所述方法的性能進行了比較總結,並討論了基於深度學習的圖像分割模型的幾個挑戰和未來可能的方向。
  • 常用圖像閾值分割算法
    下面對各種方法進行混合展示:第一類:全局閾值處理圖像閾值化分割是一種傳統的最常用的圖像分割方法,因其實現簡單、計算量小、性能較穩定而成為圖像分割中最基本和應用最廣泛的分割技術。它特別適用於目標和背景佔據不同灰度級範圍的圖像。難點在於如何選擇一個合適的閾值實現較好的分割。
  • 快速圖像分割的SuperBPD方法
    利用這一特性將圖像分割成超像素點,這些超像素點是一種新的具有魯棒方向一致性的信息性超像素點,可以快速分組分割區域。在BSDS500和Pascal背景下的實驗結果證明了該算法在分割圖像時的準確性和效率。超級bpd在相鄰的超級bpd之間提供了魯棒的方向相似度,可以實現高效的圖像分割。本文提出了一種基於方向相似度的由粗分到精細的Super-BPD分割算法,在分割精度和分割效率之間取得了很好的平衡。
  • 3D CNN--三維醫學圖像分割新思路
    將本文所提出的方法應用於23位受試者的3D MR脊柱圖像,從中分割161個VB,並將結果與參考分割進行比較。該方法的Dice相似度係數為93.4±1.7%,平均對稱面距離為0.54±0.14mm,Hausdorff距離為3.83±1.04mm,優於現有的VB分割方法。從磁共振(MR)圖像中準確地分割解剖結構在許多計算機輔助臨床任務中具有重要價值。
  • 人工智慧・圖像分割(2)
    所以,以二維連續數據作為輸入的圖像分割問題絕不可能只用全連接層就取得比較高的平均準確度。所謂「全卷積神經網絡」,顧名思義,就是只含卷積層、不含全連接層的神經網絡。寶寶們應該對這種網絡並不陌生,因為在《人工智慧・Multi-task CNN》一文中出現過的Proposal Net(P-Net)就是一種只含有卷積層(和池化層)的神經網絡,它能從圖像中有效地提取特徵,推斷出多個人臉檢測的候選框。然而,P-Net與圖像分割問題的輸出肯定是不同的。
  • 【動手學計算機視覺】第三講:圖像預處理之圖像分割
    提到圖像分割,主要包含兩個方面:首先,介紹一下非語義分割。非語義分割在圖像分割中所佔比重更高,目前算法也非常多,研究時間較長,而且算法也比較成熟,此類圖像分割目前的算法主要有以下幾種:閾值分割是圖像分割中應用最多的一類,該算法思想比較簡單,給定輸入圖像一個特定閾值,如果這個閾值可以是灰度值,也可以是梯度值,如果大於這個閾值,則設定為前景像素值,如果小於這個閾值則設定為背景像素值。
  • 大盤點 | 2020年5篇圖像分割算法最佳綜述
    本文研究了這些深度學習模型的相似性,優勢和挑戰,研究了使用最廣泛的數據集,報告了性能,並討論了該領域有希望的未來研究方向。2014年至2020年基於DL的2D圖像分割算法的時間軸。橙色,綠色和黃色塊分別表示語義,實例和全景分割算法。