本渣:
1.試試數據驅動結合模型驅動,想想咋巧用先驗?不要純DL,近年來組合數學中關於圖割的研究咋嵌入其中?傳統精華思想也多復用?這塊做的工作是不是很少,可能思考周期長且偏理論和偏應用的研究者交流不充分吧~2.知乎搜「圖像分割 組合優化」,只搜到叫獸一個比較系統的回答,其他都基本純DL,為致敬傳統算法,在講述圖像分割難點和未來前先貼下叫獸的回答~3.本渣心中較新較棒的融合傳統算法的seminar是Combinatorial Optimization in Machine Learning and Computer Vision https://hci.iwr.uni-heidelberg.de/teaching/optml-seminar-WiSe18,感興趣的小夥伴還可點擊https://www.google.com/search?q=Combinatorial+Optimization+in+graph+segmentation&newwindow=1&safe=active&rlz=1C1CHBD_zh-CNHK912HK912&sxsrf=ALeKk03VXZfeNQsClTaiwsjUEp6H5yT5uA:1599127636710&source=lnt&tbs=qdr:y&sa=X&ved=2ahUKEwj97PHV3szrAhXbMd4KHTfzCjMQpwV6BAgNECA&biw=1920&bih=867,自動顯示進1年的CO in graph segmentation的成果~
其他資料安利:研討會:Deep Geometric Learning https://www.ipam.ucla.edu/programs/workshops/workshop-iv-deep-geometric-learning-of-big-data-and-applications/?tab=schedule video:幾何感知深度學習:等變表示的簡要歷史和最新結果 http://www.ipam.ucla.edu/abstract/?tid=15584&pcode=GLWS4 http://www.ipam.ucla.edu/abstract/?tid=16117&pcode=GLWS4在深度學習中利用3D幾何和世界結構 http://www.ipam.ucla.edu/abstract/?tid=16117&pcode=GLWS4 PPT: GMNN: Graph Markov Neural Networks http://helper.ipam.ucla.edu/publications/glws4/glws4_16001.pdf 如何學習結合傳統算法和神經網絡,見下圖第三趴~
https://hci.iwr.uni-heidelberg.de/teaching/optml正文
*
當前主流的圖像分割研究方向都有哪些?- 留德華叫獸的回答 - 知乎 https://www.zhihu.com/question/33599013/answer/107350053
2017年summer semester,叫獸於海德堡大學數學與計算機系開一個組合優化的seminar,主題希望cover圖像分割graph based model20年來的發展,到時talk的slide和report都會掛在他的個人主頁。最後歡迎學術訪問海德堡大學組合優化實驗室,以及圖像處理中心。
(本渣補充:滑鐵盧大學組合數學相關組也和他們CS部門合作緊密, 滑鐵盧組合數學&CS的系列研討會很棒:https://www.math.uwaterloo.ca/~wnotice/notice_prgms/wreg/list_notices_p.pl?dept=all_depts&time_frame=month比如2020年9月4日,星期五,下午3: 30 "Recent proximity results in integer linear programming")
*
https://zhuanlan.zhihu.com/p/145009250
圖像分割難點:
研究進展趨緩,甚至已進入瓶頸期,提升 0.5 mIoU 都非常困難;
數據集受限,少有的幾個數據集已經刷到接近天花板;
算力消耗大,學界和一些小型業界團隊往往被算力掣肘;
領域內卷,研究同質化嚴重,很容易被審稿人 diss,不容易中頂會
*
https://zhuanlan.zhihu.com/p/72743589
圖像分割的難點
雖然定義分割的種類不一樣,但是分割領域裡面存在一些共同的問題,常見的問題比如,因為相機和拍攝物體的距離遠近引起的同一個物體在圖像中可能佔不同大小的畫幅->多尺度問題;拍攝角度物體的不同->物體多姿態(多視角)問題;外界的光照不同->光照問題等。另外再提些關注的人還不太多的難點:
1.分割邊緣不準2.在同一副圖像中不同類別或實例的像素不均衡的問題。不同物體分割的難度也並不一樣。
3.標註費事費力,且標註中是可能存在噪聲的。
4.如何對遮擋區域進行建模?
5.CNN的分割網絡耗顯存的問題。
6.如何定義圖像的上下文問題。
7.模型的設計上缺少顯示的不同圖像中語義相同區域特徵的交互。
8.如何簡單有效區分同一類物體的不同實例?
如何破局?
1對網絡輸出的分割的邊界增加額外損失,或讓網絡對邊界的特徵和區域內部的特徵分開建模學習。其本質上的思想還是讓網絡同時做兩個任務:分割和邊緣檢測。另外,提高輸入圖像的輸入解析度和中間層特徵圖的解析度同樣也是簡單有效的。
2.利用loss動態加權或者在圖像二維空間上採樣來解決同一張圖像中不同語義的像素個數不均衡以及學習的難易程度不同的問題。
3.利用半監督或者弱監督學習的方法減少標註昂貴的問題。利用多個標籤有噪聲的樣本或其特徵構建虛擬的標籤乾淨的虛擬樣本或特徵來減少標籤的噪聲。
4.利用合理的上下文的建模機制,幫助網絡猜測遮擋部分的語義信息。
5.在網絡中構建不同圖像之間損失或者特徵交互模塊。
分詞條詳述見原文~
*
作者:周博磊 連結:https://www.zhihu.com/question/390783647/answer/1226097849
很多回答在抱怨語義分割到達了研究瓶頸,分刷不上去了,我倒是覺得很大程度上是沒找對問題。我上面說的這些問題,比如說如何去進行小樣本物體檢測與分割,如何檢測和分割小件物體等,都是目前語義分割和物體檢測需要去克服的難題。之所以大家沒有注意到這些本質問題,是因為現有的資料庫把這些問題都規避掉了。比如說COCO資料庫,人為定出80類物體,手工平衡標定樣本的數量,裡面還有很多諸如baseball pat這種我們一輩子見不到幾次的物體。自然場景中物體的分布本來就是power law的,我們需要去直面這些few-shot learning的問題。
……
物體檢測算法在COCO資料庫上的upper bound顯然不是100%,應該是多少呢,哪位同學來分析下也許會做成一篇比刷分。
……
語義分割問題本身我也帶同學做過一些新的嘗試。比如說跟Bowen Pan同學一起做的從第一視角輸入分割頂部語義圖的Cross-view Scene Parsing以及跟Tete Xiao@Jason Hsiao一起做的從單張圖片分割出多層次語義概念的Unified Perceptual Parsing. 這些都是語義分割方向一些新的有趣嘗試。
*
作者:湃森 連結:https://www.zhihu.com/question/390783647/answer/1221984335
可在注意力機制、卷積結構、多尺度模塊、損失函數、池化結構、歸一化模塊、學習衰減策略、優化算法、數據增強、骨幹網絡的各種方法上搭積木,各子部分的具體方法見湃森大佬的回答~
*
作者:Jianping Shi 連結:https://www.zhihu.com/question/390783647/answer/1233078978
Segmentation難點:
1.Segmentation沒有結構化的輸出,沒辦法讓下遊應用更有效的接入。它可以表示一切,卻也需要碰到每個問題都需要design一套後處理來接入。2.怎麼更好的定義問題(怎麼教標註員標數據),怎麼更高效的標註數據(怎麼標便宜)變得很重要,但學界paper重視度不夠,算法不大work且算力換取的性能提升不夠。
Segmentation好處:
1.可將分割問題看做其他問題的backbone的優化,所以分割所做的各種module可直接加到其他方案中;2.同語義分割類似的像素級應用,把最後一層softmax換成回歸,你將收穫一批其他同類型問題。
作者在打比賽刷高10個點奪冠後從以下角度研究語義分割:
語義分割問題的各類Extension:怎麼訓分割小模型、視頻分割……語義分割問題的兄弟問題們:Instance Segmentation、Object Detection、車道線檢測(其實應該叫車道線分割問題)、Stereo Matching……怎麼更高效的利用數據Domain Adaptation、利用GAN生成數據來擴充訓練集Lidar感知方向(L4的自動駕駛使用點雲比攝像頭現階段更可靠)Lidar檢測、Lidar MOT
*
作者:Fisher Yu 連結:https://www.zhihu.com/question/390783647/answer/1245032140
語義分割是一種最fundamental的計算機視覺的問題,這個問題上的每一個突破都會對其他的問題有新的啟發,而且和representation learning有緊密的連接。現在無論是語義分割還是representation learning,都還有很多有待解決的問題。比如語義分割如何能做到appearance,shape和scene layout的disentangled representation,使得同一個物體在不同的場景中都可以被有效地分割出來,這樣我們也許只要少量數據就可以訓練出非常穩定的模型。對這個問題的理解也會幫助我們解決很多domain adaptation的問題。在這些方面,我們還需要更多的奠基性工作。
*
作者:匿名用戶 連結:https://www.zhihu.com/question/390783647/answer/1223320083
不要入坑。原因:沒錢沒卡(基本八卡起步) + 提升空間有限(邊緣和小物體) + 內卷(做的人多,看另一個回答(點點點):審稿人說投的都一樣)+ 可能被各種鄙視(比如高贊的回答,入坑2個月就說整個領域水,https://www.zhihu.com/question/294617103/answer/1222992648 ,比如前年面試MSRA就被diss了) 所以文章不好中(大概率為分母)。建議:實在想做可以考慮做一些特定cases下的, 問題驅動的,我們業界超愛的有木有!!比如domain adaption 或者 特定數據集的(關注一些新的分割數據集),分割車道線,夜間語義分割。
*
作者:立夏之光
連結:https://www.zhihu.com/question/390783647/answer/1223902660語義分割的的瓶頸
1.研究方式的受限。目前的研究方案,大都構建在Dilated FCN之上。在這一設定下,研究者在做的都是戴著鐐銬跳舞。既往的研究,能做的無非如下兩種選擇:
設計一個更有效的語義分割head;修改feature flow,現在多用NAS形式。
2.數據集受限。語義分割所用數據集需要大量標註數據,這造成了如下兩個現象:
少有的幾個數據集刷到接近天花板,這直接導致近些年工作顯得「沒有突破」數據量少,支撐不起 training from scratch。
3.領域內卷。
如何破局
強者應該針對現有某一瓶頸深入思考,解決某一問題;representation learning有深入思考的同行,語義分割是你們很好的試金石;不要失去了對經典的深入理解;儘管瓶頸讓人頭禿但引人思考的文章仍不斷湧現:a.遠有ASPP和Dilated FCN,它們定義了dilated conv這一操作,而今已是深度學習的入門基礎。能成為人人皆知的基礎知識,可見之影響力。b.近有 @Yanwei Li 的Dynamic routing,打破了上述「研究方式的受限」,讓人意識到還有比NAS更靈活的存在。c.而一系列對注意力機制的不斷思考與探索,也讓人見識到:注意力不止是注意力。https://zhuanlan.zhihu.com/p/77834369
*
作者:ICOZ連結:https://www.zhihu.com/question/390783647/answer/1223513344如果對業界科研界有很大的雄心,可以硬啃fully supervised segmentation的setting。
也可考慮些比較實用性的方向,更多的setting,或考慮其他分割相關task~
實用方向輕量級語義分割。把參數量,計算時間等因素考慮進來,或者做一些low bit,二值化的網絡,便於落地到行動裝置裡。NAS for segmentation。Deeplab的作者最近搞了挺多,坑也不多了。interactive segmentation。在deeplearning之前,這個做的很多。現在結合DL之後,也慢慢多起來了。用來摳圖實用性還是很大的。更多settingweakly supervised segmentation。這個也趨近於飽和了,做的最多的就是 image label supervision。還有其他的extreme point, bounding box,scribble等等等。few shot segmentation。小樣本學習和分割結合,目前還在起步階段,paper日漸增多。co segmentation/group segmentation。 傳統的segmentation task, 結合新的數據集和DL,又有了新的benchmark。其他分割相關task href="http://1.video/">1.video segmentation。非常硬核,卡少最好別做。2.點雲分割。3. panoptic segmentation。語義分割和實例分割一起做,更加的有挑戰性。但是越是複雜的task,可發揮的地方就越多。也是卡少勸退。