基於深度學習方法的圖像分割

2021-02-20 小白學視覺

點擊上方「小白學視覺」,選擇加"星標"或「置頂

重磅乾貨,第一時間送達


轉自|深藍學院CNN圖像語義分割基本上是這個套路:
1. 下採樣+上採樣:Convlution + Deconvlution/Resize2. 多尺度特徵融合:特徵逐點相加/特徵channel維度拼接3. 獲得像素級別的segement map:對每一個像素點進行判斷類別即使是更複雜的DeepLab v3+依然也是這個基本套路。Image Segmentation(圖像分割)網絡結構比較FCNImage Segmentation(圖像分割)族譜按分割目的劃分普通分割將不同分屬不同物體的像素區域分開。 
如前景與後景分割開,狗的區域與貓的區域與背景分割開。語義分割在普通分割的基礎上,分類出每一塊區域的語義(即這塊區域是什麼物體)。 
如把畫面中的所有物體都指出它們各自的類別。實例分割在語義分割的基礎上,給每個物體編號。 
如這個是該畫面中的狗A,那個是畫面中的狗B。

論文推薦

圖像的語義分割(Semantic Segmentation)是計算機視覺中非常重要的任務。它的目標是為圖像中的每個像素分類。如果能夠快速準去地做圖像分割,很多問題將會迎刃而解。因此,它的應用領域就包括但不限於:自動駕駛、圖像美化、三維重建等等。
語義分割是一個非常困難的問題,尤其是在深度學習之前。深度學習使得圖像分割的準確率提高了很多,下面我們就總結一下近年來最具有代表性的方法和論文。Fully Convolutional Networks (FCN)我們介紹的第一篇論文是Fully Convolutional Networks for Semantic Segmentation,簡稱FCN。這篇論文是第一篇成功使用深度學習做圖像語義分割的論文。論文的主要貢獻有兩點:提出了全卷積網絡。將全連接網絡替換成了卷積網絡,使得網絡可以接受任意大小的圖片,並輸出和原圖一樣大小的分割圖。只有這樣,才能為每個像素做分類。使用了反卷積層(Deconvolution)。分類神經網絡的特徵圖一般只有原圖的幾分之一大小。想要映射回原圖大小必須對特徵圖進行上採樣,這就是反卷積層的作用。雖然名字叫反卷積層,但其實它並不是卷積的逆操作,更合適的名字叫做轉置卷積(Transposed Convolution),作用是從小的特徵圖卷出大的特徵圖。DeepLabDeepLab有v1 v2 v3,第一篇名字叫做DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs。第一個是帶洞卷積,英文名叫做Dilated Convolution,或者Atrous Convolution。帶洞卷積實際上就是普通的卷積核中間插入了幾個洞,如下圖。

它的運算量跟普通卷積保持一樣,好處是它的「視野更大了」,比如普通3x3卷積的結果的視野是3x3,插入一個洞之後的視野是5x5。視野變大的作用是,在特徵圖縮小到同樣倍數的情況下可以掌握更多圖像的全局信息,這在語義分割中很重要。

Pyramid Scene Parsing NetworkPyramid Scene Parsing Network的核心貢獻是Global Pyramid Pooling,翻譯成中文叫做全局金字塔池化。它將特徵圖縮放到幾個不同的尺寸,使得特徵具有更好地全局和多尺度信息,這一點在準確率提升上上非常有用。其實不光是語義分割,金字塔多尺度特徵對於各類視覺問題都是挺有用的。Mask R-CNNMask R-CNN是大神何凱明的力作,將Object Detection與Semantic Segmentation合在了一起做。它的貢獻主要是以下幾點。第一,神經網絡有了多個分支輸出。Mask R-CNN使用類似Faster R-CNN的框架,Faster R-CNN的輸出是物體的bounding box和類別,而Mask R-CNN則多了一個分支,用來預測物體的語義分割圖。第二,在語義分割中使用Binary Mask。原來的語義分割預測類別需要使用0 1 2 3 4等數字代表各個類別。在Mask R-CNN中,檢測分支會預測類別。這時候分割只需要用0 1預測這個物體的形狀面具就行了。第三,Mask R-CNN提出了RoiAlign用來替換Faster R-CNN中的RoiPooling。RoiPooling的思想是將輸入圖像中任意一塊區域對應到神經網絡特徵圖中的對應區域。RoiPooling使用了化整的近似來尋找對應區域,導致對應關係與實際情況有偏移。這個偏移在分類任務中可以容忍,但對於精細度更高的分割則影響較大。為了解決這個問題,RoiAlign不再使用化整操作,而是使用線性插值來尋找更精準的對應區域。效果就是可以得到更好地對應。實驗也證明了效果不錯。下面展示了與之前方法的對比,下面的圖是Mask R-CNN,可以看出精細了很多。U-Net是原作者參加ISBI Challenge提出的一種分割網絡,能夠適應很小的訓練集(大約30張圖)。U-Net與FCN都是很小的分割網絡,既沒有使用空洞卷積,也沒有後接CRF,結構簡單。整個U-Net網絡結構如圖9,類似於一個大大的U字母:首先進行Conv+Pooling下採樣;然後Deconv反卷積進行上採樣,crop之前的低層feature map,進行融合;然後再次上採樣。重複這個過程,直到獲得輸出388x388x2的feature map,最後經過softmax獲得output segment map。總體來說與FCN思路非常類似。

為何要提起U-Net?

是因為U-Net採用了與FCN完全不同的特徵融合方式:拼接!與FCN逐點相加不同,U-Net採用將特徵在channel維度拼接在一起,形成更「厚」的特徵。

1. FCN式的逐點相加,對應caffe的EltwiseLayer層,對應tensorflow的tf.add()

2. U-Net式的channel維度拼接融合,對應caffe的ConcatLayer層,對應tensorflow的tf.concat()

 圖像語義分割,簡單而言就是給定一張圖片,對圖片上的每一個像素點分類

從圖像上來看,就是我們需要將實際的場景圖分割成下面的分割圖:不同顏色代表不同類別。經過閱讀「大量」論文和查看 PASCAL VOC Challenge performance evaluation server,發現圖像語義分割從深度學習引入這個任務(FCN)到現在而言,一個通用的框架已經大概確定了。即:

FCN-全卷積網絡

CRF-條件隨機場

MRF-馬爾科夫隨機場

前端使用FCN進行特徵粗提取,後端使用CRF/MRF優化前端的輸出,最後得到分割圖。

前端

為什麼需要FCN?我們分類使用的網絡通常會在最後連接幾層全連接層,它會將原來二維的矩陣(圖片)壓扁成一維的,從而丟失了空間信息,最後訓練輸出一個標量,這就是我們的分類標籤。而圖像語義分割的輸出需要是個分割圖,且不論尺寸大小,但是至少是二維的。所以,我們需要丟棄全連接層,換上全卷積層,而這就是全卷積網絡了。

具體定義請參看論文:

Fully Convolutional Networks for Semantic Segmentation前端結構FCN此處的FCN特指Fully Convolutional Networks for Semantic Segmentation論文中提出的結構,而非廣義的全卷積網絡。

卷積化(Convolutional)

上採樣(Upsample)

跳躍結構(Skip Layer)

卷積化即是將普通的分類網絡,比如VGG16,ResNet50/101等網絡丟棄全連接層,換上對應的卷積層即可。此處的上採樣即是反卷積(Deconvolution)。當然關於這個名字不同框架不同,Caffe和Kera裡叫Deconvolution,而tensorflow裡叫conv_transpose。CS231n這門課中說,叫conv_transpose更為合適。眾所諸知,普通的池化(為什麼這兒是普通的池化請看後文)會縮小圖片的尺寸,比如VGG16 五次池化後圖片被縮小了32倍。為了得到和原圖等大的分割圖,我們需要上採樣/反卷積。反卷積和卷積類似,都是相乘相加的運算。只不過後者是多對一,前者是一對多。而反卷積的前向和後向傳播,只用顛倒卷積的前後向傳播即可。所以無論優化還是後向傳播算法都是沒有問題。圖解如下:但是,雖然文中說是可學習的反卷積,但是作者實際代碼並沒有讓它學習,可能正是因為這個一對多的邏輯關係。代碼如下:
layer {  name: "upscore"  type: "Deconvolution"  bottom: "score_fr"  top: "upscore"  param {    lr_mult: 0  }  convolution_param {    num_output: 21    bias_term: false    kernel_size: 64    stride: 32  }}

(這個奇怪的名字是我翻譯的,好像一般叫忽略連接結構)這個結構的作用就在於優化結果,因為如果將全卷積之後的結果直接上採樣得到的結果是很粗糙的,所以作者將不同池化層的結果進行上採樣之後來優化輸出。具體結構如下:

而不同上採樣結構得到的結果對比如下:

當然,你也可以將pool1, pool2的輸出再上採樣輸出。不過,作者說了這樣得到的結果提升並不大。這是第一種結構,也是深度學習應用於圖像語義分割的開山之作,所以得了CVPR2015的最佳論文。但是,還是有一些處理比較粗糙的地方,具體和後面對比就知道了。SegNet/DeconvNet這樣的結構總結在這兒,只是我覺得結構上比較優雅,它得到的結果不一定比上一種好。這樣的對稱結構有種自編碼器的感覺在裡面,先編碼再解碼。這樣的結構主要使用了反卷積和上池化。即:反卷積如上。而上池化的實現主要在於池化時記住輸出值的位置,在上池化時再將這個值填回原來的位置,其他位置填0即OK。接下來介紹一個很成熟優雅的結構,以至於現在的很多改進是基於這個網絡結構的進行的。首先這裡我們將指出一個第一個結構FCN的粗糙之處:為了保證之後輸出的尺寸不至於太小,FCN的作者在第一層直接對原圖加了100的padding,可想而知,這會引入噪聲。而怎樣才能保證輸出的尺寸不會太小而又不會產生加100 padding這樣的做法呢?可能有人會說減少池化層不就行了,這樣理論上是可以的,但是這樣直接就改變了原先可用的結構了,而且最重要的一點是就不能用以前的結構參數進行fine-tune了。所以,Deeplab這裡使用了一個非常優雅的做法:將pooling的stride改為1,再加上 1 padding。這樣池化後的圖片尺寸並未減小,並且依然保留了池化整合特徵的特性。但是,事情還沒完。因為池化層變了,後面的卷積的感受野也對應的改變了,這樣也不能進行fine-tune了。所以,Deeplab提出了一種新的卷積,帶孔的卷積:Atrous Convolution.即:

 而具體的感受野變化如下:

a為普通的池化的結果,b為「優雅」池化的結果。我們設想在a上進行卷積核尺寸為3的普通卷積,則對應的感受野大小為7.而在b上進行同樣的操作,對應的感受野變為了5.感受野減小了。

但是如果使用hole為1的Atrous Convolution則感受野依然為7.

所以,Atrous Convolution能夠保證這樣的池化後的感受野不變,從而可以fine tune,同時也能保證輸出的結果更加精細。即:
這裡介紹了三種結構:FCN, SegNet/DeconvNet,DeepLab。當然還有一些其他的結構方法,比如有用RNN來做的,還有更有實際意義的weakly-supervised方法等等。終於到後端了,後端這裡會講幾個場,涉及到一些數學的東西。我的理解也不是特別深刻,所以歡迎吐槽。對於每個像素具有類別標籤還有對應的觀測值,這樣每個像素點作為節點,像素與像素間的關係作為邊,即構成了一個條件隨機場。而且我們通過觀測變量來推測像素對應的類別標籤。條件隨機場如下:條件隨機場符合吉布斯分布:(此處的即上面說的觀測值)其中的是能量函數,為了簡便,以下省略全局觀測:其中的一元勢函數即來自於前端FCN的輸出。而二元勢函數如下:二元勢函數就是描述像素點與像素點之間的關係,鼓勵相似像素分配相同的標籤,而相差較大的像素分配不同標籤,而這個「距離」的定義與顏色值和實際相對距離有關。而全連接條件隨機場的不同就在於,二元勢函數描述的是每一個像素與其他所有像素的關係,所以叫「全連接」。關於這一堆公式大家隨意理解一下吧... ...而直接計算這些公式是比較麻煩的(我想也麻煩),所以一般會使用平均場近似方法進行計算。而平均場近似又是一堆公式,這裡我就不給出了(我想大家也不太願意看),願意了解的同學直接看論文吧。最開始使用DenseCRF是直接加在FCN的輸出後面,可想這樣是比較粗糙的。而且在深度學習中,我們都追求end-to-end的系統,所以CRFasRNN這篇文章將DenseCRF真正結合進了FCN中。這篇文章也使用了平均場近似的方法,因為分解的每一步都是一些相乘相加的計算,和普通的加減(具體公式還是看論文吧),所以可以方便的把每一步描述成一層類似卷積的計算。這樣即可結合進神經網絡中,並且前後向傳播也不存在問題。當然,這裡作者還將它進行了迭代,不同次數的迭代得到的結果優化程度也不同(一般取10以內的迭代次數),所以文章才說是as RNN。

在Deep Parsing Network中使用的是MRF,它的公式具體的定義和CRF類似,只不過作者對二元勢函數進行了修改:其中,作者加入的為label context,因為只是定義了兩個像素同時出現的頻率,而可以對一些情況進行懲罰,比如,人可能在桌子旁邊,但是在桌子下面的可能性就更小一些。所以這個量可以學習不同情況出現的概率。而原來的距離只定義了兩個像素間的關係,作者在這兒加入了個triple penalty,即還引入了附近的,這樣描述三方關係便於得到更充足的局部上下文。具體結構如下:

 這個結構的優點在於:

這個結構使用CNN分別來學習一元勢函數和二元勢函數。這樣的結構是我們更喜歡的:而當是對稱正定時,求的最小值等於求解:FCN更像一種技巧。隨著基本網絡(如VGG, ResNet)性能的提升而不斷進步。深度學習+概率圖模型(PGM)是一種趨勢。其實DL說白了就是進行特徵提取,而PGM能夠從數學理論很好的解釋事物本質間的聯繫。概率圖模型的網絡化。因為PGM通常不太方便加入DL的模型中,將PGM網絡化後能夠是PGM參數自學習,同時構成end-to-end的系統。
[1]Fully Convolutional Networks for Semantic Segmentation
[2]Learning Deconvolution Network for Semantic Segmentation
[3]Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials
[4]Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs
[5]Conditional Random Fields as Recurrent Neural Networks
[6]DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
[7]Semantic Image Segmentation via Deep Parsing Network
[8]Fast, Exact and Multi-Scale Inference for Semantic Image Segmentation with Deep Gaussian CRFs作者  | AiguoFu@CSDN https://blog.csdn.net/weixin_41923961/article/details/80946586下載1:OpenCV-Contrib擴展模塊中文版教程在「小白學視覺」公眾號後臺回覆:擴展模塊中文教程即可下載全網第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超解析度處理等二十多章內容。在「小白學視覺」公眾號後臺回覆:Python視覺實戰項目31講即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數、添加眼線、車牌識別、字符識別、情緒檢測、文本內容提取、面部識別等31個視覺實戰項目,助力快速學校計算機視覺。在「小白學視覺」公眾號後臺回覆:OpenCV實戰項目20講即可下載含有20個基於OpenCV實現20個實戰項目,實現OpenCV學習進階。在「小白學視覺」公眾號後臺回覆:leetcode即可下載。每題都 runtime beats 100% 的開源好書,你值得擁有!

交流群

歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫學影像、GAN、算法競賽等微信群(以後會逐漸細分),請掃描下面微信號加群,備註:」暱稱+學校/公司+研究方向「,例如:」張三 + 上海交大 + 視覺SLAM「。請按照格式備註,否則不予通過。添加成功後會根據研究方向邀請進入相關微信群。請勿在群內發送廣告,否則會請出群,謝謝理解~

相關焦點

  • 深度學習中的圖像分割:方法和應用
    ,包括傳統方法和深度學習方法,以及應用場景。基於人工智慧和深度學習方法的現代計算機視覺技術在過去10年裡取得了顯著進展。如今,它被用於圖像分類、人臉識別、圖像中物體的識別、視頻分析和分類以及機器人和自動駕駛車輛的圖像處理等應用上。許多計算機視覺任務需要對圖像進行智能分割,以理解圖像中的內容,並使每個部分的分析更加容易。
  • 科學家開發出一種基於深度學習的生物醫學圖像分割方法
    科學家開發出一種基於深度學習的生物醫學圖像分割方法 作者:小柯機器人 發布時間:2020/12/9 13:32:53 德國海德堡大學Klaus H.
  • 從0到1必看 | 基於深度學習方法的圖像分割
    語義分割是一個非常困難的問題,尤其是在深度學習之前。深度學習使得圖像分割的準確率提高了很多,下面我們就總結一下近年來最具有代表性的方法和論文。這篇論文是第一篇成功使用深度學習做圖像語義分割的論文。論文的主要貢獻有兩點:提出了全卷積網絡。將全連接網絡替換成了卷積網絡,使得網絡可以接受任意大小的圖片,並輸出和原圖一樣大小的分割圖。只有這樣,才能為每個像素做分類。使用了反卷積層(Deconvolution)。分類神經網絡的特徵圖一般只有原圖的幾分之一大小。
  • 基於深度學習的語義分割綜述
    近年來,由於深度學習模型在視覺應用中的成功,已有大量的工作致力於利用深度學習模型開發圖像分割方法。本文全面回顧了撰寫本文時的文獻,涵蓋了語義和實例級分割的大量開創性工作,包括完全卷積像素標記網絡、編碼器-解碼器架構、多尺度和基於金字塔的方法、遞歸網絡,視覺attention模型,以及生成對抗模型。
  • 基於深度學習的語義分割技術講解
    由於所有的像素都要考慮到,因此語義圖像分割任務也被視為是稠密預測的一種。在此,要區別一下實例分割(具體可參考著名的MaskRCNN模型),實例分割常常與目標檢測系統相互結合,用於檢測和分割場景中同一對象的多個實例。基於深度學習的語義分割方法:用卷積神經網絡分類(全卷積網絡),與普通網絡不同的是,分類層是卷積層,普通網絡為全連接層。
  • 基於深度學習的圖像識別進展
    【視覺機器人:在我看來深度學習本身就是一套系統一個架構,而不是一個單一的算法,有時候不能用深度學習和其他單一算法例如SVM算法比較,深度學習本身也是有抽取特徵的網絡部分】經驗1:豐富的圖像擾動是我們將關於圖像的先驗知識用於深度學習輸入端的有效手段經驗2:結構化損失函數是我們將模型化知識用於深度學習輸出端的有效方式經驗3:參數的稀疏化、圖像的多解析度通道
  • 圖像分割中的深度學習:U-Net 體系結構
    同時,目前也出現了很多利用卷積神經網絡進行分割的方法,這些方法已成為解決圖像分割中更高級任務中不可或缺的方法。在這篇文章中,我們將仔細看看一個這樣的架構:u-net。深度學習是需要數據集來訓練模型的。但是對於數據的獲取有一定難度。對於某一個對象而言,我們並沒有足夠的數據進行訓練。在這種情況下,往往需要花費時間、金錢,最重要的是硬體設備。
  • 深度學習第33講:CNN圖像語義分割和實例分割綜述
    從本節開始,筆者將繼續花費幾講的時間來研讀關於語義分割和實例分割相關的經典網絡和論文,以期對深度學習計算機視覺的第三大任務,也是最難的任務——圖像分割有一個宏觀的把握和細節的了解。      總的而言,目前的分割任務主要有兩種: 語義分割和實例分割。那語義分割和實例分割具體都是什麼含義呢?二者又有什麼區別和聯繫呢?
  • 基於多特徵地圖和深度學習的實時交通場景分割
    摘要:基於視覺的交通場景語義分割在智能車輛中起著重要作用。在這篇論文中,我們提出了一種新的實時深度完全卷積神經網絡( FCNN ),用於具有六個通道輸入的像素分割。語義分割,也稱為圖像分析或圖像理解[1],旨在將圖像劃分為預定義的非重疊區域並將其轉換為抽象語義信息。近年來,隨著計算機硬體特別是圖形處理單元(GPU)的快速發展,大規模標記數據的出現,深度卷積神經網絡(CNNs)在圖像分類和目標檢測中的應用迅速發展,並已成為當前主流的圖像分割方法。最近,大多數研究都致力於通過使網絡更深更廣來提高語義分割的準確性。
  • 語義分割的經典學習方法和深度學習方法綜述
    語義分割和實例分割之間的比較本文將探討一些使用經典和基於深度學習的方法來執行語義分割的方法。此外,還將討論常用的損失函數的選擇和應用。經典方法在深度學習時代到來之前,大量的圖像處理技術被用來將圖像分割成感興趣的區域。下面列出了一些常用的方法。灰度分割最簡單的語義分段形式涉及分配區域必須滿足的硬編碼規則或屬性,以便為其分配特定標籤。規則可以根據像素的屬性(例如灰度級強度)來構建。使用此技術的一種方法是拆分(Split)和合併(Merge)算法。
  • 一文詳解圖像分割的主流方法及新思路
    圖像分割是計算機視覺領域的重要任務之一,在醫學圖像分析、視頻監控、遙感圖像處理、工業質檢、場景理解等領域有著廣泛的應用。而隨著深度學習模型在視覺應用中的成功,已有大量的工作致力於利用深度學習模型進行圖像分割,為了幫助大家更好的了解圖像分割,智東西公開課精選了「圖像分割」系列文章。作為本系列的開篇,本文對圖像分割的主流方法及新思路展開介紹。
  • 基於注意力機制改進U-Net的醫學圖像分割算法
    近年來,由於深度學習方法的迅速發展,基於深度學習的圖像分割算法在醫學圖像分割領域取得了顯著的成就。其中依賴於編碼器-解碼器體系結構的U-Net被研究人員廣泛使用。但是U-Net網絡在下採樣的過程中卷積、池化都是局部算子,要獲取全局信息就需要深度編碼器,這樣會引入大量的訓練參數,並且丟失更多圖像的空間信息。而在上採樣過程中使用反卷積、反池化很難進行空間信息的恢復。
  • 基於深度學習的AFM圖像解析度增強方法
    圖像解析度的後處理方法。該該方法利用深度卷積神經網絡,實現對單張AFM低解析度形貌圖的細節增強。深度卷積神經網絡是一種基於大量樣本的機器學習方法,訓練後的神經網絡可以僅利用單張圖片實現解析度的提高。文中測試了該方法對單種/多種材料的AFM形貌圖的適用性,結果表明,該方法很有希望作為一種普適方法應用於AFM圖像後處理之中。
  • 深度重建:基於深度學習的圖像重建
    本文主要介紹了我們課題組的深度重建工作。從結果可以看出,基於深度學習的CT圖像重建方法在圖像質量上要優於傳統的重建算法。因此,在未來,深度學習和醫學圖像重建的聯繫將會越來越緊密。在今後的工作中,我們也會致力於推進深度學習和CT圖像領域的結合,引入深度學習發展的最新技術,將基於深度學習的方法引入臨床應用上,並且嘗試解決其他的醫學圖像問題,加快醫學圖像領域的發展進程。
  • 基於深度學習的圖像超解析度技術
    文中將現有的使用深度學習方法解決圖像超解析度問題的研究工作主要分成三個部分:1.supervised SR(有監督學習的圖像超解析度)2.unsupervised SR(無監督學習的圖像超解析度)3.domain-specific SR (特定應用領域的圖像超解析度)
  • 100個深度圖像分割算法,紐約大學UCLA等最新綜述論文
    對近幾年深度學習圖像分割進行了全面綜述,對現有的深度學習圖像分割研究進行梳理使其系統化,並提出6方面挑戰,幫助讀者更好地了解當前的研究現狀和思路。可作為相關領域從業者的必備參考文獻。    基於深度學習的二維圖像分割算法的時間軸。
  • 基於圖像的目標區域分割算法研究
    那麼對於生產一個智能化的產品而言,它首先應該考慮到問題就是要感知外部世界,目前感知外部世界主要有基於視覺、紅外、雷達、溫度等傳感器以及各傳感器混合使用的方法。當背景較為單一時,基於視覺的方法效果較好,而且價格也便宜。  然而,大多數情況下,我們並不需要整幅圖像的所有信息,我們感興趣的區域[1](ROI, Region of Interest)只是圖像中的一部分。
  • 總結 | 基於深度學習的低光照圖像增強方法
    點擊上方「計算機視覺life」,選擇「星標」快速獲得最新乾貨作者:KunHhttps://zhuanlan.zhihu.com/p/78297097本文已由作者授權,未經允許,不得二次轉載之前在做光照對於高層視覺任務的影響的相關工作,看了不少基於深度學習的低光照增強
  • 基於深度學習的超解析度圖像技術一覽
    先說監督SR如今已經有各種深度學習的超解析度模型。這些模型依賴於有監督的超解析度,即用LR圖像和相應的基礎事實(GT)HR圖像訓練。雖然這些模型之間的差異非常大,但它們本質上是一組組件的組合,例如模型框架,上採樣方法,網絡設計和學習策略等。從這個角度來看,研究人員將這些組件組合起來構建一個用於擬合特定任務的集成SR模型。
  • 基於閾值處理的圖像分割算法!
    圖像處理Author:louwillMachine Learning Lab     基於閾值的圖像分割因其處理直觀、實現簡單和計算速度快,是一種更為常用的傳統圖像分割算法。本文基於圖像灰度閾值處理的基本原理,對全局閾值處理方法和大津法進行介紹,並用一些圖像實例進行展示。