南加州大學 phd 王薇月:深度學習在點雲分割中的應用 | 分享總結

2020-12-08 雷鋒網

雷鋒網 AI 科技評論按:隨著雷射雷達,RGBD 相機等 3D 傳感器在機器人,無人駕駛領域的廣泛應用,深度學習在三維點雲數據的研究在近兩年取得了廣泛關注。點雲分割、識別、檢測成為學術界、工業界的熱門話題之一。

近期,在 GAIR 大講堂上,南加州大學計算機系在讀博士王薇月分享了其關於點雲分割的最新工作。

王薇月,南加州大學計算機系在讀博士,導師是 Ulrich Neumann 教授,主要研究方向為計算機視覺,三維視覺等。其研究工作曾在 CVPR、ICCV、ECCV 等發表。公開課回放連結:http://www.mooc.ai/open/course/501

分享題目:深度學習在點雲分割中的應用

分享提綱

  1. 深度學習在點雲上的應用。

  2. 2D 圖像的實例分割與物體檢測。

  3. SGPN [CVPR 2018]:點雲的實例分割與物體檢測。(SGPN: Similarity Group Proposal Network for 3D Point Cloud Instance Segmentation)

  4. RSNet [CVPR 2018]:點雲的語義分割。(Recurrent Slice Networks for 3D Segmentation on Point Clouds)

以下為雷鋒網(公眾號:雷鋒網) AI 科技評論整理的分享內容:

大家好,我是來自南加州大學的在讀 phd 王薇月,我的主要研究方向是 computer vision(主要側重於 3D 的 vision),今天我們介紹的是深度學習在點雲分割中的應用。我們知道三維物體和場景有很多種的表達方式,比如 3D 的 mesh,還有 Volumetric data,distance field 等等。點雲是比較直接,而且很簡單的一種表示方式。首先介紹一下什麼是點雲(Pinot Cloud),點雲是很多三維的點的坐標的集合,這整個集合可以反映場景或者物體的幾何信息,在計算機裡面,它就是一個 N*3 維的一個矩陣,N 代表的是點的個數,三維就是 x、y、z 的坐標(當然也可以是 N*6,即 x、y、z、r、g、b),隨著雷射、雷達和深度攝像頭等硬體設備的發展,我們就能更好地捕捉 3D 的場景,處理 3D 信息也是現在的一個非常關注、非常火的話題。採集點雲的主要方式就是雷射雷達、深度攝像頭(深度攝像頭採集來的 depth map 可以通過照相機的參數計算出 3D 的點雲)。我們今天的講課專注點雲的分割。

所謂點雲的分割,今天我想介紹的有兩層,一層是語義分割和實例分割,所謂語義分割就是給每個點 assign 一個 label,比如說這個點是桌子還是椅子。實例分割就是在 assign 語義分割的同時,把每個不同的物體給分割出來,比如一個房間裡有很多椅子,每個點標 label 成椅子 1、椅子 2。實例分割與物體檢測,即 object detection 是緊密相連的,object detection:給一個場景,把你想要的物體檢測出來並給一個 bounding box。實例分割是比物體檢測要稍微難一點的問題,因為它需要給每個點都要標出來。今天主要介紹在最新的 CVPR 上的兩個工作,一個是對點雲進行實例分割的網絡:similarity group proposal network,還有一個是對點雲進行語義分割的網絡,recurrent slice network。

首先介紹 SGPN:實例分割的網絡

在此之前,我想先回顧一下 2D 是怎麼做實例分割和物體檢測的。

我們都知道 2D CNN 在物體檢測上取得了比較好的成果,就是 R-CNN 一系列的工作,包括 fast R-CNN,都是從 R-CNN 開始的,R-CNN 是使用 selective search 從圖片中提取一些用 Region Proposal,然後把每一個 proposal fit 到 CNN 的網絡裡面,然後再進行分類,它用這種方法來進行物體檢測。根據 R-CNN 的工作,faster R-CNN 替代了 selective search,通過 Region Proposal network 來 regress 每個 Region Proposal 的相對 anchor 的 offset 來獲取 proposal,然後這整個是一個 end-to-end 的網絡,出來的就是一些 pixel 的 bounding box,還有每個 bounding box 代表的每個物體的概率。根據 faster R-CNN 的 ICCV 的 best paper 是 Mask R-CNN,它是通過做圖像 level 的實例分割來實現,它們沿用了 faster R-CNN 的 Region Proposal network,然後在生成了 bounding box 的基礎上又生成了 object mask,我們也使用這種 Region Proposal 的概念,然後對點雲進行分割,隨後我會對此進行詳細的介紹。

還有一個相關的工作是 3D 的 deep learning,從 2D 的 CNN 到 3D 的 CNN,最直接的方法就是 Volumetric CNN,當然這個是因為受到 GPU 內存的限制,沒有辦法做到很高的精度。去年 CVPR 上斯坦福的研究者們提出了 PointNet,是針對 point cloud 的網絡,他們把 N*3 的點雲 feed 到網絡裡面,然後在最後一層用 max pooling 提取 global feature,然後把這個 global feature concat 到每一個點雲,然後進行分割,我們的網絡建立在 pointnet 和它的後續工作 pointnet++的基礎上提取出來 feature。

我們還有一個相關的工作是,deep metric learning,中文:度量學習,在 deep learning 裡面比較典型的 metric learning 就是 siamese network,比如說有兩張圖片,我們想讓它做分類的話,同一類在 feature space 裡面很相近,不同類就是在 feature space 裡面相差比較遠,它們的兩張圖片 feed 到的 CNN,是 share 的 weight,project 到同一個 feature space 上,訓練的時候用的是 Hinge Loss(即圖右公式)。

註:公式講解可回放視頻至第 7 分鐘查看

之後會講我們的工作跟 simaese network 的關係,先簡單介紹一下背景,之前說過,我們的任務是想生成一個 instance label 和一個 semantic segmentation label,也就是說對於每個點雲有兩個 label,一個 label 代表著這個點雲是屬於椅子 1 還是椅子 2 的,另一個 label 代表它是椅子還是桌子,還是電視等等,背景知識已經介紹完畢了。我們是建立在 pointnet 和 pointnet++基礎上進行 feature 提取,然後借用 R-CNN 等工作的 Region Proposal 的思想,提出了一個叫 similarity group proposal 的 network,我們現在把它簡化為 SGPN。

SGPN 的大體思路是這樣的,我們首先是用 pointnet 提取 feature,也可用 pointnet++,提起完 feature 之後,之後有 3 部分(下圖中間部分),similarity matrix,confidence map,semantic prediction,我下面會對這三個部分進行一一介紹。

首先是 semantic prediction,semantic prediction 跟 pointnet 的 semantic segmentation 是一樣的,對於每個點生成的是一個 classic 的 probability,就是對於每個 class 它的概率是多大,比如說我們有 Np 個點,就生成了 Np*NC 的 matrix,NC 就是有多少個 object class,下面的這個結果就是 semantic prediction 的結果,比如下圖(右)黃色區域代表桌子,藍色區域代表椅子。

下面來介紹 similarity matrix,similarity matrix 就是對於每一個點,我們想生成 N 個點相對於它的位置,也就是說對於 similarity matrix 是通過 pointnet 生成的那個 feature,我們管它叫 Fsim,通過它進行計算它的 pointwise 的 distance,對於這個 similarity matrix,假設它叫做一個 ij 的元素,Sij 就是 point i 和 point j 在 feature space 的距離,如果它距離越遠,說明它們兩個就不在同一個 group,如果距離越近,就說明在同一個 group,也就是說如果兩個點都是椅子 1 的話,它們

註:該公式詳細解讀可回放視頻至第 10 分鐘查看

兩個在 feature 裡的距離比較近。如果椅子 1 和椅子 2 在 feature space 裡面距離比較遠,或者說它們是椅子和桌子的話,它們兩個在 feature space 裡面的距離也要非常遠。然後,我們有這樣一個 Np(點的個數),有這樣一個 Np*Np 的 similarity matrix,就是說每一行都可以是一個 group proposal,我們要設一個 threshold,如果小於這個 threshold,對於每一個小於這個 threshold,表示這些點在一個 group 裡面,也就是說我們現在有 Np 個 group proposal,現在的問題就是我們怎麼去 train 這個 matrix,它的 Ground Truth 是什麼?

我們剛才講過了 siamese network,就是說兩個圖片如果是一類的話,就讓它們在 feature specs 裡面的距離很小。如果它們不是一類的話,就讓它們距離比較大,所以我們通過採用這種方式,借用這個思想,來訓練我們的 similarity matrix,如果兩個點屬於不同類的話,我們就讓它們的距離很大。如果它們是相同類的話,我們就讓它們在 feature specs 裡面的距離比較小,我們同樣得使用的是 Hingle loss,兩個點都是椅子 1 的話,我們就 minimize 這個 term(下圖右下公式),在這裡介紹一個 double hinge loss,也就是說兩個點,一個椅子 1、一個椅子 2 的話,我們讓它們的 margin 比 K1 大。如果兩個點是一個桌子、一個椅子的話,我們就讓它們的距離比 K2 大,在訓練的時候 K1 要比 K2 小一點,在實驗中我們發現用這種 double hinge loss 的方式,會讓結果更好一點,比 K1=K2 的時候結果好一點,這樣我們就訓練出了 similarity matrix。

註:該公式詳細解讀可回放視頻至第 12 分鐘查看

大家可以來看一下這些 visualize 的結果,這些代表的是 similarity,越黑的表示 feature specs 它們的距離越近,顏色越淺,就表示它們 feature specs 距離越遠。

註:此處詳細講解可回放視頻至第 14 分鐘時查看

介紹完了 similarity matrix,我們再來介紹另一個部分:confidence map。

因為 similarity matrix 是個 Np*Np 的矩陣,也就是說我們有 Np 個 group proposal,這樣就有很多冗餘,我們想用這個 confidence map 削減一些 group proposal,confidence map 的定義,也就是說它的 ground truth 是如下定義的。

對於 similarity matrix 的每一個行,我們是一個 group proposal,對於這一個 group proposal,我們有一個 ground truth,然後我們把這個通過 similarity matrix 預測出來的 prediction 的結果和 ground truth 進行比較,我們計算 IoU,IoU 就是 inter section over union,也就是說,如果 IoU 越大的話,表示這一行,也就是這個 similarity propose 出來的結果更可信。如果 IoU 更小的話,是更不可信的,這樣我們就 regress 出來 confident map,然後在這裡,我們也 visualize 這些 confidence,顏色越深表示 confidence 越高,顏色越淺表示 confidence 越低,我們可以看到著一些 connection part,連接處的 confidence 比較低,通過這些方式去排除掉一些噪聲,相當於在 similarity matrix 的預測削減掉一些 similarity matrix confidence 比較低的 group proposal。

之後,像 R-CNN、faster R-CNN 它們有一些 post processing,它們會多預測出來一些 region proposal,然後就會用 threshold 的方法去 prove 這些結果,我們也同樣用一個比較簡單的貪婪法去 prove 這個結果,效果也是非常不錯的,對於網絡預測出來的一些 group proposal,對於每一個,先 initialize 一個大的 group set,如果這個 group proposal 是沒有出現在這個 group set 裡面,我們就把它放進去,如果出現了的話,我們就進行下一個,這樣就做了一個 post processing,就得到了最終的結果,下面是一些實驗結果。

在介紹實驗結果之前,我們先簡單介紹一種非常簡單的均類方法,就是在所有的點裡面選一些種子,然後進行 BFS 去 search 到最近的零點,然後去尋找跟它最近的相同的 label,如果它們有一個 threshold,如果大於這個 threshold 就停止,如果小於這個 threshold,就繼續尋找。相同的 label group 起來,就形成了一個新的 instance,就是我們的一個 group,然後通過跟這個方法進行比較,因為在 literature 上面進行點雲實例分割的文章比較少,我們就用這種比較簡單的方法進行比較。

可以看到,這個是 stanford 3D indoor semantic dataset 上面,然後我們取得的結果比 seg-cluster 好很多。我們有了 instance segmentation 之後,就很容易得到 3D 的 object detection 結果,因為我們有了每個 instance,每個點的位置,我們就可以計算 bounding box,然後去跟 Ground Truth 的 bounding box 比較,pointnet 也給了一個 framework 去做 instance segmentation,可以看到我們比它們也是好很多。

註:此放大部分的詳細講解可回放視頻至第 19 分鐘查看,不同的顏色代表不同的 group,即不同的 instance。

seg-cluster 有不同的 threshold,hreshold 變大的時候,也就是說兩個相同 label 的物體更容易連接在一起,如果 threshold 變小的時候就更不容易連接在一起,threshold 變小的時候,結果就如上圖(右部)所示,將它分成了兩個部分,但是在 SGPN 中就會避免這個問題,通過 similarity matrix 的方法,建立了上面和下面的聯繫。

除此之外,還在 NYU dataset 上面做了實驗,因為 NYU 有很多 2D 的圖像數據,包括 depth 信息,然後我們通過 2D 的 CNN 去 refine SGPN 的結果,因為通過相機參數,我們可以把深度圖像換成點雲,也就是說每一個點和每一個圖像的坐標是有聯繫的,於是我們通過幾個 CNN layer,然後聯繫相同的位置的 feature,把 CNN 裡的 feature concatenate 到 pointnet 的相同 point 的 feature 裡面,然後再進行幾個 pointnet 的 layer,再生成 SGPN 的 3 個 sub module 去進行 point 的 instance segmentation,在 NYU 的 dataset 上面。

這是我們的結果(圖上),SGPN 比 seg-cluster 好很多,我們還進行了 3D detection 跟 literature 的比較,因為 literature 有 Ground Truth 的 bounding box,像床、桌子一些大型的物體,它們的 bounding box 是 loose 的,也就是說,掃描的時候只是掃描一部分點,像有些?clusion,像床、桌子這些點其實都很小,存在的我們能看到的點,在點雲中其實很少的,所以計算 bounding box,不是很準確,就是一個 tide 的 bounding box,沒有辦法跟大的 bounding box 去比,所以我們在這裡(圖右下)只比較了一些小的物體,比 literature 都好一些。

然後我們看一些更多的 visualize 的 result,這裡有在 stanford 3D indoor semanticdataset 上面的,我們還在 scannet 上面做了很多實驗,大家感興趣的話,可以去閱讀我們的 paper,有更多的實驗和 application study。

這個工作主要是針對,使用深度學習的方法去做點雲的實例分割的問題,據我們所知,應該是第一個用深度學習去做這件事情的。

下面來介紹我們組的另一個工作,第一作者是我的朋友黃乾桂,我們的這個工作是做點雲的 semantic segmentation,剛才我已經介紹了 semantic segmentation,就是給一個 input 的點雲,給每一個桌子、椅子的 label。

在此之前,我們先簡單介紹一下相關的工作。剛剛我已經介紹了 pointnet,我們也知道 pointnet 就是經過幾層 mlp 生成了一個大的矩陣 feature,然而對於使用 max pooling 提取 global feature,把每個 global feature concatenate 到 feature 上去,然後進行 semantic segmentation。我們可以看到所有的點只有一個 global feature,點與點之間沒有什麼聯繫,這樣就喪失了很多 local 的信息,很近的點,像 CNN 是可以一層一層傳遞的,這個就沒有辦法做到這一點。

斯坦福他們組同樣的人,去年在 NIPS 上提出了 pointnet++,他們是用了 farthest point sample 和 query KNN 來提取 local 的信息,也就是說對每個點,去找它的 neighborhood,然後去 sample 一些點,這樣以此類推,這樣去進行 local 信息的獲取。但是我們也知道像 KNN 的話,它的複雜度是 O(KN) 的,而且它需要每個點進行 query,複雜度比較高,我們就提出了如下的方法去更好地去做 local dependence 的事情。

因為點雲有 3D 的 structure,我們根據這種 structure 提出了 recurrent slice network,比如點雲是有 x,y,z 三個方向的信息,我們對 x,y,z 三個方向進行 slice 的切割,然後把點雲分成一片、一片的。然後對每一片用 pointnet 提取 feature,然後通過 RNN 去 update 相鄰片的信息。在 pointnet 提取完特徵之後,我們通過 RNN 去 update,然後再通過... 這裡我們介紹三個 module 來介紹 local dependence 的信息的建立,下面我一一介紹。

進來一個點雲,沿 z 方向進行切割,然後分成好幾片(slice),然後把每一個 slice 單獨放進每一個 pointnet 裡面去 proper?信息和 feature,同樣的方法去 max pool 整個 global feature,每一片有一個小的 global feature。x,y,z 三個方向都做同樣的操作(如上圖 slice 所示),通過 x 方向 slice,通過 y 方向 slice,同樣的方式做三遍。

提取完這樣的 feature 之後,我們使用 bidirectional RNN 去 update 這個 feature,因為相鄰的 slice 有 local dependence,所以這樣 update feature 的時候,可以考慮到 local 的信息,而且因為是 bidirectional 的,所以不同層的信息也可以相互傳遞,我們通過 bidirectional 傳遞來的、update 過的 feature 是呈現在這個地方(上圖右),在文章中,我們也對不同的 RNN 的 module 做了 application study,比如 GRU、STM 等等,大家感興趣可以閱讀我們的?part。

通過 RNN update 過信息之後,我們通過?,也就是像 pointnet 一樣的方法去把每一層對應的信息、每一 slice 對應的信息提取 propogate 到每一個點上。這樣子每一個點就既有了 local 的信息,也有了 global 的信息,然後我們再通過 pointnet 的幾個 layer 進行 output 做 segmentation。

同樣是在 stanford indoor 3D data 上面做的,不同的顏色就表示不同的類別。圖(中)是 predict 的結果,圖(右)是 ground truth,我們得到的結果還是非常不錯的。

這個是在 stanford indoor 3D 的結果,3D cnn 是在這個資料庫做這個工作的 state-of-the-art,seg-cluster 是用 3D volumatric 的方法去做的,我們的結果可以看出來比 pointnet 好很多,都比 3D CNN 也好很多。

我們在 scanNet 上面也進行了很多的實驗,可以看出來我們比 pointnet++和 pointnet 都要好一些。

剛才我們也說了,因為 pointnet 是有 KNN 或者是 ball query 的方法,會讓它們的速度下降很多,我們在這裡進行速度和 memory 的比較,像我們的 rsnet 是比 pointnet++速度要快很多。這裡(上圖)顯示的是,以 pointnet 為一個 unit,先與 pointnet 比較,再與其他方法進行速度上的比較。這兩篇工作的代碼都已經 release 了,大家可以參看我們的 github。

3D learning 也獲得了大家越來越多的關注,近期的一些比較有趣的 work 在 3D 的形式上,(上圖)第一個和第三個都是在 mesh 上操作的,第一個是把 mesh 當成一個球,然後通過學習的方法把 mesh 捏成它們想要的 single RGB 的樣子,第三個就是對不同的 catergory 學一個 mesh,它的 mesh 也是要 manifold,然後生成一個 mesh 以及它的一個 texture 的信息,然後把 texture map 到 mesh 上,使得它跟它的 image 更相近。第二個工作是通過 sample 在 surface 上的點來生成 mesh,這個也是進行根據 2D image 來進行 3D reconstruction 的,大家感興趣可以都去再看一下。

這是我們實驗室的信息,如果大家感興趣的話,可以跟我的導師聯繫,我們主要做 3D vison 和 computer graphics 方面上的研究。

Q&A

Q:為什麼 curtain 很差?

A:curtain 主要是數據比較少而且很多都連著牆或窗,所以不太容易被識別。

Q:切割的精度怎麼確定?

A:切割精度不同會對結果造成不同影響,我們在實驗部分的 ablation study 裡面對不同精度進行了實驗。

Q:第二個 work x、y、z 都是 align 好的嗎?

A:嗯對 坐標是先 align 好的。

以上就是本期嘉賓的全部分享內容。更多公開課視頻請到雷鋒網 AI 慕課學院觀看。關注微信公眾號:AI 科技評論,可獲取最新公開課直播時間預告。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 100個深度圖像分割算法,紐約大學UCLA等最新綜述論文
    、滑鐵盧大學、UCLA等學者深度學習圖像分割最新綜述論文,對現有的深度學習圖像分割研究進行梳理使其系統化,並提出6方面挑戰,幫助讀者更好地了解當前的研究現狀和思路。 最近來自紐約大學、滑鐵盧大學、UCLA等學者發布了深度學習圖像分割最新綜述論文Image Segmentation Using Deep Learning: A Survey>,涵蓋20頁pdf168篇參考文獻,調研了截止2019年提出的100多種分割算法,共分為10類方法。
  • CVPR2017精彩論文解讀:直接處理三維點雲的深度學習模型
    隨著雷射雷達,RGBD相機等3D傳感器在機器人,無人駕駛領域的廣泛應用。針對三維點雲數據的研究也逐漸從低層次幾何特徵提取( PFH, FPFH,VFH等)向高層次語義理解過渡(點雲識別,語義分割)。與圖像感知領域深度學習幾乎一統天下不同,針對無序點雲數據的深度學習方法研究則進展緩慢。
  • 浙大博士生劉漢唐:帶你回顧圖像分割的經典算法 | 分享總結
    近年的自動駕駛技術中,也需要用到這種技術。車載攝像頭探查到圖像,後臺計算機可以自動將圖像分割歸類,以避讓行人和車輛等障礙。隨著近些年深度學習的火熱,使得圖像分割有了巨大的發展,本文為大家介紹深度學習中圖像分割的經典算法。
  • 美國南加州大學怎麼樣?
    在藝術留學隊伍中,大部分學生的首選藝術留學國家就是美國,美國作為世界上藝術和文化皆前沿的國家,擁有世界上眾多著名院校。然而,南加州大學作為美國西部最大及最古老的私立研究型大學,更是深受來自全球各地留學生的青睞。那麼,究竟美國南加州大學怎麼樣還是隨智課選校帝小編詳細看看下面的內容!
  • 南加州大學金融碩士(MSF)申請題目解析
    南加州大學,一所真正坐落於LA市區的大學。擁有眾多你聽說過的校友:登月的阿姆斯特朗、拍電影的史匹柏、做主持人的侯佩岑……而作為一個USC Trojans生活在天使之城,好玩好逛的地方不要太多。學習累了想吃點東西?南加大學校本身就位於downtown,離韓國城、中國城都十分的近,隨時可以嘗到各種好吃的!USC的金融碩士(MSF)項目之前都是5月份開學,導致很多國內的同學們沒有辦法申請。但是從2020年開始,這個項目改為了8月份開學,因為畢業時間趕不上的同學們這次可以開始申請啦~本文HotEssay為大家分享申請攻略。
  • 華為雲2篇論文被MICCAI2020收錄,醫學圖像邊緣分割新突破
    基於醫生手工勾勒或者傳統軟體勾勒的方法耗時耗力或者方法泛化能力差,基於深度學習的方法在醫療圖像分割問題上展現優異的分割性能,但是由於醫療設備成像原因(成像偽影),器官病灶本身構造原因(器官病灶內部體液、肌肉間隔,相鄰器官病灶邊緣界定不清晰)等諸多原因,導致器官病灶等待分割物體邊緣不清晰,已有深度學習的方法無法較好解決以上問題。
  • 前沿研究丨深度學習在醫學超聲圖像分析中的應用
    中國工程院院刊《Engineering》刊發《深度學習在醫學超聲圖像分析中的應用綜述》一文,旨在全面而系統地總結深度學習在醫學超聲圖像分析中的應用,主要是在典型的任務及其在不同解剖結構中的應用。文章指出,在醫學超聲圖像分析中,深度學習展示了巨大的應用潛力,簡要介紹了一些流行的深度學習結構,討論了深度學習方法在超聲圖像分析的各種特定任務(如圖像分類、物體檢測與目標分割)中的應用。文章指出了深度學習在醫學超聲圖像分析應用中所面臨的挑戰以及潛在的發展趨勢。
  • 一文全覽深度學習在計算機視覺領域的應用
    已經是很熱的深度學習,大家都看到不少精彩的故事,我就不一一重複。簡單的回顧的話,2006年Geoffrey Hinton的論文點燃了「這把火」,現在已經有不少人開始潑「冷水」了,主要是AI泡沫太大,而且深度學習不是包治百病的藥方。計算機視覺不是深度學習最早看到突破的領域,真正讓大家大吃一驚的顛覆傳統方法的應用領域是語音識別,做出來的公司是微軟,而不是當時如日中天的谷歌。
  • 從全卷積網絡到大型卷積核:深度學習的語義分割全指南
    By路雪 2017年7月14日  語義分割一直是計算機視覺中十分重要的領域,隨著深度學習的流行,語義分割任務也得到了大量的進步。本文首先闡釋何為語義分割,然後再從論文出發概述多種解決方案。本文由淺層模型到深度模型,簡要介紹了語義分割各種技術,雖然本文並沒有深入講解語義分割的具體實現,但本文簡要地概述了每一篇重要論文的精要和亮點,希望能給讀者一些指南。
  • 一個超乾貨的3D視覺學習社區
    現有基於RGB、RGBD、點雲數據的姿態估計算法都有哪些?深度學習方式的姿態估計算法有哪些?精度怎麼樣?可以應用到工業上嗎?PPF算法的改進點有哪些?有哪些改進算法?機器人視覺引導中的姿態識別思路是什麼?計算速度怎麼樣? ……結構光篇為什麼有的格雷碼三維重建的方法需要投射水平和豎直條紋呢,而有的只需要豎直條紋呢?
  • 一種基於點雲的Voxel(三維體素)特徵的深度學習方法
    蘭州大學在讀碩士研究生,主要研究方向無人駕駛,深度學習;蘭大未來計算研究院無人車團隊負責人,自動駕駛全棧工程師。 之前我們提到使用SqueezeSeg進行了三維點雲的分割,由於採用的是SqueezeNet作為特徵提取網絡,該方法的處理速度相當迅速(在單GPU加速的情況下可達到100FPS以上的效率),然而,該方法存在如下的問題: 第一,雖然採用了CRF改進邊界模糊的問題,但是從實踐結果來看,其分割的精度仍然偏低; 第二,該模型需要大量的訓練集,而語義分割數據集標註困難
  • 突破AI和機器理解的界限,牛津CS博士143頁畢業論文學習重建和分割...
    牛津大學計算機科學系博士生 Bo Yang 在其畢業論文中詳細解讀了如何重建和分割 3D 物體,進而賦予機器感知 3D 環境的能力,突破了人工智慧和機器理解的界限。賦予機器像人類一樣感知三維真實世界的能力,這是人工智慧領域的一個根本且長期存在的主題。考慮到視覺輸入具有不同類型,如二維或三維傳感器獲取的圖像或點雲,該領域研究中一個重要的目標是理解三維環境的幾何結構和語義。
  • 語義分割中的深度學習方法全解:從FCN、SegNet到各版本DeepLab
    原標題:語義分割中的深度學習方法全解:從FCN、SegNet到各版本DeepLab 王小新 編譯自 Qure.ai Blog 量子位 出品 | 公眾號 QbitAI 圖像語義分割就是機器自動從圖像中分割出對象區域,並識別其中的內容
  • 圖像識別中的深度學習【香港中文大學王曉剛】
    例如,為了改進神經網絡的訓練,學者提出了非監督和逐層的預訓練,使得在利用反向傳播算法對網絡進行全局優化之前,網絡參數能達到一個好的起始點,從而在訓練完成時能達到一個較好的局部極小點。  深度學習在計算機視覺領域最具影響力的突破發生在2012年,欣頓的研究小組採用深度學習贏得了ImageNet圖像分類比賽的冠軍[3]。
  • CNN 在基於弱監督學習的圖像分割中的應用
    最近基於深度學習的圖像分割技術一般依賴於卷積神經網絡 CNN 的訓練,訓練過程中需要非常大量的標記圖像,即一般要求訓練圖像中都要有精確的分割結果。對於圖像分割而言,要得到大量的完整標記過的圖像非常困難,比如在 ImageNet 數據集上,有 1400 萬張圖有類別標記,有 50 萬張圖給出了 bounding box, 但是只有 4460 張圖像有像素級別的分割結果。對訓練圖像中的每個像素做標記非常耗時,特別是對醫學圖像而言,完成對一個三維的 CT 或者 MRI 圖像中各組織的標記過程需要數小時。
  • 名校進階之路:學姐告訴你一個真實的南加州大學是什麼樣子的!
    在決定申請南加州大學的時候,很多同學都會在網上查詢各種信息。於是,各種關於電影留學的信息展現在學生面前。但是關於一個真正的南加州大學是什麼樣子的你知道嗎?今天,榮思就用學生的真實經歷告訴你南加州大學的樣子。
  • UT Austin博士生沈彥堯:基於深度主動學習的命名實體識別 | 分享總結
    雷鋒網 AI 科技評論按:眾所周知,深度學習在多種實際應用中取得了突破,其背後的主要推動力來自於大數據、大模型及算法。在很多問題中,獲取標註準確的大量數據需要很高的成本,這也往往限制了深度學習的應用。而主動學習通過對未標註的數據進行篩選,可以利用少量的標註數據取得較高的學習準確度。因此,深度學習中的主動學習方法也成為了研究的熱點。
  • 深度學習新應用:在PyTorch中用單個2D圖像創建3D模型
    選自Medium作者:Phúc Lê機器之心編譯參與:李詩萌、王淑婷深度學習在諸多 2D 圖像任務中表現出色,毋庸置疑。但如何將它應用於 3D 圖像問題中呢?文本通過探索,將深度學習擴展到了單個 2D 圖像的 3D 重建任務中,並成功實現了這一應用。
  • 最常見的深度學習應用
    目標檢測:目標檢測就是通過深度學習網絡的訓練和學習,能夠自動找到圖片中目標的大致位置,通常用一個矩形邊界框來表示,並將邊界框所包含的目標進行圖像分類,目前比較優秀的目標檢測算法有:YOLO、SSD、RCNN、FastRCNN、FasterRCNN、MaskRCNN等系列算法。
  • 美國南加州大學藝術研究生
    美國南加州大學藝術研究生美術課程是一個兩年全日制的工作室為基礎的課程,課程位置在洛杉磯市市中心。每年有16人入學,課程提供了高質量的個人體驗,多學科的相關學科鼓勵大範圍實驗和知識開拓。工作室實踐和辯證理論學習主要是強化學生的智力增長和個人成就。