200倍的提速!華人博士生提出大場景三維點雲語義分割新框架

2021-01-09 新智元

【新智元導讀】今天分享一篇被今年CVPR接收的論文。該文提出的算法可以高效處理百萬量級的點組成的大場景3D點雲,同時計算效率高、內存佔用少,能直接處理大規模點雲,不需要複雜的預處理/後處理,比基於圖的方法SPG快了接近200倍,這對自動駕駛和AR非常關鍵。

牛津大學和國防科技大學合作的一篇題為「RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds」的論文已被今年CVPR接收,今天為大家解讀這篇論文。

論文地址:https://arxiv.org/pdf/1911.11236.pdf

TensorFlow代碼:https://github.com/QingyongHu/RandLA-Net

本文提出了一種針對大規模三維點雲場景的輕量級、高效點雲語義分割新算法RandLA-Net。通過對現有的採樣策略進行全面綜合的分析,本文採用簡單高效的隨機採樣來顯著地減少計算量以及內存消耗,並且引入了全新的局部特徵聚合模塊持續地增大每個點有效的感受野,保留大多數有效的信息。

RandLA-Net能直接處理大規模點雲,不需要複雜的預處理/後處理,比基於圖的方法SPG快了接近200倍,有助於解決自動駕駛和AR等領域的核心問題。

高效處理百萬量級的點組成的大場景3D點雲,比基於圖的方法SPG快近200倍

Introduction

實現高效、準確的大場景三維點雲語義分割是當前三維場景理解、環境智能感知的關鍵問題之一。然而,由於深度傳感器直接獲取的原始點雲通常是非規則化 (irregular)、非結構化 (unstructure)並且無序 (orderless)的,目前廣泛使用的卷積神經網絡並不能直接應用於這類數據。

Motivation

自從2017年能夠直接在非規則點雲上進行處理的PointNet [1] 被提出以來,越來越多的研究者開始嘗試提出能夠直接處理非規則點雲的網絡結構,出現了許多諸如PointNet++ [2], PointCNN [3], PointConv [4] 等一系列具有代表性的工作。儘管這些方法在三維目標識別和語義分割等任務上都取得了很好的效果,但大多數方法依然還局限於在非常小(small-scale)的點雲上(e.g., PointNet, PointNet++, Pointconv等一系列方法在處理S3DIS數據集時都需要先將點雲切成一個個1m×1m的小點雲塊, 然後在每個點雲塊中採樣得到4096個點輸入網絡)。這種預處理方式雖然說方便了後續的網絡訓練和測試,但同時也存在著一定的問題。舉例來說,將整個場景切成非常小的點雲塊是否會損失整體的幾何結構?用一個個小點雲塊訓練出來的網絡是否能夠有效地學習到空間中的幾何結構呢?

圖 1. PointNet在Area 5中的分割結果

帶著這樣的疑問,我們對PointNet在S3DIS數據集Area 5上的分割結果進行了可視化。如上圖highlight的區域所示,PointNet錯誤地將一張桌子的左半部分識別為桌子,而將右半部分識別為椅子。造成這樣明顯不一致結果的原因是什麼呢?可以看到,這張桌子在預處理切塊(左圖)的時候就已經被切分成幾個小的點雲塊,而後再分別不相關地地輸入到網絡中。也就是說,在點雲目標幾何結構已經被切塊所破壞的前提下,網絡是難以有效地學習到桌子的整體幾何結構的。

既然切塊太小會導致整幾何結構被破壞,那我能不能把塊切大一點?這樣不就可以在一定程度上更好地保留原始點雲的信息了嗎?

圖 2. PointNet和PointNet++在S3DIS Area5的對比實驗結果。S3DIS中的數據分別被切割為1m×1m到5m×5m的點雲塊,然後再輸入到網絡中進行訓練和測試。

對此,我們也進一步設計了對比實驗,把切塊的尺寸從最初的1m×1m增加到5m×5m(每個block中的點數也相應地從4096增加至102400),得到的實驗結果如上圖所示,可以看到:

PointNet的mIoU結果出現了比較明顯的下降。我們分析這主要是由於在PointNet框架中,每個點的特徵是由shared MLP提取的per-point feature以及global max-pooling提取的global feature組成。當輸入點雲的規模越來越大時,通過簡單的global max-pooling得到的全局特徵能發揮的作用就越來越小,進而導致分割性能隨著block size增大而持續地下降PointNet++的分割性能隨著block_size的增大有了一定提升,這是符合我們預期的。然而,從右邊的時間變化曲線我們也可以進一步看到,網絡inference的時間也隨著block_size增大而出現了顯著的增長,從最開始的每3s/百萬點增加到需要接近100s/百萬點。上述實驗結果表明:簡單地增大block_size也並不能有效地解決這個問題。通過進一步分析我們發現,阻礙當前大多數方法直接處理大場景點雲的原因主要有以下三點:

網絡的降採樣策略。現有的大多數算法採用的降採樣策略要麼計算代價比較昂貴,要麼內存佔用大。比如說,目前廣泛採用的最遠點採樣(farthest-point sampling)需要花費超過200秒的時間來將100萬個點組成的點雲降採樣到原始規模的10%。許多方法的特徵學習模塊依賴於計算代價高的kernelisation或graph construction。現有大多數方法在提取特徵時感受野(receptive fields)比較有限,難以高效準確地學習到大場景點雲中複雜的幾何結構信息當然,最近也有一些工作已經開始嘗試去直接處理大規模點雲。比如說SPG用超圖(super graph)和超點(superpoints)來表徵大場景點雲,FCPN和PCT等方法結合了voxel和point的優勢來處理大規模點雲。儘管這些方法也達到了不錯的分割效果,但大多數方法的預處理計算量太大或內存佔用高,難以在實際應用中部署。

本文的目標是設計一種輕量級,計算效率高(computationally-efficient)、內存佔用少(memory-efficient)的網絡結構,並且能夠直接處理大規模3D點雲,而不需要諸如voxelization/block partition/graph construction等預處理/後處理操作。然而,這個任務非常具有挑戰性,因為這種網絡結構需要:

一種內存和計算效率高的採樣方法,以實現對大規模點雲持續地降採樣,確保網絡能夠適應當前GPU內存及計算能力的限制;一種有效的局部特徵學習模塊,通過逐步增加每個點的感受野的方式來學習和感知複雜的幾何空間結構。基於這樣的目標,我們提出了一種基於簡單高效的隨機降採樣和局部特徵聚合的網絡結構(RandLA-Net)。該方法不僅在諸如Semantic3D和SemanticKITTI等大場景點雲分割數據集上取得了非常好的效果,並且具有非常高的效率(e.g. 比基於圖的方法SPG快了接近200倍)。本文的主要貢獻包括以下三點:

我們對現有的降採樣方法進行了分析和比較,認為隨機降採樣是一種適合大規模點雲高效學習的方法我們提出一種有效的局部特徵聚合模塊,通過逐步增加每個點的感受野來更好地學習和保留大場景點雲中複雜的幾何結構RandLA-Net在多個大場景點雲的數據集上都展現出了非常好的效果以及非常優異的內存效率以及計算效率隨機採樣&局部特徵聚合模塊組合,組建RandLA-Net

Overview

如下圖所示,對於一個覆蓋數百米範圍、由百萬量級的點組成的大場景點雲而言,如果希望將其直接輸入到深度神經網絡中進行處理,那麼持續有效地對點雲進行逐步地降採樣,同時儘可能地保留有用的幾何結構信息是非常有必要的。

圖 3. 網絡結構的大致流程圖

The quest for efficient sampling

為了尋找到一種高效的降採樣方法。我們首先對現有的的降採樣方法進行研究:主要可以分為Heuristic Sampling以及Learning-based Sampling兩大類:

(1) Heuristic Sampling

Farthest Point Sampling (FPS):顧名思義,也就是每次採樣的時候都選擇離之前採樣得到的 k-1個點距離最遠的點。FPS能夠比較好地保證採樣後的點具有較好的覆蓋率,因而在點雲分割領域被廣泛地使用(e.g., PointNet++, PointCNN, PointConv, PointWeb)。然而,FPS的計算複雜度是 ,計算量與輸入點雲的點數呈平方相關。這表明從FPS可能不適合用來處理大規模點雲。舉例來說,當輸入一個具有百萬量級點的大場景點雲時,使用FPS將其降採樣到原始規模的10%需要多達200秒。Inverse Density Importance Sampling (IDIS): 這個也比較好理解,簡而言之就是根據每個點的密度來對其重新進行排序,儘可能地保留密度比較低的地方的點。IDIS [5] 的計算複雜度近似為 (取決於如何計算每個點的密度)。相比於FPS, IDIS顯然更加高效,但IDIS對噪點(outliers)也更加敏感。Random Sampling (RS): 隨機降採樣均勻地從輸入的 N 個點中選擇 K 個點,每個點具有相同的被選中的概率。RS的計算複雜度為 , 其計算量與輸入點雲的總點數無關,只與降採樣後的點數 K 有關,也即常數時間複雜度。因而具有非常高的效率以及良好的可擴展性。與FPS和IDIS相比,RS僅需0.004s即可完成與FPS相同的降採樣任務。(2) Learning-based Sampling

Generator-based Sampling (GS):與傳統降採樣方法不一樣,這類方法通過學習生成一個子集來近似表徵原始的點雲。GS [6,7] 是一種task-oriented, data-driven的learnable的降採樣方法,但問題在於inference階段需要將生成的子集與原始點雲進行匹配,這一步依賴於FPS matching,進而引入了更多額外的計算。使用GS將百萬量級點的大場景點雲降採樣到原始規模的10%需要多達1200秒。Continuous Relaxation based Sampling (CRS): CRS [8,9] 使用reparameterization trick來將non-differentiable的降採樣操作鬆弛(relax)到連續域使得端到端訓練變成可能。CRS採樣後得到的每個採樣點其實都是整個點雲的一個加權和(weighted sum)。具體來說,對於一個大場景的輸入點雲(size: N×3),CRS通過學習得到一個採樣矩陣 (size: K × N) (最終會非常稀疏), 最後採樣矩陣左乘輸入點雲即可實現降採樣。然而,當 N 是一個非常大的值時(e.g. 10^6), 這種方式學習到的採樣矩陣會帶來非常大的內存消耗。舉例來說,使用CRS將百萬量級點的大場景點雲降採樣到原始規模的10%需要多達300GB的GPU內存。Policy Gradient based Sampling (PGS): PGS [10] 將降採樣操作表示為一個馬爾科夫決策過程,旨在學習到一種有效的降採樣策略。該方法序貫地對每一個點學習到一個概率來決定是否保留。然而,當輸入是大場景點雲時,整個網絡有著極大的搜索空間(exploration space)。舉例來說,完成與上述採樣方法相同的任務的搜索空間是 。通過進一步地實驗我們發現,將PGS應用到大型點雲時,網絡非常難以收斂。總結一下:

對於大場景點雲,FPS, IDIS和GS的計算代價都比較高, CRS對GPU內存的要求太高,而PGS難以學到一個有效的採樣策略(sampling policy)。相比之下,隨機採樣具有以下兩個優點:1)計算效率高, 因為是常數計算複雜度, 與輸入點數無關 2)內存開銷少,採樣過程並不需要額外的內存消耗。因此,對於大場景點雲作為輸入的情況,我們何不嘗試下隨機降採樣呢?

但新的問題又來了:隨機地對點雲進行降採樣勢必會導致有用的信息被丟失,如何克服這個問題?

Local Feature Aggregation

為了緩解這個問題,我們進一步提出了與隨機採樣互補的局部特徵聚合模塊(Local feature aggregation)。如圖所示,該模塊主要包括三個子模塊:1)局部空間編碼(LocSE), 2) attentive pooling, 3)擴張殘差塊(dilated residual block)。

圖 4. 局部特徵聚合模塊。包括局部空間編碼(Local Spatial Encoding),Attentive Pooling以及Dilated Residual Block三個子模塊。

(1) 局部空間編碼(Local Spatial Encoding)

此模塊用於顯式地對輸入的點雲的三維坐標信息進行編碼。不同於直接將各個點的三維坐標作為一個普通的通道特徵輸入到網絡中,LocSE模塊旨在顯式地去編碼三維點雲的空間幾何形狀信息,從而使得網絡能夠從各個點的相對位置以及距離信息中更好地學習到空間的幾何結構。具體來說分為以下步驟:

首先,我們用 最近鄰搜索算法為每一個點 找到歐氏空間中最近的個鄰域點對於 的個最近鄰點 , 我們顯式地對點的相對位置進行編碼,將中心點的三維坐標 , 鄰域點的三維坐標 , 相對坐標 以及歐式距離 連接(concatenation)到一起。如下所示:最後我們將鄰域點 對應的點特徵 與編碼後的相對點位置 連接到一起,得到新的點特徵 。在Semantic3D,S3DIS以及SemanticKITTI等多個數據集上實驗:優勢明顯

Experiments

(1) Efficiency of Random Sampling

首先我們對上述提到的採樣策略進行評估,主要從計算時間和GPU內存消耗兩個方面來考量。具體來說,我們進行如下的實驗:仿照PointNet++的主體框架,我們持續地對點雲進行降採樣,總共五次降採樣,每次採樣僅保留原始點雲中25%的點。實驗結果如下圖所示,可以看出:

對於小規模的點雲~10^3, 上述採樣方法在計算時間和內存消耗的差距並不明顯, 總體來說都是可接受的對於大規模點雲~10^6, FPS/IDIS/GS所需要的計算時間顯著增加, 而CRS需要佔用大量的GPU內存(圖b虛線)。相比之下,RS在計算時間和內存消耗方面都有著顯著的優勢,因此非常適合處理大規模點雲。這個結果也進一步說明了為什麼大多數算法選擇在小規模點雲上進行處理和優化,主要是因為它們依賴於昂貴的採樣方法。

圖 7. 不同採樣方法的時間和內存消耗。虛線表示由於GPU內存有限而產生的估計值

(2) Efficiency of RandLA-Net

我們進一步對RandLA-Net在處理真實場景中的大規模三維點雲的效率進行評估。具體來說,我們選擇在SemanticKITTI數據集的驗證集(序列8:一共4071幀)進行對比測試。主要評估以下三個方面的指標:總時間,模型參數以及網絡最多可處理點數。公平起見,我們在每一幀中將相同數量的點(81920)輸入到baseline以及我們RandLA-Net中。實驗結果如下表所示,可以看出:

表1. 不同方法在處理SemanticKITTI數據集的序列8的總時間、模型參數和最多可處理點數對比。

SPG[23]的模型參數最少,但耗時最長。主要原因是幾何劃分(geometrical partitioning)和超圖構建(super-graph construction)等步驟的計算代價較高;PointNet++和PointCNN的耗時也很長,主要原因是FPS在處理大場景點雲時比較耗時PointNet和KPConv無法一次性處理非常大規模的點雲 ,主要原因是沒有降採樣操作(PointNet)或者模型較為複雜。得益於簡單的隨機採樣以及基於MLP的高效的局部特徵聚合模塊,RandLA-Net的耗時最少(~23幀/每秒),並且能夠一次處理總數高達10^6的點雲。(3) 公共數據集評估結果

Semantic3D由30個大規模的戶外場景點雲組成,包含真實三維空間中160×240×30米的場景,總量高達40億個點。其中每個點包含3D坐標、RGB信息以及強度信息。RandLA-Net只用了三維坐標以及對應的顏色信息進行處理。從表中可以看出我們的方法達到了非常好的效果,相比於SPG, KPConv等方法都有較明顯的提升。

表 2. 不同方法對Semantic3D (reduced-8)的定量結果對比

SemanticKITTI數據集由21個序列, 43552幀點雲組成。每一幀的點雲由~10^5個點組成,包含真實三維空間中160×160×20 米的場景。我們按照官方的train-validation-test進行分類,其中序列00~07以及09~10(19130幀)作為訓練集,序列08(4071幀)作為驗證集,序列11~21(20351幀)用於在線測試。需要注意的是,這個數據集中的點雲僅包含各個點的三維坐標,而沒有相應的顏色信息。實驗結果如下表所示,可以看出:RandLA-Net相比於基於點的方法(表格上半部分)有著顯著的提升,同時也優於大部分基於投影的方法,並且在模型參數方面相比於DarKNet53Seg等有著比較明顯的優勢。

表 3. 不同方法對SemanticKITTI數據集的定量結果對比

S3DIS數據集由6個區域的271個房間組成。每個點雲包含真實三維空間中20×15×5米的室內場景。6-fold的交叉驗證實驗結果也進一步證實了我們方法的有效性。

表4. 不同方法對S3DIS數據集的定量結果對比

在Ablation study中,我們也進一步證實了各個子模塊對整體性能的貢獻。詳細的分析見paper以及supplementary。

表 5. Ablation study結果對比

最後總結一下,我們提出了一種針對大規模三維點雲場景的輕量級、高效點雲語義分割算法,與當前的大多數基於FPS等計算代價高的採樣策略的算法不同,本文嘗試使用簡單高效的隨機採樣來顯著地減少計算量以及內存消耗,並且引入了局部特徵聚合模塊持續地增大每個點有效的感受野,以確保大多數有效的信息不會因為隨機採樣而丟失。在Semantic3D,S3DIS以及SemanticKITTI等多個數據集上的大量實驗證明了我們的方法的有效性。下一步可以嘗試將我們的工作延申到大場景三維點雲實例分割以及實時動態點雲處理。

最後的話

對於三維點雲語義分割任務而言,與其在被切割的點雲上提出非常複雜的算法來提升性能,不如直接嘗試在大場景點雲上進行處理,這樣更加有實際意義。三維點雲分割網絡的scalability也是實際應用中一個比較重要的點。i.e., 理想情況下train好的網絡應該可以用於inference任意點數的輸入點雲,因為每個時刻採集到的點雲的點數不一定是相同的。這也是RandLA-Net沒有使用全局特徵的原因,i.e. 確保學到的參數是agnostic to number of points.順便打一波廣告,對於剛剛進入三維點雲處理領域的同學,有一份最新的綜述論文(Deep Learning for 3D Point Clouds: A Survey)可供參考,內含大量主流的點雲目標分類,三維目標檢測,三位場景分割算法的最新研究進展及總結。牛津大學出品,作者團隊介紹

論文合著者包括牛津大學博士生胡慶擁,楊波,謝林海,王智華;博士後Stefano Rosa;國防科技大學副教授郭玉蘭;以及牛津大學教授Niki Trigoni和Andrew Markham。

胡慶擁

楊波

其中論文一作胡慶擁研究方向是3D視覺和機器學習,專注於大規模3D點雲分割和理解,動態點雲處理和跟蹤。論文二作(通訊作者)楊波專注於讓智能機器從2D圖片或3D點雲中理解和重構完整3D場景。更多信息見個人主頁:

https://qingyonghu.github.io

https://yang7879.github.io

Reference

[1] Charles R Qi, Hao Su, Kaichun Mo, and Leonidas J Guibas. PointNet: Deep learning on point sets for 3D classification and segmentation. CVPR, 2017.

[2] Charles R Qi, Li Yi, Hao Su, and Leonidas J Guibas. PointNet++: Deep hierarchical feature learning on point sets in a metric space. NeurIPS, 2017

[3] Yangyan Li, Rui Bu, Mingchao Sun, Wei Wu, Xinhan Di, and Baoquan Chen. PointCNN: Convolution on X-transformed points. NeurIPS, 2018.

[4] Wenxuan Wu, Zhongang Qi, and Li Fuxin. PointConv: Deep convolutional networks on 3D point clouds. CVPR, 2018.

[5] Fabian Groh, Patrick Wieschollek, and Hendrik P. A. Lensch.Flex-convolution (million-scale point-cloud learning beyond grid-worlds). ACCV, 2018

[6] Oren Dovrat, Itai Lang, and Shai Avidan. Learning to sample. CVPR, 2019.

[7] Itai Lang, Asaf Manor, and Shai Avidan. SampleNet: Differentiable Point Cloud Sampling. arXiv preprint arXiv:1912.03663 (2019).

[8] Abubakar Abid, Muhammad Fatih Balin, and James Zou. Concrete autoencoders for differentiable feature selection and reconstruction. ICML, 2019

[9] Jiancheng Yang, Qiang Zhang, Bingbing Ni, Linguo Li, Jinxian Liu, Mengdie Zhou, and Qi Tian. Modeling point clouds with self-attention and Gumbel subset sampling. CVPR, 2019.

[10] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, and Yoshua Bengio. Show, attend and tell: Neural image caption generation with visual attention. ICML, 2015

[11] Hugues Thomas, Charles R Qi, Jean-Emmanuel Deschaud, Beatriz Marcotegui, Franc ois Goulette, and Leonidas J Guibas. Kpconv: Flexible and deformable convolution for point clouds. ICCV, 2019.

相關焦點

  • 學界| 雙重注意力網絡:中科院自動化所提出新的自然場景圖像分割...
    為了有效完成場景分割任務,需要區分一些容易混淆的類別,並考慮不同外觀的物體。本文提出了一個新的自然場景圖像分割框架,稱為雙重注意力網絡(DANet),引入了一種自注意力機制來分別捕捉空間維度和通道維度上的視覺特徵關聯。
  • 浙大博士生劉漢唐:帶你回顧圖像分割的經典算法 | 分享總結
    ,我是浙江大學在讀博士生劉漢唐,目前在阿里巴巴 iDST 實習。接下來的分享首先會為大家介紹圖像分割具體是做什麼的,圖像分割有哪些應用場景以及做圖像分割實驗經常用到的幾個數據集。最後再講解圖像分割的幾個方法。分為兩個部分,第一部分是傳統視覺的圖分割算法,雖然現在很少用,但自認為算法比較優美。第二部分是深度學習算法,會介紹最近幾年流行的經典技巧。什麼是圖像分割?
  • 滑動窗口也能用於實例分割,陳鑫磊、何愷明等人提出圖像分割新範式
    他們提出一條新的道路,即將密集實例分割看成一個在 4D 張量上進行的預測任務,這也就是 TensorMask 通用框架。該論文是 FAIR 實驗室完成的,除了何愷明外,一作陳鑫磊博士也非常厲害。陳鑫磊本科畢業於浙江大學,博士在 CMU(2012-2018)完成,他從 2011 年開始就在 AAAI、ICCV 和 CVPR 發過 13 篇頂會論文,其中有 8 篇是一作。
  • 法國國立路橋學校在讀博士肖洋:非特定場景下的目標檢測和3D姿態...
    作為場景理解的關鍵子任務,圖像中目標檢測和姿態估計也是近幾年的研究熱點。針對圖像中目標檢測問題,大部分方法已經在多樣本情況下取得了很好的結果。然而,對於樣本較少的新對象類別,其性能仍然滯後;在姿態估計領域,近幾年的方法都需要針對特定的對象實例或類別進行訓練。但是對於未預定義類別的事物,目前方法性能略顯不足。那麼,到底如何解決當前出現的場景理解問題並進行優化呢?
  • 頂級華人學者全職回國,擬加入清華大學
    在認知科學領域,如視覺常識推理、場景理解等領域做出重要貢獻。朱松純在1990年代率先將概率統計建模與隨機計算方法引入計算機視覺研究,提出了一系列圖像與視頻的結構化解譯的框架、數理模型和統計算法,發展了廣義模式理論 [General Pattern Theory]。
  • FB嵌入式人工智慧平臺發布,單目3D姿態估計新方法
    大數據文摘專欄作品作者:Christopher Dossman編譯:笪潔瓊、conrad、雲舟嗚啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly欄目又和大家見面啦!該數據集是基於KITTI基準的裡程測量數據集,包含城市內部交通、居民區、公路場景和鄉村道路,但不影響原始的裡程測量基準。新數據集也是同類數據中最大的,包括23201個用於訓練、20351個用於測試的完整3D掃描。為了開發數據集,研究人員避免使用邊界框或KITTI數據集可用的注釋來確保標籤的準確性和一致性。
  • 圖像分割系列<->語義分割
    Segnet的模型框架和思路比較簡單,應用了當年很火的VGG16框架,去掉全連接層,搭建對稱模型,在2014年當時還沒有興起框架,基於Caffe實現端到端的像素級別網絡模型是很難的,之後在MATLAB2016中,Sgenet成為內置的用於語義分割的深度學習算法。
  • 突破AI和機器理解的界限,牛津CS博士143頁畢業論文學習重建和分割...
    牛津大學計算機科學系博士生 Bo Yang 在其畢業論文中詳細解讀了如何重建和分割 3D 物體,進而賦予機器感知 3D 環境的能力,突破了人工智慧和機器理解的界限。賦予機器像人類一樣感知三維真實世界的能力,這是人工智慧領域的一個根本且長期存在的主題。考慮到視覺輸入具有不同類型,如二維或三維傳感器獲取的圖像或點雲,該領域研究中一個重要的目標是理解三維環境的幾何結構和語義。
  • 語義分割標註工具Semantic Segmentation Editor 快速安裝指南
    申明:點雲語義標註工具Semantic-Segmentation-Editor 官方網址——>(https://github.com/Hitachi-Automotive-And-Industry-Lab/semantic-segmentation-editor),經過幾天的折騰終於在win10系統和Ubuntu1604系統環境下安裝調試成功,最大問題在於
  • MMSegmentation:標準統一的語義分割框架
    語義分割作為計算機視覺中一項基礎任務,同時在自動駕駛/視頻編輯等領域中有重要的應用,因此一直受到學術界和工業界的廣泛關注。在近幾年的會議中,語義分割的論文層出不窮,但是市面上一直缺乏一款能夠相對公平比較各種方法的框架。為了方便研究員和工程師們,OpenMMLab開源了一套基於 PyTorch 實現的標準統一的語義分割框架:MMSegmentation。
  • 標準統一的語義分割框架
    在近幾年的會議中,語義分割的論文層出不窮,但是市面上一直缺乏一款能夠相對公平比較各種方法的框架。為了方便研究員和工程師們,我們開源了一套基於 PyTorch 實現的標準統一的語義分割框架:MMSegmentation。
  • ECCV 2020 Oral | 蘇黎世聯邦理工學院提出:弱監督語義分割新網絡
    — 如何改進CAM [1] 只能定位局部判別性區域,提出了不同之前只從改進分割網絡結構或細化分類網絡任務的的方法。一、簡介如果閱讀過我之前關於弱監督語義分割(WSSS)的論文閱讀筆記的讀者,就一定知道弱監督語義分割從開始到現在的發展大致分為兩個階段。這兩個階段以CAM [1] 的出現為劃分節點。在CAM這個方法出現之前,WSSS的研究呈現百花齊放的狀態。這種狀態體現在兩個方面:弱監督標籤的多樣性:這一階段大家選擇的弱監督標籤是多樣化的。
  • ...MacBook Air:7999元起,CPU提速3.5倍,集成顯卡提速5倍,SSD提速2...
    FX168 【新品發布會主要看點一覽】自研M1晶片:5納米製程,8核心處理器,8核心GPU,搭載了16核神經引擎;全新macOS:最大化利用M1,讓Mac實現iPhone般即時喚醒,11月12日更新;MacBook Air:7999元起,CPU提速
  • 專訪哈佛大學宋怡明:世界歷史大框架下的海外華人
    一、研究華僑華人問題的緣起張梅:尊敬的宋怡明教授,非常感謝您在百忙之中接受訪談。在中國學術界,很多人知道您是美國著名的歷史學家,但是他們對您還關注華僑華人問題卻並不了解,能否請您談一談,您是怎麼開始對華僑華人問題感興趣的?
  • 南開大學提出新物體分割評價指標,相比經典指標錯誤率降低 69.23%
    新智元專欄作者:範登平(南開大學)   【新智元導讀】南開大學媒體計算實驗室等研究團隊從人類視覺系統對場景結構非常敏感的角度出發,提出一種新穎、高效且易於計算的結構性度量(S-measure) 來評估非二進位前景圖,進而使得評估不需要像傳統AUC曲線那樣通過繁瑣且不可靠的多閾值化來計算精度、召回率,僅通過簡單的計算(5.3ms)就可以得到非常可靠的評價結果
  • 西北工業大學夏勇教授課題組博士生在醫學圖像計算頂級會議MICCAI...
    該會議是醫學影像人工智慧領域的國際頂級會議,除了展示領域內最新研究成果外,還因舉辦面向各種醫學圖像智能分析場景的國際挑戰賽而受到全球研究者和業界的廣泛關注。西北工業大學計算機學院的空天地海一體化大數據應用技術國家工程實驗室夏勇教授課題組博士生賈灝哲在大腦膠質瘤分割挑戰賽(BraTS 2020)獲得國際亞軍,博士生張建鵬在基於多序列CMR的心肌病理分割挑戰賽(MyoPS 2020)獲得國際季軍。
  • DualVD:借鑑認知雙向編碼理論,提出視覺對話新框架 | AAAI 2020
    作者根據此理論,提出從視覺和語義兩個維度刻畫視覺對話任務中圖象信息的新框架:語義模塊描述圖像的局部以及全局的高層語義信息,視覺模塊描述圖像中的對象以及對象之間的視覺關係。基於此框架,作者提出自適應視覺選擇模型 DualVD(Duel Encoding Visual Dialog),分別進行模態內與模態之前的信息選擇。
  • 湖南全面落實「提速降費」 4G網速將提升到10倍
    湖南全面落實「提速降費」 兩年來移動網際網路流量資費同比降幅達32% 「您好,我是聯通客服代表,了解到您流量使用情況,現向您推薦50元包1.5G的省內流量包……」8月10日,長沙市民潘女士接到來電。