[計算機視覺論文速遞] 2018-03-20

2021-02-16 CVer

通知:這篇推文有13篇論文速遞信息,涉及圖像分割、SLAM、顯著性、深度估計、車輛計數等方向

往期回顧

[計算機視覺] 入門學習資料

[計算機視覺論文速遞] 2018-03-18

[計算機視覺論文速遞] 2018-03-16


圖像分割

[1]《Training of Convolutional Networks on Multiple Heterogeneous Datasets for Street Scene Semantic Segmentation》

Abstract:我們提出了一種具有分層分類器的卷積網絡,用於每像素語義分割,能夠在多個異構數據集上訓練並利用其語義層次結構。 我們的網絡是第一個同時訓練來自智能車輛領域的三個不同數據集,即Cityscapes,GTSDB和Mapillary Vistas,並且能夠處理不同的語義細節層次,類別不平衡和不同的注釋類型,即密集的 每像素和稀疏邊界框標籤。 我們通過比較平面非分層分類器評估我們的分層方法,並且我們顯示Cityscapes類的平均像素精度為13.0%,Vistas類為2.4%,GTSDB類為32.3%。 我們的實現在GPU上運行108個類的解析度為520 x 706時可實現17 fps的推導速率。

arXiv:https://arxiv.org/abs/1803.05675

[2]《An application of cascaded 3D fully convolutional networks for medical image segmentation》

Abstract:3D全卷積網絡(FCN)的最新進展已經使得生成體積圖像的密集體素預測成為可能。在這項工作中,我們展示了一個多級三維FCN訓練手動標記的幾個解剖結構(從大型器官到薄血管)的CT掃描可以實現競爭性分割結果,同時避免手工製作功能或培訓課程的需要,具體型號。

為此,我們提出了一個兩階段的,從粗到精的方法,它將首先使用3D FCN粗略定義候選區域,然後將其用作第二個3D FCN的輸入。這減少了第二個FCN必須分類的體素數量至〜10%,並允許它將重點放在更詳細的器官和血管分割上。

我們利用由331個臨床CT影像組成的訓練和驗證集合,並對包含150次CT掃描的不同醫院採集的完全不可見的數據集進行測試,針對三個解剖器官(肝臟,脾臟和胰腺)。在胰腺等具有挑戰性的器官中,我們的級聯方法將骰子平均得分從68.5提高到82.2%,實現了此數據集報告的最高平均得分。我們在240個CT掃描的18個類別的獨立數據集上比較2D FCN方法,並在小器官和血管中實現顯著更高的性能。此外,我們探索微調我們的模型到不同的數據集。

我們的實驗說明了當前基於三維FCN的醫學圖像語義分割的前景和穩健性,實現了最先進的結果。我們的代碼和訓練有素的模型可供下載:https://github.com/holgerroth/3Dunet_abdomen_cascade

arXiv:https://arxiv.org/abs/1803.05431

github:https://github.com/holgerroth/3Dunet_abdomen_cascade

SLAM

[3]《Vision-Aided Absolute Trajectory Estimation Using an Unsupervised Deep Network with Online Error Correction》

IROS 2018

Abstract:我們提出了一種無監督的深度神經網絡方法來融合RGB-D圖像與慣性測量的絕對軌跡估計。 我們的網絡被稱為Visual-Inertial-Odometry Learner(VIOLearner),它學習在沒有慣性測量單元(IMU)固有參數(對應於陀螺儀和加速度計偏差或白噪聲)或者外部校準之間執行視覺慣性測距法(VIO) IMU和相機。 網絡學習整合IMU測量結果並生成假設軌跡,然後根據相對於像素坐標的空間網格的縮放圖像投影誤差的雅可比行為在線校正假設軌跡。 我們根據最先進的(SOA)視覺慣性測距法,視覺測距法以及KITTI Odometry數據集上的視覺同時定位和映射(VSLAM)方法評估我們的網絡,並展示競爭性測距性能。

arXiv:https://arxiv.org/abs/1803.05850

顯著性

[4]《Salient Region Segmentation》

Abstract:顯著性預測在計算機視覺中是一個研究得很好的問題。早期顯著性模型是基於從神經科學和心理物理學中獲得的見解中獲得的低級別手工特徵。在深度學習突破之後,基於神經網絡架構提出了一個新的模型隊列,在所有度量標準上允許比先前的淺層模型有更高的注視預測。

然而,大多數模型將顯著性預測視為\ textit {regression}問題,並且高維數據的準確回歸已知是一個難題。此外,還不清楚顯著程度的中間水平(即既非常高也非非常低)是有意義的:某些事情要麼是顯著的,要麼是顯著的,或者不是顯著的。

從這兩個觀察得出,我們將顯著性預測問題重新描述為顯著區域\ textit {分割}問題。我們證明重構允許比經典回歸問題更快的收斂性,而性能可以與最先進的技術相媲美。

我們還可視化模型學到的一般特徵,這些特徵與心理物理學的見解一致。

arXiv:https://arxiv.org/abs/1803.05759

[5]《What Catches the Eye? Visualizing and Understanding Deep Saliency Models》

Abstract:深卷積神經網絡近年來在固視預測中表現出了很高的性能。然而,他們如何實現這一目標卻沒有多少探索,他們仍然是黑匣子模型。在這裡,我們試圖揭示深度顯著性模型的內部結構,並研究它們提取的固定預測的特徵。具體來說,我們使用一個簡單但功能強大的架構,僅包含一個CNN和一個解析度輸入,並結合一個新的丟失函數,用於自由觀看自然場景期間的像素式固定預測。我們表明,我們的簡單方法與最先進的複雜顯著性模型相比甚至更好。此外,我們提出了一種與顯著性模型評估指標相關的方法,以便對固定預測的深度模型進行可視化。我們的方法揭示了用於固定預測的深層模型的內部表示,並提供證據表明,人類所經歷的顯著性除了低級感知線索之外可能涉及高級語義知識。我們的結果可以用來衡量當前顯著性模型和人類觀察者間模型之間的差距,並建立新的模型來縮小差距。

arXiv:https://arxiv.org/abs/1803.05753

[6]《VEGAC: Visual Saliency-based Age, Gender, and Facial Expression Classification Using Convolutional Neural Networks》

Submitted to CVPR 2018

Abstract:本文探討了使用視覺顯著性來分類面部圖像的年齡,性別和面部表情。 對於多任務分類,我們提出了基於視覺顯著性的VEGAC方法。 使用Deep Multi-level Network [17]和現成的人臉檢測器[2],我們提出的方法首先檢測測試圖像中的人臉,並提取裁剪人臉上的CNN預測。 VEGAC的CNN在來自不同基準的收集數據集上進行了微調。 我們的卷積神經網絡(CNN)使用VGG-16架構[3],並在ImageNet上預先訓練用於圖像分類。 我們證明了我們的方法在年齡估計,性別分類和面部表情分類中的有用性。 我們表明,我們在選定的基準上使用我們的方法獲得了競爭結果。 我們所有的型號和代碼都將公開發布。

註:期待源碼!!!

arXiv:https://arxiv.org/abs/1803.05719

深度估計

[7]《Self-Supervised Monocular Image Depth Learning and Confidence Estimation》

Abstract:卷積神經網絡(CNN)需要大量的具有地面真實注釋的數據,這是一個具有挑戰性的問題,它限制了許多計算機視覺任務的CNNs的開發和快速部署。 我們提出了一種新穎的基於單目圖像的深度估計框架,並且具有相應的自我監督方式的信心。 基於零均值歸一化互相關(ZNCC)提出了一種全差分基於塊的成本函數,該算法將多尺度貼片作為匹配策略。 這種方法大大提高了深度學習的準確性和魯棒性。 此外,所提出的基於補丁的成本函數可以提供0到1的置信度,然後用它來監督並行網絡的訓練以進行置信度學習和估計。 對KITTI數據集的評估表明,我們的方法勝過了最先進的結果。

arXiv:https://arxiv.org/abs/1803.05530

其它

[8]《DeepN-JPEG: A Deep Neural Network Favorable JPEG-based Image Compression Framework》

DAC 2018

Abstract:作為最引人入勝的機器學習技術之一,深度神經網絡(DNN)在諸如圖像分類等各種智能任務中表現出優異的性能。 DNN在很大程度上通過對大量訓練數據進行昂貴的培訓來實現這種性能。為了減少智能資源受限物聯網(IoT)系統中的數據存儲和傳輸開銷,在傳輸實時生成的數據集以進行培訓或分類之前,有效的數據壓縮是「必備」功能。雖然有許多著名的圖像壓縮方法(如JPEG),但我們首次發現基於人類視覺的圖像壓縮方法(如JPEG壓縮)不是DNN系統的優化解決方案,特別是在高壓縮比。為此,我們開發了一個專為DNN應用而定製的圖像壓縮框架,名為「DeepN-JPEG」,以支持DNN體系結構的深層級信息處理機制的性質。基於具有各種最先進的DNN的「ImageNet」數據集進行的大量實驗表明,「DeepN-JPEG」的壓縮率比流行的JPEG解決方案高出約3.5倍,同時保持圖像識別的相同精度水平,展示其在基於DNN的智能物聯網系統設計中具有巨大的存儲和電源效率潛力。

註:這也太硬了吧!DeepN-JPEG真是666666

arXiv:https://arxiv.org/abs/1803.05788

[9]《Feature Distillation: DNN-Oriented JPEG Compression Against Adversarial Examples》

Abstract:深度神經網絡(DNN)在眾多實際應用中取得了卓越的性能。然而,最近的研究表明,訓練有素的DNN很容易被敵對的例子(AE)誤導 - 通過引入小的不可察覺的輸入擾動來惡意製作輸入。諸如對抗訓練和防禦性蒸餾之類的現有緩解解決方案受到昂貴的再培訓成本的限制,並且針對CW家族對抗性例子等最先進的攻擊顯示出邊際魯棒性的提高。在這項工作中,我們提出了一種新的低成本「特徵升華」策略,通過重新設計流行的圖像壓縮框架「JPEG」來淨化AE的敵對輸入擾動。所提出的「特徵蒸餾」明智地最大化圖像壓縮期間AE幹擾的惡意特徵損失,同時抑制對於高精確DNN分類至關重要的良性特徵的失真。實驗結果表明,我們的方法可以大幅降低CIFAR-10和ImageNet基準測試平均約60%的各種尖端AE攻擊的成功率,而不會降低測試精度,優於現有的解決方案,如默認的JPEG壓縮和「功能擠壓」。

註:這篇paper和上篇paper第一作者是同一人

arXiv:https://arxiv.org/abs/1803.05787

[10]《Exploring Linear Relationship in Feature Map Subspace for ConvNets Compression》

Abstract:雖然卷積神經網絡(CNN)的研究進展很快,但這些模型的實際部署往往受計算資源和內存限制的限制。在本文中,我們通過提出一種新穎的濾波器修剪方法來壓縮和加速CNN來解決這個問題。我們的工作基於通過可視化特徵映射在不同特徵映射子空間中標識的線性關係。這種線性關係意味著CNN中的信息是多餘的。我們的方法通過將子空間聚類應用於特徵映射來消除卷積濾波器中的冗餘。這樣,網絡中的大多數代表性信息都可以保留在每個群集中。因此,我們的方法提供了一個有效的解決方案來篩選修剪,大多數現有方法都是基於簡單的啟發式直接刪除過濾器。所提出的方法獨立於網絡結構,因此它可以被任何現成的深度學習庫採用。在不同的網絡和任務上進行的實驗表明,我們的方法在微調之前勝過現有的技術,並在微調之後達到最新的結果。

arXiv:https://arxiv.org/abs/1803.05729

[11]《LEGO: Learning Edge with Geometry all at Once by Watching Videos》

Accepted to CVPR 2018 as spotlight

Abstract:學習通過深卷積網絡觀察未標記的視頻來估計單個圖像中的3D幾何形狀正引起重大關注。在本文中,我們在管線內引入了一種「3D儘可能平滑(3D-ASAP)」的技術,該技術可實現對邊緣和三維場景的聯合估計,從而獲得精細細緻結構精度顯著提高的結果。具體來說,我們先定義3D-ASAP,如果沒有提供其他線索,則要求從3D圖像恢復的任何兩點都應位於現有平面上。我們設計了一個無人監督框架,一次完成學習邊緣和幾何(深度,正常)(LEGO)。預測邊被嵌入到深度和表面法線平滑項中,其中沒有邊之間的像素被約束以滿足先驗。在我們的框架中,預測的深度,法線和邊緣被迫始終保持一致。我們在KITTI上進行實驗以評估我們估計的幾何圖形和城市景觀以執行邊緣評估。我們展示了在所有任務中,即深度,正常和邊緣,我們的算法大大優於其他最先進的(SOTA)算法,證明了我們方法的好處。

arXiv:https://arxiv.org/abs/1803.05648

[12]《Fast End-to-End Trainable Guided Filter》

Accepted by CVPR 2018

Abstract:通過利用深度學習的功能,圖像處理和像素密集預測得到了進一步發展。深度學習的一個中心問題是處理聯合上採樣(upsampling)的能力有限。我們為聯合上採樣提供了一個深度學習構建模塊,即引導濾波層。該層旨在高效地生成高解析度輸出,並給出相應的低解析度輸出和高解析度制導圖。所提出的層由導向濾波器組成,該濾波器被重新配置為完全可微分塊。為此,我們證明了一個引導濾波器可以表示為一組空間變化的線性變換矩陣。該層可以與卷積神經網絡(CNN)集成並通過端到端訓練進行聯合優化。為了進一步利用端到端培訓,我們插入了一個可訓練的轉換函數,可以生成特定於任務的指導圖。通過整合CNN和提出的層,我們形成深度導向濾波網絡。擬議的網絡在五個高級圖像處理任務上進行評估。 MIT-Adobe FiveK數據集上的實驗表明,所提出的方法運行速度提高了10-100倍,並達到了最先進的性能。我們還表明,提出的引導過濾層有助於提高多個像素密集預測任務的性能。該代碼可在此https://github.com/wuhuikai/DeepGuidedFilter中找到

arXiv:https://arxiv.org/abs/1803.05619

homepage:http://wuhuikai.me/DeepGuidedFilterProject/

github:https://github.com/wuhuikai/DeepGuidedFilter

[13]《Improving Object Counting with Heatmap Regulation》

Abstract:在本文中,我們提出了一種簡單而有效的方法來改善從圖像中進行物體計數的單外觀回歸模型。我們使用類激活地圖可視化來說明學習計數任務的純粹一看回歸模型的缺點。基於這些見解,我們通過調整來自網絡最終卷積層的激活圖與簡單點注釋生成的粗糙地面真實激活圖來增強單看回歸計數模型。我們將這種策略稱為熱圖調節(HR)。我們表明,這種簡單的增強有效地抑制了由相應的一眼基線模型生成的錯誤檢測,並且還改善了假陰性方面的性能。在四個不同的計數數據集上進行評估 - 兩個用於汽車計數(CARPK,PUCPR +),一個用於人群計數(WorldExpo),另一個用於生物細胞計數(VGG-Cells)。與簡單的單一基準模型相比,將HR添加到簡單的VGG前端可以提高所有這些基準測試的性能,並為汽車計數帶來最先進的性能。

arXiv:https://arxiv.org/abs/1803.05494

--我是可愛的分割線--    

 

今天安利一條很硬的學術沙龍活動通知,組織者大多為博士以及在公司從事AI的大佬。對AI很感興趣的童鞋請重點關注一下~


通知:初步定於3月25日(本周日)下午1點,魔都AI聖戰者聯盟將在上海舉辦分享會暨成立大會。


兩位嘉賓分享:

1,某人工智慧創業公司高管分享《計算機視覺算法綜述及其應用場景介紹》

2,網易雲課堂深度學習熱門講師覃秉豐分享《基於tensorflow實現目標檢測算法專題》

需加入魔都AI聖戰者聯盟方可參加,具體地點將在聯盟內部通知。目前聯盟主要成員為從事AI行業cv或nlp方向的算法工程師或主管、總監,多數為畢業於國內985高校或海外知名高校的碩博。目前聯盟暫不收取任何費用,今後活動有可能要均攤場地費用

魔都AI聖戰者聯盟入會要求:

1,AI行業從業人員或對AI有濃厚興趣者

2,原則上必須在上海或者周邊,能參加兩周或一個月一次在上海舉辦的分享會

3,原則上40周歲以下

(行業大牛不受2,3條限制)

入會流程:

1,提交簡歷

2,簡歷通過後,由聯盟原成員對其進行電話面試,主要考察其對神經網絡基本概念、CNN或RNN、以及其他面試官認為其需要了解的知識點的熟悉程度

(註:AI行業從事具體算法工作超過2年,或國內985高校及中科院、海外排名前500名高校的人工智慧、模式識別、計算機視覺等相關領域碩博可免於面試)

簡歷投遞郵箱:

AIinShanghai@126.com

--我還是可愛的分割線--      

若喜歡Amusi推送的文章,請掃描下方二維碼關注CVer公眾號!

相關焦點

  • [計算機視覺論文速遞] ECCV 2018 專場9
    點擊上方「CVer」,選擇「置頂公眾號」重磅乾貨,第一時間送達前戲Amusi 將日常整理的論文都會同步發布到link: https://github.com/amusi/daily-paper-computer-visionECCV 2018是計算機視覺領域中的頂級會議,目前已經公開了部分已錄用的paper。
  • [計算機視覺論文速遞] 2018-03-31
    通知:這篇文章有10篇論文速遞信息,涉及Re-ID、深度估計、超解析度、顯著性檢測、GAN、VOA和卷積神經網絡綜述等方向往期回顧
  • [計算機視覺論文速遞] 2018-03-03
    通知:這篇推文很長,有32篇論文速遞信息
  • [計算機視覺論文速遞] 2018-03-05
    通知:這篇推文有16篇論文速遞信息
  • [計算機視覺論文速遞] 2018-07-02 圖像分割專場
    點擊上方「CVer」,選擇「置頂公眾號」重磅乾貨,第一時間送達這篇文章有2篇論文速遞
  • 計算機視覺論文速遞
    通知:這篇推文有18篇論文速遞信息,涉及目標檢測、圖像分割和GAN等方向。Augmentation for increased CNN Performance in Liver Lesion Classification》   Preprint submitted to Neurocomputing   Abstract:深度學習方法,特別是卷積神經網絡(CNN),已經導致了廣泛的計算機視覺任務的巨大突破
  • 2018最具突破性計算機視覺論文Top 10
    在2018年,我們看到計算機視覺領域出現了許多新穎的架構設計,這些設計改進性能基準,也擴大了機器學習的模型可以分析的媒介範圍。我們在不久前總結了2018年的頂級機器學習論文。由於計算機視覺和圖像生成對於AI應用的重要性和普及性,本文中,我們總結了2018年最重要的10篇視覺相關的研究。
  • 【收藏】2018年不容錯過的20大人工智慧/機器學習/計算機視覺等頂會時間表
    本文介紹了2018年值得關注的20個頂會,包括人工智慧、機器學習、計算機視覺、自然語言處理、體系結構等領域。目錄人工智慧/機器學習計算機視覺/模式識別自然語言處理/計算語言學體系結構數據挖掘/信息檢索計算機圖形學1.
  • 計算機視覺/圖像處理學術速遞[02.03]
    www.arxivdaily.com上線啦,論文摘要、多學科、收藏、評論、搜索……,點擊文末「
  • 計算機視覺領域的王者與榮耀丨CCF-GAIR 2018
    當計算機視覺研究與落地大潮湧動之際,第三屆CCF-GAIR全球人工智慧與機器人峰會「計算機視覺專場」,眾多科技巨頭首席技術官、獨角獸首席科學家、國際學術頂會主席、世界名校AI實驗室主任將會公開分享最前沿的計算機視覺技術研究與商用成果。
  • 騰訊優圖學術再進階 論文入選計算機視覺領頂級會議CVPR 2018
    據外媒報導,即將在6月美國鹽湖城舉行的計算機視覺頂級會議CVPR 2018,騰訊優圖的其中兩篇入選論文,由於其較高的應用價值,受到學術界和產業界的關注。騰訊優圖論文再次入庫頂級學術會議作為計算機視覺領域最高級別的會議之一的CVPR,其論文集通常代表著計算機視覺領域最新的發展方向和水平。這也是騰訊優圖繼2017年在另一計算機視覺頂級會議ICCV會議中獲得12篇論文被收錄,包含3篇口頭報告(該類論文僅佔總投稿數2.1%)的成績後,2018年,科研成果再次豐收,論文被CVPR2018收錄。
  • ...生以第一作者身份在計算機視覺國際頂級會議ECCV2020發表論文
    近日,計算機視覺國際頂級會議ECCV2020(European Conference on Computer Vision)接收結果公布。理學院數學系應用數學和人工智慧研究團隊在ECCV2020上發表題為SingleImage Super-Resolution via a Holistic Attention Network論文。
  • 解讀計算機視覺論文投稿到接收,不可不知的關鍵環節
    今天,我們將介紹智源青年科學家、北大計算機係數字媒體研究所研究員施柏鑫的報告《計算機視覺會議論文從投稿到接收》。 本次報告,施柏鑫從作者、審稿人、領域主席、期刊編委等視角,圍繞計算機視覺領域,為我們講述了該領域頂級會議論文從寫文章、投文章(包括Rebuttal)、審文章、擴期刊各環節的經驗心得和關鍵注意事項。
  • 計算機視覺/圖像處理學術速遞[03.05]
    Shahriar Haque 連結:https://arxiv.org/abs/2003.01936【2】 Reveal of Domain Effect: How Visual Restoration Contributes to Object Detection in Aquatic Scenes標題:域效應的揭示:視覺恢復對水生場景中目標檢測的貢獻
  • 計算機視覺領域2019推薦論文列表
    Relation Networks for Object Detection論文連結:https://arxiv.org/pdf/1711.11575.pdf在CVPR 2018上,該論文提出了一種即插即用的物體關係模塊,第一次實現了完全端到端的物體檢測器,該方法也是自注意力模型在視覺領域最早的應用之一。9.
  • 計算機視覺論文速遞[08.14]
    公眾號後臺回復'search 關鍵詞'可查詢相關的最新論文。連結:https://arxiv.org/abs/1908.04519【4】 Fine-Tuning Models Comparisons on Garbage Classification for Recyclability作者: Umut Ozkaya, Levent Seyfi 備註:published in ISAS 2018
  • 計算機視覺(及卷積神經網絡)簡史
    計算機視覺中最有影響力的論文之一由兩位神經生理學家David Hubel和Torsten Wiesel於1959年發表。他們的出版物題為「貓的紋狀皮層中單個神經元的感受野」,描述了視覺皮層神經元的核心反應特性。以及貓的視覺體驗如何塑造其皮質結構。兩人進行了一些非常精細的實驗。他們將電極放入麻醉貓腦的初級視皮層區域,觀察或至少試圖在該區域進行神經元活動,同時向動物展示各種圖像。
  • 計算機科學技術學院研究生在計算機視覺頂級期刊發表論文
    新聞網訊 近日,計算機科學技術學院2017級研究生王國濤撰寫的學術論文Improved Robust Video Saliency Detection based on Longterm Spatial-temporal Information在計算機視覺領域國際頂級刊物IEEE Transactions
  • 【每日速遞】計算機視覺與模式識別/圖像處理最新學術論文[1.13]
    點擊上方「計算機視覺社區」,選擇加"星標"重磅乾貨,第一時間送達
  • 【收藏】2019年不容錯過的20大人工智慧/機器學習/計算機視覺等頂會時間表
    本文介紹了2019年值得關注的20個頂會,包括人工智慧、機器學習、計算機視覺、自然語言處理、體系結構等領域。目錄人工智慧/機器學習計算機視覺/模式識別自然語言處理/計算語言學體系結構數據挖掘/信息檢索計算機圖形學1.