深度| 2017 CV 技術報告之圖像分割、超解析度和動作識別

2020-12-04 機器之心Pro

選自The M Tank

機器之心編譯

參與:晏奇、蔣思源

The M Tank 編輯了一份報告《A Year in Computer Vision》,記錄了 2016 至 2017 年計算機視覺領域的研究成果,對開發者和研究人員來說是不可多得的一份詳細材料。該材料共包括四大部分,在本文中機器之心對第二部分做了編譯介紹,第一部分和第四部分詳見《計算機視覺這一年:這是最全的一份 CV 技術報告》和《計算機視覺這一年:2017 CV 技術報告 Plus 之卷積架構、數據集與新趨勢》。

圖像分割

計算機視覺任務的核心是分割(Segmentation)處理,它將整幅圖片分割成可被標記和分類的像素組。在此基礎上,語義分割(Semantic Segmentation)則更進了一步,它試圖從語義上去理解一幅圖像中每個像素扮演的角色。比如:一個圖像中出現的是一隻貓還是汽車,還是其它類別的事物。然而,實例分割(Instance Segmentation)又在語義分割上更進了一步,它能夠分割出一個類別事物中具體不同的對象,比如以三種不同顏色來標記不同的三隻狗。此外,分割技術的應用十分廣泛,大量語義分割技術被應用於自動駕駛中。

可以認為,在圖像分割領域,部分最重要的貢獻應該歸功於 FAIR 實驗室。自 2015 年起,他們便展開了名為 DeepMask[46] 的研究項目。DeepMask 可以在對象上粗略生成一個初級版本的分割區域(也即一個「mask」)。在 2016 年,Fair 開發了 SharpMask[47] 系統,它可以對 DeepMask 提供的分割區域進行修正,糾正漏掉的細節並且改善語義分割效果。在此基礎之上,MultiPathNet[48] 可以識別出由每個分割區域描述的物體。

「為了能夠識別一般物體的形狀,你必須首先在高層面(high-level)理解所觀察的事物(DeepMask),但是如果要想更具體地來識別它們,那你則需要觀察那些小到像素的低層面(lower-level)特徵(SharpMask)。」——Piotr Dollar,2016.[49]

圖 6:FAIR 語義分割技術實例展示,來源 Dollar(2016)。上圖展示了 FAIR 應用的圖像分割技術,它按順序包括了 DeepMask、SharpMask 和 MutiPathNet 技術。該流程可實現大規模場景中的精準分割與分類。

視頻傳遞網絡(Video Propagation Network)[51] 通過建立一個簡單模型,從視頻第一幀開始便向後傳遞精準的對象分割區域。此外,在整個視頻的傳遞過程中模型也會加入一些額外的信息。

在 2016 年,為了解決上文提及的大規模任務以及本地實現問題,研究人員開始尋找替代性的網絡方案。DeepLab 就是一個例子,它在圖像語義分割任務上得到了令人激動的成果。Khoreva et al.[53] 基於 Deeplab[52] 的早期工作(circa 2015)提出了一個半監督學習方法,該方法和監督學習網絡的性能水平不相上下。

通過使用端到端網絡,計算機視覺進一步修正了網絡共享有用信息的方法。該方案降低了多進程全方位子任務分類的計算需求。以下是兩篇使用了該方法的論文。

100 Layers Tiramisu[54] 是一個全卷積 DenseNet,其中每一層都以前饋的方式與其它層級相連接。該網絡在多個標準數據集上都以更少參數和訓練/處理過程達到了目前最先進水平。

Fully Convolutional Instance-aware Semantic Segmentation[55] 可以同時執行具體實例的掩碼(mask)預測與分類這兩項子任務。該網絡獲得了微軟亞洲研究院 COCO 分割挑戰的冠軍。

然而在此之外,ENet[56](這是一種用於實時語義分割的深度神經網絡架構)卻並不屬於這一類別。它也展示出了可以降低計算成本的經濟適用價值,可以更好地用於行動裝置。

我們希望儘可能地將這些前沿技術與已有的實際應用聯繫起來。所以下面列舉了醫療衛生領域在 2016 年內最有意思的一些圖像分割項目:

A Benchmark for Endoluminal Scene Segmentation of Colonoscopy Images[57]

3D fully convolutional networks for subcortical segmentation in MRI: A large-scale study[58]

Semi-supervised Learning using Denoising Autoencoders for Brain Lesion Detection and Segmentation[59]

3D Ultrasound image segmentation: A Survey[60]

A Fully Convolutional Neural Network based Structured Prediction Approach Towards the Retinal Vessel Segmentation[61]

3-D Convolutional Neural Networks for Glioblastoma Segmentation[62]

其中我們最欣賞的一個準醫療分割應用為 FusionNet[63],這是一個深度殘差卷積神經網絡,它可以將圖像分割任務用於分析生物神經網絡的連接方式,其能力與最先進的電子顯微鏡分割方法不相上下。

超解析度、風格遷移與著色

並非所有計算機視覺任務都是為了去擴展機器的仿生認知能力。常常我們會發現,那些一個個走進公眾的生活的新奇應用產品都使用了具有極強適應能力的神經網絡以及其他機器學習技術。去年在超解析度任務、風格遷移與圖像著色的研究就是這樣的例子。

超解析度(Super-resolution)任務指的是從一個低解析度樣本上預測出一個高解析度版本的過程,此外,它也指對圖像特徵在不同放大倍數情況下的預測(這一點人類大腦幾乎可以不費吹灰之力就辦到)。最初的超分辨任務是通過如「雙三次插值法」、「最鄰近規則」這樣的簡單技術來實現的。但是對於商業應用而言這顯然不夠,人們希望系統能克服因數據源質量不高而出現的解析度低的問題,實現像電視劇《犯罪現場調查:邁阿密》中那樣的圖像增強技術。正是這樣的願景推動著領域研究的前進。下面列舉相關方面的年度進展以及其潛在的影響:

神經增強(Neural Enhance)[65]:是 Alex J. Champandard 的項目,通過結合 4 篇不同的研究論文,他實現了自己的超解析度方案。

Real-Time Video Super Resolution:2016 年也有兩篇相關的著名論文 [66][67]。

RAISR(Rapid and Accurate Image Super-Resolution),該技術來自谷歌,通過使用由高、低解析度圖像配對而成的數據訓練的過濾器,系統避免了對內存與神經網絡速度的高度依賴。作為一個基於學習的框架,RAISR 比其競爭對手快了兩個數量級。此外,相較於基於神經網絡的方法,系統的內存需求達到了最低。因此超解析度技術可以擴展到行動裝置上。[69]

圖 7:SRGAN 的超解析度任務示例,來源 Ledig et al. (2017)[70]。從左至右分別為「雙三次插值法」、優化了均方誤差性能的深度殘差網絡、深度殘差生成對抗網絡、原始高清圖像。相關的峰值信噪比(PSNR)與結構相似性在括號中已列出。[4 倍清晰度倍增]

使用了生成對抗網絡之後,系統達到了目前超解析度技術的最先進水平:

SRGAN[71] 使用了一個判別網絡,它可以區分經過超解析度處理的圖像與原始照片圖像的區別。藉助這個網絡,系統可以為大量公開數據集上的採樣圖像提供和照片一樣真實的紋理特徵。

儘管從峰值信噪比(PSNR)標準來看 SRResNet 的表現最佳,但是就畫質而言,SRGAN 的表現才是最好的,它生成了更好的紋理細節,並且得到了最高的平均主觀意見分(Mean Opinion Score, MOS)。「就我們所知,這是第一個能夠以*4*倍清晰度推理提升逼真自然圖像的框架。」[72]

Amortised MAP Inference for Image Super-resolution[73]:提出了一個計算最大後驗概率(Maximum a Posteriori,MAP)的方法(該方法使用了一個卷積神經網絡)。他們的研究提出了三條優化方法,然而對於每一條來說,其目前在真實圖像數據上的表現都遜於生成對抗網絡。

圖 8:風格遷移,圖中顯示的是將不同的風格遷移到一隻貓的照片上(原圖位於左上方),圖片來源 Nikulin & Novakle(2016)。

毫無疑問,風格遷移以新穎的方式使用了神經網絡,從而進入了公眾領域。比較著名的案例如 Facebook 去年進行的整合以及像 Prisma[74] 和 Artomatix[75] 等公司的成果。雖然風格遷移這種技術由來已久,但是直到 2015 年,它可以用神經網絡進行處理的方法才隨著《藝術風格的神經算法》[76] 的發表而被人知曉。從那以後,作為計算機視覺領域的系列進展,風格遷移的概念得到了 Nikulin 和 Novak[77] 二人的擴展,並且風格遷移也被應用到了視頻領域 [78]。

圖 9:風格遷移的其他案例,來源於 Dumoulin et al. (2017, p. 2)[79]。上圖第一行(從左到右)的圖片代表了系統將向原始圖片遷移的藝術風格。圖中第一列(從上到下)的圖片則是將被進行藝術遷移處理的 3 張原始圖片(女性、金門大橋、草地環境)。單個風格遷移網絡在使用條件歸一化後,可以同時捕捉到 32 種風格。圖中顯示的是其中 5 種。全部樣式可在原論文附錄中進行查看。該項工作將會在 2017 ICLR 大會上進行討論。

風格遷移是一個熱門話題,它會在視覺上給人耳目一新的感覺。試想你有一副圖,然後將另一幅圖的風格特徵應用到這幅圖上會怎麼樣,比如用一位著名畫家或某一副名畫的風格來修改你的圖像。就在今年,Facebook 發布了他們的 Caffe2Go[80],該深度學習系統可以整合到行動裝置上。谷歌也發布了部分有趣的工作,通過結合多種樣式,系統可以創造一種獨一無二的圖像樣式,完整論文參見 [82]。

此外,移動整合、風格遷移技術已經應用在了遊戲產業的創作中。我們團隊的成員最近在 Artomatix 公司創始人兼 CTO Eric Risser 的一個演講中看到,他們已經在討論將風格遷移技術應用於遊戲內容創作了(比如圖像紋理的變化等等)。這種工作會顯著減小傳統圖像紋理設計師的工作。

著色(Colourisation)是指將單色圖像轉換成全彩的過程。最初這樣工作是由人工操作完成的,人們會花非常多的精力去選擇每幅圖中特定像素應該使用的顏色。長久以來,讓畫面變得真實一直是人類著色家的專利,但是到 2016 年,技術的進步讓機器也可能辦到這一點。雖然人類可能無法精準地還原圖像中事物的真實顏色,但是他們可以憑藉自己對真實世界的知識來讓自己的著色在某種程度上看起來是連貫且不奇怪的。

在著色的過程中,網絡會根據其對物體位置、紋理與環境的理解來選擇最可能的顏色添加到圖像上。比如它會學習到皮膚是略帶血色的,天空是帶些藍色的。

下面是年度三項影響力最大的工作:

Zhang 等人 [83] 提出了一個方法,該方法以 32% 的概率成功欺騙了人類測試者,這是一個著色視覺的圖靈測試。

Larsson 等人 [84] 通過使用深度學習來進行直方圖預測,他們讓系統實現了全自動著色功能。

Lizuka, Simo-Serra 和 Ishikawa[85] 展示了一個基於卷積神經網絡的著色模型。該項工作達到了目前最先進的水平。在我們看來,他們的系統表現從質量上來看是最好的,同時其結果看起來也是最真實的,圖 10 提供了對比圖。

圖 10:著色研究成果對比,來源 Lizuka et al. 2016[86]。上圖從上到下,第一列包含的是等待著色的原始單色圖像輸入。其他的幾列展示了 2016 年多個不同研究生成的著色結果。從左到右看,分別是第二列 Larsson et al.[84]、第三列 Zhang et al.[83]、以及 Lizuka, Simo-Serra 和 Ishikawa[85] 的研究成果,也就是圖中被作者稱為「ours」的那個團隊。縱觀整個比較,第三行(圖中有一群男孩)的著色差異是最明顯的。對此我們相信 Lizuka 等人的工作(第 4 列)在著色結果上看是領先於其對手的。

「進一步來說,我們的架構可以處理任何解析度的圖像,這與大多數基於卷積神經網絡的現有技術不同。」

在一次測試模型生成圖像自然程度的實驗中,研究人員向被試者隨機提供一張模型生成的圖像,並提問:「這幅圖在你看來自然嗎?」

實驗結果證明,Lizuka 等人的方法得到了 92.6% 的認可度,基線水準達到了 70%。要知道以當時的技術來看,彩色照片大約在 97.7% 的程度上看起來是自然的。

行為識別

行為識別任務有兩個含義,一個是在給定視頻內對一種動作進行分類;最近更多指的是指:算法僅需要觀察一部分場景,就可以在實際動作還沒出現之前便預測出相關的結果。按照這種視角,我們發現,最近的研究試圖將語境因素嵌入算法的決策過程。這一點與計算機視覺的其他領域類似。以下是該領域的部分重要論文:

Long-term Temporal Convolutions for Action Recognition[87] 藉助卷積神經網絡的一個變體和人類動作的時空結構,例如特殊的運動或是持續的動作,來正確識別動作。為了克服對長時間動作的局部最優時序建模(sub-optimal temporal modelling)問題,作者提出了一個長期時序卷積神經網絡(LTC-CNN),以此來改善行為識別的精確性。簡單地來說,LTC 可以通過觀察視頻中尺寸較大的部分畫面來識別動作。他們使用並擴展了 3D 卷積神經網絡,使得動作可以在一個更充足的時間範圍內進行表示。

「我們在兩個具有挑戰性的人類行為識別基準上分別實現了 UCF101 (92.7%)、HMDB51 (67.2%),達到目前最先進的水平。」

Spatiotemporal Residual Networks for Video Action Recognition[88] 將兩種卷積神經網絡的變體應用到了行為識別中,該系統結合了傳統卷積神經網絡與新近熱門的殘差網絡(ResNets)。這兩種方法的靈感來自神經科學關於視覺皮層的功能假設。比如,在視覺中識別形狀/顏色與行動是互相分離的。論文的作者通過在兩個卷積網絡中加入殘差連接,讓模型有了殘差網絡的優勢。

「這兩個網絡首先分別會自己執行視頻識別任務與最後的分類任務,然後系統會引入 softmax 分值對二者進行融合。迄今為止,這是應用機器學習進行行為識別最有效的方法,尤其當訓練數據有限的情況下更是如此。在我們的工作中,我們將圖像卷積網絡直接轉換成了 3D 架構,結果顯示系統在兩種人類行為識別基準 UCF101 和 HMDB51 上性能大幅提高,分別達到了 94% 和 70.6%」。Feichtenhofer 等人改進了傳統 IDT 方法,結合以上兩種技術得到了更好的結果。

Anticipating Visual Representations from Unlabeled Video[89] 雖然嚴格上來說這不是一篇關於行為分類的論文,但是它還是非常吸引人。作者提出的模型可以通過分析一個視頻內某個動作發生前(最長可達 1 秒前)的畫面來預測何種動作將有可能會發生。他們選擇了視覺表徵而非逐像素分類的方法,也就是說,程序可以在沒有標註數據存在的情況下工作,這裡利用了深度神經網絡可以進行強大的特徵學習的這一優點 [90]。

「我們方法的關鍵思想在於,我們可以訓練深度網絡,讓它來預測未來可能在圖像中出現的視覺表徵。視覺表徵是一個可靠的預測目標,因為它們站在比像素層面高的語義層面來編碼圖像。然後,我們在預測得到的表徵上應用識別算法,從而得出對目標和動作的估計。」

Thumos Action Recognition Challenge[91] 的組織者發表了一篇論文,總結了近年來對行為進行識別的一般方法。文章還提供了從 2013 年到 2015 年挑戰賽的綱要,以及關於如何讓計算機進行行為識別的一個整體理解。遺憾的是(似乎)去年沒有舉辦該比賽,我們希望 Thumos 行為識別挑戰有望在今年(2017)回歸。

相關焦點

  • 騰訊優圖的 ICCV 2017:12篇論文入選 CV 頂會,3篇Oral|ICCV 2017
    其中有45篇口頭報告(Oral)和56篇亮點報告(Spotlight)。今年參會人數預計將超過3000人,可見其火爆程度。ICCV作為計算機視覺領域最高級別的會議之一,其論文集代表了計算機視覺領域最新的發展方向和水平。
  • 輕鬆學Pytorch –Mask-RCNN圖像實例分割
    ()transform = torchvision.transforms.Compose([torchvision.transforms.ToTensor()])train_on_gpu = torch.cuda.is_available()if train_on_gpu:model.cuda()基於輸入圖像,實現Mask-RCNN模型推理預測,得到對象與實例分割
  • 100個深度圖像分割算法,紐約大學UCLA等最新綜述論文
    對近幾年深度學習圖像分割進行了全面綜述,對現有的深度學習圖像分割研究進行梳理使其系統化,並提出6方面挑戰,幫助讀者更好地了解當前的研究現狀和思路。可作為相關領域從業者的必備參考文獻。在本次綜述中,我們全面回顧了撰寫本文時的論文,涵蓋了語義級和實例級分割的廣泛先驅工作,包括全卷積像素標記網絡、編碼器-解碼器架構、基於多尺度和金字塔的方法、遞歸網絡、視覺注意力模型和在對抗環境下的生成模型。我們調研了這些深度學習模型的相似性、優勢和挑戰,研究了最廣泛使用的數據集,報告了性能,並討論了該領域未來的研究方向。
  • 從傳統圖像算法到深度學習,文字識別技術經歷了這些變化
    文字識別的發展大致可以分為兩個階段,分別是傳統圖像算法階段和深度學習算法階段。傳統圖像算法2012年之前,文字識別的主流算法都依賴於傳統圖像處理技術和統計機器學習方法實現,利用光學技術和計算機技術把印在或寫在紙上的文字讀取出來,並轉換成一種計算機能夠接受、人又可以理解的格式。
  • 解讀騰訊優圖ICCV2017 12篇論文:全球首個AI卸妝效果的算法等
    騰訊優圖實驗室公布了本屆大會的成績:共有12篇論文入選,居業界實驗室前列,其中3篇被選做口頭報告(Oral)。此次騰訊優圖入選的論文提出了諸多亮點:全球首個AI卸妝效果的算法;現今最準確的單張圖像深度估計算法;完美解決多幀信息融合困難的多幀超解析度視頻結果;史無前例的手機雙攝圖像匹配和分割研究成果。
  • 曠視科技 CSG 算法負責人姚聰:深度學習時代的文字檢測與識別技術...
    原標題:曠視科技 CSG 算法負責人姚聰:深度學習時代的文字檢測與識別技術 | AI 研習社 103 期大講堂 雷鋒網 AI 研習社按:隨著深度學習的興起和發展,計算機視覺領域發生了極大的變化。
  • 超多,超快,超強!百度飛槳發布工業級圖像分割利器PaddleSeg
    機器之心發布機器之心編輯部近日,飛槳官方發布了工業級圖像分割模型庫 PaddleSeg,給開發者帶來誠意滿滿的三重超值驚喜:①一次性開源 15 個官方支持的圖像分割領域主流模型,大禮包帶來大滿足。②多卡訓練速度比對標產品快兩倍,工業級部署能力,時間節省超痛快。
  • AI深度(下) | 非人臉識別和ToF技術
    在AI智道AI深度(上)中,紐豪斯為大家帶來了雙目攝像技術和3D結構光技術,在下篇中,紐豪斯繼續為大家深度解讀非人聯識別和ToF技術、雷射雷達技術。ToF技術ToF技術的原理是:測量發射紅外(IR)信號與相位延遲計算每個Sensor像素到目標物體的距離。TOF是Time of flight的簡寫,直譯為飛行時間的意思。
  • 圖像配準的前世今生:從人工設計特徵到深度學習
    選自Medium作者:Emma Kamoun機器之心編譯參與:Nurhachu Null,Geek AI作為計算機視覺的重要研究課題,圖像配準經歷了從傳統方法走向深度學習的重要革命。本文將回顧圖像配準技術的前世今生,為讀者提供一個該領域的宏觀視野。圖像配準是計算機視覺領域的一個基礎步驟。在本文深入探討深度學習之前,我們先展示一下 OpenCV 中基於特徵的方法。什麼是圖像配準?圖像配準就是將同一個場景的不同圖像轉換到同樣的坐標系統中的過程。
  • 語義分割領域開山之作:Google提出用神經網絡搜索實現語義分割
    Motivation深度學習技術已經成為當前人工智慧領域的一個研究熱點,其在圖像識別、語音識別、自然語言處理等領域展現出了巨大的優勢,並且仍在繼續發展變化。自 Google 提出 Cloud AutoML,NAS(Neural Architecture Search,神經網絡架構搜索)也取得重大進展,但更多的是在圖像分類和自然語言處理方面的應用。
  • 技術| 基於深度學習圖像識別的變電站監控系統
    打開APP 技術 | 基於深度學習圖像識別的變電站監控系統 發表於 2019-07-22 08:29:10 基於計算機網絡技術以及無線通信技術和視頻監控技術,研究深度學習圖像識別的變電站基建安全行為監控系統。
  • 分享一個PyTorch醫學圖像分割開源庫
    分享一位52CV粉絲Ellis開發的基於PyTorch的專注於醫學圖像分割的開源庫,其支持模型豐富,方便易用。其可算為torchio的一個實例,作者將其綜合起來,包含眾多經典算法,實用性比較強。地址在這裡:https://github.com/MontaEllis/Pytorch-Medical-Segmentation該庫特點:支持2D和3D醫學圖像分割,可以修改hparam.py文件來確定是2D分割還是3D分割以及是否可以進行多分類
  • 從全卷積網絡到大型卷積核:深度學習的語義分割全指南
    By路雪 2017年7月14日  語義分割一直是計算機視覺中十分重要的領域,隨著深度學習的流行,語義分割任務也得到了大量的進步。本文首先闡釋何為語義分割,然後再從論文出發概述多種解決方案。本文由淺層模型到深度模型,簡要介紹了語義分割各種技術,雖然本文並沒有深入講解語義分割的具體實現,但本文簡要地概述了每一篇重要論文的精要和亮點,希望能給讀者一些指南。
  • 深度學習與圖像識別 圖像檢測
    ,百度盤群組分享連結更新時間:2017-07-18,失效請在文末留言,不要在後臺留言,你也可以在後臺菜單「資源搜索」搜索更多你想要的網盤資源! CNN等為什麼對圖像領域更加有效,因為其不但關注了全局特徵,更是利用了圖像識別領域非常重要的局部特徵,應該是將局部特徵抽取的算法融入到了神經網絡中。圖像本身的局部數據存在關聯性,而這種局部關聯性的特徵是其他算法無法提取的。深度學習很重要的是對全局和局部特徵的綜合把握(2)深度學習不是一個黑箱系統。
  • 一文探討可解釋深度學習技術在醫療圖像診斷中的應用
    在預處理步驟中,圖像被縮小到 300x300 像素的解析度,並將 RGB 值在標準化處理到 0 和 1 之間。3.2、MDNet:一個語義和視覺可解釋的醫學圖像診斷網絡[8]近年來,深度學習技術的迅速發展對生物醫學圖像領域產生了顯著的影響。例如,經典圖像分析任務,如分割和檢測等,支持從醫學元數據中快速發現知識,幫助專家進行人工診斷和決策。再比如,醫學中的自動決策任務(例如診斷),通常可被視為標準的深度學習分類問題。
  • 周麗芳:深度拓展圖像識別技術應用,助力數字醫學發展
    以目標檢測及跟蹤、目標識別、醫學圖像分割為主要方向,重慶郵電大學軟體工程學院副教授周麗芳近年來致力於醫學圖像領域的研究,成功開展了多項具有高創新性和科學價值的項目研究。項目成果產生的新技術和新方法為醫學輔助診斷提供了重要參考,同時也推動了醫學圖像分析在理論方法和應用上的進步。  器官分割是醫學圖像處理領域的一個重要課題。
  • PyTorch實現,GitHub4000星:微軟開源的CV庫
    機器之心報導編輯:魔王、陳萍本文介紹了微軟開源的計算機視覺庫,它囊括了計算機視覺領域的最佳實踐、代碼示例和豐富文檔。近年來,計算機視覺領域突飛猛進,在人臉識別、圖像理解、搜索、無人機、地圖、半自動和自動駕駛方面得到廣泛應用。而這些應用的核心部分是視覺識別任務,如圖像分類、目標檢測和圖像相似度。
  • 遙感圖像處理中的深度學習專題 《中國科學:信息科學》英文版
    SCIENCE CHINA InformationSciences Vol. 63 Number 4 專題簡介 深度學習是一種非常適用於大數據應用的新興技術
  • 圖像分割系列<->語義分割
    這期我們就來講講語義分割(Semantic Segmantation), 語義分割是指將圖像中的每一個像素都賦予一個類別標籤,用不同的顏色表示。 Segnet的模型框架和思路比較簡單,應用了當年很火的VGG16框架,去掉全連接層,搭建對稱模型,在2014年當時還沒有興起框架,基於Caffe實現端到端的像素級別網絡模型是很難的,之後在MATLAB2016中,Sgenet成為內置的用於語義分割的深度學習算法。
  • 圖像識別中的深度學習【香港中文大學王曉剛】
    鑑於深度學習在學術界和工業界的巨大影響力,2013年,《麻省理工科技評論》(MIT Technology Review)將其列為世界十大技術突破之首。  深度學習有何與眾不同?  深度學習和其他機器學習方法相比有哪些關鍵的不同點,它為何能在許多領域取得成功?