用於圖像分割的卷積神經網絡:從R-CNN到Mask R-CNN

2021-01-07 機器之心Pro

選自Athelas作者:Dhruv Parthasarathy機器之心編譯參與:王宇欣、hustcxy、黃小天

卷積神經網絡(CNN)的作用遠不止分類那麼簡單!在本文中,我們將看到卷積神經網絡(CNN)如何在圖像實例分割任務中提升其結果。

自從 Alex Krizhevsky、Geoff Hinton 和 Ilya Sutskever 在 2012 年贏得了 ImageNet 的冠軍,卷積神經網絡就成為了分割圖像的黃金準則。事實上,從那時起,卷積神經網絡不斷獲得完善,並已在 ImageNet 挑戰上超越人類。

現在,卷積神經網絡在 ImageNet 的表現已超越人類。圖中 y 軸代表 ImageNet 錯誤率。

雖然這些結果令人印象深刻,但與真實的人類視覺理解的多樣性和複雜性相比,圖像分類還是簡單得多。

分類挑戰賽使用的圖像實例。注意圖像的構圖以及對象的唯一性。

在分類中,圖像的焦點通常是一個單一目標,任務即是對圖像進行簡單描述(見上文)。但是當我們在觀察周遭世界時,我們處理的任務相對複雜的多。

現實中的情景通常由許多不同的互相重疊的目標、背景以及行為構成。

我們看到的情景包含多個互相重疊的目標以及不同的背景,並且我們不僅要分類這些不同的目標還要識別其邊界、差異以及彼此的關係!

在圖像分割中,我們的目的是對圖像中的不同目標進行分類,並確定其邊界。來源:Mask R-CNN

卷積神經網絡可以幫我們處理如此複雜的任務嗎?也就是說,給定一個更為複雜的圖像,我們是否可以使用卷積神經網絡識別圖像中不同的物體及其邊界?事實上,正如 Ross Girshick 和其同事在過去幾年所做的那樣,答案毫無疑問是肯定的。

本文的目標

在本文中,我們將介紹目標檢測和分割的某些主流技術背後的直觀知識,並了解其演變歷程。具體來說,我們將介紹 R-CNN(區域 CNN),卷積神經網絡在這個問題上的最初的應用,及變體 Fast R-CNN 和 Faster R-CNN。最後,我們將介紹 Facebook Research 最近發布的一篇文章 Mask R-CNN,它擴展了這種對象檢測技術從而可以實現像素級分割。上述四篇論文的連結如下:

1. R-CNN: https://arxiv.org/abs/1311.2524

2. Fast R-CNN: https://arxiv.org/abs/1504.08083

3. Faster R-CNN: https://arxiv.org/abs/1506.01497

4. Mask R-CNN: https://arxiv.org/abs/1703.06870

2014 年:R-CNN - 首次將 CNN 用於目標檢測

目標檢測算法,比如 R-CNN,可分析圖像並識別主要對象的位置和類別。

受到多倫多大學 Hinton 實驗室的研究的啟發,加州伯克利大學一個由 Jitendra Malik 領導的小組,問了他們自己一個在今天看來似乎是不可避免的問題:

Krizhevsky et. al 的研究成果可在何種程度上被推廣至目標檢測?

目標檢測是一種找到圖像中的不同目標並進行分類的任務(如上圖所示)。通過在 PASCAL VOC Challenge 測試(一個知名的對象檢測挑戰賽,類似於 ImageNet),由 Ross Girshick(將在下文細講)、Jeff Donahue 和 Trevor Darrel 組成的團隊發現這個問題確實可通過 Krizhevsky 的研究結果獲得解決。他們寫道:

Krizhevsky et. al 第一次提出:相比基於更簡單、HOG 般的特徵的系統,卷及神經網絡可顯著提升 PASCAL VOC 上的目標檢測性能。

現在讓我們花點時間來了解他們的架構 R-CNN 的運作的方式。

理解 R-CNN

R-CNN 的目的為接收圖像,並正確識別圖像中主要目標(通過邊界框)的位置。

輸入:圖像輸出:邊界框+圖像中每個目標的標註

但是我們如何找出這些邊界框的位置?R-CNN 做了我們也可以直觀做到的——在圖像中假設了一系列邊界,看它們是否可以真的對應一個目標。

通過多個尺度的窗口選擇性搜索,並搜尋共享紋理、顏色或強度的相鄰像素。圖片來源:https://www.koen.me/research/pub/uijlings-ijcv2013-draft.pdf

R-CNN 創造了這些邊界框,或者區域提案(region proposal)關於這個被稱為選擇性搜索(Selective Search)的方法,可在這裡(連結:http://www.cs.cornell.edu/courses/cs7670/2014sp/slides/VisionSeminar14.pdf)閱讀更多信息。在高級別中,選擇性搜索(如上圖所示)通過不同尺寸的窗口查看圖像,並且對於不同尺寸,其嘗試通過紋理、顏色或強度將相鄰像素歸類,以識別物體。

在創建一組區域提案(region proposal)後,R-CNN 只需將圖像傳遞給修改版的 AlexNet 以確定其是否為有效區域。

一旦創建了這些提案,R-CNN 簡單地將該區域捲曲到一個標準的平方尺寸,並將其傳遞給修改版的 AlexNet(ImageNet 2012 的冠軍版本,其啟發了 R-CNN),如上所示。

在 CNN 的最後一層,R-CNN 添加了一個支持向量機(SVM),它可以簡單地界定物體是否為目標,以及是什麼目標。這是上圖中的第 4 步。

提升邊界框

現在,在邊界框裡找到了目標,我們可以收緊邊框以適應目標的真實尺寸嗎?我們的確可以這樣做,這也是 R-CNN 的最後一步。R-CNN 在區域提案上運行簡單的線性回歸,以生成更緊密的邊界框坐標從而獲得最終結果。下面是這一回歸模型的輸入和輸出:

輸入:對應於目標的圖像子區域輸出:子區域中目標的新邊界框坐標

所以,概括一下,R-CNN 只是以下幾個簡單的步驟

1. 為邊界框生成一組提案。

2. 通過預訓練的 AlexNet 運行邊界框中的圖像,最後通過 SVM 來查看框中圖像的目標是什麼。

3. 通過線性回歸模型運行邊框,一旦目標完成分類,輸出邊框的更緊密的坐標。

2015: Fast R-CNN - 加速和簡化 R-CNN

Ross Girshick 編寫了 R-CNN 和 Fast R-CNN,並持續推動著 Facebook Research 在計算機視覺方面的進展。

R-CNN 性能很棒,但是因為下述原因運行很慢:

1. 它需要 CNN(AlexNet)針對每個單圖像的每個區域提案進行前向傳遞(每個圖像大約 2000 次向前傳遞)。

2. 它必須分別訓練三個不同的模型 - CNN 生成圖像特徵,預測類別的分類器和收緊邊界框的回歸模型。這使得傳遞(pipeline)難以訓練。

2015 年,R-CNN 的第一作者 Ross Girshick 解決了這兩個問題,並創造了第二個算法——Fast R-CNN。下面是其主要思想。

Fast R-CNN 見解 1:ROI(興趣區域)池化

對於 CNN 的前向傳遞,Girshick 意識到,對於每個圖像,很多提出的圖像區域總是相互重疊,使得我們一遍又一遍地重複進行 CNN 計算(大約 2000 次!)。他的想法很簡單:為什麼不讓每個圖像只運行一次 CNN,然後找到一種在 2000 個提案中共享計算的方法?

在 ROIPool 中,創建了圖像的完整前向傳遞,並從獲得的前向傳遞中提取每個興趣區域的轉換特徵。來源:CS231N 幻燈片,Fei Fei Li、Andrei Karpathy、和 Justin Johnson 史丹福大學

這正是 Fast R-CNN 使用被稱為 RoIPool(興趣區域池化)的技術所完成的事情。其要點在於,RoIPool 分享了 CNN 在圖像子區域的前向傳遞。在上圖中,請注意如何通過從 CNN 的特徵映射選擇相應的區域來獲取每個區域的 CNN 特徵。然後,每個區域的特徵簡單地池化(通常使用最大池化(Max Pooling))。所以我們所需要的是原始圖像的一次傳遞,而非大約 2000 次!

Fast R-CNN 見解 2:將所有模型併入一個網絡

Fast R-CNN 將卷積神經網絡(CNN),分類器和邊界框回歸器組合為一個簡單的網絡。

Fast R-CNN 的第二個見解是在單一模型中聯合訓練卷積神經網絡、分類器和邊界框回歸器。之前我們有不同的模型來提取圖像特徵(CNN),分類(SVM)和緊縮邊界框(回歸器),而 Fast R-CNN 使用單一網絡計算上述三個模型。

在上述圖像中,你可以看到這些工作是如何完成的。Fast R-CNN 在 CNN 頂部用簡單的 softmax 層代替了支持向量機分類器(SVM classfier)以輸出分類。它還添加了與 softmax 層平行的線性回歸層以輸出邊界框坐標。這樣,所有需要的輸出均來自一個單一網絡!下面是整個模型的輸入和輸出:

輸入:帶有區域提案的圖像輸出:帶有更緊密邊界框的每個區域的目標分類

2016:Faster R-CNN—加速區域提案

即使有了這些進步,Faster R-CNN 中仍存在一個瓶頸問題——區域提案器(region proposer)。正如我們所知,檢測目標位置的第一步是產生一系列的潛在邊界框或者供測試的興趣區域。在 Fast R-CNN,通過使用選擇性搜索創建這些提案,這是一個相當緩慢的過程,被認為是整個流程的瓶頸。

微軟研究院首席研究員孫劍領導了 Faster R-CNN 團隊。

2015 年中期,由 Shaoqing Ren、Kaiming He、Ross Girshick 和孫劍組成的微軟研究團隊,找到了一種被其命為 Faster R-CNN 的架構,幾乎把區域生成步驟的成本降為零。

Faster R-CNN 的洞見是,區域提案取決於通過 CNN 的前向(forward pass)計算(分類的第一步)的圖像特徵。為什麼不重複使用區域提案的相同的 CNN 結果,以取代單獨運行選擇性搜索算法?

在 Faster R-CNN,單個 CNN 用於區域提案和分類。

事實上,這正是 Faster R-CNN 團隊取得的成就。上圖中你可以看到單個 CNN 如何執行區域提案和分類。這樣一來,只需訓練一個 CNN,我們幾乎就可以免費獲得區域提案!作者寫道:

我們觀察到,區域檢測器(如 Fast R-CNN)使用的卷積特徵映射也可用於生成區域提案 [從而使區域提案的成本幾乎為零]。

以下是其模型的輸入和輸出:

輸入:圖像(注意並不需要區域提案)。輸出:圖像中目標的分類和邊界框坐標。

如何生成區域

讓我們花點時間看看 Faster R-CNN 如何從 CNN 特徵生成這些區域提案。Faster R-CNN 在 CNN 特徵的頂部添加了一個簡單的完全卷積網絡,創建了所謂的區域提案網絡。

區域提案網絡在 CNN 的特徵上滑動一個窗口。在每個窗口位置,網絡在每個錨點輸出一個分值和一個邊界框(因此,4k 個框坐標,其中 k 是錨點的數量)。

區域生成網絡的工作是在 CNN 特徵映射上傳遞滑動窗口,並在每個窗口中輸出 k 個潛在邊界框和分值,以便評估這些框有多好。這些 k 框表徵什麼?

我們知道,用於人的邊框往往是水平和垂直的。我們可以使用這種直覺,通過創建這樣維度的錨點來指導區域提案網絡。

我們知道圖像中的目標應該符合某些常見的縱橫比和尺寸。例如,我們想要一些類似人類形狀的矩形框。同樣,我們不會看到很多非常窄的邊界框。以這種方式,我們創建 k 這樣的常用縱橫比,稱之為錨點框。對於每個這樣的錨點框,我們在圖像中每個位置輸出一個邊界框和分值。

考慮到這些錨點框,我們來看看區域提案網絡的輸入和輸出:

輸入:CNN 特徵圖。輸出:每個錨點的邊界框。分值表徵邊界框中的圖像作為目標的可能性。

然後,我們僅將每個可能成為目標的邊界框傳遞到 Fast R-CNN,生成分類和收緊邊界框。

2017:Mask R-CNN - 擴展 Faster R-CNN 以用於像素級分割

圖像實例分割的目的是在像素級場景中識別不同目標。

到目前為止,我們已經懂得如何以許多有趣的方式使用 CNN,以有效地定位圖像中帶有邊框的不同目標。

我們能進一步擴展這些技術,定位每個目標的精確像素,而非僅限於邊框嗎?這個問題被稱為圖像分割。Kaiming He 和一群研究人員,包括 Girshick,在 Facebook AI 上使用一種稱為 Mask R-CNN 的架構探索了這一圖像分割問題。

Facebook AI 的研究員 Kaiming He 是 Mask R-CNN 的主要作者,也是 Faster R-CNN 的聯合作者。

很像 Fast R-CNN 和 Faster R-CNN,Mask R-CNN 的基本原理非常簡單直觀。鑑於 Faster R-CNN 目標檢測的效果非常好,我們能將其簡單地擴展到像素級分割嗎?

在 Mask R-CNN 中,在 Faster R-CNN 的 CNN 特徵的頂部添加了一個簡單的完全卷積網絡(FCN),以生成 mask(分割輸出)。請注意它是如何與 Faster R-CNN 的分類和邊界框回歸網絡並行的。

Mask R-CNN 通過簡單地向 Faster R-CNN 添加一個分支來輸出二進位 mask,以說明給定像素是否是目標的一部分。如上所述,分支(在上圖中為白色)僅僅是 CNN 特徵圖上的簡單的全卷積網絡。以下是其輸入和輸出:

輸入:CNN 特徵圖。輸出:在像素屬於目標的所有位置上都有 1s 的矩陣,其他位置為 0s(這稱為二進位 mask)。

但 Mask R-CNN 作者不得不進行一個小的調整,使這個流程按預期工作。

RoiAlign——重對齊 RoIPool 以使其更準確

圖像通過 RoIAlign 而不是 RoIPool 傳遞,使由 RoIPool 選擇的特徵圖區域更精確地對應原始圖像的區域。這是必要的,因為像素級分割需要比邊界框更細粒度的對齊。

當運行沒有修改的原始 Faster R-CNN 架構時,Mask R-CNN 作者意識到 RoIPool 選擇的特徵圖的區域與原始圖像的區域略不對齊。因為圖像分割需要像素級特異性,不像邊框,這自然地導致不準確。

作者通過使用 RoIAlign 方法簡單地調整 RoIPool 來更精確地對齊,從而解決了這個問題。

我們如何準確地將原始圖像的相關區域映射到特徵圖上?

想像一下,我們有一個尺寸大小為 128x128 的圖像和大小為 25x25 的特徵圖。想像一下,我們想要的是與原始圖像中左上方 15x15 像素對應的區域(見上文)。我們如何從特徵圖選擇這些像素?

我們知道原始圖像中的每個像素對應於原始圖像中的25/128 像素。要從原始圖像中選擇 15 像素,我們只需選擇 15 * 25/128=2.93 像素。

在 RoIPool,我們會捨棄一些,只選擇 2 個像素,導致輕微的錯位。然而,在 RoIAlign,我們避免了這樣的捨棄。相反,我們使用雙線性插值來準確得到 2.93 像素的內容。這很大程度上,讓我們避免了由 RoIPool 造成的錯位。

一旦這些掩碼生成,Mask R-CNN 簡單地將它們與來自 Faster R-CNN 的分類和邊界框組合,以產生如此驚人的精確分割:

Mask R-CNN 也能對圖像中的目標進行分割和分類.

展望

在過去短短 3 年裡,我們看到研究界如何從 Krizhevsky 等人最初結果發展為 R-CNN,最後一路成為 Mask R-CNN 的強大結果。單獨來看,像 MASK R-CNN 這樣的結果似乎是無法達到的驚人飛躍。然而,通過這篇文章,我希望你們認識到,通過多年的辛勤工作和協作,這些進步實際上是直觀的且漸進的改進之路。R-CNN、Fast R-CNN、Faster R-CNN 和最終的 Mask R-CNN 提出的每個想法並不一定是跨越式發展,但是它們的總和卻帶來了非常顯著的效果,幫助我們向人類水平的視覺能力又前進了幾步。

特別令我興奮的是,R-CNN 和 Mask R-CNN 間隔只有三年!隨著持續的資金、關注和支持,計算機視覺在未來三年會有怎樣的發展?我們非常期待。

原文連結:https://blog.athelas.com/a-brief-history-of-cnns-in-image-segmentation-from-r-cnn-to-mask-r-cnn-34ea83205de4

相關焦點

  • 圖像分割二十年,Mask R-CNN 影響力僅排第十?
    (Instance segmentation)算法,在圖像分割領域可謂「家喻戶曉」。發布信息:2015,IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE論文:https://arxiv.org/pdf/1511.00561.pdf代碼:https://github.com/aizawan/segnetSegNet是用於進行像素級別圖像分割的全卷積網絡
  • 學術交流丨從感知到認知的飛躍 智能GIS技術再升級
    引入了新的網絡算法模型:新增土地利用全要素分割模型,對自然資源全要素進行分割(如下方左圖所示:0表示背景,1人工用地,2農業用地,3林地,4草地);新增對象檢測網絡模型,能夠對車輛、棕櫚樹等地面目標做檢測。
  • 改進卷積神經網絡,你需要這14種設計模式
    自從 2011 年深度卷積神經網絡(CNN)在圖像分類任務中優於人類開始,它們就成為了計算機視覺任務中的行業標準,這些任務包括圖像分割、目標檢測、場景標記、跟蹤以及文本檢測等等。然而,訓練神經網絡的技巧並不容易掌握。與之前的機器學習方法一樣,細節是最恐怖的地方,然而在卷積神經網絡中有更多的細節需要去管理:你所用的數據和硬體的限制是什麼?你應該以哪種網絡作為開始呢?
  • 深度學習概述:NLP vs CNN
    這項技術在過去十年的時間內幾乎將其影響擴展到了所有行業。現在,每家公司都希望在其系統中實現這一尖端技術,以降低成本、節省時間,並通過自動化使整個工作流程更加高效。最初的人工智慧和深度學習算法比較簡單,就像我們所知的簡單感知器模型和單層神經網絡一樣。隨著時間的推移和更加專注的研究,我們已經擁有了具有多層結構的複雜神經網絡。
  • ConvCRF:一種結合條件隨機場與CNN的高效語義分割方法 - 機器之心Pro
    語義分割等結構化預測任務可以從條件隨機場等概率圖模型獲取很多優勢,但由於條件隨機場的訓練速度及訓練難度,目前研究者基本上都僅使用卷積網絡進行處理。本文提出了一種卷積條件隨機場,它能以卷積運算的方式解決 CRF 的兩個大問題,並結合 CNN 實現更好的語義分割效果。語義圖像分割旨在為圖像中的每個像素生成分類標籤,是視覺感知中的一個重要任務。
  • PyTorch實現TPU版本CNN模型
    為了得到更準確的結果,數據的大小是非常重要的,但是當這個大小影響到機器學習模型的訓練時間時,這一直是一個值得關注的問題。為了克服訓練時間的問題,我們使用TPU運行時環境來加速訓練。為此,PyTorch一直在通過提供最先進的硬體加速器來支持機器學習的實現。
  • 無所不能的Embedding5 - skip-thought的兄弟們「Trim/CNN-LSTM/...
    按1維圖像來理解,這裡N是圖像長度,K是圖像channel。作者定義了3種不同kernel_size=3/4/5的cnn cell,其實和n-gram的原理近似就是分別學習局部window_size=3/4/5的三種序列信息,因為cnn是共享參數的所以1個filter只能提取1種token組合的序列特徵,所以每個cnn cell都有800個filter。
  • 用於視頻回歸任務的長期循環卷積網絡
    處理視頻意味著處理圖像,所以這裡需要cnn。但是,有不同的方法來處理時態組件。2、3d CNN這種方法背後的邏輯非常直觀,因為卷積中的第三維可以對應於時間域,從而可以直接從一個網絡學習時空特徵。3、長期循環卷積網絡(LRCN)2016年,一組作者提出了用於視覺識別和描述的端到端可訓練類架構。
  • 視覺工具包torchvision重大更新:支持分割模型、檢測模型
    這次,工具包裡增加了許多新模型:做語義分割的,做目標檢測的,做實例分割的……也增加了許多數據集,比如ImageNet,CelebA,Caltech 101等等等等。另外,torchvision還有了不少視覺專用的C++/Cuda算子。消息一出,小夥伴們紛紛奔走相告。現在,來仔細觀察一下,新的torchvision都有哪裡變強了。
  • 用於多關係數據的圖神經網絡R-GCNs
    知識圖作為多關係數據基本圖結構包括用於連接節點的無向,無類型和唯一邊。 例如,在哲學領域,我們可以定義兩個由「蘇格拉底」和「柏拉圖」實體表示的節點之間的連結。 在這種特定情況下,我們不提供關於這些哲學家之間關係的任何信息。。另一方面,KG包括定向的,類型化的和用於連接節點的多個邊。 考慮我們正在運行的示例,從「蘇格拉底」到「柏拉圖」的連接可以用「影響」來標記。
  • SNE-RoadSeg:一種基於表面法向量提取的道路可行駛區域分割方法
    最主要的核心思想是在表面發現估計器的設計,在得到表面法線後將其用於分割網絡的編碼器環節,並在特徵融合部分,借鑑了DenseNet的思想,進行密集連接。網絡的計算量和參數量文中並沒有比較,應該做不到實時。
  • 一文概述用 python 的 scikit-image 模塊進行圖像分割
    雷鋒網 AI 科技評論按,隨著人工智慧技術的逐年火熱,越來越多的人投入到計算機視覺領域的相關研究中。而圖像分割是圖像處理中非常重要的一個步驟,它是把圖像分成若干個特定的、具有獨特性質的區域,並提取出感興趣目標的技術。近日,工程師 Parul Pandey 發表了一篇博文,在博文中,她介紹了用 python 的 scikit-image 庫進行圖像分割的方法。
  • 在PyTorch中使用DeepLabv3進行語義分割的遷移學習
    在本文中,我將介紹如何使用預先訓練的語義分割DeepLabv3模型,通過使用遷移學習在PyTorch中進行道路裂縫檢測。同樣的過程也可以應用於調整自定義數據集的網絡。介紹讓我們首先簡要介紹圖像分割。[3]隨著深度學習的最新進展以及卷積神經網絡在圖像相關任務中比傳統方法的成功,這些技術也已應用於圖像分割任務。這些網絡架構之一是Google的DeepLabv3。 對模型的工作原理進行解釋超出了本文的範圍。 相反,我們將專注於如何對數據集使用經過預訓練的DeepLabv3網絡。 為此,我們將簡要討論轉移學習。
  • 完全理解PolarMask-圖像實例分割-anchor free新思路
    網絡架構經過網絡可以得到中心點的位置和36根射線的交點的距離。之後連接這些點構成一個輪廓。連通區域就是實例分割的結果。(Fig.7)Fig.7 Polar Segmentation建模在實驗中,文章以重心為基準,映射到特徵圖上。在重心周圍採樣作為正樣本,別的地方作為負樣本。
  • 伯克利AI實驗室最新發文:公布用於機器人抓取的Dexterity Network...
    把手和圓柱體這樣適合抓取的幾何特徵可以在部分點雲中看到,它們和抓取之間的關聯性也可以在模型生成的樣本中觀察到。我們假設具有多層濾波器的深度CNN模型可以學到這些關聯性,從而識別出幾何體,與用於圖像分類的CNN模型可以學到類Gabor濾波器類似。
  • 卷積神經網絡理解(一):濾波器的意義
    卷積神經網絡的發展二. 卷積神經網絡的重要性三. 卷積神經網絡與圖像識別四. 濾波器一.卷積神經網絡的發展卷積神經網絡受到視覺細胞研究的啟發,1962年,Hubel和Wiesel發現初級視覺皮層中的神經元會響應視覺環境中特定的簡單特徵(比如有向的邊等)。
  • 基於PVANet卷積神經網絡模型的交通標誌識別算法
    而且, 異於傳統的人工設計特徵提取器, 卷積神經網絡目標物體檢測可自主學習視頻、圖像信息中的特徵, 從而檢測到更多類別以及更細分類的物體[2]。小目標檢測主要是對圖像或視頻中的標誌、行人或車輛等顯示尺寸較小的目標進行檢測, 在民用、軍事和安防等領域具有十分重要的作用[1]。
  • 讓你的電腦擁有「視力」,用卷積神經網絡就可以!
    卷積神經網絡極大地提升了圖像識別模型的精度,在生活中也有很多的應用。在這篇文章中,我將描述它的工作原理、一些實際應用,以及如何用Python和Keras是實現一個卷積神經網絡。通過這個過程,一個神經網絡可以學習並提高預測的準確度。我不會講述反向傳播過程和損失函數,但是有許多很棒的資源介紹了它們,例如這一篇。卷積神經網絡(Convolutional Neural Networks)是神經網絡的一種特別的類型。它們在圖像數據集上表現的很好。
  • 用深度學習(CNN RNN Attention)解決大規模文本分類問題 - 綜述和...
    應用深度學習解決大規模文本分類問題最重要的是解決文本表示,再利用CNN/RNN等網絡結構自動獲取特徵表達能力,去掉繁雜的人工特徵工程,端到端的解決問題。額外多提一點,實際上word2vec學習的向量和真正語義還有差距,更多學到的是具備相似上下文的詞,比如「good」「bad」相似度也很高,反而是文本分類任務輸入有監督的語義能夠學到更好的語義表示,有機會後續系統分享下。至此,文本的表示通過詞向量的表示方式,把文本數據從高緯度高稀疏的神經網絡難處理的方式,變成了類似圖像、語音的的連續稠密數據。