機器不學習:用CNN分100000類圖像

2021-01-07 機器學習e

[論文名稱]:Dual-Path Convolutional Image-Text Embedding

[來源]:http://cn.arxiv.org/abs/1711.05535

在這篇文章中我們嘗試了 用CNN分類113,287類圖像。

實際上我們將每張訓練集中的圖像認為成一類。(當然如果只用一張圖像一類,CNN肯定會過擬合)。同時,我們利用了5句圖像描述(文本),加入了訓練。所以每一類相當於 有6個樣本 (1張圖像+5句描述)。文章想解決的問題是instance-level的retrieval,也就是說 如果你在5000張圖的image pool中,要找「一個穿藍色衣服的金髮女郎在打車。」 實際上你只有一個正確答案。不像class-level 或category-level的 要找「女性「可能有很多個正確答案。所以這個問題更細粒度,也更需要detail的視覺和文本特徵。

同時我們又觀察到好多之前的工作都直接使用 class-level的 ImageNet pretrained 網絡。但這些網絡實際上損失了信息(數量/顏色/位置)。以下三張圖在imagenet中可能都會使用Dog的標籤,而事實上我們可以用自然語言給出更精準的描述。也就是我們這篇論文所要解決的問題(instance-level的圖文互搜)。

[Method]:

對於自然語言描述,我們採用了相對不那麼常用的CNN 結構,而不是LSTM結構。來並行訓練,finetune整個網絡。結構如圖。

2. Instance loss。 我們注意到,最終的目的是讓每一個圖像都有區分(discriminative)的特徵,自然語言描述也是。所以,為什麼不嘗試把每一張圖像看成一類呢。這招其實在之前做行人重識別就常用,但行人重識別(1467類,每類9.6張圖像)沒有像我們這麼極端。

Flickr30k:31,783類 (1圖像+5描述), 其中訓練圖像為 29,783

MSCOCO:123,287類 (1圖像 + ~5描述), 其中訓練圖像為 113,287

注意到 Flickr30k中其實有挺多挺像的狗的圖像。

不過我們仍舊將他們處理為不同的類,希望也能學到細粒度的差別。

(而對於CUHK-PEDES,因為同一個人的描述都差不多。我們用的是同一個人看作一個類,所以每一類訓練圖片多一些。CUHK-PEDES用了annotation,而MSCOCO和Flickr30k我們是沒有用的。)

3. 如何結合 文本和圖像一起訓練?

其實在最後分類fc前,讓文本和圖像使用一個W,那麼在update過程中會用一個軟的約束,這就完成了(詳見論文 4.2)。 在實驗中我們發現光用這個W軟約束,結果就很好了。(見論文中StageI的結果)

4.訓練收斂麼?

收斂的。歡迎大家看代碼。就是直接softmax loss,沒有trick。

圖像分類收斂的快一些。文本慢一些。

5. instance loss 是無監督的麼?

instance loss的假設是無監督的,因為我們沒有用到額外的信息 (類別標註等等)。而是用了 「每張圖就是一類」 這種信息。

[Results]

TextCNN 有沒有學出不同詞,不同的重要程度?(文章附錄)

我們嘗試了從句子中移除一些詞,看移除哪些對匹配score影響最大。

一些圖文互搜結果(文章附錄)

自然語言找行人

細粒度的結果

論文中可能細節說得還不是很清楚,歡迎看代碼/交流。

https://github.com/layumi/Image-Text-Embedding

相關焦點

  • 在多目標識別方面,maskr-cnn已經取得了一些進展
    maskr-cnn是業界首款實用的全卷積神經網絡模型,為計算機視覺中的多目標識別與自動對焦,開創性的成為計算機視覺發展的新方向。無論是基於計算機視覺的自動對焦系統、模式識別系統,還是圖像識別,maskr-cnn都是有標誌性意義的。它強調平滑準確的計算輸入、檢測框和定位點,訓練過程與特徵提取過程採用多級感受野融合技術進行自動優化提高目標解析度及精度,以及做出精度更高的語義推理判斷。
  • 深度學習技術和卷積神經網絡(CNN)讓機器視覺識別更智能
    隨著人工智慧技術的進步,深度學習技術(DL)和卷積神經網絡技術(CNN)領域的人工智慧(AI)被引入到機器視覺圖像處理系統的應用中來,從而幫助機器學習和機器檢測缺陷更加高效,使機器視覺識別的過程更加精確。也讓使用這些技術的企業可以從智能化中獲得更高的生產經營效益。
  • 深度學習與圖像識別 圖像檢測
    傳統的BP算法針對高維的數據也是效果不佳。 CNN等為什麼對圖像領域更加有效,因為其不但關注了全局特徵,更是利用了圖像識別領域非常重要的局部特徵,應該是將局部特徵抽取的算法融入到了神經網絡中。圖像本身的局部數據存在關聯性,而這種局部關聯性的特徵是其他算法無法提取的。
  • 經典目標檢測方法Faster R-CNN和Mask R-CNN|基於PaddlePaddle深度...
    機器視覺領域的核心問題之一就是目標檢測 (object detection),它的任務是找出圖像當中所有感興趣的目標 (物體),確定其位置和大小。作為經典的目標檢測框架 Faster R-CNN,雖然是 2015 年的論文,但是它至今仍然是許多目標檢測算法的基礎,這在飛速發展的深度學習領域十分難得。
  • 機器不學習:CNN入門講解-卷積層是如何提取特徵的?
    採樣層負責特徵選擇,全連接層負責分類『這位同學,你說的簡單,其實我對卷積層怎麼實現特徵提取完全不懂』問的好,卷積神經網絡的出現,以參數少,訓練快,得分高,易遷移的特點全面碾壓之前的簡單神經網絡而其中的卷積層可以說是這個卷積神經網絡的靈魂我們接下來會分兩節來分析
  • 關於MATLAB 圖像處理與深度學習的作用分析和介紹
    接下來我們將介紹如何創建該算法,並說明為何深度學習和圖像處理對於對象檢測和圖像分類同樣十分有用。 圖像處理與深度學習 我們重點介紹兩種技術: 圖像處理 按像素級別變換或者修改圖像。比如,過濾、模糊、去模糊和邊緣檢測等; 深度學習 通過學習樣本圖像自動識別圖像特點。近幾年,深度學習已經徹底改變了圖像處理領域。
  • 語音識別 AI 挑戰賽上線:用深度學習三種結構,對 50 種環境聲音...
    從而實現對輸入的複雜數據的高效處理,使機器可以像人一樣智能地學習不同的知識,並且有效地解決多類複雜的智能問題;例如:語音識別、圖像視頻識別、語言處理和信息檢索等領域。根據深層神經網絡的構造方式、訓練方法等因素,我們將深度學習分為了 3 大類別:生成深層結構、判別深層結構以及混合深層結構。
  • 一文就讀懂機器學習及其在遙感中的應用
    遙感圖像分類是遙感圖像信息處理中最基本的問題之一,其分類技術是遙感應用系統中的關鍵技術,遙感圖像分類方法的精度直接影響著遙感技術的應用發展。許多研究者一直在嘗試、改進,探索新的方法,以不斷提高遙感圖像自動分類算法的精度和速度。  本文基於機器學習,細細研讀了其在遙感中的應用。
  • 機器視覺和智能圖像處理技術之間的關係
    從跟蹤國外品牌產品起步,經過二十多年的努力,國內的機器視覺從無到有,從弱到強,不僅理論研究進展迅速,而且已經出現一些頗具競爭力的公司和產品。估計隨著國內對機器視覺研究、開發和推廣的不斷深入,趕上和超越世界水平已不是遙不可及的事情了。 常見機器視覺系統主要可分為兩類,一類是基於計算機的,如工控機或PC,另一類是更加緊湊的嵌入式設備。
  • 基於PyTorch圖像特徵工程的深度學習圖像增強
    當我們處理圖像數據時,同樣的想法也適用。這就是圖像增強的主要作用。這一概念不僅僅局限於黑客競賽——我們在工業和現實世界中深度學習模型項目中都使用了它!圖像增強功能幫助我擴充現有數據集,而無需費時費力。 而且我相信您會發現這項技術對您自己的項目非常有幫助。因此,在本文中,我們將了解圖像增強的概念,為何有用以及哪些不同的圖像增強技術。
  • 語音識別 AI 挑戰賽上線:用深度學習三種結構,對 50 種環境聲音分類!
    這不,難度再次升級的「50 種環境聲音分類」的語音識別挑戰賽,來了!深度學習與語音識別在目前大多數語音識別應用中,深度學習是較為常見的一種方法。從而實現對輸入的複雜數據的高效處理,使機器可以像人一樣智能地學習不同的知識,並且有效地解決多類複雜的智能問題;例如:語音識別、圖像視頻識別、語言處理和信息檢索等領域。
  • CNN 在基於弱監督學習的圖像分割中的應用
    最近基於深度學習的圖像分割技術一般依賴於卷積神經網絡 CNN 的訓練,訓練過程中需要非常大量的標記圖像,即一般要求訓練圖像中都要有精確的分割結果。對於圖像分割而言,要得到大量的完整標記過的圖像非常困難,比如在 ImageNet 數據集上,有 1400 萬張圖有類別標記,有 50 萬張圖給出了 bounding box, 但是只有 4460 張圖像有像素級別的分割結果。對訓練圖像中的每個像素做標記非常耗時,特別是對醫學圖像而言,完成對一個三維的 CT 或者 MRI 圖像中各組織的標記過程需要數小時。
  • 速度、準確率與泛化性能媲美SOTA CNN,Facebook開源高效圖像...
    研究人員僅用一臺 8-GPU 的伺服器對 DeiT 模型進行 3 天訓練,該方法就在 ImageNet 基準測試中達到了 84.2% 的 top-1 準確率,並且訓練階段未使用任何外部數據,該結果可以與頂尖的卷積神經網絡(CNN)媲美。
  • 深度學習概述:NLP vs CNN
    Moveworks服務也不例外,它的服務的核心也是基於其自定義的遞歸神經網絡和基於相關數據訓練的LSTM網絡。Moveworks為企業提供客戶支持自動化和NLP解決方案。它曾服務於Nutanix、Autodesk和Western Digital等巨頭。如果你想減少IT支持並使其自動化以節省成本,那麼強烈建議你考慮Moveworks。
  • 圖像配準的前世今生:從人工設計特徵到深度學習
    選自Medium作者:Emma Kamoun機器之心編譯參與:Nurhachu Null,Geek AI作為計算機視覺的重要研究課題,圖像配準經歷了從傳統方法走向深度學習的重要革命。這些描述子似乎也要優於和 SIFT 類的描述子,尤其是在 SIFT 包含很多輪廓或者不能匹配到足夠數目的特徵點的情況下。
  • 智能圖像處理 讓機器視覺及其應用更智能高效
    具有智能圖像處理功能的機器視覺,相當於人們在賦予機器智能的同時為機器按上了眼睛,使機器能夠「看得見」、「看得準」,可替代甚至勝過人眼做測量和判斷,使得機器視覺系統可以實現高解析度和高速度的控制。而且,機器視覺系統與被檢測對象無接觸,安全可靠。
  • 自注意力可以替代CNN,能表達任何卷積濾波層
    由於卷積層的感受野不依賴於輸入數據,所以只需要上面式子中的最後一項,就可以用自注意力來模擬CNN的表現。而要實現CNN的平移等變性(equivariance to translation),可以通過用相對位置編碼替代絕對位置編碼的方式來實現。
  • 圖像識別與人工智慧圖像識別和機器視覺有什麼區別
    當人工智慧,特別是與人工智慧與圖像識別、計算機視覺等「熱門領域」結合在一起的時候,能不能迸發出革命性的能量?下面小編就來為大家解答一下。圖像識別與人工智慧圖像識別和機器視覺有什麼區別?這個問題很多人看到這個問題一定會發蒙,不都是相同的基礎麼?上面的圖片如果上傳到網上,很多人就會問,這是不是把圖片中的東西翻譯成英文了?其實圖像識別不單單是把原文字翻譯成英文這麼簡單。
  • .| 深度學習理論與實戰:提高篇(14)——​Mask R-CNN代碼簡介
    這個數據集是on-the-fly的用代碼生成的一些三角形、正方形、圓形,因此不需要下載數據。 1、配置 代碼提供了基礎的類Config,我們只需要繼承並稍作修改: class ShapesConfig(Config): """用於訓練shape數據集的配置 繼承子基本的Config類,然後override了一些配置項。
  • 圖像識別技術——卷積神經網絡CNN詳解
    神經網絡與卷積神經網絡神經網絡對於各種各樣的數據都具有一個很強的非線性擬合能力,但是在語音、圖像這類「raw data」數據處理上,我們遲遲得不到突破。這些數據屬於人類一出生就能接受到的信息,在這方面數據,我們很難用機器學習的方法去驅動產出很好的效果。