學界 | 最大規模數據集、最優圖像識別準確率!Facebook利用hashtag解決訓練數據難題

2021-02-15 機器之心

選自code.Facebook

作者:Dhruv Mahajana、Ross Girshick、Vignesh Ramanathan、Manohar Paluri、Laurens van der Maaten

機器之心編譯

參與:路、張倩

人工標註數據需要耗費大量人力成本和時間,對模型訓練數據集的規模擴大帶來限制。Facebook 在圖像識別方面的最新研究利用帶有 hashtag 的大規模公共圖像數據集解決了該問題,其最佳模型的性能超越了之前最優的模型。

圖像識別是 AI 研究的重要分支之一,也是 Facebook 的研究重心。Facebook 的研究人員和工程師旨在擴展計算機視覺的邊界,造福現實世界。例如,使用 AI 生成圖像的音頻字幕幫助視覺受損的用戶。為了改善這些計算機視覺系統,訓練它們識別和分類大量對象,Facebook 需要包含數十億張圖像的數據集,如今常見的數百萬張圖像的數據集已經不足夠了。

由於當前模型通常在人類標註者手動標註的數據上進行訓練,因此提升識別準確率不只是向系統輸入更多圖像那麼簡單。這種勞動密集型的監督學習過程通常獲得最好的性能,但是手動標註的數據集在規模方面已經接近其函數極限。Facebook 正在多達五千萬張圖像的數據集上訓練模型,即使是在提供所有監督的情況下,數十億張圖像的訓練也是不可行的。

Facebook 研究人員和工程師通過在帶有標籤(hashtag)的公共圖像數據集上訓練圖像識別網絡解決了該問題,其中最大的數據集包含 35 億張圖像和 17000 個 hashtag。該方法的關鍵是使用現有公開的、用戶提供的 hashtag 作為標註,取代手動標註。該方法在測試過程中表現良好。通過使用包含 10 億圖像的此類數據集訓練計算機視覺系統,Facebook 得到了一個歷史最高得分——在 ImageNet 上達到了 85.4% 的準確率。伴隨著這一圖像識別任務中的突破,該研究為如何從監督訓練轉向弱監督訓練提供了重要洞見。在弱監督訓練中,研究者使用現有標註(在本文中指 hashtag)而不是專為 AI 訓練而選擇的標註。Facebook 計劃開源這些模型的嵌入,這樣研究社區就可以使用這些表徵,基於它們完成更高級別的任務。

大規模使用 hashtag

由於人們通常使用 hashtag 描述照片,所以 Facebook 研究人員認為它們可以作為模型訓練數據的完美來源。這允許研究人員使用 hashtag 來完成一直以來的目標:基於人們自己標註的 hashtag 獲取更多圖像。

但是 hashtag 通常指非視覺概念,如 #tbt 表示「throwback Thursday」。或者它們比較模糊,如 #party 可以描述活動、設置,或者 both。對於圖像識別來說,tag 的作用是弱監督數據,而模糊和/或不相關的 hashtag 是標籤噪聲,可能會混淆深度學習模型。

這些噪聲標籤是大規模訓練工作的重點,因此研究人員開發了一種新方法,專為使用 hashtag 監督執行圖像識別實驗而準備。該方法包括處理每個圖像的多個標籤(加 hashtag 的用戶通常會添加多個 hashtag)、整理 hashtag 同義詞、平衡經常出現的 hashtag 和出現頻率較低的 hashtag 的影響力。為了使這些標籤有助於圖像識別訓練,Facebook 研究團隊訓練了一個大規模 hashtag 預測模型。該方法顯示出優秀的遷移學習結果,表明該模型的圖像分類結果可廣泛應用於其他 AI 系統。這一新研究基於 Facebook 之前的研究,包括基於用戶評論、hashtag 和視頻的圖像分類研究。這一對弱監督學習的全新探索是一次廣泛的合作,Facebook 應用機器學習團隊(AML)和 Facebook 人工智慧研究院(FAIR)均參與其中。

在規模和性能方面開闢新天地

由於單個機器完成模型訓練需要一年多時間,因此 Facebook 在多達 336 個 GPU 上進行分布式訓練,將總訓練時間縮短至幾周。在如此大的模型規模面前(該研究中最大的模型是具備超過 86.1 千萬個參數的 ResNeXt 101-32x48d),使用分布式訓練方法尤其重要。此外,Facebook 設計了一種方法來移除重複項,確保不會在評估數據上進行訓練,這個問題在此類研究中經常出現。

Facebook 希望能看到圖像識別方面的性能提升,不過對實驗結果仍然感到驚訝。在 ImageNet 圖像識別基準上,其最佳模型達到了 85.4% 的準確率,該模型在 10 億張圖像上進行訓練,訓練數據一共包括 1500 個 hashtag。這是截至目前最高的 ImageNet 基準準確率,比之前最優模型高 2%。研究者將卷積神經網絡架構的影響力進行分解,觀測到的性能提升更加顯著:將數十億圖像(以及大量 hashtag)用於深度學習導致高達 22.5% 的性能提升。

在另一個主要基準 COCO 上,研究者發現使用 hashtag 進行預訓練可以將模型的平均準確率提高 2% 以上。

這些是圖像識別和目標檢測領域的基礎改進,表示計算機視覺又前進了一步。但是研究者的實驗還揭示了大規模訓練和噪聲標籤的優勢和面臨的挑戰。

例如,儘管擴大訓練數據集規模是值得的,但選擇匹配特定圖像識別任務的 hashtag 集也具備同等的重要性。研究者通過在 10 億張圖像、1500 個匹配 ImageNet 數據集類別的 hashtag 上的訓練結果優於在同樣大小的數據集、但使用全部 17000 個 hashtag 的訓練結果。另一方面,對於類別較多的任務,使用 17000 個 hashtag 進行訓練的模型性能更好,這表明研究者應該在未來訓練中增加 hashtag 的數量。

增加訓練數據規模通常有利於圖像識別。但是它也會產生新的問題,包括定位圖像中對象位置的能力下降。Facebook 研究者還發現其最大的模型仍未充分利用 35 億張圖像數據集的優勢,這表明研究者應該在更大的模型上進行訓練。

大規模自標註數據集是圖像識別的未來

這項研究的一個重要成果(甚至超越了圖像識別的廣泛成果)就是證實了在 hashtag 上訓練計算機視覺模型是完全可行的。雖然使用了一些基礎技術來合併相似標籤、降低其他標籤的權重,但是該方法不需要複雜的「清理」過程來消除標籤噪聲。相反,研究者能夠使用 hashtag 訓練模型,而且只需對訓練過程做出很少的修改。規模似乎是一大優勢,因為在數十億張圖像上訓練的網絡對標籤噪聲具備更好的穩健性。

我們設想了在不遠的未來,hashtag 作為計算機視覺標籤的其他使用方向,可能包括使用 AI 更好地理解視頻片段,或改變圖像在 Facebook feed 流中的排序方式。Hashtag 還可以幫助系統識別圖像何時不僅屬於總類別,還屬於更具體的子類別。例如,照片的音頻說明提及「樹上的一隻鳥」是有用信息,但是如果音頻說明可以具體到物種(如:糖槭樹上的一隻主紅雀),就可以為視覺受損的用戶提供更好的描述。

Hashtag 可以幫助計算機視覺系統超越一般分類條目,以識別圖像中的特定子類別和其他元素。

除了 hashtag 的具體用途之外,該研究還指出了可能影響新產品和現有產品的廣泛圖像識別方面取得的進展。例如,更精確的模型可能會改善在 Facebook 上重現記憶的方式。該研究指出了使用弱監督數據的長期影響。隨著訓練數據集變得越來越大,對弱監督學習的需求——以及從長遠來看,對無監督學習的需求——將變得越來越顯著。了解如何彌補噪聲大、標註不準確的缺陷對於構建和使用大規模訓練集至關重要。

本研究在 Dhruv Mahajan、Ross Girshick、Vignesh Ramanathan、Kaiming He、Manohar Paluri、Yixuan Li、Ashwin Bharambe 和 Laurens van der Maaten 的《Exploring the Limits of Weakly Supervised Pretraining》一文中有更詳細的描述。由於該研究涉及到的規模史無前例,此論文詳細的論述將為一系列新研究方向鋪平道路,包括開發新一代足夠複雜的深度學習模型,從而有效地從數十億張圖像中學習。

該研究還表明,為了更好地衡量當今圖像識別系統以及未來規模更大、監督更少的圖像識別系統的質量和局限性,開發類似 ImageNet 的廣泛使用的新型基準很有必要。

論文:Exploring the Limits of Weakly Supervised Pretraining


論文連結:https://research.fb.com/publications/exploring-the-limits-of-weakly-supervised-pretraining/

摘要:當前最優的適合大量任務的視覺感知模型依賴於監督式預訓練。ImageNet 分類實際上是這些模型的預訓練任務。但是,目前 ImageNet 將近十歲,用現代標準來看規模有些小了。即便如此,使用規模大了好幾個數量級的數據集進行預訓練也很少見。原因很明顯:此類數據集很難收集和標註。本論文展示了一種獨特的遷移學習研究,在數十億社交媒體圖像上訓練大型卷積網絡來預測 hashtag。實驗表明大規模 hashtag 預測的訓練性能很好。我們展示了在多個圖像分類和目標檢測任務上的改進,並報告了目前最高的 ImageNet-1k single-crop,top-1 準確率 85.4%(top-5 準確率 97.6%)。我們還進行了大量實驗,為大規模預訓練和遷移學習性能之間的關係提供了新的實證數據。

原文連結:https://code.facebook.com/posts/1700437286678763/

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權

✄---

加入機器之心(全職記者/實習生):hr@jiqizhixin.com

投稿或尋求報導:editor@jiqizhixin.com

廣告&商務合作:bd@jiqizhixin.com

相關焦點

  • 自製人臉數據,利用keras庫訓練人臉識別模型
    同時,為了驗證其它深度學習庫的效率和準確率,當然也為了滿足我的好奇心,我還使用了Theano,利用CNN——卷積神經網絡來訓練我的人臉識別模型。我會在接下來的幾節講述這些內容,本節專注把訓練數據準備好。        首先,我們需要大量自己的臉部圖片,怎麼獲取呢?
  • 36萬類別、1800萬圖像,國內機構創建全球最大人臉數據集
    這項研究基於現有公開人臉數據集創建了目前全球最大的人臉數據集,並實現了一個高效的分布式採樣算法,兼顧模型準確率和訓練效率,只用八塊英偉達 RTX2080Ti 顯卡就可以完成數千萬人臉圖像的分類任務。人臉識別是計算機視覺社區長期以來的活躍課題。之前的研究者主要關注人臉特徵提取網絡所用的損失函數,尤其是基於softmax的損失函數大幅提升了人臉識別的性能。
  • Transformer研究井噴式湧現;最大中文多模態預訓練數據集
    論文 2:M6: A Chinese Multimodal Pretrainer摘要:在這篇論文中,來自阿里巴巴和清華大學的 25 位研究者構建了規模最大的中文多模態預訓練數據集,其中包含眾多領域的超過 1.9 TB 圖像和 292 GB 文本。
  • CIFAR-10數據集應用:快速入門數據增強方法Mixup,顯著提升圖像識別準確度
    本文介紹的是以格物鈦公開數據集平臺中的 CIFAR-10 數據集為基礎,通過數據增強方法 Mixup,顯著提升圖像識別準確度。關於作者:Ta-Ying Cheng,牛津大學博士研究生,Medium 技術博主,多篇文章均被平臺官方刊物 Towards Data Science 收錄(翻譯:頌賢)。
  • 使用強化學習評估訓練數據,準確量化訓練樣本
    在收錄於 ICML 2020 的「使用強化學習進行數據評估」 (Data Valuation Using Deep Reinforcement Learning) 中,我們使用基於元學習的全新方法解決了量化訓練數據價值的問題。我們的方法將數據估值整合至預測器模型的訓練過程中,該模型學習識別對於給定任務具有更高價值的樣本,從而改善預測器和數據估值的性能。
  • Facebook開源3D識別訓練工具3DETR、DepthContrast
    不過,儘管這種方法適用於多種類型的媒介,但它尚未廣泛用於3D識別任務,例如在客廳的3D掃描中識別和定位沙發。這是由於缺少帶注釋的數據,以及標記3D數據集非常耗時。另外,用於3D理解的模型通常依賴於與特定3D數據集緊密耦合的人工架構設計。針對這個問題,Facebook人工智慧團隊將在國際計算機視覺2021大會介紹3DETR和DepthContrast。
  • 豬臉識別(附數據集)
    ;使用YOLOv2進行摳圖,截取圖像中豬的主體及豬臉圖像 進行保存;最後製作成tfrecord格式的數據,這樣訓練數據集就完成了;訓練數據集:豬主體數據:8700張(1000 * 800左右大小),豬臉數據:4100(500 * 500左右大小),一共12800張圖像。
  • 騰訊開源業內最大多標籤圖像數據集,附ResNet-101模型
    不僅要開源多標籤圖像數據集ML-Images,以及業內目前同類深度學習模型中精度最高的深度殘差網絡ResNet-101。業內最大規模值得注意的是,這次開源的ML-Images包含了1800萬圖像和1.1萬多種常見物體類別,在業內已公開的多標籤圖像數據集中,規模最大,一般科研機構及中小企業的使用場景,應該夠了。
  • 用於深度學習SAR圖像艦船目標檢測的數據集SSDD和SSDD+
    目睹著CNN在計算機視覺各項任務(識別、檢測、分割和超分辨等)取得的優良性能,包括作者在內的研究人員希望將這些算法用於SAR圖像智能解譯領域。此項研究的前提是要有用於訓練和測試算法的數據集,這是目前所缺的,本文重點進行了介紹。
  • 技術博客|快速入門數據增強方法Mixup,顯著提升圖像識別準確度
    快速入門數據增強方法Mixup顯著提升圖像識別準確度深度學習蓬勃發展的這幾年來,圖像分類一直是最為火熱的領域之一。傳統上的圖像識別嚴重依賴像是擴張/侵蝕或者是頻域變換這樣的處理方法,但特徵提取的困難性限制了這些方法的進步空間。現如今的神經網絡則顯著提高了圖像識別的準確率,因為神經網絡能夠尋找輸入圖像和輸出標籤之間的關係,並以此不斷地調整它的識別策略。然而,神經網絡往往需要大量的數據進行訓練,而優質的訓練數據並不是唾手可得的。
  • 教程 | 如何構建自定義人臉識別數據集
    在接下來的幾篇博文中,作者將帶領大家訓練一個「計算機視覺+深度學習」的模型來執行人臉識別任務。但是,要想訓練出能夠識別圖像或視頻流中人臉的模型,我們首先得收集人臉圖像的數據集。如果你使用的是「Labeled Faces in the Wild」(LFW)這樣預先準備好的數據集,那麼你可以不用進行這項困難的工作了。你可以使用我們下一篇博文中的方法創建自己的人臉識別應用。
  • 【深度學習系列3】 Mariana CNN 並行框架與圖像識別
    Deep CNNs的單機多GPU模型並行和數據並行框架是Mariana的一部分,Mariana技術團隊實現了模型並行和數據並行技術加速Deep CNNs訓練,證實模型拆分對減少單GPU上顯存佔用有效,並且在加速比指標上得到顯著收益,同時可以以較快速度訓練更大的深度卷積神經網絡,提升模型準確率。
  • Facebook推出大規模圖像文本提取系統Rosetta
    隨著大量字體、語言、詞典和其他語言變體(包括特殊符號、不在詞典內的單詞,以及 URL 和電郵 id 等特殊信息)出現在圖像中,圖像質量隨著文本出現的背景不同而出現變化,OCR 任務的難度增大。另一個原因是每天上傳至社交媒體、需要處理的圖像規模非常巨大。由於下遊應用的本質,人們對 OCR 任務的期待是實時處理,這要求我們花費大量時間優化系統各部分,以在合理的延遲時間內執行 OCR 任務。
  • tensorflow中實現神經網絡訓練手寫數字數據集mnist
    tensorflow中實現神經網絡訓練手寫數字數據集mnist一:網絡結構基於tensorflow實現一個簡單的三層神經網絡,並使用它訓練mnist
  • AI新視野 | 數據蒸餾Dataset Distillation
    在本文中,我們考慮的是數據集蒸餾:保持模型固定,嘗試將大型訓練數據集中的知識提煉成小數據。該想法是合成少量數據,這些數據不需要一定來自正確的數據分布,但是當作為模型的訓練數據學習時,能達到近似在原始數據上訓練的效果。例如,我們展示了可以壓縮60000個MNIST圖像成僅10個合成蒸餾圖像(每個類別一個),並且在給定固定網絡初始化的情況下,僅通過幾個梯度下降步驟實現接近原始訓練的性能。
  • 佳文選讀|基於多通道調頻連續波毫米波雷達的微動手勢識別
    原理與方法本文所提基於多通道FMCW毫米波雷達的微動手勢識別方法,主要包括雷達最優參數設計、手勢特徵提取、手勢數據集構建和卷積神經網絡(Convolutional Neural Network, CNN)結構設計4個部分。
  • 圖像識別:導入數據
    用於預處理輸入圖像的 Python 函數。        img.thumbnail(maxsize, PIL.Image.ANTIALIAS)        return np.asarray(img)用於將數據集從圖像加載到 numpy 數組中的 Python 函數:12345678
  • Tensorflow官方語音識別入門教程 | 附Google新語音指令數據集
    語音識別教程Google還配合這個數據集,推出了一份TensorFlow教程,教你訓練一個簡單的語音識別網絡,能識別10個詞,就像是語音識別領域的MNIST(手寫數字識別數據集)。雖然這份教程和數據集都比真實場景簡化了太多,但能幫用戶建立起對語音識別技術的基本理解,很適合初學者使用。
  • 圖像/視頻超分之數據集
    在深度學習領域,數據就是「糧草」。在進行模型訓練之前,我們必須要了解需要用到哪些訓練數據,哪些驗證數據。在文本中,我們將匯總一下圖像超分、視頻超分中的那些數據集。圖像超分數據 DIV2K數據主頁連結:https://data.vision.ee.ethz.ch/cvl/DIV2K。
  • ImageNet訓練再創紀錄!谷歌提出1個小時訓練EfficientNet,準確率高達83%!
    論文地址:https://arxiv.org/pdf/2011.00071.pdf尤洋在推特上表示,這項研究在準確率足夠高的前提下,在速度上創造了一個世界記錄。EfficientNets是基於有效縮放的新型圖像分類卷積神經網絡系列。目前,EfficientNets的訓練可能需要幾天的時間;例如,在Cloud TPU v2-8節點上訓練EfficientNet-B0模型需要23個小時。