發布人:Google Research 高級軟體工程師 Yang Song 和訪問學者 Serge Belongie
得益於近年來深度學習的發展,機器的視覺識別能力已經顯著提升,推動著計算機視覺在各種任務中的實際應用,從自動駕駛汽車的行人檢測到虛擬實境中的表情識別。不過,對計算機來說仍然充滿挑戰的一個領域是精細和實例級識別。本月早些時候,我們發布了一項用於識別單獨地標的實例級地標識別挑戰賽。我們在這裡關注的是精細視覺識別,這種識別的目標是區分動植物種類、汽車與摩託車型號和建築風格,等等。對於計算機來說,辨別精細類別困難重重,因為許多類別的訓練示例都相對較少(即存在長尾問題),而那些確實存在的示例又通常缺乏權威的訓練標籤,光照、視角和對象遮擋也存在差異。
為了幫助克服這些障礙,我們高興地宣布iNaturalist 2018 挑戰賽(iNat-2018),這是我們與iNaturalist和Visipedia(Visual Encyclopedia 的簡稱)合作推出的一項物種分類競賽,Caltech 和 Cornell Tech 正是憑藉 Visipedia 這個項目入選 Google 戰略研究資助計劃。這是針對即將在CVPR 2018上舉行的第五屆國際精細視覺分類專題講座 (FGVC5) 推出的最高級別挑戰賽。以首屆 iNaturalist 挑戰賽iNat-2017為基礎,iNat-2018 將涵蓋 8000 個類別的植物、動物和真菌,訓練圖像總數將超過 450,000 個。我們邀請參與者通過Kaggle進行競賽登記,最後的提交截止日期為 6 月初。您可以在我們的GitHub 代碼庫中找到訓練數據、標註和預訓練模型的連結。
自從 2008 年成立以來,iNaturalist 已成長為幫助公民科學家分享物種觀察結果以及與自然建立聯繫的全球領導者。它託管著由蓬勃發展、積極參與的用戶社區提交的研究級照片和標註。思考 iNaturalist 資料庫中的以下照片:
右側的地圖上顯示了照片的拍攝地點。圖像來源:Serge Belongie。
您可能已經注意到,左側的照片上包含一隻烏龜。但是您知道這是一隻彩龜,俗名為「池塘滑塊龜」嗎?如果您知道後面一種叫法,則說明您已經掌握了精細或從屬分類的知識。
與 ImageNet 等其他圖像分類數據集不同,iNaturalist 挑戰賽中的數據集表現出長尾分布特性,許多物種的圖像數量都相對較少。讓機器學習模型學會處理長尾中的類別至關重要,因為自然界已經嚴重失衡 - 一些物種比其他物種更加豐富,拍照也更為容易。iNaturalist 挑戰賽鼓勵進步,因為 iNat-2018 訓練分布的長尾特性比 iNat-2017 的更明顯。
iNat-2017 和 iNat-2018 中按物種的訓練圖像分布,以對數比例繪製,顯示出精細分類問題存在典型的長尾行為。圖像來源:Grant Van Horn 和 Oisin Mac Aodha。
與 iNat-2018 同步,FGVC5還將舉辦 iMaterialist 2018 挑戰賽(包括一項家具分類挑戰賽與一項針對產品圖像的時裝屬性挑戰賽)和一系列「FGVCx」挑戰賽,這些挑戰賽雖然規模較小,但仍然十分重要,以食品和現代藝術等內容為特色。
FGVC5將在CVPR 2018的主頁上展示,由此確保吸引最優秀團隊的注意。此項目將推動包含嚴重類別失衡和大量類別的真實、精細類別的自動圖像分類達到最先進水平。我們真誠地邀請您參加這些競賽,幫助推動這個領域向前發展!
致謝
我們想要感謝iNaturalist、Visipedia和FGVC5的同事與朋友,謝謝他們合作推動這個重要的領域取得進步。在 Google 內部,我們想要感謝 Hartwig Adam、Weijun Wang、Nathan Frey、Andrew Howard、Alessandro Fin、Yuning Chai、Xiao Zhang、Jack Sim、Yuan Li、Grant Van Horn、Yin Cui、Chen Sun、Yanan Qian、Grace Vesom、Tanya Birch、Celeste Chung、Wendy Kan 和 Maggie Demkin。