谷歌AI:推進實例級別識別 (ILR)研究

2020-12-08 雷鋒網

字幕組雙語原文:推進實例級別識別 (ILR)研究

英語原文:Advancing Instance-Level Recognition Research

翻譯:雷鋒字幕組(小哲)


本文由Cam Askew and André Araujo,Software Engineers, Google Research發布。

實例級識別(ILR)是識別一個物體的特定實例而不是簡單識別出所屬類別的計算機視覺任務。例如,我們不會把一張圖像標註為「後印象派繪畫」,我們真正感興趣的就是實例級別的標籤,例如「文森特梵谷的羅納河上的星空」或者「法國巴黎的凱旋門」而不是簡單的拱門。 實例級識別的難題存在很多領域,例如地標,藝術品,商品,或者標誌(logo),而且實例級識別在很多領域多有很多的應用,例如視覺搜索軟體,個人相冊識別,購物和其他更多的應用。在過去的幾年中,谷歌在實例級識別的研究中做出了重大的貢獻,例如Google 地標數據集和谷歌地標數據集V2和DELF與檢測到檢索的新模型。

三種圖像識別問題,這三種問題對於來自藝術品,地標和商品域有不同的標籤粒度的層級(基本的,細粒度,實例級別)。我們主要聚焦於實例級的識別。

今天,我們強調在ECCV20的實例級識別研討會上的一些結果。這個研討會聚集了在這個領域的專家和愛好者,這學多新鮮有意思的討論中,包含了我們的ECCV20的論文「DEep Local and Global features」 (DELG),這是一個目前最先進的實例級識別圖像特徵模型,還包含了一個DELG支持的開原始碼和其他的實例級識別技術。在這個研討會上也提出了一個基於GLDV2的兩個新的地標挑戰賽(在識別與檢索任務中)。未來ILR挑戰賽也會擴展到其他的領域:藝術品識別,商品檢索。這個研討會的長期目標是去促進這個領域的進步,並且通過整合來自不同領域的研究團隊來追求最先進的模型,在很多不同的領域中的任務到目前為止已經獲得了很好的解決。

DELG: DEep Local and Global Features(深度局部與全局特徵)

高效的圖像表達是實例級圖像識別的主要內容。通常局部與全局兩種類型的表達是必要的。一個全局圖像特徵的總結會得到一個緊湊的表達,但是會丟失關於視覺元素空間組織的信息,這些信息往往是樣本獨特的個性化特徵。另一方面, 局部特徵會包含關於特定圖像區域的描述與幾何信息。他們對於匹配圖像中描繪相同的物體是非常有用的。

現在,大多數依賴於這兩種類型的特徵的系統都需要使用不同的模型單獨的應用他們中的每一個,這就會導致大量的冗餘計算與低效。為了解決這個問題,我們提出了DELG,這是一種局部與全局特徵統一的模型。

DELG模型應用了一個全卷積網絡,這個全卷積網絡包含兩個頭,一個處理全局特徵,另一個處理局部特徵。全局特徵使用深度網絡的局部池化特徵圖,高效的整合輸入圖像的顯著特徵,使得這個網絡對於輸入圖像的改變更加魯棒。在注意力機制的幫助下,局部特徵分支使用交互特徵層來檢測圖像的顯著性區域,並且以一種可區分的方式產生xainggaun位置內容的描述符。


我們提出的DELG模型(左),全局模型在基於檢索的系統中的第一個stage中使用可以高效選擇最相似的圖像(底部),局部特徵在重新排列的結果中使用(上邊,右邊),提升系統的準確性。

由於系統能夠提取全局與局部的特徵,新型的設計允許高效的推理。首先這樣一個統一的模型可以進行端到端的訓練並且在實例級識別中得到最先進的結果。當與之前的全局特徵對比時,我們的方法超出之前的模型7.5%MAP,並且對於局部特徵的重排過程,基於DELG的方法可以超出之前7%。總之,DELG在GLDV2上實現了61.2%的AP,除了2019年挑戰賽上的兩種方法外,超出了所有的其他方法。所有的頂級的結果都使用了複雜的模型融合策略,我們只採用了單一模型。

Tensorflow 2 Open-Source Codebase(tensorflow2開原始碼庫)

為了促進研究的可復現性,我們發布了一個經過改進的開原始碼庫,其中包含了DELG和其他的實例級識別的技術,例如DELF和檢測到檢索。我們的代碼應用最新的Tensorflow2,並且出了圖像檢索與匹配功能之外我們也開發了模型的訓練與推理功能。我們邀請社區使用並且對代碼庫作出貢獻以便在實際裡識別領域能夠發展出更強大的基礎。

新的實例級分割挑戰賽

聚焦於地表識別中,谷歌地標數據集v2是在實例識級別中可用的最大的shoji,其中包含500萬張圖像,包括了大概20萬類。通過使用GLDv2訓練地標檢索模型,與之前數據集上訓練模型的結果相比我們已經得到6%的MAP提升。最近,我們也已經發起了新的瀏覽器接口來可視化GLDv2數據集。

今年,在地標域上我們也發起了兩個新的挑戰賽,一個聚焦於識別另一個聚焦於檢索。這些競賽的特點是一種新收集的數據集與一種新的評估方法:參賽者不必上傳一個計算好預測值的csv文件,而是提交一個模型和代碼,這些模型和代碼可以直接在Kaggle伺服器上運行。來計算預測值與競賽的排名。這種環境的計算限制強調高效性與實用性的解決方案。

這項挑戰賽吸引了超過1200支隊伍,同比去年增長3倍,並且參賽者基於我們的DELG實現了很大的提升。在識別任務中,最高的得分實現了大約43%的AP,在檢索任務中,獲勝的隊伍實習拿了59%的MAP的提升。後者的實現通過多個高效模型的混合,池化方法,訓練策略(細節問題可以參考:Kaggle競賽官網)

除了地標識別與檢索挑戰賽,我們的學術和工業界的合作者也討論他們在其他的域中的競賽與基準上的成果。在藝術品識別中的大規模研究基準尚在構建中,這個數據集使用 The Met’s Open Access image collection,並和一個由不同光度與集合變換的照片組成的新測試集。類似的一個新的商品檢索競賽將會包含個還總具有挑戰性的方面,包含大量的商品,長尾類別分布,物體的外觀以及全局環境的變化。更多的關於ILR研討會的包括幻燈片和視頻錄像等信息可以在官網上查看。

基於這些研究,開原始碼,數據與挑戰賽,我們希望能夠促進實例級識別的成功,並且使得來自不同社區的研究者和機器學習愛好者能夠開發能夠泛化於不同域的方法。

致謝

這個項目主要的谷歌貢獻者是André Araujo, Cam Askew, Bingyi Cao, Jack Sim and Tobias Weyand。我們也要感謝ILR研討會的聯合組織者Ondrej Chum, Torsten Sattler, Giorgos Tolias (Czech Technical University), Bohyung Han (Seoul National University), Guangxing Han (Columbia University), Xu Zhang (Amazon), collaborators on the artworks dataset Nanne van Noord, Sarah Ibrahimi (University of Amsterdam), Noa Garcia (Osaka University),也要感謝來自the Metropolitan Museum of Art的合作者Jennie Choi, Maria Kessler and Spencer Kiser。對於開原始碼庫,我們要感謝下列開發者的幫助:Dan Anghel, Barbara Fusinska, Arun Mukundan, Yuewei Na and Jaeyoun Kim。我們也要感謝Cukierski, Phil Culliton, Maggie Demkin對Kaggle競賽的支持。此外我們也要感謝 Ralph Keller and Boris Bluntschli對我們收集數據的幫助。


雷鋒字幕組是一個由AI愛好者組成的翻譯團隊,匯聚五五多位志願者的力量,分享最新的海外AI資訊,交流關於人工智慧技術領域的行業轉變與技術創新的見解。

團隊成員有大數據專家,算法工程師,圖像處理工程師,產品經理,產品運營,IT諮詢人,在校師生;志願者們來自IBM,AVL,Adobe,阿里,百度等知名企業,北大,清華,港大,中科院,南卡羅萊納大學,早稻田大學等海內外高校研究所。

如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學習新知,分享成長。

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 批評者稱谷歌乳腺癌預測AI研究如果不透明就沒有用處
    早在1月份,谷歌旗下專注於健康相關研究、臨床工具和醫療服務合作的分支Google Health就發布了一個在9萬多張乳房X光照片上訓練的人工智慧模型,該公司稱其取得了比人類放射科醫生更好的效果。谷歌宣稱,與之前的工作相比,該算法可以識別出更多的假陰性,即那種看起來正常但含有乳腺癌的圖像,但一些臨床醫生、數據科學家和工程師對這一說法表示質疑。
  • Jeff Dean撰文:谷歌AI 2018研究成果匯總
    谷歌AI團隊負責人Jeff Dean今天發布博客文章,總結了谷歌的研究團隊在2018年的主要研究成果。 今年我們發布了《谷歌人工智慧原則》(Google AI Principles),提出一系列負責任的人工智慧實踐,並概述了實施的技術建議。 AI用於解決現實社會問題的潛力是顯而易見的。一個例子是谷歌在洪水預測方面的工作。這項研究旨在提供關於洪水可能的程度和範圍的準確、及時的細粒度信息,使那些在洪水易發地區的人們能夠更好地決定如何最好地保護他們自己和他們的財產。
  • 其實,ai不止是一項科技,更是一種文化,一種觀念
    其實,ai不止是一項科技,更是一種文化,一種觀念。自2016年alphago在圍棋系列賽中戰勝職業棋手以來,ai已經開始在某些領域中取得進展,並且在某些問題上實現了突破。在最近的新聞中,谷歌發布的兩張miranda照片不僅僅是事實,還再次為我們揭開了ai正在開始各領域進行科學研究的新面貌。
  • 一周AI大事盤點:谷歌利用AI預測風力發電量,騰訊論文被CVPR收錄
    谷歌利用人工智慧預測風力發電量2月27日消息,谷歌表示,利用DeepMind的機器學習算法來預測谷歌用於綠色能源計劃的風力農場發電量,該公司現在可以更合理地安排能源輸出時間,這對電網來說,比標準的、非基於時間的按時傳輸電量更有價值。谷歌指出,該軟體已將風能發電的價值提高了20%。速評:全球範圍內的風電技術持續發展,已成為最重要的可再生能源發電來源之一。
  • 谷歌通過深度度量學習,提出新的語義實例分割方法
    而它與語義分割的不同之處在於,研究目標不僅僅是使用標籤(或背景)對每個像素進行分類,而且還要區分同一類別的各個實例。因此,標籤空間是沒有大小限制的(例如,假設有兩個人和一輛車,可能會標記「人-1」,「人-2」和「車-1」)。這個問題在諸如無人駕車、機器人、照片編輯等領域有許多實際應用。
  • 谷歌發布地圖「時光機」:100年前,你家街道長啥樣?
    如圖中所示,首先,根據眾包注釋或自動檢測算法識別地圖標記和歷史圖像中的建築立面,為其生成粗略的3D結構。與此同時,算法會識別建築立面上所有窗戶、入口、樓梯這樣的獨立組件,並根據其類別分別重建精細的3D結構。兩者相結合,就得到了最終的3D網格。這一結果會被存儲在3D資源庫中,為下一步渲染做好準備。該算法涉及的SOTA深度學習模型包括:用窗戶、入口、樓梯這樣的立面組件注釋訓練的RCNN,用於定位歷史圖像中的邊框級實例。
  • 「谷歌」一下癌症診斷新利器,AI顯微鏡開掛,AR瞬間識別癌細胞
    谷歌推出名為DeepVariant的程序,幫助基因組數據解讀谷歌推出一款名為DeepVariant的程序,可以通過深度學習來拼湊一個人的基因組並且更準確地識別出DNA序列中的突變。這個技術在谷歌中曾經用來識別一張照片是貓還是狗,DeepVarient利用了相同的技術解決DNA分析領域的一個重要問題。現代DNA測序儀可以執行高通量測序,讀取出的不是完整的DNA序列,而是重疊的短片段。
  • 谷歌工人工會成立,AI女倫理專家離職只是一個導火線
    其實在工會成立消息放出的前幾天,Timnit Gebru的谷歌前同事、谷歌AI倫理部門的高級研究員Alex Hanna和另一名曾經幫助領導谷歌勞工組織的NYU教授Meredith Whittaker就在寫給《連線雜誌》的一篇文章中透露了谷歌工會的信息。
  • AI每日精選:北京地鐵研究刷臉安檢;LG電子波士頓開設機器人實驗室
    2.消息稱蘋果2億美元收購人工智慧初創公司Xnor.ai消息人士透露,蘋果公司收購了西雅圖初創公司 Xnor.ai,後者是一家專業致力於研究設備人工智慧技術的公司。消息人士稱,蘋果公司以大約 2 億美元的價格收購了 Xnor.ai。
  • 谷歌全面開源 MLIR 及生態聯盟,全球 95% 的加速器硬體都在使用
    谷歌希望通過向社會提供該架構來激勵更多的創新,從而進一步加速 AI 領域發展。雷鋒網 AI 開發者將 MLIR 的詳細內容及谷歌相關報導整理編譯如下。MLIR 與 TensorFlow 的淵源在過去,若想解決多級別堆棧問題,則需要我們構建新的軟硬體堆棧生成器,這也意味著必須為每個新路徑重新構建優化與轉換傳遞。
  • 性能媲美BERT,參數量僅為1/300,谷歌最新的NLP模型
    機器之心編輯部在最新的博客文章中,谷歌公布了一個新的 NLP 模型,在文本分類任務上可以達到 BERT 級別的性能,但參數量僅為 BERT 的 1/300。在過去的十年中,深度神經網絡從根本上變革了自然語言處理(NLP)領域的發展,但移動端有限的內存和處理能力對模型提出了更高的要求。人們希望它們可以變得更小,但性能不打折扣。
  • 谷歌員工又發聯名信起義了:Jeff Dean道歉,AI倫理學家回歸
    昨天,Gebru的同事Alex Hanna代表谷歌AI倫理研究部門將一封聯名信交給了谷歌CEO皮採和其他一些谷歌領導。(在問號後面還有一個鸚鵡表情),它將批判性的眼光投向了人工智慧研究中最活躍的領域之一。自2010年以來,谷歌等科技公司在人工智慧領域投入了大量資金,當時研究人員發現,他們可以使用一種稱為「機器學習」的技術,使語音和圖像識別更加準確。一種叫做「深度學習」的方法通過將學習算法與更大的樣本數據集以及更強大的計算機結合起來,得到了驚人的結果。
  • 谷歌AI發展史:「量子霸權」將人類推進計算的火箭時代!
    地球上幾乎沒有其他公司(更不用說政府)有能力或雄心壯志推進計算機化思維。谷歌運營的產品比世界上任何一家科技公司都多,擁有10億用戶:Android、Chrome、Drive、Gmail、Google Play Store、地圖、照片、搜索和YouTube。除非你生活在中國,如果你有網際網路連接,你肯定依賴谷歌來增強你大腦的某些部分。
  • AI 在安全、可靠性方面到底取得了哪些進展?斯坦福 AI 實驗室進行...
    他們的消除偏差算法通過摺疊性別中立的方向去除性別中性詞和性別的關聯。谷歌,推特,臉書,微軟和其他公司都在使用這種消除方式。由於成本或隱私原因,分組標籤可能不可用,或者受保護的群體可能無法被識別或被知道。當前的方法,即經驗風險最小化,會隨著時間的推移進一步縮小輸入數據中的少數群體,而使問題變得更糟。這些研究人員的目標是即使在沒有人口統計標籤的情況下,保護所有群體,甚至是少數群體。所以他們的解決方案是一種基於「分布式穩健優化」的方法,可以最大限度地減少所有群體的損失。
  • 谷歌利用眾包老照片還原兒時3D街景,瀏覽器即可體驗
    雖然谷歌街景可以讓人們看到一個地區現在的樣子,但如果你想探索過去的地方是什麼樣子呢?為了研究和娛樂目的創造一個有益的「時間旅行」體驗,谷歌AI研究院推出了一個基於瀏覽器的工具集名為「 r」 (發音為 re) 。
  • 專欄| AI翻譯引進NMT技術,就能精準識別「語境」嗎?
    2016年,GNMT技術(谷歌的神經網絡機器翻譯技術,模仿人腦的神經思考模式)全面布局於谷歌翻譯系統中,隨後,谷歌聲稱其AI翻譯的譯文質量誤差降低了55%-85%,並且將此技術廣泛應用於網頁翻譯與手機應用。
  • ECCV 2020|Workshop第一彈:視覺研討會,最新研究成果一網打盡
    在人造環境中,人類可以輕鬆地識別出平行線、矩形、長方體,以及旋轉對稱、重複圖案等幾何結構,並能基於這些結構實現準確而強大的3D定位、定向和導航。隨著計算機視覺的發展,這些能夠創建高級、緊湊和語義豐富場景信息表達的整體結構元素越來越受到研究人員的關注。為了實現充分利用場景解耦股的能力,研究人員針對場景表達、結構化3D建模、場景合成與編輯、基於結構的推理規劃與交互,豐富的應用場景的方面展開研究。
  • 使用AI和TPU人類首次重建果蠅大腦神經元,論文登上《細胞》雜誌
    為了生成詳盡的大腦圖像,研究人員使用了多達 7062 個大腦切片,共計 2100 萬張圖片——其背後使用的算法和硬體可謂強大。谷歌 AI 負責人,計算機大神 Jeff Dean 點評了這項最新研究:TPU 帶你飛!這一連接組學研究有望加速人類對於果蠅——乃至所有生物學習、記憶和感知方面的研究。
  • 谷歌AI一鍵生成定製版3D遊戲神獸,可在線體驗!
    為了訓練 GAN,研究團隊創建了一個全彩色圖像數據集,其中包含單種生物的輪廓,這些輪廓改編自3D 生物模型。這種生物的輪廓描述了每種生物的形狀和大小,並提供了一張分割地圖來識別身體的各個部分。 一組自動化腳本將採用這個3D場景,並在不同的姿勢、視點和每個3D生物模型的縮放級別之間進行插值,創建全彩色圖像和分割地圖,形成 GAN的訓練數據集。使用這種方法,研究人員為每個3D生物模型生成10000多個圖像+分割圖對,與手動創建這些數據相比,用戶每張圖像可以節省大約20分鐘。生成高保真度圖像GAN的超參數大小會影響模型輸出圖像的質量。
  • 吳博:目標檢測集成框架在醫學圖像 AI 輔助分析中的應用 | AI 研習...
    醫學圖像分析任務類型和研究對象 醫學圖像分析的任務類型主要有:分類與識別:這是最簡單最直接的任務類型。左邊的圖是吳恩達教授之前做的一個 X 光模型,這個模型中主要做分類,判斷是否有肺炎等病症。圖像分類與識別是常見的圖像分析(MIA: Medical Image Analysis) 任務,是圖像檢索的基本單元。