網易AI Lab問鼎ACCV 2020細粒度網絡圖像識別賽

2020-12-23 網易遊戲

  近日,第十五屆亞洲計算機視覺學術會議ACCV 2020(Asian Conference on Computer Vision)國際細粒度網絡圖像識別賽公布最終成績,網易AI Lab以71.4%的準確率擊敗了來自全球的569個頂尖計算機視覺團隊,從超過1000份方案中脫穎而出,一舉斬獲大賽冠軍。這是網易AI Lab繼語音、自然語言處理(NLP)等領域大賽奪冠之後,在計算機視覺領域的又一突破,彰顯了網易AI Lab在人工智慧領域的綜合技術實力。

  (網易AI Lab榮獲ACCV 2020國際細粒度網絡圖像識別賽第一名的獎狀)

  ACCV是國際計算機視覺領域的重要學術會議之一,每兩年舉辦一次,吸引來自全球的一流學者、研究者和開發者參與,共同探討計算機視覺領域的前瞻學術研究與應用。本次ACCV 2020國際細粒度網絡圖像識別賽,主要目的在於使用網絡數據訓練細粒度識別模型,減輕細粒度識別任務對大規模有標籤訓練數據的依賴,以增強模型算法的實用性和擴展性。

  此次競賽的數據集規模巨大,訓練數據集包含557169張圖片,測試數據集包含100000張圖片,涵蓋各類動植物,共計5000個類別。所有數據來自網絡,未經人工標註,因此包含大量噪聲和錯誤數據,且數據存在長尾分布現象,導致不同類別樣本可能同時存在欠擬合和過擬合等問題,對參賽選手提出了巨大挑戰。而網易AI Lab提出了一種基於類別平衡的去噪方法,配合基於BBN的原創模型訓練方案,無需過度依賴高質量的標註數據,能夠直接從網絡數據中獲得更好的模型表達能力。比賽採用準確率(accuracy)作為評測指標,網易AI Lab解決方案的accuracy達到71.4%,遠超過比賽方所提供的基線模型(accuracy=41.905%)。

  細粒度圖像識別不同於通用圖像分析任務,需要對屬於同一基礎類別的圖像進行更加細緻的子類劃分,因此對模型的要求更高、難度更大。而現有深度學習方法通常需要依賴大規模高質量標註數據,其獲取難度較高且成本高昂,一定程度上限制了現實場景下的應用。網易AI Lab在此次競賽中使用的原創模型,能夠在面對大量低質量樣本的情況下,快速找到適用於特定場景的解決方案,降低了圖像識別對於人工標註的依賴,為通用物品識別、圖像或視頻標籤等應用場景落地帶來了更多可能性。

  成立於2017年的網易AI Lab,目前在計算機視覺研究領域有著豐富的技術累積,在落地應用上也擁有著諸多的實踐經驗。此前,網易AI Lab圖像識別技術已成功應用於敏感內容審核、遊戲反外掛、人臉屬性識別、手勢識別等場景。

轉載自:爆角資訊

相關焦點

  • 「AI 大毒瘤」Deepfake 識別賽排名出爐!3.5 萬種算法準確率最高...
    雷鋒網了解到,Facebook 利用了多種 Deepfake 生成模型、諸如圖像增強之類的細化技術以及諸如模糊、幀率修改和覆蓋之類的增強和幹擾。這樣做的目的就是,使數據集能夠涵蓋實際可能存在的任何類型視頻。
  • 【新智元乾貨】計算機視覺必讀:目標跟蹤、圖像分類、人臉識別等
    本文以計算機視覺的重要概念為線索,介紹深度學習在計算機視覺任務中的應用,包括網絡壓縮、細粒度圖像分類、看圖說話、視覺問答、圖像理解、紋理生成和風格遷移、人臉識別、圖像檢索、目標跟蹤等。網絡壓縮(network compression)儘管深度神經網絡取得了優異的性能,但巨大的計算和存儲開銷成為其部署在實際應用中的挑戰。有研究表明,神經網絡中的參數存在大量的冗餘。
  • CVPR 2020滿分論文 | FineGym:面向細粒度動作分析的層級化高質量...
    機器之心機器之心發布作者:邵典等本文介紹了一個大規模、高質量、層級化標註的細粒度人體動作數據集「FineGym」,研究者來自香港中文大學,目前這項研究已被 CVPR 2020 接收為 oral 論文。
  • 華為雲EI問鼎國際圖像識別領域「世界盃」
    華為雲EI在本次比賽中運用的圖像識別技術,可廣泛用於通用物品識別、圖像/視頻標籤等領域。近十年來計算機視覺取得的進展離不開大量人工標註的數據集,但由於人工標註需要較高的成本,幾乎不太可能構建包羅萬象的超級數據集。
  • 給照片穿上「隱身衣」,最強人臉識別算法也失靈!業界推出最新AI工具Fawkes,幫你保護照片隱私數據
    下載連接:http://sandlab.cs.uchicago.edu/fawkes/#paper目前Fawkes軟體已經升級到V0.3版本。•以肉眼無法察覺的擾動對圖像的特徵空間表示進行更改。•不管跟蹤器(Tracker )如何訓練其模型,圖像偽裝都可為用戶識別提供95%以上的保護。•結果使用Microsoft(Azure Face API),Amazon(Rekognition)和Face ++的最新面部識別進行檢測,Fawkes模型可以100%成功。
  • 2020最強終端AI加速晶片Top10排行榜
    它為消費類和工業物聯網中的終端設備提供了2.3 TOPS的加速能力,足以實現多目標識別、4萬字的語音識別,甚至是醫療成像(MobileNet v1版以每秒500張圖像的速度)。除了神經網絡處理器外,i.MX 8M Plus還搭載了運行在2GHz的四核Arm Cortex-A53子系統,外加Cortex-M7實時子系統。
  • 2020「水下目標檢測算法賽」賽題解析——聲學圖像
    《2020「水下目標檢測算法賽」——聲納設備及其圖像判讀應用》:http://www.mooc.ai/open/course/760  《2020「水下目標檢測算法賽」 ——水下聲納圖像目標識別研究》:http://www.mooc.ai/open/course
  • 文本秒生成圖像,震驚業界,詳解OpenAI兩大AI模型
    在博客上,OpenAI也大秀了一把DALL·E的「超強想像力」,隨意輸入一句話,DALL·E就能生成相應圖片,這個圖片可能是網絡上已經存在的圖片,也可能是根據自己的理解「畫」出的。1、從CLIP流程,看三大問題如何解決簡單來說,CLIP的任務就是識別一張圖像所出現的各種視覺概念,並且學會它的名稱。比如當任務是對貓和狗的圖片進行分類,CLIP模型就需要判斷,目前處理的這張圖片的文字描述是更偏向於「一張貓的照片」,還是一張狗的照片。
  • Techo開發者大會丨騰訊安全天御精準識別音、圖、文等網絡垃圾
    然而,在這些日益增長的內容中卻充斥著各種不良言論、垃圾廣告、涉黃等網絡垃圾。這些流竄在網際網路中的垃圾內容,不僅極大程度影響了用戶體驗,也讓不少企業倍感困擾。面對日益複雜的安全形勢,企業該如何「祛汙」,守護內容安全?
  • 清華、協和等單位開發乳腺癌AI診斷工具,可準確識別惡性腫瘤
    在6月21日舉辦的2020北京智源大會開幕上,智源研究院院長黃鐵軍介紹到,清華大學、北京智源人工智慧研究院、協和醫學院和首都醫科大學的研究團隊近日推出一項名為SonoBreast的研究成果,提出了一個經過監督學習與訓練的、基於圖像塊的卷積神經網絡分類器,可以利用超聲波圖像進行乳腺癌診斷篩查。
  • 博觀智能ReID車輛識別達到97.59% 刷新多項世界紀錄
    車輛重識別(Vehicle ReID),是智能交通系統中至關重要的環節之一,可利用計算機視覺技術檢索不同監控場下的圖像或者視頻序列中是否存在特定車輛,是人工智慧在交通行業中應用最理想的技術 。數據集由40,671個車輛標識中的416,314張圖像,以及車輛的時間戳、品牌、顏色和車型等附加信息組成,是目前世界上最具挑戰的車輛重識別數據集。車輛重識別的難點,包括因攝像機的拍攝角度、光照強度等不同,車輛存在遮擋、色差變化和車頭車尾角度不同等問題。
  • 深度圖像識別ISDA-深層網絡的隱式語義數據擴增方法
    PGRednc1 介紹數據增強是一種有效的技術,以緩解訓練深度網絡[1,2,3,4,5]中的過擬合問題。在圖像識別的背景下,這通常對應於在輸入樣本上應用保留內容的轉換,例如裁剪、水平鏡像、旋轉和顏色抖動。這些增強技術雖然有效,但不能進行語義轉換,例如改變對象的背景或前景對象的紋理。
  • TensorFlow圖像識別驗證碼—實戰項目
    4位數字驗證碼驗證碼圖像大小為160 x 60,並對驗證碼做好標註,其中幹擾信息有字符扭曲、曲線、噪點。首先使用glob來對圖片進行讀取,然後將讀取到的圖像數據轉為numpy數組格式,再將數據由彩圖轉換為灰度圖,最後對數據進行一個歸一化的處理,即將數據轉為0~1之間的值,便於後面的模型訓練時卷積神經網絡的數據計算。
  • 文本秒生成圖像,震驚業界!詳解OpenAI兩大AI模型
    CLIP靠的就是預訓練階段,OpenAI從網際網路中收集的4億個文本-圖像對。接著,憑著與GPT-2/3相似的「zero-shot」設計,CLIP在不直接針對基準進行優化的同時,表現出優越的性能:魯棒性差距(robustness gap)縮小了75%,性能和深度殘差網絡ResNet50相當。
  • CES 2020:巨型8K屏幕——AI和攝像頭無處不在
    有了它可以顯示完整的建築物圖像,視圖會與圖像採集攝像機同步調整,因此在屏幕上顯示就好像真的在那裡一樣。事實上來自屏幕的光線增加了場景的亮度,非常適合鏡頭的光暈效果。背景中的建築並不是真的在那裡——它是通過圖像採集生成然後在水晶LED顯示屏上呈現出來。這是一項充滿智慧的技術,然而索尼公司稱它並不是根據屏幕的大小來製作歌曲和舞蹈的,而是專注於畫面的質量。
  • 浪潮AI資源平臺再度升級 提升與企業業務的適配度
    浪潮作為全球領先的人工智慧計算領導品牌,不僅在AI伺服器領域佔據很大的市場份額,而且還與多個技術領先的科技公司保持合作,幫助AI客戶在語音、語義、圖像、視頻、搜索、網絡等方面取得數量級的應用性能提升。   近日,浪潮又重磅推出了人工智慧開發平臺AIStation3.0。
  • 吳恩達:2020 年,這些 AI 大事件讓我無法忘懷...
    一些企業就開發出了口罩檢測模型,可以判斷人群中的個體是否有戴口罩,甚至還開發了對戴口罩人臉進行身份識別的模型。我的立場:人工智慧不是萬能藥,但這種新型、高病毒性、高傳染性冠狀病毒的問世已經成為人類利用AI對抗傳染病能力的有力試驗。當生成對抗網絡滲透到文化、社會和科學領域時,它們正悄悄地在網絡中充斥著無數的合成圖像。
  • 用art-pi獲取OV7670的圖像來做像處理和圖像識別
    打開APP 用art-pi獲取OV7670的圖像來做像處理和圖像識別 電路設計技能 發表於 2020-12-25 15:40:35
  • 這些內容領域的AI公司如何邁進「第二曲線」?|AI最佳掘金案例榜
    從內容推薦、視頻內容識別的增值服務再到對零售門店視覺感知智能化改造,圖普科技的觸角在與時俱進地不斷延伸。圖普科技每日處理圖像識別量超過10億次,雲端擁有幾百個圖像識別接口。巨大的處理需求,需要AI公司具備數十億級海量AI服務框架、海量數據管理構架、商業級AI服務架構三個層次的網際網路架構。
  • 吳恩達聖誕寄語:回顧2020年,這些AI大事件讓我無法忘懷……
    2、多哥政府訓練AI模型以識別衛星圖像中的貧困地區,並精準分配救濟金給最需要的人。3、聊天機器人提供了合成的虛擬朋友,供被疫情封鎖的人們聊天和調情。 4、視頻會議公司為在線辦公提供AI模型,以過濾背景噪音,並將睡衣變成虛擬的商務正裝。