ImageNet挑戰賽中超越人類的計算機視覺系統

2021-01-16 CSDN技術社區

一直以來,計算科學家一直在為建立世界上最精確的計算機視覺系統孜孜不倦地努力著,但取得進展的過程卻一直如馬拉松競賽般漫長而艱辛。近期,微軟亞洲研究院視覺計算組實現的突破讓他們成為了這場競賽的最新領跑者。該團隊所開發的基於深度卷積神經網絡(CNN)的計算機視覺系統,在ImageNet1000挑戰中首次超越了人類進行對象識別分類的能力。


微軟研究團隊在題為「Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification」的論文中指出,他們的系統在ImageNet2012分類數據集中的錯誤率已降低至4.94%。此前同樣的實驗中,人眼辨識的錯誤率大概為5.1%。這個數據集包含約120萬張訓練圖像、5萬張驗證圖像和10萬張測試圖像,分為1000個不同的類別。微軟研究員在該篇論文中表示:

To our knowledge, our result is the first to surpass human-level performance (5.1%, [22]) on this visual recognitionchallenge. 
據我們所知,我們的研究成果是這項視覺識別挑戰中第一個超越人類視覺能力的計算機系統。

該研究團隊由微軟亞洲研究院研究員孫劍、何愷明以及來自西安交通大學和中國科學技術大學的實習生張祥雨和任少卿組成。

孫劍已在微軟亞洲研究院工作了十二年,現任視覺計算組首席研究員。此前,他在西安交通大學獲得了電氣工程專業學士、碩士及博士學位。2001年,孫劍曾是沈向洋博士的學生。沈向洋目前擔任微軟全球執行副總裁,主管技術與研究,並且是微軟亞洲研究院創始成員之一。這位因在計算機視覺及圖像學領域建樹卓著而當選IEEEFellow(電氣電子工程師學會院士)及ACMFellow(美國計算機協會院士)的計算機科學家,對他昔日弟子所取得的成就感到非常自豪。

「孫劍和我在2001年和西安交通大學鄭南寧教授一起做的第一個項目是利用置信傳播(beliefpropagation)進行立體重建。孫劍第一個將貝葉斯置信傳播用來解決立體視覺問題並取得了當時最好的效果。」 沈向洋對孫劍在微軟所取得的成就倍感驕傲。

「孫劍的很多研究成果都成功應用到了微軟的核心產品中。而他在更深層神經網絡方面最新研究成果的潛力讓我尤為興奮和期待。」

孫劍將團隊取得的最新成果歸功於以下兩項關鍵突破:一是開發了適應性更強的非線性神經元,二是改進訓練算法,使得神經網絡更為強大。

微軟研究員在論文中指出,修正神經元 (rectifier neuron)是近期將深度神經網絡應用於計算機視覺挑戰時取得成功的關鍵要素之一。

研究人員表示:「在本論文中,我們從兩個方面對主要由修正神經元驅動的神經網絡進行了研究。首先,我們生成了一種新的修正線性單元(ReLU),並將其稱為參數化修正線性單元(PReLU)。該激活函數不僅可自適應獲取修正參數,還可提高計算精度,且所需額外計算成本幾乎可以忽略不計。其次,我們研究了深度修正模型的訓練難度。我們通過對修正線性單元(即ReLU/PReLU)的非線性特徵進行直接建模,推導出一種符合理論的初始化方法,並直接從頭開始訓練網絡,將其應用於深度模型(例如,具有30個帶權層的模型)的收斂過程。這為我們探索功能更強大的網絡體系結構提供了更多的靈活性。」 

該研究團隊雖然對其算法超越人類視覺識別極限感到興奮不已,但與該領域的其他研究人員一樣,研究團隊成員也強調,計算機視覺目前從根本上仍無法與人類視覺相比。計算機系統在識別物體、理解圖像上下文及場景高級信息等領域仍面臨諸多挑戰。

「雖然我們的算法基於該特定的數據集得出了極為理想的結果,但這並不表明在對象識別領域機器視覺普遍優於人類視覺。某些對於人類來說輕而易舉的基本對象類別的識別,機器識別仍然存在明顯錯誤。儘管如此,我們的研究結果表明機器算法在眾多視覺識別任務上具有巨大的發展潛力。」

「人類可以毫不費力地區分出一隻羊和一頭牛。但計算機在執行這些簡單任務時卻不盡完美,」孫劍解釋道。「但是,當涉及到不同品種的羊的區分時,計算機可超越人類。通過訓練,計算機可觀察圖像的細節、紋理、形狀及環境,並發現人類無法察覺出的區別。」

微軟研究團隊的工作並不僅僅局限於基礎研究,其多項成果已被應用到微軟的產品和服務中,包括必應圖片搜索及微軟雲存儲解決方案OneDrive。在OneDrive近期一篇的一片官方博文中,微軟OneDrive項目經理Douglas Pearce介紹了 OneDrive自動識別照片內容的功能。

「OneDrive會自動為用戶上傳的照片創建標籤,比如人、狗、沙灘、落日等等,使用戶藉助標籤能夠更輕鬆地尋找到自己的圖片。有了這項功能,我們向演示項目中添加照片、與家人重溫特殊回憶,或與Facebook好友分享重要時刻就變得輕而易舉。」Pearce如是說。

想要了解此項技術背後原理的讀者可閱讀微軟研究院去年發布的專題文章。該文章介紹了來自同一研究團隊的研究成果,他們在保持準確性不變的條件下將深度學習目標檢測系統加速了多達100倍。該團隊的科研進展記錄於題為「Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition」研究論文中。

「微軟亞洲研究院視覺計算研究組一直致力於推動計算機視覺研究的前沿發展,終極目標是使計算機能夠模擬出人類的感知能力。我對研究組多年來所取得的成就深感自豪,他們不僅以高質量的論文取得了學術界的認可,而且通過將這些技術轉化到了微軟的多個核心產品中。」微軟亞太研發集團主席兼微軟亞洲研究院院長洪小文博士說道。

2010年,來自史丹福大學、普林斯頓大學及哥倫比亞大學的科學家們啟動大規模視覺識別挑戰賽(Large Scale Visual Recognition Challenge),推動了計算機視覺識別挑戰的持續發展。科技行業知名記者JohnMarkoff於2014年8月在《紐約時報》上刊登文章指出,2014年計算機識別挑戰的目標識別準確率幾乎提升了一倍,圖像分類錯誤率也減少了一半。最近,百度的研究人員在其論文中宣稱,以ImageNet對象分類為基準,百度的計算機視覺系統實現了前五選5.33%的錯誤率。

關於計算機視覺的挑戰仍在繼續,今年的挑戰賽將於12月啟動。但這並不是孫劍、何愷明及其研究團隊的關注重點。「我們的目標是在眾多應用上開發出能與人類視覺媲美,甚至比人類更準確的計算機視覺系統,」孫劍說道。「如要實現這一目標,我們需要更多的訓練數據和更加真實的測試場景。我們在必應、OneDrive和其他服務平臺上的工作將幫助我們進一步改善算法的魯棒性。」

相關焦點

  • 讓計算機「看懂」所有東西?視覺智能超越人類的下一步如何進化?
    機器視覺帶來什麼?讓無人駕駛「阿波龍」更安全地在路上行駛讓醫生們多一雙不知疲倦的眼睛進行診斷讓「看透」世界的機器人進入災區挽救傷員就像一個歌詞所寫,「讓我做你的眼睛,那樣你才看得清」。視覺智能已經從模仿人類到超越人類,在人類持續進化中,它也在不斷自我進化中。
  • 李飛飛總結 8 年 ImageNet 歷史,宣布挑戰賽最終歸於 Kaggle
    ECCV 2012)就用到了本體結構機器視覺和人類視覺自從 2012 卷積神經網絡在計算機視覺上取得極大的成功後,我們一直在探索擁有更強大機器視覺的可能性。這也令大家都看到了近來計算機視覺所存在的局限,比如說小數據集訓練,雖然我們能使用預訓練模型進行遷移學習,但每一個類別仍然需要成百上千的標註圖像。
  • 殘差學習,152層網絡,微軟奪冠2015 ImageNet計算機視覺識別挑戰
    美國東部時間2015年12月10日,微軟亞洲研究院視覺計算組在2015 ImageNet計算機識別挑戰賽中憑藉深層神經網絡技術的最新突破,以絕對優勢獲得圖像分類、圖像定位以及圖像檢測全部三個主要項目的冠軍。
  • 上海AI公司獲計算機視覺「奧斯卡」夜間行人檢測挑戰賽冠軍
    CVPR,國際計算機視覺和模式識別大會,一直有計算機視覺領域的「奧斯卡」之稱,憑藉著嚴苛的競賽標準,成為全球AI領域團隊檢驗自身基礎研究成果的試金石。據深蘭科技DeepBlueAI團隊介紹,本次參賽及獲獎多分布於檢測與分類算法,目標及優勢在於對Backbone(特徵提取網絡)的優化和改進。
  • ...說話首超人類!微軟認知AI團隊提出視覺詞表預訓練超越Transformer
    能看圖會說話的AI,表現還超過了人類?最近,Azure悄然上線了一個新的人工智慧服務,能精準的說出圖片中的內容。而背後的視覺詞表技術,更是超越了基於Transformer的前輩們,拿到nocaps挑戰賽冠軍。有沒有發現,搜索出來的圖片有時相關性很差?
  • AI看圖說話首超人類!微軟認知AI團隊提出視覺詞表預訓練超越...
    能看圖會說話的AI,表現還超過了人類?最近,Azure悄然上線了一個新的人工智慧服務,能精準的說出圖片中的內容。而背後的視覺詞表技術,更是超越了基於Transformer的前輩們,拿到nocaps挑戰賽冠軍。有沒有發現,搜索出來的圖片有時相關性很差?
  • 搜狗斬獲ICPR 2020挑戰賽冠軍,計算機視覺技術持續領先
    近日,在第25屆國際模式識別大會(ICPR 2020)舉辦的人臉106關鍵點檢測挑戰賽中,搜狗AI團隊榮獲冠軍,彰顯其在計算機視覺領域的核心技術實力。ICPR人臉106關鍵點檢測挑戰賽是什麼?在技術創新方面,搜狗在計算機視覺領域一直保持著強勁實力。通用技術方向,於2018 年在CVPR WAD自動駕駛視覺競賽中奪得道路目標檢測任務第一名;在國際自動駕駛領域權威評測集Cityscapes實例分割評測任務中同樣拿到第一名的好成績。
  • 百度計算機視覺系統錯誤率低於谷歌 接近人類水平
    【環球科技綜合報導】據國外媒體1月19日報導,百度研發的計算機視覺系統Deep Image性能優於谷歌,已經接近人類的精準度。百度擁有當前最新水平的圖像識別系統——Deep Image,採用端對端深度學習技術研發而成。
  • 淺談計算機視覺中的圖像標註
    圖像標註圖像標註是計算機視覺的一個子集,是計算機視覺的重要任務之一。圖像標註就是將標籤附加到圖像上的過程。這可以是整個圖像的一個標籤,也可以是圖像中每一組像素的多個標籤。這些標籤是由人工智慧工程師預先確定的,並被選中為計算機視覺模型提供圖像中所顯示的信息。
  • 搜狗斬獲ICPR 2020人臉關鍵點檢測挑戰賽冠軍 計算機視覺技術持續...
    近日,在第25屆國際模式識別大會(ICPR 2020)舉辦的人臉106關鍵點檢測挑戰賽中,搜狗AI團隊榮獲冠軍,彰顯其在計算機視覺領域的核心技術實力。圖1 本屆挑戰賽決賽階段前五名結果ICPR人臉106關鍵點檢測挑戰賽是什麼?人臉關鍵點檢測算法的研究重點是在不同表情、性別、年齡、姿態、光照條件下,準確定位人臉輪廓及五官關鍵點,近年來偏向實用的人臉關鍵點檢測的國際評測陸續舉辦,國際頂級計算機會議ICME 2019就曾舉辦人臉關鍵點檢測的比賽。
  • 深度學習計算機視覺中最重要的幾個數據集
    如果你想了解早期學者們對gradient-based learning(基於梯度的學習方法)方法的一點努力,想了解為什麼卷積神經網絡需要local reception field(局部感受野),需要sub-sample(下採樣),需要shared weights(共享權重)不妨細讀這篇40多頁的論文,不只是LeNet-5這個網絡,更是一個完整的系統的描述。
  • 計算機視覺系列8:什麼是計算機視覺
    計算機視覺的目標是理解數字圖像的內容。這需要使計算機能夠再現人類視覺能力。理解數字圖像的內容包括從圖像中提取描述,該描述可能是圖像中的物體、文本描述、三維模型等。計算機視覺是從圖像中自動提取信息。信息可以是從3D模型、相機位置、物體檢測和識別到的檢索圖像等。- 第 ix頁,使用Python進行計算機視覺編程,2012。
  • 在視覺方面,計算機可與人類親戚一戰了
    在過去的幾十年時間,神經科學家一直在嘗試設計一個能夠模擬人類大腦來識別物體,具有視覺技能的計算機網絡。正是因為人類大腦的識別物體的能力非常準確和快速,很長的時間以來,人們都沒有設計出任何一個可以匹敵人類對視覺物體的識別能力的計算機模型。但是,目前這個情況發生了一些改變。來自美國MIT的神經科學家們進行了一項最新的研究,他們發現了一種最新一代號稱「深層神經網絡(deep neural networks)」 的東西,其能夠與靈長類動物大腦相匹敵。
  • 微軟亞洲研究院機器閱讀系統在SQuAD挑戰賽中率先超人類水平
    ,並率先超越人類分數82.304。一方面,微軟團隊在如此激烈的競爭中,以穩定的成績長期位居榜首,可喜可賀。團隊的最新研究成果已經應用在微軟相關的AI產品中。另一方面,計算機文本理解能力首次超越人類,也預示著該領域的研究將會有更大突破,相關的AI應用普及可以期待。」
  • 挑戰新物體描述問題,視覺詞表解決方案超越人類表現
    編者按:最近,研究者們發布了 nocaps 挑戰,用以測量在沒有對應的訓練數據的情況下,模型能否準確描述測試圖像中新出現的各種類別的物體。針對挑戰中的問題,微軟 Azure 認知服務團隊和微軟研究院的研究員提出了全新解決方案視覺詞表預訓練 (Visual Vocabulary Pre-training)。該方法在 nocaps 挑戰中取得了新的 SOTA,並首次超越人類表現。
  • 將「眼睛」放在AI中:計算機可教我們關於人類視覺的什麼知識?
    用於面部識別的人工智慧(AI)系統因種族和性別偏見而臭名昭著。用於AI訓練的攝影數據缺乏多樣性通常被認為是根本原因。好吧,事實證明人腦也有同樣的問題 -我們真的不知道為什麼。種族歧視是一種現象,在這種現象中,人類難以區分另一個種族的個體。已經對此進行了數十年的研究,但是對於這種現象的真正原因,科學界尚無定論,因為我們仍在嘗試了解有關人類視覺系統工作原理的更多細節。
  • 計算機視覺深度討論 為什麼很難比較AI和人類的感知
    這種方法可能對AI系統產生錯誤的期望,並在它們承擔關鍵任務時產生危險的結果。在最近的一項研究中,來自德國各個組織和大學的一組研究人員強調了評估深度學習在處理視覺數據方面的性能所面臨的挑戰。研究人員在題為「人機感知比較的難題」的論文中著重指出了目前比較深層神經網絡和人類視覺系統的方法中存在的問題。
  • 美國西北大學新系統在智力測試中超越75%民眾,人類的推理能力也不...
    在公務員考試、一般的智力測試中我們經常看到它。那麼問題來了,你知道圖中這道題的答案麼?如果不知道,也用不著沮喪,因為有75%的美國人大概也不知道。但壞消息是:計算機可能知道。近日,美國西北大學的科研團隊研發了一個全新的計算模型,在瑞文氏標準推理測試中達到或超越了75%美國普通大眾的表現。被媒體譽為人工智慧史上的又一裡程碑。
  • 計算機視覺和機器人視覺概述
    1.計算機視覺的概念  計算機視覺就是用各種成像系統代替視覺器官作為輸入敏感手段,由計算機來代替大腦完成處理和解釋。計算機視覺的最終研究目標就是使計算機能像人那樣通過視覺觀察和理解世界,具有自主適應環境的能力。
  • 最後一屆ImageNet榜單出爐:顏水成等中國團隊奪多項冠軍
    根據此前的消息,本屆大規模視覺識別挑戰賽(ILSVRC)將是最後一屆比賽。  根據此前的消息,本屆大規模視覺識別挑戰賽(ILSVRC)將是最後一屆,以後的比賽將會超越「識別」,往「理解」上發展。  根據「超越 ILSVRC」 Workshop 官網介紹,這堂研討會的內容主要包括以下 4 點:  發表 2017 年 ILSVRC 的結果  評估 ILSVRC 2017 圖像、視頻物體識別、分類的當前最佳結果  探討這與當前在計算機視覺產業中應用的最優技術的關係  受邀講者(目前確定的有加州大學伯克利分校的 Jitendra