微軟研究院計算機視覺系統在ImageNet挑戰中首次超越人類視覺

2021-02-21 機器之心

一直以來,計算科學家一直在為建立世界上最精確的計算機視覺系統孜孜不倦地努力著,但取得進展的過程卻一直如馬拉松競賽般漫長而艱辛。近期,微軟亞洲研究院視覺計算組實現的突破讓他們成為了這場競賽的最新領跑者。該團隊所開發的基於深度卷積神經網絡(CNN)的計算機視覺系統,在ImageNet1000挑戰中首次超越了人類進行對象識別分類的能力。

微軟研究團隊在題為「DelvingDeep into Rectifiers: Surpassing Human-Level Performance on ImageNetClassification」的論文中指出,他們的系統在ImageNet 2012分類數據集中的錯誤率已降低至4.94%。此前同樣的實驗中,人眼辨識的錯誤率大概為5.1%。這個數據集包含約120萬張訓練圖像、5萬張驗證圖像和10萬張測試圖像,分為1000個不同的類別。微軟研究員表示:「據我們所知,我們的研究成果是這項視覺識別挑戰中第一個超越人類視覺能力的計算機系統。」

該研究團隊由微軟亞洲研究院研究員孫劍、何愷明以及來自西安交通大學和中國科學技術大學的實習生張祥雨和任少卿組成。

孫劍已在微軟亞洲研究院工作了十二年,現任視覺計算組首席研究員。此前,他在西安交通大學獲得了電氣工程專業學士、碩士及博士學位。2001年,孫劍曾是沈向洋博士的學生。沈向洋目前擔任微軟全球執行副總裁,主管技術與研究,並且是微軟亞洲研究院創始成員之一。這位因在計算機視覺及圖像學領域建樹卓著而當選IEEEFellow(電氣電子工程師學會院士)及ACM Fellow(美國計算機協會院士)的計算機科學家,對他昔日弟子所取得的成就感到非常自豪。

「孫劍和我在2001年和西安交通大學鄭南寧教授一起做的第一個項目是利用置信傳播(beliefpropagation)進行立體重建。孫劍第一個將貝葉斯置信傳播用來解決立體視覺問題並取得了當時最好的效果。」沈向洋對孫劍在微軟所取得的成就倍感驕傲。

「孫劍的很多研究成果都成功應用到了微軟的核心產品中。而他在更深層神經網絡方面最新研究成果的潛力讓我尤為興奮和期待。」

孫劍將團隊取得的最新成果歸功於以下兩項關鍵突破:一是開發了適應性更強的非線性神經元,二是改進訓練算法,使得神經網絡更為強大。

微軟研究員在論文中指出,修正神經元 (rectifier neuron)是近期將深度神經網絡應用於計算機視覺挑戰時取得成功的關鍵要素之一。

研究人員表示:「在本論文中,我們從兩個方面對主要由修正神經元驅動的神經網絡進行了研究。首先,我們生成了一種新的修正線性單元(ReLU),並將其稱為參數化修正線性單元(PReLU)。該激活函數不僅可自適應獲取修正參數,還可提高計算精度,且所需額外計算成本幾乎可以忽略不計。其次,我們研究了深度修正模型的訓練難度。我們通過對修正線性單元(即ReLU/PReLU)的非線性特徵進行直接建模,推導出一種符合理論的初始化方法,並直接從頭開始訓練網絡,將其應用於深度模型(例如,具有30個帶權層的模型)的收斂過程。這為我們探索功能更強大的網絡體系結構提供了更多的靈活性。」

該研究團隊雖然對其算法超越人類視覺識別極限感到興奮不已,但與該領域的其他研究人員一樣,研究團隊成員也強調,計算機視覺目前從根本上仍無法與人類視覺相比。計算機系統在識別物體、理解圖像上下文及場景高級信息等領域仍面臨諸多挑戰。

「雖然我們的算法基於該特定的數據集得出了極為理想的結果,但這並不表明在對象識別領域機器視覺普遍優於人類視覺。某些對於人類來說輕而易舉的基本對象類別的識別,機器識別仍然存在明顯錯誤。儘管如此,我們的研究結果表明機器算法在眾多視覺識別任務上具有巨大的發展潛力。」

「人類可以毫不費力地區分出一隻羊和一頭牛。但計算機在執行這些簡單任務時卻不盡完美,」孫劍解釋道。「但是,當涉及到不同品種的羊的區分時,計算機可超越人類。通過訓練,計算機可觀察圖像的細節、紋理、形狀及環境,並發現人類無法察覺出的區別。」

微軟研究團隊的工作並不僅僅局限於基礎研究,其多項成果已被應用到微軟的產品和服務中,包括必應圖片搜索及微軟雲存儲解決方案OneDrive。在近期的一篇博文中,微軟OneDrive項目經理DouglasPearce介紹了 OneDrive自動識別照片內容的功能。

「OneDrive會自動為用戶上傳的照片創建標籤,比如人、狗、沙灘、落日等等,使用戶藉助標籤能夠更輕鬆地尋找到自己的圖片。有了這項功能,我們向演示項目中添加照片、與家人重溫特殊回憶,或與Facebook好友分享重要時刻就變得輕而易舉。」Pearce如是說。

想要了解此項技術背後原理的讀者可閱讀微軟研究院去年發布的專題文章。該文章介紹了來自同一研究團隊的研究成果,他們在保持準確性不變的條件下將深度學習目標檢測系統加速了多達100倍。該團隊的科研進展記錄於題為「Spatial Pyramid Pooling in Deep Convolutional Networks for VisualRecognition」研究論文中。

「微軟亞洲研究院視覺計算研究組一直致力於推動計算機視覺研究的前沿發展,終極目標是使計算機能夠模擬出人類的感知能力。我對研究組多年來所取得的成就深感自豪,他們不僅以高質量的論文取得了學術界的認可,而且通過將這些技術轉化到了微軟的多個核心產品中。」微軟亞太研發集團主席兼微軟亞洲研究院院長洪小文博士說道。

2010年,來自史丹福大學、普林斯頓大學及哥倫比亞大學的科學家們啟動大規模視覺識別挑戰賽(LargeScale Visual Recognition Challenge),推動了計算機視覺識別挑戰的持續發展。科技行業知名記者JohnMarkoff於2014年8月在《紐約時報》上刊登文章指出,2014年計算機識別挑戰的目標識別準確率幾乎提升了一倍,圖像分類錯誤率也減少了一半。最近,百度的研究人員在其論文中宣稱,以ImageNet對象分類為基準,百度的計算機視覺系統實現了前五選5.33%的錯誤率。

關於計算機視覺的挑戰仍在繼續,今年的挑戰賽將於12月啟動。但這並不是孫劍、何愷明及其研究團隊的關注重點。「我們的目標是在眾多應用上開發出能與人類視覺媲美,甚至比人類更準確的計算機視覺系統,」孫劍說道。「如要實現這一目標,我們需要更多的訓練數據和更加真實的測試場景。我們在必應、OneDrive和其他服務平臺上的工作將幫助我們進一步改善算法的魯棒性。」

本文來源微軟研究院,微信公眾號MSRAsia

✄-

添加個人微信號"jiqizhixin2014":


轉載請在文章開頭顯著註明「本文來源於微信公眾號『機器之心』(almosthuman2014)」,並保留原文作者和來源。

相關焦點

  • 微軟在ImageNet計算機視覺識別挑戰中實現突破
    近期,微軟亞洲研究院視覺計算組實現的突破讓他們成為了這場競賽的最新領跑者。該團隊所開發的基於深度卷積神經網絡(CNN)的計算機視覺系統,在ImageNet 1000挑戰中首次超越了人類進行對象識別分類的能力。
  • 微軟研究員在ImageNet計算機視覺識別挑戰中實現裡程碑式突破
    近期,微軟亞洲研究院視覺計算組實現的突破讓他們成為了這場競賽的最新領跑者。該團隊所開發的基於深度卷積神經網絡(CNN)的計算機視覺系統,在ImageNet 1000 挑戰中首次超越了人類進行對象識別分類的能力。
  • 刷新神經網絡新深度:ImageNet計算機視覺挑戰賽微軟中國研究員奪冠
    這兩個挑戰賽的側重點各有不同:ImageNet 傾向於評測識別圖像中顯著物體的能力,而MS COCO傾向於評測識別複雜場景的各類物體的能力。能同時在兩個世界級的比賽中獲得冠軍,足以說明研究組的技術突破是通用的——它可以顯著地改善計算機視覺領域的各項研究,甚至計算機視覺領域以外的研究,比如語音識別。那麼究竟是什麼樣的技術突破?
  • 前沿 微軟中國研究員刷新神經網絡新深度:折桂2015ImageNet計算機視覺挑戰賽
    錯誤率3.57%,微軟折桂2015ImageNet美國東部時間12月10日上午9時,ImageNet計算機視覺識別挑戰賽結果揭曉——微軟亞洲研究院視覺計算組的研究員們憑藉深層神經網絡技術的最新突破,以絕對優勢獲得圖像分類、圖像定位以及圖像檢測全部三個主要項目的冠軍。
  • 微軟亞洲研究院機器閱讀系統在SQuAD挑戰賽中率先超越人類水平
    2018年1月3日提交的R-NET模型在EM值(Exact Match, 表示預測答案和真實答案完全匹配)上以82.650的最高分領先,並率先超越人類分數82.304。微軟亞洲研究院院長洪小文第一時間向自然語言計算組表示了祝賀:「這對於微軟以及自然語言處理研究領域來說,都是一個重要的裡程碑。一方面,微軟團隊在如此激烈的競爭中,以穩定的成績長期位居榜首,可喜可賀。
  • 微軟亞洲研究院計算視覺組負責人華剛:如何做好計算機視覺的研究
    來源:微軟研究院AI頭條作者:華剛新智元啟動新一輪大招聘:
  • 計算機視覺各技術分支專利分析
    計算機視覺技術可以分解為基於視覺的生物特徵識別技術、超越人類視覺能力的感知獲取技術、超越人類視覺能力的運動追蹤技術、視頻在線分析與圖像分析理解技術和三維場景重建技術(表1)。表1 計算機視覺技術分解表我國在超越人類視覺能力的感知獲取技術領域起步相對較晚,相關專利申請較少,技術還處於研發階段, 技術應用尚處於探索中,與發達國家的優勢企業還有較大差距。超越人類視覺能力的感知獲取技術在我國最早出現於1988 年,經過近30 年的發展,截止2018 年2 月28 日,我國相關專利總量達到1135 件,並且在2012 年專利年申請量首次突破100 件。
  • 演講實錄丨華剛 計算機視覺的黃金時代:機遇與挑戰
    了解到還有很多粉絲不能到場參會,小編特地整理了參會嘉賓微軟亞洲研究院視覺計算組組長、資深計算機視覺專家華剛的報告速記,讓大家一睹為快~本文根據速記進行整理計算機視覺的黃金時代:機遇與挑戰華剛微軟亞洲研究院視覺計算組組長、資深計算機視覺專家華剛:大家下午好!
  • Seeing AI:計算機視覺十年磨一劍,打造盲人的「瑞士軍刀」
    近年來,一系列的研究突破讓計算機視覺研究者們有機會完成在幾年前還不敢想的事情。負責微軟認知服務(Microsoft Cognitive Service)中圖像描述(Image Captioning)技術研究的微軟資深研究員何曉冬形容道:「有人將其形容為奇蹟。可以說,我們今天開發的智能技術比六年前好太多了。」
  • 【ImageNet後計算機視覺頂級賽事】中國團隊力克谷歌等包攬MS COCO競賽3項冠軍
    ,騰訊優圖實驗室傑出科學家賈佳亞教授,以及矽谷知名企業家、IEEE Fellow Chris Rowen,共論人臉識別等前沿計算機視覺技術。今年 COCO 競賽,微軟、Facebook、谷歌、商湯、曠視等企業,以及卡內基梅隆大學、北京大學、香港中文大學、上海交通大學等高校紛紛參與,競爭激烈。COCO 2017 競賽結果:中國團隊刷榜,超越谷歌、Facebook
  • 國內外優秀的計算機視覺團隊匯總
    ,國內外優秀的計算機視覺團隊有很多,我這裡只是列舉了自己從知乎、CSDN等網站上收集到的,如有遺漏,還請諒解。卡耐基梅隆大學:機器人學院麻省理工學院:計算機科學與人工智慧實驗室,機器視覺實驗室,生物與機器學習實驗室,媒體實驗室,認知科學實驗室喬治亞理工學院:機器人技術與智能機器實驗室,計算感知實驗室佛羅裡達大學:計算機視覺實驗室科羅拉多州立大學:機器視覺實驗室哥倫比亞大學:機器視覺實驗室康奈爾大學:計算機視覺小組
  • 中國計算機視覺行業應用的現狀、挑戰與契機
    在這些落地案例中,大多數項目都處於小範圍試用階段。創新者、先行者往往沒有太多的成功經驗可借鑑,不管是人工智慧系統的建設方,還是技術供應商,還是服務商,都會遇到不同的挑戰。IDC梳理了從研發測試到工業部署過程中六個典型挑戰,供後來者參考。缺乏可用於人工智慧模型訓練的大規模數據集。缺乏標註數據是幾乎所有應用場景普遍存在的挑戰。
  • 計算機視覺基礎 1
    計算機視覺基礎這個主題內容的布局如下:任何一個人工智慧系統的核心概念都是它能夠感知環境,並根據感知採取相應的行動。計算機視覺關注的是視覺感知部分:它是通過圖像和視頻來感知和理解世界的科學,通過構建世界的物理模型,從而使人工智慧系統能夠採取相應的行動。對於人類來說,視覺只是感知的一個方面。我們通過視覺來感知世界,還可以通過聲音、嗅覺以及其他感官來感知世界。
  • 精選 微軟亞洲研究院洪小文:人工智慧與人類智能的共進化
    來源:微軟研究院 AI 頭條更正說明新智元11月4日刊發的文章 《微軟亞洲研究院芮勇出任聯想
  • 計算機視覺中的Transformer
    在計算機視覺領域,CNN自2012年以來已經成為視覺任務的主導模型。隨著出現了越來越高效的結構,計算機視覺和自然語言處理越來越收斂到一起,使用Transformer來完成視覺任務成為了一個新的研究方向,以降低結構的複雜性,探索可擴展性和訓練效率。
  • 【視頻+PPT】CVPR 2019分享會論壇實錄丨2019最值得期待的計算機視覺問題有哪些?
    >來源:微軟研究院AI頭條(ID:MSRAsia)整理編輯:三石【新智元導讀】4月2日,微軟亞洲研究院創研論壇CVPR 2019論文分享會在清華大學圓滿落幕。20餘位論文作者在分享會現場進行了報告宣講,30多篇論文進行了海報展示與交流,還有一場精彩的圓桌論壇,就計算機視覺領域值得關注的前沿問題、發展方向、人才培養等熱點話題進行了討論。這是微軟亞洲研究院主辦的第三屆CVPR分享會,除了容納300人的羅姆樓報告廳會場座無虛席,還有數千人通過網絡觀看了本場分享會的在線直播。如果你錯過了這場乾貨滿滿的分享會,歡迎掃描二維碼觀看錄播視頻並下載PPT。
  • 為何機器視覺與人類視覺具有相同的缺陷
    最新的證據顯示,這兩類視覺系統也具有相同的缺陷。深度卷積神經網絡以排山倒海之勢席捲了人工智慧領域。確實,現在這些機器視覺已經在面部識別、物體識別甚至是下圍棋等眾多領域頻頻完勝人類對手。當然,頗為諷刺的一點是,神經網絡的設計框架很大程度上模擬了人類的大腦結構。因此,機器視覺的深度神經網絡宏觀結構與人類大腦負責視覺的部分十分類似。
  • 當機器學習遇上計算機視覺
    點擊標題下「大數據文摘」可快捷關注作者:Jamie Shotton,Antonio Criminisi,Sebastian Nowozin機構:微軟劍橋研究院譯者:andydoo,kbyran摘自:譯言(www.yeeyan.org)計算機視覺在上一個世紀60年代脫胎於人工智慧與認知神經科學,旨在通過設計算法來讓計算機自動理解圖像的內容。
  • 什麼是計算機視覺?什麼是機器視覺?
    然而,小夥伴們知道視覺對於機器人是多麼難能可貴嗎?我們平時所說的計算機視覺和機器視覺又有什麼區別呢?今天小編就為大家講一講什麼是計算機視覺、什麼又是機器視覺。首先在很多文獻中,計算機視覺與機器視覺是不加區分的,但其實這兩個術語既有區別又有聯繫的。
  • 計算機視覺領域的價值網站及書籍推薦​
    中科院自動化所李子青研究員;http://www.cbsr.ia.ac.cn/users/szli/12. 中科院計算所山世光研究員;http://www.jdl.ac.cn/user/sgshan/13. 人臉識別主頁;http://www.face-rec.org/14.