微軟亞洲研究院計算視覺組負責人華剛:如何做好計算機視覺的研究

2021-02-14 新智元

來源:微軟研究院AI頭條

作者:華剛

新智元啟動新一輪大招聘:COO、執行總編、主編、高級編譯、主筆、運營總監、客戶經理、諮詢總監、行政助理等 9 大崗位全面開放。 

簡歷投遞:jobs@aiera.com.cn

HR 微信:13552313024

新智元為COO和執行總編提供最高超百萬的年薪激勵;為骨幹員工提供最完整的培訓體系、高於業界平均水平的工資和獎金。

加盟新智元,與人工智慧業界領袖攜手改變世界。

【新智元導讀】本文是微軟亞洲研究院資深研究員、現任微軟亞洲研究院計算視覺組負責人華剛博士在看來朱松純老師關於計算機視覺的三個起源和人工智慧的評論之後寫下的文章。華剛博士表示:

「從我去年(2015年)回到微軟亞洲研究院之後接觸到很多聰明的實習生。一方面感受到他們對計算機視覺研究的熱情,另方面也有感於他們對計算機視覺研究認知的局限性,或者說大一點,是基本研究方法和思路上的局限性,就有想法要對如何做好計算機視覺的研究寫點什麼,但一直也沒有找到合適的機會。最近計算機視覺領域國際權威、加州大學洛杉磯分校的朱松純老師發表了一篇關於計算視覺的三個起源和人工智慧的評論,引起了很大的反響。朱松純老師的評論全面深刻,我想借著這個機會,結合朱老師評論的內容和我在計算及視覺領域15年的研究經歷,也來談談如何做好計算機視覺的研究,希望對領域內的學生和年青的研究員能有所幫助。」


華剛博士是微軟亞洲研究院資深研究員,現任微軟亞洲研究院計算視覺組負責人。他的研究重點是計算機視覺、模式識別、機器學習、人工智慧和機器人,以及相關技術在雲和移動智能領域的創新應用。他因在圖像和視頻中無限制環境人臉識別研究做出的突出貢獻,於2015年被國際模式識別聯合會(International Association on Pattern Recognition)授予」生物特徵識別傑出青年研究員」獎勵,因其在計算機視覺和多媒體研究方面的傑出貢獻,於2016年被遴選為國際模式識別聯合會院士(IAPR Fellow)和國際計算機聯合會傑出科學家(ACM Distinguished Scientist) 。華剛博士已在國際頂級會議和期刊上發表了120多篇同行評審論文。他將擔任2019國際模式識別和計算機視覺大會 (CVPR 2019)的程序主席,以及CVPR 2017和ACM MM 2017的領域主席。

 

此前華剛博士曾擔任CVPR 2014、ICCV 2011、ACM MM 2011/ 2012/ 2015、ICIP 2012/2013/2015/2016、ICASSP 2012/ 2013等十多個頂級國際會議的領域主席,以及IEEE Trans. on Image Processing(2010-2014)編委。目前,華剛博士還擔任著IEEE Trans. on Image Processing、IEEE Trans. on Circuits Systems and Video Technologies、IEEE Multimedia、CVIU、MVA和VCJ的編委。

 「如何做好計算機視覺的研究?」 

要回答這個問題,我們先要對這個問題的關鍵詞進行分析:如果去掉「計算機視覺」這個限定詞,這問題就變成了「如何做好研究?」那麼,要回答這個問題,我們就要知道「什麼是好的研究?」而要定義什麼是好的研究,必須回到根本,先要知道「什麼是研究?

我們的討論就從這個問題開始。

一個被普遍接受的對研究的廣義定義為:研究是為了產生新的知識或者是為已有的知識設計新的應用的系統性的工作。因為我們今天的討論其實更多集中在科學研究上,先確定狹義的研究的定義為:利用科學的方法來調查解釋一個現象或者獲取新的知識。

綜合這兩個定義,可以看到科學研究從本質上是由三個基本的要素構成:1) 目的:產生新的知識或者是設計出新的應用; 2)手段:科學的方法。缺少這兩個要素任何之一都不構成科學研究; 3) 成果:新的知識。所謂新的知識,必須是前人不知道的東西。

我們很多同學和年輕的研究員認為研究就是寫論文、研究成果就是論文,這其實是在觀念上走進了一個誤區。論文是系統闡述新的知識、新的應用,以及闡述獲取這個新知識或者新應用用到了什麼樣的科學方法的一個載體。論文,作為闡述研究成果的主要手段,必須經過同行的評議通過才能正式發表和被認可。

在人工智慧進入第三個熱潮之際,我們看到各種各樣關於AI的各種媒體報導層出不窮,一方面,這對大眾普及了AI各方面的知識,是積極的。但從另一個方面講,很多觀點沒有經過仔細的推敲,也沒有同行的評議,一些謬誤或者是誇大的觀點可能因為廣泛傳播而被大眾接受,結果產生負面的社會影響。這就提醒我們相關領域的研究人員,在對大眾媒體去做一些評論的時候,必須仔細斟酌,儘量不傳播沒有得到檢驗的觀點。

這就談到第二個問題:

不同領域的研究員對這個問題可能會有不同的看法。

從計算機科學的角度來講,尤其是計算機視覺的研究,無論是理論的還是實踐的,我們的研究成果最終是要解決現實世界的問題的。在這個方面,我印象比較深刻的還是我在西安交通大學讀研究生的時候,沈向洋博士2001年在西安交大做報告提到的一個觀點:最好的研究員發現新問題;好的研究員創造新方法解好問題;一般的研究員跟隨別人的方法解問題——大家在多次這裡看到「新」這個關鍵詞,創新是研究的本質。

有了這些鋪墊,我們首先定義什麼是最好的研究。通常認為一個領域中對於某一個問題最好的研究工作有三種:第一篇論文 (The First Paper),最好的一篇論文 (The Best Paper),以及最後一篇論文(The Last Paper)。這第一篇論文的含義是說這篇論文率先提出了一個好的問題和方向。最好的一篇論文是什麼?那一定是開創性地提出了一種解法,啟發了最終解決這個問題的途徑。至於最後一篇論文,那一定是徹底把這個問題解決了,從此以後這個問題不再需要繼續做進一步的研究。

從計算機視覺領域舉一個具體的例子來講,Harris Corner Detector屬於最早的一批在圖像中檢測角點的論文,可以歸為第一篇之列。David Lowe博士的SIFT特徵檢測和局部描述子,可以歸為在這個方向上最好的論文之列。那麼這個方向的最後一篇呢? 我認為可能還沒有出現。具體到我自己的研究工作,在局部描述子這個方向上,我跟我的同事Matthew Brown和Simon Winder在2007年到2009年之間所做的一系列用機器學習的方法來建立描述子的工作,也實際上為提高局部描述子的性能提供了一個新的思路和方法。

對於我們很多研究員和學生來講,一輩子可能都做不到這三種最好的研究工作之一。那是不是就等於說你不能做好的研究工作或者根本不用考慮做研究了呢?肯定不是這樣。科學研究是一個共同體。這些最好的研究工作也是在前面很多很多非常紮實(solid)的研究工作的基礎上發展出來的。因此,對於年青的研究員和學生而言,應該胸懷大志,去追求做最好的研究工作,但從實際執行上來講,還是要把一項一項具體的工作先做紮實了。

怎麼做到把研究工作做紮實了?首先,你必須對你要解的問題有一個全面深刻的了解,包括為什麼要解這個問題、解這個問題有什麼意義呢、以前有沒有試圖解決同樣或者類似問題的先例,如果有,你就要全面了解前人都提出了什麼樣的解法、他們的解法都有什麼樣的優勢和缺陷……最後,你的解法解決了前面這些解法不能解決的問題呢,或者是你的解法處理了什麼樣的他們不能處理的缺陷了?這些問題的答案如果都有了,那麼,在寫論文的過程中要注意的就是,1)你的假設是什麼?2)你怎麼驗證了你的假設?這個驗證既可以是理論上的證明,也可以是實驗的驗證。我們很多學生和年青的研究員,寫論文的時候沒有找到內在的邏輯關係,很多觀點都是似是而非。或者說重一點,在論文撰寫方面的訓練嚴重不足。你的研究如果到了寫論文的階段,那就必須要有明確的觀點提出來。這個觀點必須明確無誤,只有這樣你才能被稱為形成了新的知識。你的每一個觀點都必須在理論上或者是實驗中得到驗證。另外,論文的撰寫是為了讓人看懂,不是讓人看不懂,所以我們在撰寫過程中必須儘量保證不去假設讀者已經擁有了某些方面的知識。做好了這些,基本上你就有很大的可能性能夠做出紮實(solid)的研究工作。

然後回到我們討論的主題:

其實,要回答這個問題,將我上面講的所有觀點加上「計算機視覺領域」這個限定詞就行了。我這兒結合計算機視覺研究的一些現狀及朱松純老師的一些觀點來進一步談談我的觀點。

首先談談我觀察到的一些現象。很多年輕的學生,現在討論問題的時候都用這樣的談話:我發現用FC6層的特徵,比用FC7層的特徵,在某個圖像數據集上比現在最好的算法提高了1.5%的識別精度,老師我們可以寫論文了(如果大家不能理解這句話,FC6和FC7是表示AlexNet的兩個中間輸出層)。我想請問,你在這個過程中發現了什麼樣的普適的新的知識嗎,又或者,在不是普適的情況下,你在什麼限定條件下一定能夠看到這樣的識別精度提高了?

不錯,提高識別精度是一個很好的目標,但要注意,計算機視覺的研究是要解決識別的問題,不是解某一個圖像數據集。這些圖像數據集提供了很好的驗證你的假設和方法的手段,但如果你沒有遵循科學的方法和和手段去設計你的算法和實驗,你也不可能得到一個科學的結論,從而也不能產生新的知識,更不用談對這個領域做出貢獻。朱松純老師在他的評論中提到,很多學生認為,計算機視覺現在就是調深度神經網絡的參數,也就是說的這個問題。

所以,具體到對於剛開始從事計算機視覺研究的學生來講,要做好這方面的研究,我覺得第一步還是要系統學習一下計算機視覺的課程,全面了解一下計算機視覺這個領域的來龍去脈、這個領域都有哪些基本的問題、哪些問題已經解得比較成熟而哪些問題還在初級階段……這裡,推薦所有的學生學習兩本經典教材《Computer Vision: A Modern Approach》和《Computer Vision: Algorithms and Applications》,可以先讀完第一本再讀第二本。

只有對這個領域有了一個初步的全面了解,你才能夠找到自己感興趣的那個問題。在眾多的問題當中,你是希望做三維重建,還是做圖像識別、物體跟蹤,又或是做計算攝影呢?做研究其實不是一個完全享樂的的過程,你必須要有足夠的興趣來保證你能持續地走下去,這在你感覺自己當前研究的思路走不下去的時候尤其具有重要意義。當你確定你感興趣的問題,你應該首先全面調研一下這個問題的來龍去脈。這就意味著你不能只讀過去五年的論文。你可以從過去一年的論文開始,慢慢追溯回到過去很久的相關的論文。有些時候,你會驚訝地發現前人想問題的深度。研究的英文單詞是Research,拆開是Re-Search,用中文直譯就是重新搜索和發現,而不是直接發現,其實就是說你要首先對這個問題做追本溯源。朱松純老師提到的我們很多學生現在不讀五年以前的論文,說的也是這個道理。

當你做好了這些,你必須鑽進計算視覺的一個小的領域。人的精力是有限的,這就意味著你不可能把很多事情同時做好,所以在你選好方向之後,就要把你的精力集中在你感興趣的一個問題上, 努力成為這個方面的專家。研究是一項長跑,很多時候,你在一個方向上比別人堅持久一點, 你就有機會超越他而成為某個方面的專家。

最後,我也來談談深度學習對計算機視覺的影響。在這裡,我對馬裡蘭大學Rama Chellapa教授在Tom Huang教授80歲生日論壇上表達的觀點非常認可,他認為,深度學習網絡就像一個Pasta Machine:你把該放的東西放進去,它能給你產生好吃的Pasta。同時它也是一個Equalizer:無論你在計算機視覺領域有40年的經驗還是0年的經驗,只要你會用Caffee,你在一些問題,比方說圖像識別上,都能產生差不多的結果。他開玩笑說這有點傷自尊 (It hurts my ego!),但我們還是應該把它作為一個好的工具擁抱它。我想,他的言外之意,是我們的研究應該做得更深,要去理解這個工具為什麼能夠工作得比較好,從而產生新的知識去指導將來的研究和應用。

我認為,對於年輕的學生來講,從深度學習的方法開始學習沒有什麼問題,但必須要進一步去了解一下其他的數學和算法工具,像統計貝葉斯的方法、優化的方法、信號處理的方法等等等的。計算機視覺的問題,其本質是不適定的反問題,解這一類問題需要多種方法的結合。這裡面有深度學習解得比較好的問題,像圖像識別,也有深度學習解不了的問題,像三維重建和識別。

任何研究領域包括計算機視覺的研究,對處在研究初期的學生而言, 更重要的是掌握足夠的數學工具,培養一種正式思維(Formal Thinking)的能力,這樣,遇到實際的問題就能以一種理論上正確的思路去解決這個問題。

作為結束語,我想對在從事或者有志於從事計算機視覺研究的學生說,計算機視覺的研究處在一個非常好的時期,有很多我們原來解不了的問題現在能夠解得比較好了,像人臉識別,儘管我們其實還沒有從真正意義上達到人類視覺系統對人臉識別的魯棒程度。但我們離真正讓計算機能夠像人看和感知這個世界還有很遠的距離。在我們達到這個目標之前,深度學習的方法可能是這個過程中一個重要的墊腳石,同時我們還要將更多的新的方法和工具帶入這個領域來進一步推動這個領域的發展。

(本文轉自微軟亞洲研究院AI頭條)

新智元招聘

職位  運營總監

職位年薪:36- 50萬(工資+獎金)

工作地點:北京-海澱區

所屬部門:運營部

匯報對象:COO

下屬人數:2人

年齡要求:25 歲 至 35 歲

性別要求:不限

工作年限:3 年以上

語  言:英語6級(海外留學背景優先)

職位描述

負責大型會展贊助商及參展商拓展、挖掘潛在客戶等工作,人工智慧及機器人產業方向

擅長開拓市場,並與潛在客戶建立良好的人際關係

深度了解人工智慧及機器人產業及相關市場狀況,隨時掌握市場動態 

主動協調部門之間項目合作,組織好跨部門間的合作,具備良好的影響力

帶領團隊完成營業額目標,並監控管理項目狀況

負責公司平臺運營方面的戰略計劃、合作計劃的制定與實施

崗位要求

大學本科以上學歷,碩士優先,要求有較高英語溝通能力

3年以上商務拓展經驗,有團隊管理經驗,熟悉商務部門整體管理工作

對傳統全案公關、傳統整合傳播整體方案、策略性整體方案有深邃見解

具有敏銳的市場洞察力和精確的客戶分析能力、較強的團隊統籌管理能力

具備優秀的時間管理、抗壓能力和多任務規劃統籌執行能力

有廣泛的TMT領域人脈資源、有甲方市場部工作經驗優先考慮

有媒體廣告部、市場部,top20公關公司市場拓展部經驗者優先

新智元歡迎有志之士前來面試,更多招聘崗位請訪問新智元公眾號。

相關焦點

  • 演講實錄丨華剛 計算機視覺的黃金時代:機遇與挑戰
    了解到還有很多粉絲不能到場參會,小編特地整理了參會嘉賓微軟亞洲研究院視覺計算組組長、資深計算機視覺專家華剛的報告速記,讓大家一睹為快~本文根據速記進行整理計算機視覺的黃金時代:機遇與挑戰華剛微軟亞洲研究院視覺計算組組長、資深計算機視覺專家華剛:大家下午好!
  • 微軟亞洲研究院四位研究員獲選IEEE Fellow 和ACM Distinguished Member
    其中,微軟亞洲研究院共有四名研究員獲選,他們分別是:劉鐵巖博士獲得IEEE Fellow和ACM Distinguished Member雙重榮譽,華剛博士、梅濤博士以及鄭宇博士榮獲ACM Distinguished Member稱號。這一殊榮代表著計算機學術界對微軟亞洲研究院四位研究員在各自領域所取得的卓越成就的高度肯定。
  • 羅傑波、馬毅、華剛等談視覺研究那些事:是時候重新定義視覺了
    5月14日上午,微軟亞洲研究院創研論壇 CVPR 2020 論文分享會中的圓桌討論環節邀請了五位擔任過視覺領域頂會主席的嘉賓。其中加州大學伯克利分校教授馬毅談到:目前頂會領域規模太過龐大,視覺研究是時候重新定義自己了,定義方向重新回到初衷,做高質量,有突破的研究。除此之外,美國羅徹斯特大學教授羅傑波、Wormpex Al Research副總裁兼首席科學家華剛、加州大學聖地牙哥分校教授屠卓文、加州大學美熹德分校教授楊明玄也發表了看法。
  • 微軟研究院計算機視覺系統在ImageNet挑戰中首次超越人類視覺
    近期,微軟亞洲研究院視覺計算組實現的突破讓他們成為了這場競賽的最新領跑者。該團隊所開發的基於深度卷積神經網絡(CNN)的計算機視覺系統,在ImageNet1000挑戰中首次超越了人類進行對象識別分類的能力。
  • 計算機領域不完全學習指南.pdf
    答案都在微軟亞洲研究院機器學習組高級研究員陳薇給出的這份書單裡。從機器學習綜述、算法優化、理論延展、數學基礎四大方面入手,這份書單就是機器學習的「完全指南」。計算機視覺的修煉秘笈計算機視覺是從圖像和視頻中提出數值或符號信息的計算系統,更形象一點說,計算機視覺是讓計算機具備像人類一樣的眼睛,看到圖像並理解圖像。微軟亞洲研究院視覺計算組首席研究員王井東推薦了一系列計算機視覺領域的經典書目,並分為綜合篇、幾何篇、機器學習篇和經典讀物四大類別。
  • IEEE Fellow 2019和ACM Distinguished Member 2018公布,微軟多名研究員獲選
    同時,微軟亞洲研究院資深研究員王井東博士入選美國計算機協會2018年傑出會員(ACM Distinguished Member)。美國計算機協會(ACM)是世界上最大的計算機領域專業性學術組織,匯集了國際計算機領域教育家,研究人員,工業界人士及學生。
  • 微軟在ImageNet計算機視覺識別挑戰中實現突破
    近期,微軟亞洲研究院視覺計算組實現的突破讓他們成為了這場競賽的最新領跑者。該團隊所開發的基於深度卷積神經網絡(CNN)的計算機視覺系統,在ImageNet 1000挑戰中首次超越了人類進行對象識別分類的能力。
  • 微軟研究員在ImageNet計算機視覺識別挑戰中實現裡程碑式突破
    微信帳號:微軟研究院(MSRAsia)一直以來,計算科學家一直在為建立世界上最精確的計算機視覺系統孜孜不倦地努力著,但取得進展的過程卻一直如馬拉松競賽般漫長而艱辛。此前同樣的實驗中,人眼辨識的錯誤率大概為5.1%。這個數據集包含約120萬張訓練圖像、5萬張驗證圖像和10萬張測試圖像,分為1000個不同的類別。微軟研究員表示:「據我們所知,我們的研究成果是這項視覺識別挑戰中第一個超越人類視覺能力的計算機系統。」
  • 微軟亞洲研究院20年的傳奇人物
    在微軟亞洲研究院發展歷程中,張亞勤是與創始院長李開復同樣重要的那一個。他不僅參與創立了微軟中國研究院,而且在李開復之後接過交接棒,成為第二任院長。此外,張亞勤回國加盟,也是微軟中國研究院初期人才號召力的來源之一。為微軟亞洲研究院成為全球計算機一流的研究機構、為中國和全球計算機,網際網路和AI領域培養了大量頂尖科學家和企業領袖,奠定了基礎。
  • 刷新神經網絡新深度:ImageNet計算機視覺挑戰賽微軟中國研究員奪冠
    微軟亞洲研究院首席研究員孫劍微信公眾號:微軟研究院世界上最好計算機視覺系統有多精確?這兩個挑戰賽的側重點各有不同:ImageNet 傾向於評測識別圖像中顯著物體的能力,而MS COCO傾向於評測識別複雜場景的各類物體的能力。能同時在兩個世界級的比賽中獲得冠軍,足以說明研究組的技術突破是通用的——它可以顯著地改善計算機視覺領域的各項研究,甚至計算機視覺領域以外的研究,比如語音識別。那麼究竟是什麼樣的技術突破?
  • 前沿 微軟中國研究員刷新神經網絡新深度:折桂2015ImageNet計算機視覺挑戰賽
    錯誤率3.57%,微軟折桂2015ImageNet美國東部時間12月10日上午9時,ImageNet計算機視覺識別挑戰賽結果揭曉——微軟亞洲研究院視覺計算組的研究員們憑藉深層神經網絡技術的最新突破,以絕對優勢獲得圖像分類、圖像定位以及圖像檢測全部三個主要項目的冠軍。
  • 精選 微軟亞洲研究院洪小文:人工智慧與人類智能的共進化
    來源:微軟研究院 AI 頭條更正說明新智元11月4日刊發的文章 《微軟亞洲研究院芮勇出任聯想
  • 微軟亞洲研究院學者談計算機專業就業
    不少同學都對計算機的就業形勢感到困惑。現在哪個細分領域最火?計算機人才是否飽和?是否應該深造攻讀博士?根據在微軟實習生中徵集的問題,微軟亞洲研究院的學者專家為同學們解答疑惑。針對這個供需矛盾,對於圖形學方向的同學來說,在校期間應該更多地了解圖形學的不同子方向、夯實自己的專業方向、提高編程水平、掌握圖形學相關的軟硬體、並對其他感興趣的學科(如機器學習、計算機視覺、模式識別、並行計算、軟體開發等)有一定的了解和實踐。只有這樣才會發現更多更心儀的職位。
  • 國內外優秀的計算機視覺團隊匯總
    >美國加州大學伯克利分校:機器視覺小組加州大學洛杉磯分校 :VCLA研究小組加州大學河濱分校:視頻計算小組加州大學聖塔芭芭拉分校:視覺研究實驗室加州大學聖地牙哥分校:視覺與機器人研究實驗室,機器視覺實驗室,加州大學爾灣分校:機器視覺實驗室
  • 微軟研究院注意啦:Google AI中國中心成立,小心你的人才被哄搶!
    如今百度、今日頭條,聯想,商湯等很多公司AI負責人都來自微軟亞洲研究院。比如:  張宏江:曾是微軟亞洲研究院創始人之一。曾擔任微軟亞洲研究院副院長,負責多媒體計算、視頻和圖像的分析和檢索,模式識別,網絡搜索和發掘,自然語言和分布式計算機系統等方向的研究工作。2011年10月出任金山軟體CEO。
  • ECCV 2020 | 微軟亞洲研究院精選論文摘錄
    今年的 ECCV 大會於8月23日至28日在線上舉行。微軟亞洲研究院在本屆大會上有21篇論文入選,本文精選了其中6篇有代表性的為大家進行介紹。為此,微軟亞洲研究院和中國科大的研究人員嘗試對該領域的進步進行更準確、公平地評估,並提出了無需可學參數的新型 3D 點雲算子位置池化 PosPool。研究指出:1)儘管不同 3D 算子的設計各異,但在相同整體網絡和實現細節下,所有算子的性能都驚人的相似。2)無需更複雜的 3D 網絡,經典的深度殘差網絡就能在各種規模和各種場景的數據集上取得優異的表現。
  • 計算機視覺領域的價值網站及書籍推薦​
    中科院自動化所李子青研究員;http://www.cbsr.ia.ac.cn/users/szli/12. 中科院計算所山世光研究員;http://www.jdl.ac.cn/user/sgshan/13. 人臉識別主頁;http://www.face-rec.org/14.
  • 微軟亞洲研究院機器閱讀系統在SQuAD挑戰賽中率先超越人類水平
    在由史丹福大學發起的SQuAD(Stanford Question Answering Dataset)文本理解挑戰賽的最新榜單上,微軟亞洲研究院自然語言計算組於
  • 84歲華人計算機視覺泰鬥Thomas S. Huang 仙逝,李飛飛等沉痛悼念黃煦濤教授
    1980年起擔任伊利諾伊大學厄巴納-香檳分校(UIUC)傑出講座教授、Beckman研究院圖象實驗室主任。黃煦濤不僅是美國國家工程院院士,同時也是中國工程院外籍院士、中國科學院外籍院士、中央研究院院士,是計算機視覺、模式識別、多媒體等領域最資深的華人科學家之一。