新智元專訪CVPR2019程序主席微軟華剛 :arXiv讓雙盲評審形同虛設...

2020-12-06 和訊

    本文首發於微信公眾號:新智元。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。

  新智元原創作者:聞菲

  新智元啟動 2017 最新一輪大招聘:COO、總編、主筆、運營總監、視覺總監等8大職位全面開放

  新智元為COO和執行總編提供最高超百萬的年薪激勵;為骨幹員工提供最完整的培訓體系、高於業界平均水平的工資和獎金。加盟新智元,與人工智慧業界領袖攜手改變世界。

  簡歷投遞:jobs@aiera.com.cnHR 微信:13552313024

  【新智元導讀】CVPR 2019程序主席微軟首席研究員華剛博士近日接受了新智元的獨家專訪,談到了當前學術界的一些流行趨勢和問題所在。 華剛博士在肯定arXiv加速學術交流的同時,一針見血地指出,「arXiv讓學術會議的雙盲評審形同虛設」,arXiv上的論文質量也是「魚龍混雜」。他在訪談中分享了地計算機視覺研究情況的觀察,認為預期3個方向近兩年會有發展:一是基於圖像、視頻建模的無監督學習;二是基於任務的視覺建模機制;三是基於知識和小樣本學習進行視覺建模。

  「微軟研究院的實力核心在於人才,以及能夠自己培養人才、讓年輕人快速成長的能力。」微軟研究院首席研究員華剛博士在接受新智元專訪時說。當前人工智慧人才競爭激烈,微軟成為巨頭「挖角」最佳目標,騰訊甚至把研究院開到了西雅圖微軟研究院家門前——馬化騰公開坦承,這是因為很多微軟研究員不願意離開西雅圖。因此,「微軟如何應對AI人才流失?」成了不可避免的問題。而華剛博士的回答則令人頓感「AI黃埔軍校」的氣度和風範。

  作為CVPR 2019的程序主席,CVPR 2017和ICCV 2017的領域主席,華剛表示他很高興看到在本屆CVPR上出現了不少嘗試進一步理解深度學習在解決計算機視覺問題中的工作機制,和將計算機視覺領域知識用於指導深度學習的論文。去年,新智元報導CVPR 2016時,提到了

法國

Inria 研究所的研究員 Nikos Paragios 對深度學習「一統天下」的擔憂,Paragios 撰文指出:2016年各個研究都專注於使用深度學習的方法解決計算機視覺問題,口頭報告更是接近100%都來自深度學習領域;雖然這樣做沒有問題,這些論文也都體現了實力,但Paragios想知道這些研究「增加的」科學價值在哪裡。華剛博士在接受新智元專訪時也表示了同樣的擔憂,他多次提到「多樣化」、「深度學習結合傳統方法」以及「老樹開新花」,希望看到更多新的技術和新的思路。

  作為CVPR 2019的程序主席,華剛預測未來兩年圖像視頻理解相關的研究仍然會是計算機視覺領域的熱點,其中:基於圖像、視頻建模的無監督學習;基於任務的視覺建模機制;以及基於知識和小樣本學習進行視覺建模這3個領域會有所發展。更遠一些,語音、圖像等人工智慧的各個子領域會有相互融合的趨勢,因為「要做一個AI系統,它必定是多模態的,多個層面多種模塊的系統結合」。

  arXiv雖然是一個非同行評議論文庫,但其活躍度讓如今大多數研究人員都把arXiv作為一個定期跟蹤的信息源。但是,身為多個學術會議的主席以及多本學術期刊的編委,華剛博士在肯定arXiv加速學術交流的同時,一針見血地指出,「arXiv讓學術會議的雙盲評審形同虛設」,arXiv上的論文質量也是「魚龍混雜」。

  「單純的刷分是對研究的暴力化、機械化」,「為了寫論文而刷分是沒有意義的」,開玩笑自稱「70後」的華剛博士說,他認為研究是一項高尚的職業,他選擇留在微軟研究院的原因也很簡單——開心,每天都能學到新的東西。最近,他對計算機視覺技術的商業應用也產生了興趣,認為現在是「很好的時機」。早在2008年就創立和奠定了微軟的人臉識別引擎(現已進一步發展並整合成為微軟認知服務的Face API),並因對圖像和視頻中無限制環境人臉識別研究做出傑出貢獻而在2015年被國際模式識別聯合會(International Association on Pattern Recognition,IAPR)評為「生物特徵識別傑出青年研究員」,華剛博士在談到他對人臉識別的商業應用時說:「前段時間不是有新聞說在天壇公園衛生間安裝人臉識別機嗎?拋開別的不談,我從這個事件中看到了巨大的商機(笑)。」

  介紹微軟在本屆CVPR的表現時滔滔不絕,但說起CMU的精彩論文也毫不吝嗇讚美之詞,這就是微軟研究院首席研究員華剛。本文帶你走近這位CVPR 2019程序主席以及CVPR 2017和ICCV 2017領域主席,談談他心目中的微軟研究院、學術會議,還有計算機視覺技術、應用及發展。

  華剛博士的研究重點是計算機視覺、模式識別、機器學習,人工智慧和機器人,以及相關技術在雲和移動智能領域的創新應用。他是通過對語境建模使用弱監督或者無監督方法解決無限制環境下計算機視覺問題的倡導者,其研究在學術界和工業界都產生了廣泛的影響。華剛博士在2008年創立和奠基了微軟的人臉識別引擎,現在已發展成為微軟認知服務(Cognitive Services)中的人臉識別應用程式接口(Face API)。

  在學術方面,華剛博士已在國際頂級會議和期刊上發表了130多篇同行評議論文。他將擔任CVPR 2019的程序主席,以及CVPR 2017和ACM MM 2017的領域主席。不僅如此,華剛還擔任過CVPR 2015、ICCV 2011、ACM MM 2011/ 2012/ 2015、ICIP 2012/ 2013/ 2015、ICASSP 2012/ 2013等十多個頂級學術會議的領域主席,以及IEEE Trans. on Image Processing(2010-2014)的編委。目前,華剛博士還擔任著IEEE Trans. on Image Processing、IEEE Trans. on Circuits Systems and Video Technologies、IEEE Multimedia、CVIU、MVA和VCJ的編委。  2011年,華剛博士在國際頂級期刊IEEE Trans. on Pattern Analysis and Machine Intelligence(IEEE模式分析和機器智能彙刊)領導組織的「現實世界人臉識別」專刊,對推動無限制環境下人臉識別的研究產生了深遠的影響。因其在圖像和視頻中無限制環境人臉識別研究所做出的傑出貢獻,2015年華剛博士被國際模式識別聯合會(International Association on Pattern Recognition,IAPR)授予「生物特徵識別傑出青年研究員」。2016年,華剛博士被評選為IAPR會士(IAPR Fellow) 和 ACM傑出科學家 (ACM Distinguished Scientist)

  人才流失?微軟能自己培養AI人才

  新智元:微軟被譽為「AI黃埔軍校」,當前巨頭間人才競爭激烈,微軟成為「挖角」最佳目標,騰訊甚至把研究院開到西雅圖的微軟對面。您為什麼選擇繼續留在微軟?在人才的吸收、培養和保留方面,您認為微軟如何保有競爭力?

  華剛:我選擇留在微軟,主要還是喜歡這裡耐心、包容、重視人才的氛圍。能在一個開放、多樣化的環境裡工作,每天都能學到新的技能,我覺得很開心。在微軟的研究院,年輕人成長速度一般都比較快,這也是因為院裡對員工重視程度很高, 給予員工比較大的自由成長的空間,和各方面技能培訓的機會。我是「70後」,覺得研究是高尚的職業,但現在年輕人成長環境不同,選擇也跟我們當初有很大變化。例如,很多年輕人畢業就選擇出來創業,這也許是社會、經濟發展的必然,這是正常的現象。不過,微軟研究院的優勢在於能夠自己培養人才,這個核心能力很關鍵,我們能吸引和培養對研究真正感興趣的人。當然,我們也跟產品部門有深入的溝通——計算機視覺是微軟研究院成立最早的一個研究方向,微軟會在計算機視覺方面的研究和相關產品的開發上持續投資。微軟亞洲研究院的計算視覺組也會兩條腿走路,對學術界和對微軟本身視覺相關的產品持續地做出貢獻。作為一名研究員,能看到自己做的事情產生影響(impact),比如用在了產品裡,或者獲得了某個會議的最佳論文,又或者技術被很多人使用,這些都讓人充滿成就感。

  arXiv讓雙盲同行評議形同虛設

  新智元:您怎麼看以arXiv為代表的這類非同行評議的論文庫,以及將論文上傳到arXiv這種行為?媒體應該如何對待arXiv上的論文?

  華剛:在2015年以前,我是從來沒有把論文發布到arXiv上的。實際上,我所認識的很多稍微傳統,或者「老派」(笑)一點的研究員,都不會將論文在同行評議完成之前過早的發布到arXiv上。不過,2016年起,我和一些同事也會把尚未發表但相對成熟的工作發布到arXiv上。這樣確實加快了交流討論的速度,但由於沒有經過同行評議,所以,arXiv上論文的質量魚龍混雜,其中有些論文的觀點是不一定正確的,或者帶有偏見的。如果媒體希望報導arXiv上沒有經過同行評議的論文,而編輯部本身沒有專業領域的研究人員,我的建議是綜合作者提供的信息,以及各個論壇像Hacker News、Reddit、Twitter的討論,如果有條件還應該邀請幾位相關領域的專業的研究人員寫評論,儘可能的將信息客觀、全面的地傳達給讀者,避免產生誤導。

  新智元:最新一期Science封面論文Deep Stack,也是很早就上傳到arXiv了。

  華剛:這稍微有些不同。期刊評議是單盲,評審人知道作者,作者不知道評審人是誰,因此上傳到arXiv也不會有多大的影響。因為期刊論文評議可以有評議完成之後大修和小修的周期。相比之下,學術會議採用雙盲同行評議,評審人和作者彼此都不知道誰是誰,儘管現在很多會議也有作者答辯評審這一環節,會議論文評審結果從本質上來講還是「一錘子買賣」,因此評議也會更為凌厲直接。關於arXiv,我最主要的意見是,由於論文上傳以後作者姓名是公開的,這樣很多會議如CVPR雙盲評審形同虛設。2015年,德國馬克思普朗克研究所的Michael Black教授(他也在布朗大學任職多年)曾經提出動議並被PAMI-TC通過——凡是和媒體討論過並進行過宣傳的論文一律該被CVPR給拒絕掉,因為這直接影響了雙盲的同行評議公正性,為評議過程帶來了不必要的額外的偏差(bias)。(參見:http://www.cv-foundation.org/CVPR2015/tc_meeting_060915_presentation.pdf)

  成為CVPR 2019程序主席:進一步展現華人工作,預期3個方向近兩年會有發展

  新智元:您是CVPR 2019的程序主席(Program Chair),您和bidding團隊拿下CVPR 2019主辦權的原因是什麼?作為CVPR 2019程序主席,您對會議有什麼規劃?

  華剛:實際上CVPR、ICCV的管理是通過一個鬆散的,非常民主化的學術組織,叫做PAMI-TC(Technical Committee on Pattern Analysis and Machine Intelligence)的委員會完成的。要做會議的主辦方,需要在當年會議開始前提前一個月申報去申請三年後的舉辦權,PAMI-TC組委會的成員現在通過網絡投票(早年就是開會現場大家舉手投票,有很多有趣的故事),多的時候會有3到4個團隊在爭取。申請2019年CVPR的主辦權的是我們團隊和另一個團隊,我們能夠拿下的原因主要有3點:第一是團隊強,我們的團隊成員裡有很多知名、資深的學術代表;第二是我們充分考慮到了多樣性,不僅有領域非常資深的研究員,也有領域裡面在職業中期的中堅力量,和不少學術新星。有來自各大洲的代表,也有很多女性成員;第三則是我們有為領域服務好的責任心,並制定了周詳的組織計劃,提前預計到很多可能出現的困難以及解決方案。舉例來說,2003年是我第一次參加CVPR,那時候的參會人數大約是900,到2016年時CVPR的參會人數已經達到3000人了。我們估計到CVPR 2019,參會人數有5000人的規模,因此特地選擇了美國長灘的會館,能夠容納下這麼多人。

  還有一點,在各個學術會議中,CVPR的參會註冊費實際上是最低的,學生註冊費大體上在300美元左右,研究員則在600~700美元的樣子——其他學術會議這個價格都會上千。因為洛杉磯地區的餐飲相對便宜,我們團隊預計在CVPR 2019能夠覆蓋參會者的餐費,也就是可以免費的提供早中晚餐給參會者提供。因此,從組織團隊成員背景、多樣性以及辦會地點實際情況調研等多個方面,我們都做了周全的考慮,這就是我們獲得主辦權的原因。大家可以參看我們爭取CVPR 2019舉辦權的報告(http://www.cv-foundation.org/CVPR2019/Long_Beach_for_CVPR19.pdf)。

  當然,我們能夠得到主辦權也離不開華人學生、學者的支持。如今,參加CVPR的華人學生、學者實際上已經超過總人數的50%。但是,在各個主席職位,比如領域主席(area chair)、程序主席(program chair),還有大會主席(general chair)這些位置上,華人學者並不多,至少從參會人數應有的比例上看是遠遠不夠的。我們主辦CVPR 2019,其中一點也是希望進一步提高和展現華人的工作和領導能力。

  至於在CVPR 2019特別想做的,就是為大家呈現一個優秀的,讓大家滿意的計算機視覺的學術盛會,期望看到更多新思維、新方法以及新老方法的相互融合。著名法國學者Nikos Paragios,《計算機視覺與圖像理解》期刊(Computer Vision and Image Understanding Journal,CVIU)的主編(華剛博士是CVIU的編委),他在LinkedIn上寫了一篇文章,我印象很深。Paragios在文中提到,以前的計算機視覺是很包容的,會議上能看到各種方法,比如統計、幾何、代數……都有,氛圍十分活躍,參加這樣一次會議,能得到計算機視覺技術的現狀、問題及發展比較綜合的理解。但是,深度學習出現以後,大有一統天下之勢,這不一定是好事。其中,也包括有些好的想法被深度學習這一波浪潮所淹沒。

  新智元:您是指這樣的情況嗎——有論文提出了新的想法,但由於種種原因結果並不出彩,或者在現有條件下論證還沒那麼充分;而使用深度學習方法的論文做出的效果很好,或者在各項基準測試都取得了當前最好的結果,於是,後者被接收,而前者被拒絕了?

  華剛:這是其中一種。深度學習在計算及視覺領域這一波的浪潮是從2012年開始興起的。那麼2012年以後進入計算機視覺領域的學生,按照時間來講,今年正好是博士畢業。這一批人會慢慢成為會議審稿的主要力量,由於接受的訓練主要以深度學習為主,就可能會進一步產生這種傾向。這類審稿人對問題理解的深度,還有思維模式(mindset)需要重塑。現在我們對深度學習的局限性也有了更全面的認識,這也是為什麼我說要多看10年、20年前論文的原因。

  新智元:您對計算機視覺技術未來2年的發展有什麼預期——作為CVPR 2019的程序主席,您需要掌握領域的總體發展趨勢,深度學習、神經網絡還會繼續盛行嗎?您認為什麼技術和研究方向會成為屆時的熱點?什麼新技術會崛起?什麼現在尚未解決的問題到時候有可能被攻克?

  華剛:這個問題提得很好。就像我以前說過的一樣,研究的英文是「Research」,也就是「Re-Search」——再搜索。有時候,完全脫離領域歷史沿革的全新(brand-new)技術的出現是很少的。任何新的研究工作和思想,或多或少都會受到前人的工作和思想的影響。就如牛頓說的,「我比別人看到更遠,是因為我站在巨人的肩膀上」。我想一個健康的研究領域,更多還是要一種多樣性的融合,共同推動領域發展,比如將深度學習和以前的方法相結合,所謂「老樹開新花」。什麼技術或方向會成為熱點?談一個我個人感興趣的方向吧:知識描述、知識表徵,也就是用語言的方式將視覺內容表徵出來,成為知識的一種載體,來更好的解決計算機視覺的問題。就好比人類使用語言可以傳遞信息和知識,只有有了對知識的表徵,智能體相互之間才能溝通學習。不過,要完成這個項目,兩年的時間估計不夠(笑)。

  寬泛一些來說,我認為以下3個方面在接下來兩年會有所發展:

  一是基於圖像、視頻建模的無監督學習;

  二是基於任務的視覺建模機制;

  三是基於知識和小樣本學習進行視覺建模。

  這3點的排列也是由易到難,基於「任務」就是理解有一個明確的目標,而基於「知識」則是知道該怎麼去做這件事。打個比方,兩者的區別就像是知道了「授人以魚」和「授人以漁」中的「魚」和「漁」。總之,最終的目標都是朝著一個綜合、集成的智能系統去服務。

  作為CVPR 2017領域主席:很高興看到更多的反思深度學習機制的論文出現,CMU運動姿態論文印象深刻

  新智元:您是這屆CVPR的領域主席(area chair)。現在CVPR 2017接收論文已確定,能透露一下這屆會議從論文中體現出了什麼趨勢嗎,果然深度學習、神經網絡還是?有什麼其他亮點嗎?

  華剛:這屆CVPR 我是領域主席,每個領域主席可以選擇自己感興趣和負責的研究議題(topic)——我的研究興趣和研究方向比較廣,所以大概覆蓋了30多個topic中的10多個,我在評審過程中全權負責的論文有三四十來篇,加上評議圓桌討論和別的領域主席複議的論文,了解到的論文大約只佔最後全部接收論文的1/6~1/5。令人欣喜的是,這屆CVPR湧現了很多結合領域知識(domain knowledge)嘗試去理解、去反思深度學習機制的論文。不過,讓我現在談CVPR 2017的整體論文體現了什麼趨勢、有什麼亮點,這還得等到會議開始後才能知道。

  新智元:那在您所了解的範圍內,有什麼研究讓您印象特別深刻嗎?

  華剛:CMU有一篇估計運動姿態的論文,裡面的Demo給我們領域主席圓桌討論複議時留下了非常深刻的印象,實現了多線程的多人關鍵點實時檢測,將同一個視頻裡很多人的運動姿態都同時捕捉下來。這篇論文也是CVPR 2017口頭匯報的論文之一,其代碼贏得了2016年MSCOCO關鍵點挑戰賽以及2016年ECCV最佳演示獎。論文提出了一種自下而上的方法進行多人姿態估計,而不需要任何行人檢測的算法。

  摘要

  我們提出了一種有效地檢測圖像中多個人 2D 姿態的方法。該方法使用非參數表徵,我們將其稱為部分親和欄位(PAF),能夠學習將身體部分與圖像中的個體關聯起來。該架構對全局環境進行編碼,允許一個貪心的自下而上的解析步驟(parsing step),保持高精度的同時,實現實時性能,無論圖像中的人數有多少。這一架構旨在通過同一個順序預測過程的兩個分支,聯合學習局部位置及其關聯。我們的方法在 COCO 2016 關鍵點挑戰賽中取得了第一名,與 MPII MultiPerson 基準此前最好的結果相比,我們的方法在性能和效率上都高出很多。

  另外,我也簡單介紹一下微軟的工作。微軟這次被CVPR接收的論文一共有30篇左右,跟我們在過去15年來每年在CVPR上發表的論文數大體相當,其中微軟亞洲研究院有18篇,各個方向都有,3D建模、計算攝影,圖像視頻分析、理解、分割……覆蓋率還是比較廣的。其中一項視頻人臉識別方面的研究,將視頻中每一幀的人臉都提取出來,得出一個緊湊的固定長度的表徵,更快更精確的進行人臉識別。

  摘要

  本文提出了一種用於視頻人臉識別的神經聚合網絡(Neural Aggregation Network,NAN)。網絡將一個人臉部的視頻或者一組數量不同的臉部圖像數據集作為輸入,並且生成一個緊湊(compact)、維度固定的特徵表徵,可用於識別。整個網絡由兩個模塊組成。特徵嵌入模塊是一個深度卷積神經網絡(CNN),它將每幅人臉圖像都映射成一個特徵向量。聚合模塊由兩個注意力模塊(attention block)組成,它們能夠自適應地聚合特徵向量,在它們所覆蓋的凸包(convex hull)中形成單個特徵。由於注意力機制,聚合不會因圖像順序的變化而發生改變。我們的 NAN 由一個標準分類或驗證損失訓練,沒有接收任何額外的監督信號,但我們發現它能夠自動學習優選(advocate)高質量的臉部圖像,同時排除(repel)低質量的圖像,比如模糊、有遮擋和姿態不端(improperly exposed)的面部圖像。在 IJB-A、YouTube Face、Celebrity-1000 視頻臉部識別基準測試的實驗表明,NAN 始終優於樸素聚合方法,並且實現了當前最高的精度。

  圖1. NAN視頻面部識別的網絡架構。所有輸入面圖像{xk}由具有深度CNN的特徵嵌入模塊處理,產生一組特徵向量{fk}。接著這些特徵被傳遞到聚合模塊,產生單個128維向量r1表示輸入的人臉圖像。這種緊湊的表徵(compact representation)可用於識別。

  圖6. YTF數據集上的典型示例,顯示了我們的NAN計算的視頻每幀的權重。每一行表示從視頻採樣5個幀,並根據其權重(圖片左上角矩形中的數字)進行排序; 最右邊的條形圖顯示所有幀的排序權重(高度縮放)。  http://www.ganghua.org/publication/CVPR17e.pdf

  另一項是圖像風格化的工作,這是第一次對圖像風格做出了明確的物理和數值表徵,我們能夠將風格表徵和圖像內容分離出來,因此能用一個網絡做很多不同的風格。現在學習一個風格只需要8分鐘,轉換的話只要幾秒,我們正在把這個技術用應用到微軟的產品中間去。

  根據CCF多媒體技術專委會新技術選介17-04期的介紹,該論文採用了自編碼器與濾波器組(filter bank)相結合的結構,能夠同時對多種風格進行學習,將不同風格存儲到各自對應的filter bank中,從而只使用一個前饋網絡就能進行多種風格的遷移。

  網絡分為三個部分:編碼器E、解碼器D和風格庫(style bank)K。輸入圖像I經過編碼器編碼為特徵圖(feature map)F,接著分為兩路:下側的實線箭頭代表自編碼器支路,F不經過風格庫處理,直接經過解碼器解碼,得到O,O應該與I相似;上側的虛線箭頭代表風格化支路,F經過代表第i種風格風格庫Ki濾波後得到特徵圖Fi,再經過D解碼為風格化後的結果Oi。

  圖1. 網絡分為3部分:編碼器E、風格庫K和解碼器D。

  這篇文章的作者認為,目前的前饋網絡之所以每次只能描述一種風格,是因為這些網絡並沒有完全將圖像的內容和風格區別開來。為了解決這個問題,作者借鑑了傳統紋理合成方法中紋理基元(texton)的概念,將紋理基元通過深度網絡學習並存儲在濾波器組中,作者稱之為風格庫(style bank),每類風格生成一個與之對應的風格庫。在前向傳播時,只需選擇需要的風格庫,就能完成指定風格的遷移,結合了快速和風格多樣化兩種優勢。這些風格庫建立在自編碼器提取的特徵空間基礎上,能更好地描述每類風格。同時,自編碼器與風格庫的結合還具有易於擴展的優勢:對於新的風格,只需要訓練新的風格庫,不必重新訓練整個網絡。最後,因為內容與風格有效分離,訓練得到的自編碼器能對圖像內容進行有效的區域劃分,實現了基於區域的風格化。

圖2.左:編碼得到的feature map的聚類結果。右:風格化結果。

  圖3. 兩種風格的融合。

  經過實驗,作者發現:

  每種風格的紋理基元被風格庫中特定少數幾個濾波器編碼;

  Style bank的濾波器半徑越大,其能夠描述的風格紋理尺度也越大;

  自編碼器將內容圖像基於區域編碼,同一區域會被同一類紋理風格化(見圖2);

  顏色風格和紋理風格分離:無紋理區域風格化後依然無紋理,不同紋理的同色區域將被風格化為不同紋理的同色區域,不同色的相同紋理被風格化為不同色的相似紋理;

  對多個風格庫進行加權可以實現不同風格的融合(見圖3),對編碼結果使用不同的mask並作用於不同的風格庫可以實現為不同區域遷移不同的風格。

圖4.與基於迭代優化的方法[1]進行比較。從左至右:輸入圖像,本文結果,[1]的結果

圖5.與基於前饋網絡的方法[2]進行比較。從左至右:輸入圖像,本文結果,[2]的結果  [1] Gatys L A, Ecker A S, Bethge M. Image style transfer using convolutional neural networks. CVPR, 2016.  [2]Ulyanov D, Lebedev V, Vedaldi A, Lempitsky V. Texture networks: Feed-forward synthesis of textures and stylized images. ICML, 2016.  論文地址:http://www.ganghua.org/publication/CVPR17f.pdf

  單純「刷分」是將研究機械化和暴力化,但為了PR刷分可以理解,但不提倡

  新智元:在CV領域有各類競賽,「刷分」現象普遍存在,業界對此褒貶不一。您對「刷分」怎麼看?

  華剛:首先,我自己從來不做單純「刷分」的事情,也基本不參加所謂的競賽。研究成果,歸根結底,是說你有沒有為這個領域提供新的知識。所以,「刷分」應該是作為驗證你的研究的一種「手段」,而不是最終目的。研究和評審過程中唯「分數」論,都是將研究機械化和暴力化,是不值得提倡的。不過,刷分做宣傳那又另當別論了,可以理解,但我自己是不會做的。當然,我所指的單純刷分是指你在刷分過程中並沒有對問題的理解提供新的知識,也沒有為領域發展開拓新的方法,打個比如說,我集成了10個最好的模型,當然會取得最好的結果。但是,集成這10個模型的方法算不算創新——集成也是需要技術的——有沒有給學界帶來新的知識呢?如果你的集成方法是大多數時候圈內人都知道怎麼做的,只是不屑於做罷了,那樣的刷分,是機械的,暴力的,是沒有多少價值的。

  新智元:在迭代如此快速、深度學習不斷刷新各種性能的情況下,微軟各研究院的研究人員如何從事「有意義/價值」的研究?如何產出高質量的論文(不被其他人搶先發表)?

  華剛:在微軟,我們有一個研究的周期(cycle),在選題(研究方向)、實驗等各個環節,花費時間和精力最更多的其實是在選題上。2001年我還在西安交通大學讀研究生的時候,沈向洋博士到學校做了一個報告,當時他提到:最好的研究員發現新問題,好的研究員創造新方法解好問題,一般的研究員跟隨別人的方法解問題。也就是說,創新是研究的本質,只要你把問題或者方向想清楚、想透徹了,別人還是很難catch up的。當然,你說的被人搶先發表的情況偶爾也會有,那就是執行力的問題了。

  以下是微軟研究院軟體工程研究(RiSE)組研究經理Thomas Ball在今年,也是他進入微軟第17年寫下的文章《微軟研究院的產業研究周期》(Microsoft Research and the industrial research cycle),介紹了微軟研究院的Research Cycle:

  微軟研究院不僅為你提供了如學術界一樣充分探索和增進科學知識的自由,也需要你將自己的科學追求與公司的問題結合起來,致力推動微軟的發展,這一要求也會隨著你的年資增長而提高,這也反映了微軟研究院在推進科學前沿研究的同時也要給公司帶來正向推動的雙重使命。

  Thomas Ball寫道:「[微軟研究院的]研究人員可以自由地選擇研究問題,並在各自學科(周期的左側)探索,從而推進科技的進步。同時,他們也有責任和機會在進行了充分探索後,將注意力集中在他們認為可能對公司(周期右側)產生影響的領域。理想情況下,研究人員對科學研究問題解決方案的探索最終會對公司的技術應用產生影響。」

  在如上多次循環的過程中,研究人員的個人影響力如下圖中的陰影面積表示:橫軸表示科學影響力,縱軸表示對微軟的影響力。在初期探索階段,個人影響曲線的形狀一般是水平的,因為主要受眾還局限於科學界;後期在找準方向開始專注的階段,個人曲線的形狀通常是垂直的,並且建立在先前探索階段的基礎之上。

  Thomas Ball還在文章裡寫道:「我們鼓勵研究人員積極著述,但微軟研究院並不強調發表數量。質量是我們的首要目標。」

  「微軟研究院在科研上的投資可能不會立即對微軟產生影響,但從長遠來看將為公司培養新的力量/能力。要將科學結果轉化為公司影響力離不開協調而長期的努力。」

計算機視覺發展:AI各子領域合久必分,分久必合

  新智元:此前新智元採訪李開復老師,他提到優秀企業的稀缺造成資本過度追逐,僅做人臉識別的初創公司估值接近獨角獸不合理。李開復還預計一年後計算機視覺會出現一個短暫的寒冬。您認為單做人臉識別的創業公司價值如何?一年之後計算機視覺會迎來短暫的寒冬嗎?

  華剛:我尊重李開復老師的看法,但我持比較中立的態度,主要是我對這些創業公司的具體業務細節並不是很了解。單從技術角度說,計算機視覺發展這麼多年,作為一項生物識別技術,在圖像識別、金融、安防等很多領域技術已經成熟,到了可以商業應用的階段。

  我對計算機視覺商業化一直有自己的興趣,最近也進行了一些深入的思考。在微軟計算機視覺多年積累的基礎上,我今後的工作有一部分也會關注將相關技術產品化,參與相關商業化策略的制定和整合上面。

  從商業的角度看,在亞洲做人臉識別整體而言是有優勢的,主要是公眾對個人隱私的關切度相比之下沒有那麼高。實際上,美國政府早在30多年前就開始了人臉識別項目,聯合了政府、高校、研究所等眾多機構的力量。然而,這麼多年的投入,在民用領域的應用並沒有特別多——在美國,人臉識別主要還是用於國土安防和反恐等政府應用。

  在中國,人臉識別的民間應用滲透度很高,前段時間不是有新聞提到,北京天壇公園衛生間裡安裝了人臉識別系統限制固定時間內用戶取紙的數量麼?,拋開別的不談,我認為這可是一個巨大的商機(笑)。

  至於單個公司是否能賺錢,實際上當前人臉識別的技術門檻並不高,這樣技術壁壘就很難建立起來。單純通過增加訓練數據和加深網絡深度已經對進一步解決人臉識別這個問題和進一步的商業應用並不能提供更多的幫助。

  即便有技術基礎的公司,如果沒有找到合適的商業應用場景,沒把握住市場發展的趨勢,那麼碰到困難的可能性也很大。

  不過,作為一個研究領域,計算機視覺正處於上升趨勢,在研究領域一年後應該會繼續蓬勃發展。無論在中美,政府部門對這個研究領域的投入也在加強,例如美國政府IARPA的JANUS計劃,這是美國政府最近資助的無限制條件式人臉識別的研究。Facebook在2014年時首次推出了DeepFace,那是他們結合從2006年就開始做的讓他們的用戶在自己的在線相冊裡面標註他們的朋友,這麼多年積累下來的一個人臉資料庫——當然,在2014年時他們的技術並不完美,但DeepFace無疑將整個人臉識別往前推進了一大步。2007年,我開始在微軟做人臉識別的研究並在2008年創立並奠基了微軟的第一個完整的人臉識別引擎,現在已經持續發展並整合成為微軟智能雲平臺認知服務裡的Face API。

  新智元:從您的專業角度看,這幾年的CV發展趨勢是怎麼樣的,近5年,近10年,近30年?您對未來3~5年計算機視覺領域的發展有什麼期望嗎?

  華剛:這是一個很大的問題。計算機視覺作為一門科學最早於1955年提出。真正意義上現代計算機視覺的研究實際上是從20世紀70年代年末80年代初開始的。美國政府DARPA當時設立了一個圖像理解研究項目(DARPA Image Understanding Research Program),早期很多計算機視覺研究者都接受並得益於DARPA的資助。當時DARPA的Image Understanding Workshop也是早年計算機視覺研究從業人員的一個主要平臺。可以說是DARPA的這個圖像理解研究項目奠定了現代計算機視覺研究的基礎。隨後第一屆CVPR在1983年舉辦,ICCV則是1987年,為全世界的計算機視覺研究者提供了更大的交流舞臺。

  計算機視覺實際上是一門涵蓋很廣的學科,主要分為4個層次的任務:圖像獲取,比如各種成像方法,怎麼製作攝像頭獲取圖像,包括紅外攝像頭、深度攝像頭;圖像處理,這也是通常所說的低級視覺的問題,主要在像素級上進行處理,比如圖像變換、濾波;圖像分析,這算是中級視覺的問題,通過分割和特徵提取,將像素圖像描述轉變為比較簡潔的描述,常見的紋理分析、運動、分割、3D視頻,都屬於這類;最後是圖像理解,也是通常所說的高級視覺的問題,包括物體識別,行為識別,和語義分割等等。

  一直以來,計算機視覺研究者都致力於從下往上打通這套系統(pipeline)。過去10年,大部分研究集中在物體識別(object recognition),主要的方法是統計機器學習的方法和大規模圖像資料庫的結合。雖然我不喜歡用「熱門」這個詞,但過去5年,深度學習確實很熱門,在ImageNet 圖像資料庫也取得了很好的成果。不過,計算機視覺有過很多種「流行」方法:2001年到2007年,Boosting和SVM是最受歡迎的方法;2007年到2012年則是基於稀疏表徵的識別;2012年以後,深度學習的潛力被充分發揮出來。這些其實都屬於統計機器學習,統計模式識別的方法。作為計算機視覺研究者,我不希望大家一提到「計算機視覺」就只想到「圖像分類」。這些年,計算機視覺的每個領域都在向前發展,比如微軟的Kinect Camera,能在成像過程中自動獲取像素的景深。

  希望大家綜合了解整個領域的發展,不要把計算機視覺的研究機械化成為是機器學習的一個簡單應用。我不覺得單純增加資料庫或神經網絡層數是解決高級視覺問題的正確途徑。任何方法,必須要結合計算機視覺的領域知識(domain knowledge),充分利用圖像,視頻數據本身的特性,才能在計算機視覺研究方面取得真正的進展。

  至於未來的發展,這並不好「預測」。我個人的觀點,圖像理解仍然會是近期關注的熱點。再長遠一些,計算機視覺實際上是人工智慧的一個分支。早些年,計算機視覺也好、自然語言處理也好,大家都是投稿到AAAI。經過一段時間的發展,各個分領域都有了各自的會議,比如計算機視覺有了CVPR、ICCV,自然語言處理有了ACL……俗話說「天下大事合久必分,分久必合」,我相信未來語音、視覺、包括自然語言等再度融合的可能性很高。因為如果我們的目標是要做一個AI系統,它必定是多模態的,多個層面多種模塊的結合。所以,在CVPR未來我們可能看到AI子領域相互融合,或者說朝著通用AI這個方向的研究會越來越多。

   文章來源:微信公眾號新智元

(責任編輯:崔晨 HX015)

相關焦點

  • 社交媒體和arXiv存在,讓雙盲評審形同虛設 | Reddit熱議
    白交 發自 凹非寺量子位 報導 | 公眾號 QbitAI雙盲評審機制真的雙盲嗎?最近,Reddit上有這樣一個討論:社交媒體與arXiv是否損壞了頂會雙盲的機制?
  • 社交媒體和arXiv存在,讓雙盲評審形同虛設|Reddit熱議
    白交 發自 凹非寺量子位 報導 | 公眾號 QbitAI雙盲評審機制真的雙盲嗎?最近,Reddit上有這樣一個討論:社交媒體與arXiv是否損壞了頂會雙盲的機制?甚至還有一些機構直接下場發推——DeepMind的新研究,自監督模型BYOL刷新ImageNet記錄。而此時,這些大會的評審工作還沒有完全結束。這樣做不僅會給雙盲評審人員巨大壓力,還損壞了頂會雙盲評審機制。還沒有通過同行評審就放arXiv和社交媒體上,那雙盲豈不是在搞笑?影響力or接收,哪個更重要?先不論雙盲機制是否真的雙盲。
  • ACL 禁止投稿論文提交 arXiv,雙盲評審真的有效嗎?
    匿名評審的有效性如何,應該怎樣保證這種政策的公平性,值得重新思考。近日,ACL(計算語言學協會)更新了其會議論文的投稿、評審和引用政策。其中最受爭議的一項要求是,為了雙盲評審的有效性,禁止投稿論文在截止日期前的1個月時間裡在 arXiv 等平臺公開預印本,直到論文評審結果公布。這些新要求引起一些質疑雙盲評審有效性的聲音,不過,多數研究人員表示支持新政。
  • ACL新政禁止投稿論文在arXiv公開,我們到底需要什麼樣的雙盲評審?
    而在程序委員會的內部會議上,主席就多次聽到某成員確信另一個成員就是論文的作者的言論,然而事實證明他猜錯了,這也反映了部分評審者過於自信,他們的去匿名推理並不一定正確。程序委員會主席的觀點針對以上的結果,三個會議的程序委員會主席仍然支持繼續使用雙盲評審,他們都認為雙盲評審減輕了潛在偏見的影響,這也是雙盲評審的目的。不過執行的效果以及其中的挑戰仍然不能掉以輕心。
  • CVPR 2019錄取結果公布,7篇新鮮好文推薦
    > http://cvpr2019.thecvf.com/files/cvpr_2019_final_accept_list.txt https://docs.google.com/spreadsheets/d/1zhpogphsC8rGaexSHUANQeW3ezFV3XiJuO-wayQIIYI/htmlview?
  • 翟天臨曾很擔心博士論文「盲審」,然而「雙盲」評審順利通過?
    至關重要的問題是,翟天臨的博士論文到底在哪裡,這篇論文是何人所寫,又是如何寫的,最後是怎樣通過「雙盲」評審的?顯然,教育部注意到了這個問題,「調查……也涉及到了工作的其他各個環節是否有問題」。博士論文「雙盲」評審,是指評審人不知道論文是何人所寫,被評審人也不知道何人在評審自己的論文。北電《北京電影學院博士學位論文雙盲評審辦法》(院發研字〔2019〕1 號)規定:「雙盲評審,是指將評閱人姓名對學位論文作者及其導師隱去,同時將學位論文作者及其導師姓名對評閱人隱去而進行的學位論文評審工作。」「每篇博士學位論文由 3 位專家雙盲評審。」
  • CVPR2019開幕與頒獎儀式:最佳論文完成不可能的任務,上萬參會者...
    大會主席朱松純介紹參會情況8 點半一過,CVPR 2019 三位大會主席(General Chair)之一的 UCLA 統計學兼計算機科學教授朱松純上臺宣布會議開幕並進行開幕致辭他首先逐一介紹並感謝了其它各位主席、程序主席,以及向領域主席和其它會議事項(比如主題研討會、出版物、財務等等)的負責人致謝。在過去的幾個月中,程序主席們為了組織會議,發送了超過一千八百封郵件,有一些教授的學生也參與到了組織工作中來。
  • 2020年下半年MBA/EMBA國家班論文雙盲評審結果判定及答辯前後相關...
    2020年下半年MBA/EMBA國家班論文「雙盲評審意見及結果判定」已出,現根據>研究生院《關於做好2020年下半年專業學位研究生申請學位通知》要求,作如下安排:一、雙盲評審結果判定及答辯前準備研究生院專業學位辦判定結果如下:
  • NIPS 2018又出事了:審稿信息洩露,雙盲評審失效!
    NIPS 2018又出事了:審稿信息洩露,雙盲評審失效! 審稿信息洩露,雙盲評審失效! 8月7日,就在NIPS初審結果rebuttal進行的過程當中,有人發現NIPS 2018的審稿系統出現了嚴重的信息洩露,本就頗受詬病的評審過程,又一次出現問題。
  • ICLR 2018截稿:取消公開評審改為雙盲引人關注
    本屆大會仍由 Yann LeCun 及 Yoshua Bengio繼續擔任大會主席。在2013年舉辦的第一屆ICLR大會官網上, Yann LeCun 和 Yoshua Bengio曾這樣介紹舉辦這一會議的初衷:「儘管表徵學習對於機器學習及包括視覺、語音、音頻及 NLP 領域起著至關重要的作用,目前還缺乏一個場所,能夠讓學者們交流分享該領域所關心的話題。
  • 學界| ICLR 2018截稿:取消公開評審改為雙盲引人關注
    本屆大會仍由 Yann LeCun 及 Yoshua Bengio繼續擔任大會主席。在2013年舉辦的第一屆ICLR大會官網上, Yann LeCun 和 Yoshua Bengio曾這樣介紹舉辦這一會議的初衷: 「儘管表徵學習對於機器學習及包括視覺、語音、音頻及 NLP 領域起著至關重要的作用,目前還缺乏一個場所,能夠讓學者們交流分享該領域所關心的話題。
  • 300篇 CVPR 2019 Oral 論文精選匯總,值得一看的 CV 論文都在這裡
    CVPR 2019 Oral 論文精選PDF下載地址:https://ai.yanxishe.com/page/resourceDetail/819CVPR 2019 全部論文PDF合集下載地址:>14.Searching for A Robust Neural Architecture in Four GPU Hours作者:Xuanyi Dong, Yi Yang論文連結:https://xuanyidong.com/publication/
  • NeurIPS 2020 大變動,領域主席可拒稿20%,作者即評審,布局遠程會議!
    第二,早期拒稿:領域主席有兩周的時間來挑選出一批早期拒稿的論文,比例大概為 20%。接著由高級領域主席在一周時間內通過決議,一經通過,被拒稿的論文作者就會收到其論文不會再接受進一步評審的通知。第三,作者即評審:要求每篇論文的每位作者或共同作者,在要求他們參與評審論文的情況下都同意參與評審論文。
  • 微軟語音 AI 技術與微軟聽聽文檔小程序實踐|AI ProCon 2019
    演講者 | 趙晟、張鵬整理 | 伍杏玲【CSDN 編者按】9 月 7 日,在CSDN主辦的「AI ProCon 2019」上,微軟(亞洲)網際網路工程院人工智慧語音團隊首席研發總監趙晟、微軟(亞洲)網際網路工程院 Office 365資深產品經理,Office 小程序負責人張鵬共同發表《微軟語音AI與微軟聽聽小程序實踐
  • 祝賀劉國瑞教授當選下一任IEEE主席!IEEE首位華人主席
    現為美國馬裡蘭大學首席教授,美國科學促進會(AAAS)會士和 IEEE 會士,歐盟歐洲研究委員會、芬蘭科學院科學與工程技術評審組、澳大利亞國家科學與工程研究評審組成員和香港科技大學戰略發展顧問委員會成員、西北工業大學顧問教授。
  • CVPR 2020評審結果,曠視南京研究院負責人淺談學術論文rebuttal
    Peer review 是一種學術成果審查程序,即作者的學術著作或 proposal 被同一領域的其他專家學者評審,並根據評審意見決定是否予以錄用(Accept)和後續正式發表(Publish)。對於計算機學科特別是人工智慧領域的學術會議和期刊,其均有相對成熟和流程化的同行評議(即審稿)機制。
  • 算法最熱arXiv論文接收率高一倍,NeurIPS2019最全報告+視頻+筆記
    盛大的 NeurIPS 2019 剛剛落幕。今年,NeurIPS 官方總結了大會達投稿情況,並介紹了評審委員會在保證投稿質量、完善投稿機制上的種種探索。與此同時,今年 NeurIPS 官方也提供了演講視頻集,很多研究者分享了他們的參會筆記。
  • 王威廉組滿分CVPR論文:遵照自然語言指令的室內導航
    根據王威廉微博介紹,他們組有 6 篇論文被自然語言處理頂級會議 NAACL 2019 接收,其中甚至包括來自二年級本科生同學的論文。近日隨著 CVPR 2019 發榜,王威廉組王鑫同學與微軟研究院的合作文章《Reinforced Cross-Modal Matching & Self-Supervised Imitation Learning for Vision-Language Navigation》也被 CVPR 接收。
  • UC伯克利拿下EMNLP最佳論文,復旦黃萱菁當選下一屆程序主席
    復旦大學計算機科學學院教授黃萱菁將出任下一屆大會的程序主席。除此之外,比較遺憾的是,今年的最佳短論文暫未頒發。作為國際語言學會(ACL)下屬的 SIGDAT 小組主辦的自然語言處理領域的頂級國際會議。EMNLP每年舉辦一次,去年則與 IJCNLP 聯合在香港舉辦,今年由於疫情轉為線上舉辦。