MIT周博磊:CV本質上是一門科學研究

2021-01-07 雷鋒網

雷鋒網 AI 科技評論按:如果你常逛知乎,相信你對周博磊並不陌生。周博磊目前是 MIT 在讀博士生;知乎深度學習(Deep Learning)、機器學習、人工智慧話題優秀回答者,目前有近兩萬的知乎關注者。在 CVPR 2017 上,周博磊牽頭分別組織了一個 tutorial (http://deeplearning.csail.mit.edu/) 和 workshop (http://sunw.csail.mit.edu/),獲得了不錯的反響。

在參會期間,雷鋒網 AI 科技評論與周博磊進行了一次交流,他分享了對計算機視覺研究的一些心得體會。

周博磊,MIT CSAIL 五年級博士生,師從 Antonio Torralba 教授。本科於 2010 年畢業於上海交通大學生物醫學工程系,2012 年在香港中文大學取得信息工程碩士學位。研究方向為計算機視覺和機器學習。

個人主頁:http://people.csail.mit.edu/bzhou/

知乎主頁:https://www.zhihu.com/people/zhou-bo-lei/answers

為何能辦一場爆滿的 tutorial?

CVPR 是計算機視覺領域的主流會議,物體識別和場景分析是計算機視覺裡面的核心問題,邀請到的嘉賓也是在這個方向有重要貢獻的研究者,所以我們的那個 tutorial 整個是 full house(爆滿)。邀請的嘉賓之一 Ross Girshick(Facebook 人工智慧實驗室研究科學家)和我在聊的時候也提到,他也挺驚訝有這麼多人關注 object detection 的問題,而並不只局限於 GAN 和生成模型這些比較火的領域,畢竟物體識別還是計算機視覺的一個核心問題吧。群眾反響比較好的話,就說明這個(tutorial)還是辦得比較值得。

我邀請了愷明、Ross 還有曉剛老師,包括我自己,一起作為演講嘉賓,這個 Tutorial 的主題包括物體識別、場景識別以及神經網絡的可解釋性問題等,都和大家的研究方向有關,也是一個比較好的結合點。他們也是研究這個領域比較領先的學者,就這樣組織起了本次 CVPR 的一個 tutorial。(友情提示:演講 slide 已經放在主頁上,視頻隨後也會放出)。

CVPR 的總體感受?

今年(CVPR)感覺華人(中國)公司挺多的,從論文角度來講,相對於理論和系統領域,計算機視覺一直也有很多華人在做研究。這次過來我更關注的是和人交流。新的 paper 很多其實在 arXiv 上面都有。主要還是和以前認識的朋友重新聚一聚,和了解過工作的研究員進一步面對面交流。

研究領域的話,其實 workshop 就是一個體現前沿趨勢的環節,比如第一天的 visual interaction(視覺交互),雖然去的人不多,但我覺得是一個比較重要的方向。物體識別和檢測目前已經做到極限了,那麼物體之間的交互可能就會是進一步的研究方向。

另外一方面是我自己馬上博士畢業了,準備找找教職和 industry lab 的研究工作,CVPR 也是一個可以了解這些信息的來源。

計算機視覺有何研究趨勢?

現在比較火的應該是視頻的分析和識別,包括谷歌和 Facebook 其實都投入了很大的人力在做,就像 Facebook 的機器學習組其實都招了挺多研究視頻的人,可能在 10 月份 11 月份的時候會發布一個更大的視頻數據集。我覺得可能未來會有更多的東西可以做。

另外,因為識別問題目前已經做得非常好了,識別的下一步可能會是什麼?下一步可能會是認知的任務,或是提升到推理的層面。比如系統識別出這裡有個茶杯,但它是基於什麼在支撐?其實是底下的桌子,這就是一個物體交互的過程,會涉及到更多認知層面的東西。

AI 研究的工程化和平民化

在做研究的過程中,我一個很深的感受是,現在的深度學習或者說 AI 的研究變得越來越工程化了,變成一種群體作戰。這也可以解釋為什麼現在公司其實是佔優勢的。因為它們有很多工程師,可以幫你把平臺搭得很好,有很多研究員一塊來做研究,整個事情就是一個比較龐大的系統工程;而不像之前,可能一個人兩個人在實驗室,就可以倒騰一個東西,現在可能變得越來越系統化了。

另外一點就是變得更平民化了。現在大家的數據和代碼都很快開源,門檻變得越來越低。像本科生如果願意去學的話,其實是可以很快在一個子領域做出一些突破的。這個研究也不一定會有多大的創新,但因為計算機視覺有太多的子任務了,所以選一個方向努力做幾個月,可能就可以在頂級會議上發一篇 poster,難度也不像五、六年前那麼大。

以後會議可能更多的是一個交流的過程吧,現在 CVPR 的接收率接近 30%,可能在五、六年前只有 23%到 24% 的樣子,而且投稿的論文也幾乎 double 了(雷鋒網(公眾號:雷鋒網) AI 科技評論按:CVPR 2017 年有效投稿 2620 篇,錄用 783 篇)。我第一次參加 CVPR 是在 2011 年的時候,開會的地方(Colorado Springs)就比較偏僻,參加者可能也就一千多人。

第二個是,深度學習方案確實開始 work 了,所以公司可以很快跟進並整合到自己的系統裡面。MIT 自己和三星、美國政府還有一些帶軍方背景的公司有合作,但高校一般不會和比較小的公司合作,因為小公司可能對產出有比較快的要求,如果是做基礎研究的話,不會那麼快地看到產出。另外有些公司的需求可能也比較簡單,工程師也能做到的,就不需要放到學校裡面來做。

但現在 AI 的整個研究變得越來越實際了,工業界以前是給學校資金支持,然後找一些有想法的老師一起合作;現在更普遍的模式是工業界自己建立研究院,僱傭一些老師來工業界,並且用 engineering 和資源去支持老師的研究工作。包括像李飛飛這樣的老師加入谷歌,因為谷歌的資源比較充足,她可以做更多的事情,如果這些都讓她實驗室裡僅有的幾個學生來做的話,其實不太現實。一方面是學生自己也要花時間學習,另外也沒有這樣的平臺或數據去從頭實踐這樣一個系統。

就學就業的選擇

我對自然界的東西比較感興趣,有點像「師法自然」這樣的,喜歡研究各種生物系統。高中的時候我其實是搞生物競賽的,後來去了上海交大,大一在生物實驗室做了一陣子,覺得不是那麼有意思。後來和侯曉迪一起玩樂隊的時候受他影響挺大的,開始上手視覺方面的研究,那時候還是 07,08 年的樣子,計算機視覺還不怎麼 work。有意思的是,當年侯曉迪推薦給我看的第一篇論文就是我現在導師(Antonio Torralba)的作品,當時也沒想到後來會選他(做導師)。大三的時候就在計算機系那邊跟著張麗清老師做 CV 的研究,之後就到香港中文大學跟著湯曉鷗老師和王曉剛老師做研究,更加堅定了做研究的想法,碩士畢業後就來 MIT 了。

未來(選擇)留在學校對我的吸引力是多方面的吧。一方面是可以更自由地去做研究,第二個是可以帶學生,一起去做這件事情,也不是每個人都想去公司,對吧。

我覺得計算機視覺本質上是一種 science(科學),怎麼發現一個好的問題是更加重要的,可解釋性其實就是一個比較有意思的問題。當時我們收集了很大的一個場景分類資料庫,訓練了一個模型後發現準確度非常高。我導師的第一篇論文就是做場景分類的,他就覺得很不可思議,為什麼機器能夠達到人的水平。我們就開始做一些可視化的工作,後來這篇論文投到 ICLR 2015 上中了 oral,當時也就十幾篇(oral)吧,而且其他的論文都是工業界的文章,像谷歌、微軟和 Facebook 這些。所以我們這篇論文就有種讓人眼前一亮的感覺,因為我們更像一種從科學角度去探討問題的感覺,從設計問題到實驗過程都不是那麼工程化,本質上更像是一種探索。

深度學習其實不是一個黑箱,它裡面的結構還是比較清楚,只是說大家覺得參數這麼多好像很難理解。比如我們 15 年 ICLR 的工作就說明了一個這樣的問題,當我們訓練了一個場景分類的模型之後,它裡面就學會了很多 object detector 的內容。比如說你覺得這是一個客廳,是因為你看到裡面有電視、有沙發;那麼我們在教神經網絡識別的時候,它也是同樣檢測這張圖裡有沒有電視和沙發,然後再分類為客廳的。這個過程實際上和人的識別過程是很類似的,我覺得以後會有更多的工作去研究這方面的問題。(http://arxiv.org/pdf/1412.6856.pdf)

我前兩個月去參加了一個叫 VSS(Vision Science)的會議,這個會議主要探討的就是做 vision science 的人是怎麼解決視覺問題的,他們就是從人腦、從認知的角度去探討問題,對我的啟發也很大。

回到 CVPR 的 tutorial 上,其實昨天愷明和 Ross 分享的都是怎麼把性能提升,怎麼去訓練一個更深的模型,這是故事的一個方面;故事的另外一方面是,這些訓練得到的優秀的表徵到底有些怎樣的含義,如何比較不同的表徵的語義性,能更好的幫助我們理解內部的運作機制,這也是我的一個研究方向。

如何成為「知乎網紅」?

並不是想成為「網紅」。在知乎上寫回答的一個原因是,現在誤導的信息比較多,所以我覺得有必要出來以正視聽吧,但我說的也不一定對,其實也只是把我自己的觀點表達出來,分享自己研究的一些心得體會。

MIT 其實很早就有 AI 了,有些老教授會覺得,如果把 AI 作為一個 popular science 去宣傳的話其實挺沒必要的,這樣對研究員的壓力很大,如果老想著要做能搞大新聞的研究,也不一定是好事。

(在知乎上回答問題)這也是對我自己的一個訓練,就是怎麼把自己的想法有邏輯地表達出來。這對研究員來說其實是比較欠缺的一部分,因為讀博的話可能就一個人埋頭深入研究,其實不知道怎麼跟別人分享自己的想法。但如果有這麼多人能覺得我寫的東西對他們有幫助的話,其實也是挺好的。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 科學是一種概念,科學的本質都來源於什麼呢?
    科學,是近代一個相對性的概念,由外國傳教士傳入中國。 那麼,什麼是科學呢?應該是事物的發生發展過程中湧現出的有規律性的普遍性的認知和成果。它不是上帝的清規陋習,是相對的不斷變化的。有些中醫黑企圖用西醫自定的檢測標準強行束縛中醫。
  • 本質上量子力學是一種什麼樣的工具
    量子科學對多數人來講,是個非常遙遠的名詞。但在量子力學研究和教育領域,其重要性非同一般,幾乎相當於納粹對德國及德國人的影響。對我來說,量子力學研究對我來說意義頗多。本質上,量子力學是一個工具,用來對未知力量進行假設推論,並為解決一些問題提供新思路。量子力學還揭示出物質與物質之間一些看似無形,實則有形的聯繫,這種量子力學的理論,對我一直具有巨大的吸引力。
  • MIT最新研究:紐約地鐵可能是疫情擴散的「罪魁禍首」
    圖片來源:12BY6他寫道:「我們都知道,地鐵中人與人的接觸,無論是吸入的飛沫,還是殘留在欄杆上的病毒,這樣緊密的接觸給新型冠狀病毒提供了能夠輕易的傳播的機會,尤其是進入地鐵的旋轉門,所有人共享的扶手,公共運輸工具上的金屬的立杆,都是利於病毒傳播的媒介」。
  • 教育的本質(六):教育藝術的本質是什麼?求真求善求美
    當然,在這裡值得提及的是柯領所講的學科精神也很模糊不明晰不明確,如果從教育的本質——真善美上來講,他所指的學科精神應該是認識世界求真求善求美的精神,因為在求真求善求美的過程中,可以引起人在生命、感官上的開放、高漲、激揚,使生命、感官產生一種歡樂、愉悅、激情,達到一種感官、生命在深度的體驗上從來也沒有的歡愉輕鬆感覺。
  • 教育的本質(四):教育研究的結論
    九、教育研究的結論縱觀種種,在我動筆寫這篇《教育本質》隨筆的時候,有幸閱讀到了湖北省教育科學研究所張巽根的論文《教育本質探討中諸方法和結論的商榷》,在文中對「教育的本質」進行了深刻地探討,最後對教育研究的結論是:教育是促使受教育者從原有發展水平向發展目標轉化的活動
  • 2022考研英語詞根:與「miss/mit」相關的詞根
    miss,mit= send,cast,表示「送,放出」mission n "派遣;使命(miss+ion,送出→派遣)"missionary a 傳道的n.傳送過去)premise n 前提(pre預先+mise→預先送出→前提)promise n 答應;保證(pro前面+mise→在做事前送出的話→允諾)surmise v 推測,猜測(sur在下面+mise→在下面說出的話→猜測)demise v 讓與;遺贈(de分開+mise→分開送→遺贈)admit v 許可入學等;承認(ad+mit
  • 科學認識社會主義本質特徵
    習近平總書記在全國黨校工作會議上提出了「如何看待社會主義本質特徵」重大問題。回答好這一問題,對於在新的歷史條件下堅持和發展中國特色社會主義,至關重要。  一、對社會主義本質的認識歸根到底來源於實踐  社會主義經歷了從空想到科學、從理論到實踐、從一國實踐到多國發展的過程。
  • 從文化角度來研究藝術本質
    中國社會科學網訊(記者吳楠)藝術文化學是從文化的視野研究藝術的,介於文化學和藝術學之間的邊緣學科。它將藝術作為文化系統中的一個子系統來進行廣泛的觀察探究,開拓了藝術研究的新視野,拓寬了藝術研究的景深。近年來,藝術文化學研究的現狀如何?有哪些值得關注的議題,近日,記者圍繞以上議題採訪了相關學者。
  • 現代科學關於時間本質的定義是什麼?
    首先你看到了它,這是因它反射的光線被你的視覺神經感受到了,然後在你的大腦中反饋成了大小形狀和顏色;而你的手摸到了它,手機上的分子與你的手上的分子之間發生了電磁相互作用。在這種情況下,你就認為這個手機是由物質構成了。可是顏色的本質不過是頻率不同的電磁波而已,相同頻率的電磁波在不同物種的眼裡是不同顏色的,所謂的三原色也不過是人為的定義,只適用於人類。
  • MIT無需GRE,雅思即可申請!
    網申系統 https://gradapply.mit.edu/architecture/apply/login/ 開設什麼設計類研究生專業以及截止日期?
  • PKKCV-Mitglieder sprechen von Chinas erste Marsmission
    >Zhao Xiaojin, Direktor des fünften Forschungsinstituts des Raumfahrtunternehmens CASTC (China Aerospace Science and Technology Corporation) und zugleich PKKCV-Mitglied, teilte am Dienstag der Presse mit
  • MIT科學家開發機器翻譯新算法,專為破譯消失的古語言
    文丨學術頭條語言是文化的有機組成部分,也是文化的載體,世界文明的多樣性在很大程度上表現為世界語言的多樣性。而在 21 世紀的今天,語言學家們顯然已經不滿足於傳統的、對已知語言的研究。近日,麻省理工學院計算機科學與人工智慧實驗室(Computer Science and Artificial Intelligence Laboratory 簡稱 CSAIL)的研究人員就開發出一種計算機算法,旨在幫助語言學家破譯歷史上已消失的語言。無法「谷歌翻譯」的古老語言如今,世界上現存約有 7100 種語言。
  • 體育賽事策劃|什麼是「科學的策劃」與「策劃的本質」?
    01「科學的策劃」4個特徵特徵一:獨特的、創新的策劃的本質創新:科學的解決問題,概念創新和理念創新。要素二:策劃依據分析結論:通過調查研究、市場分析與信息整理,對內部資源與外部環境的分析結論。03科學的策劃:一種創造性思維管理過程調查分析有關材料掌握相關科學知識
  • MIT打造,準確率是傳統方法5倍
    研究人員分享了這樣的一個使用場景:如果你想在一個新的晶片架構上訓練一個模型,比如谷歌的TPU,你只需要從這個架構中收集數據,經過分析器運行後,去訓練Ithemal,你可以得到一個可以預測其性能的模型。」
  • 碧藍航線死或生聯動cv一覽 假日航線活動CV表一覽
    碧藍航線死或生聯動cv一覽 假日航線活動CV表一覽時間:2020-11-29 10:10   來源:今日頭條   責任編輯:毛青青 川北在線核心提示:原標題:碧藍航線死或生聯動cv一覽 假日航線活動CV表一覽 近日,碧藍航線和死或生進行了遊戲聯動,而 的假日航線活動就是此次聯動的主要內容,一起來看看都更新了哪些語音吧
  • 研究「冷門絕學」!南大探尋前科學時代的失落古書
    「『數術』是中國古代的『自然科學』,但因為古人認知的局限,這種知識又與今人看作『迷信』的佔卜、巫術等內容交織在一起,是一門複雜的學問。早期科學與巫術混沌不分的時代,一般被稱為『前科學時代』。由於前科學時代的數術文獻大多散佚丟失,要想了解先秦秦漢時數術體系的面貌,必須依靠出土簡帛文獻。我的主要工作,就是整理這些出土的簡帛數術文獻,復原狀態,解析文義。」南京大學文學院教授程少軒的課題「簡帛數術文獻圖文轉換及相關問題研究」,是本次入選公示的「冷門絕學」項目之一。   簡帛數術文獻研究是「古文字學」的分支。
  • 軟體、算法和硬體,MIT團隊用三支箭為「摩爾定律」續命
    1965年,英特爾聯合創始人戈登·摩爾(Gordon Moore)預言,計算機晶片上能容納的電晶體數量將呈指數級增長,大約每兩年就會翻一番,最後事實也證明了摩爾的先見之明。
  • 肯·費雪:投資是不是一門手藝?
    在一般投資者看來,投資就如同做木工活或治病行醫,是一門手藝,這樣的認知前提是錯誤的。他們不會把投資視為科學的探索活動,這正是我要向你強調的一個觀點。我們先來看看他們如何看待投資。我從中學到的另一點是:「科學」(science)一詞源於拉丁語「scio」,是去了解、理解、掌握如何去做的意思。所有科學家都會告訴你,科學不是一門手藝,相反,它是永無止境的探索過程。科學家不會在某天早晨醒來就創造出一個方程式來表示萬有引力。相反,牛頓首先提出了一個簡單的問題,即「是什麼力量讓一切物體下落呢」。
  • 作為科目、學科和科學的教育學
    他說:「『實踐理論』的地位處於『藝術』(在『實踐一種能力』[practicing an ability]或實踐活動[praxis]的意義上)和『科學』之間。」[14]實踐教育學雖然已經擺脫了傳統教育學那種技藝經驗的非系統性狀態,但與真正的教育科學之間尚存在著明顯的差異。「雖然教育科學和實踐教育學都與同樣的研究對象——教育有關,但兩者在研究目的和研究方法上卻不盡相同。