李飛飛:在物體識別之後,計算機視覺還要多久才能理解這個世界

2020-12-04 雷鋒網

計算機視覺的繼續發展已經不是計算機視覺本身,要和其它領域結合更好地完成人類的任務。

本文作者:楊曉凡

雷鋒網 AI 科技評論按:9 月 26 日,機器人領域的頂級學術會議 IROS 2017 進入第二日。上午,著名華人計算機視覺專家、斯坦福副教授李飛飛,在溫哥華會議中心面向全體與會專家學者作了長達一小時的專題報告。

在昨天發布的雷鋒網文章 上篇:「李飛飛:為什麼計算機視覺對機器人如此重要? | IROS 2017」中,李飛飛介紹了視覺對生物的重要性,以及計算機視覺在物體識別任務中的飛速發展。在下篇中,李飛飛繼續與大家討論了計算機視覺的下一步目標:豐富場景理解,以及計算機視覺與語言結合和任務驅動的計算機視覺的進展和前景。場景理解和與語言結合的計算機視覺進一步搭起了人類和計算機之間溝通的橋梁,任務驅動的計算機視覺也會在機器人領域大放異彩。李飛飛介紹的自己團隊的工作也豐富多樣、令人振奮。

(2015年,李飛飛也在同一個會場面向著大海和聽眾進行過一次 TED 演講)

物體識別之後:豐富場景識別

(續上篇)在物體識別問題已經很大程度上解決以後,我們的下一個目標是走出物體本身,關注更為廣泛的對象之間的關係、語言等等。

在Visual Genome數據集之後,我們做的另一項研究是重新認識場景識別。

場景識別單獨來看是一項簡單的任務,在谷歌裡搜索「穿西裝的男人」或者「可愛的小狗」,都能直接得到理想的結果。但是當你搜索「穿西裝的男人抱著可愛的小狗」的時候,就得不到什麼好結果。它的表現在這裡就變得糟糕了,這種物體間的關係是一件很難處理的事情。

比如只關注了「長椅」和「人」的物體識別,就得不到「人坐在長椅上」的關係;即便訓練網絡識別「坐著的人」,也無法保證看清全局。我們有個想法是,把物體之外、場景之內的關係全都包含進來,然後再想辦法提取精確的關係。

如果我們有一張場景圖(graph),其中包含了場景內各種複雜的語義信息,那我們的場景識別就能做得好得多。其中的細節可能難以全部用一個長句子描述,但是把一個長句子變成一個場景圖之後,我們就可以用圖相關的方法把它和圖像做對比;場景圖也可以編碼為資料庫的一部分,從資料庫的角度進行查詢。

我們已經用場景圖匹配技術在包含了許多語義信息的場景裡得到了許多不錯的量化結果,不過在座的各位可能邊聽就邊覺得,這些場景圖是誰來定義的呢?在Visual Genome數據集中,場景圖都是人工定義的,裡面的實體、結構、實體間的關係和到圖像的匹配都是我們人工完成的,過程挺痛苦的,我們也不希望以後還要對每一個場景都做這樣的工作。所以在這項工作之後,我們很可能會把注意力轉向自動場景圖生成。

比如這項我和我的學生們共同完成的CVPR2017論文就是一個自動生成場景圖的方案,對於一張輸入圖像,我們首先得到物體識別的備選結果,然後用圖推理算法得到實體和實體之間的關係等等;這個過程都是自動完成的。

這裡涉及到了一些迭代信息傳遞算法,我先不詳細解釋了。但這個結果體現出的是,我們的模型的工作方式和人的做法已經有不少相似之處了。

得到這樣的結果我們非常開心,這代表著一組全新的可能性來到了我們面前。藉助場景圖,我們可以做信息提取、可以做關係預測、可以理解對應關係等等。

當然了論文發表前我們也做了好看的數據出來。

我們相信Visual Genome數據集也能夠幫助很多的研究人員在研究關係和信息提取的算法和模型實驗中施展拳腳。

場景識別之後還有什麼?

剛才說過了物體識別、關係預測這兩項場景理解難題之後,Jeremy 提到的最後一件事情就是,「場景中的gist的根本是三維空間中在物體間和物體表面上以一定形式擴散、重複出現的視覺元素」。不過由於我關注的並不是三維場景理解,我就只是簡單介紹一下斯坦福的同事們近期的研究成果。

左側是從單張圖片推測三維場景的布局,展現出其中物體的三維幾何特徵;右側是空間三維結構的語意分割。除了斯坦福的這兩項之外,三維場景理解還有很多的研究成果,包括使用圖片的和點雲的。我也覺得很興奮,將來也不斷地會有新東西來到我們面前,尤其是在機器人領域會非常有用。

這樣,我們就基本覆蓋全了場景的gist,就是看到場景的前150毫秒中發生的事情。視覺智慧的研究當然並不會局限於這150毫秒,之後要考慮的、我們也在期待的還有兩項任務。

我的研究興趣裡,除了計算機科學和人工智慧之外,認知神經科學也佔了相當的位置。所以我想回過頭去看看我在加州理工學院讀博士的時候做的一個實驗,我們就讓人們觀察一張照片,然後讓他們儘可能地說出自己在照片中看到的東西。當時做實驗的時候,我們在受試者面前的屏幕上快速閃過一張照片,然後用一個別的圖像、牆紙一樣的圖像蓋住它,它的作用是把他們視網膜暫留的信息清除掉。

接下來我們就讓他們儘可能多地寫下自己看到的東西。從結果上看,有的照片好像比較容易,但是其實只是因為我們選擇了不同長短的展示時間,最短的照片只顯示了27毫秒,這已經達到了當時顯示器的顯示速度上限;有些照片顯示了0.5秒的時間,對人類視覺理解來說可算是綽綽有餘了。

我們得到的結果大概是這樣的,對於這張照片,時間很短的時候看清的內容也很有限,500毫秒的時候他們就能寫下很長一段。進化給了我們這樣的能力,只看到一張圖片就可以講出一個很長的故事。

計算機視覺+語言

我展示這個實驗想說的是,在過去的3年裡,CV領域的研究人員們就在研究如何把圖像中的信息變成故事。

他們首先研究了圖像說明,比如藉助CNN把圖像中的內容表示到特徵空間,然後用LSTM這樣的RNN生成一系列文字。這類工作在2015年左右有很多成果,從此之後我們就可以讓計算機給幾乎任何東西配上一個句子。

比如這兩個例子,「一位穿著橙色馬甲的工人正在鋪路」和「穿著藍色襯衫的男人正在彈吉他」。這讓我想起來,2015年的時候我就是在這同一個房間裡做過演講。兩年過去了,我們的算法也已經不是最先進的了,不過那時候我們的研究確實是是圖像說明這個領域的開拓性工作之一。

我們沿著這個方向繼續做研究,迎來的下一個成果是稠密說明,就是在一幅圖片中有很多個區域都會分配注意力,這樣我們有可以有很多個不同的句子描述不同的區域,而不僅僅是用一個句子描述整個場景。在這裡就用到了CNN模型和邏輯區域檢測模型的結合,再加上一個語言模型,這樣我們就可以對場景做稠密的標註。

比如這張圖裡就可以生成,「有兩個人坐在椅子上」、「有一頭大象」、「有一棵樹」等等;另一張我的學生們的室內照片也標出了豐富的內容。

我們的稠密標註系統也比當時其它基於滑動窗口的方法表現好得多。

在最近的CVPR2017的研究中,我們讓表現邁上了一個新的臺階,不只是簡單的說明句子,還要生成文欄位落,把它們以具有空間意義的方式連接起來。

這樣我們就可以寫出「一隻長頸鹿站在樹邊,在它的右邊有一個有葉子的杆子,在籬笆的後面有一個黑色和白色的磚壘起來的建築」,等等。雖然裡面有錯誤,而且也遠比不上莎士比亞的作品,但我們已經邁出了視覺和語言結合的第一步。

而且,視覺和語言的結合併沒有停留在靜止的圖像上,剛才的只是我們的最新成果之一。在另外的研究中,我們把視頻和語言結合起來,比如這個CVPR2017的研究,我們可以對一個說明性視頻中不同的部分做聯合推理、整理出文本結構。這裡的難點是解析文本中的實體,比如第一步是「攪拌蔬菜」,然後「拿出混合物」。如果算法能夠解析出「混合物」指的是前一步裡混合的蔬菜,那就棒極了。我的學生和博士後們也都覺得這是讓機器人進行學習的很重要的一步。

這裡的機會仍然是把視覺問題和語言結合起來,如果只用視覺的方法,就會造成視覺上的模糊性;如果只用語言學的方法,就會造成語言上的模糊性;把視覺和語言結合起來,我們就可以解決這些問題。

太細節的還是不說了,我們主要用了圖優化的方法在實體嵌入上解決這些模糊性。我們的結果表明,除了解決模糊性之外,我們還能對視頻中的內容作出更廣泛完善的推理。

任務驅動的計算機視覺

在語言之後,我想說的最後一個方向是任務驅動的視覺問題,它和機器人的聯繫也更緊密一些。對整個AI研究大家庭來說,任務驅動的AI是一個共同的長期夢想,從一開始人類就希望用語言給機器人下達指定,然後機器人用視覺方法觀察世界、理解並完成任務。

比如人類說:「藍色的金字塔很好。我喜歡不是紅色的立方體,但是我也不喜歡任何一個墊著5面體的東西。那我喜歡那個灰色的盒子嗎?」 那麼機器,或者機器人,或者智能體就會回答:「不,因為它墊著一個5面體」。它就是任務驅動的,對這個複雜的世界做理解和推理。

最近,我們和Facebook合作重新研究這類問題,創造了帶有各種幾何體的場景,然後給人工智慧提問,看它會如何理解、推理、解決這些問題。這其中會涉及到屬性的辨別、計數、對比、空間關係等等。

我們在這方面的第一篇論文用了CNN+LSTM+注意力模型,結果算不上差,人類能達到超過90%的正確率,機器雖然能做到接近70%了,但是仍然有巨大的差距。有這個差距就是因為人類能夠組合推理,機器則做不到。

在一個月後的ICCV我們就會介紹新一篇論文中的成果,我們把一個問題分解成帶有功能的程序段,然後在程序段基礎上訓練一個能回答問題的執行引擎。這個方案在嘗試推理真實世界問題的時候就具有高得多的組合能力。

模型的實際表現當然不錯,所以論文被ICCV接收了。比如這個例子裡,我們提問某種顏色的東西是什麼形狀的,它就會回答「是一個立方體」這樣,表明了它的推理是正確的。它還可以數出東西的數目。這都體現出了算法可以對場景做推理。

我們也在嘗試環境仿真,我們用三維渲染引擎建立執行任務的環境,讓學習策略的機器人在其中學習動作,比如把籃球放進微波爐,也需要它把這個任務分解成許多步驟然後執行。

我們採用了一種深度語意表徵,然後用不同難度的任務測試它,中等難度的任務可以是從廚房裡多個不同的地方拿取多個不同的物體,然後把它們放在指定的地方;難的任務可以是需要策略讓它尋找之前從來沒有見過的新物體。

視覺相關的任務說了這麼多,我想把它們組織成這三類。

首先是除了物體識別之外的關係識別、複雜語意表徵、場景圖;

在場景gist之外,我們需要用視覺+語言處理單句標註、段落生成、視頻理解、聯合推理;

最後是任務驅動的視覺問題,這裡還是一個剛剛起步的領域,我相信視覺和邏輯的組合會在這個領域真正攜起手來。

人類視覺已經發展了很久,計算機視覺雖然在出現後的60年裡有了長足的進步,但也仍然只是一門新興學科。我以前應該有提過我邊工作邊帶孩子,這也就是一張我女兒二十個月大時候的照片。

看著她一天天成長的過程,真的讓我覺得還有許許多多的東西等著我們去研究。視覺能力也是她的日常生活裡重要的一部分,讀書、畫畫、觀察情感等等,這些重大的進步都是這個領域未來的研究目標。

謝謝大家!

(完)

雷鋒網 AI 科技評論報導。

雷鋒網原創文章,未經授權禁止轉載。網站轉載請至雷鋒網官網申請。但歡迎討論~

相關焦點

  • 李飛飛團隊最新研究,真實場景中識別物體具體屬性
    白交 發自 凹非寺 量子位 報導 | 公眾號 QbitAI現在,細微到物體表面的紋理,AI都可以識別。這就是李飛飛團隊新研究。我們知道,卷積神經網絡在識別視覺對象方面很出色,但還不能很好的識別出物體的具體屬性,比如表面形狀、紋理等。而最近,李飛飛團隊的最新研究——Learning Physical Graph Representations from Visual Scenes,就一舉解決了這個問題。
  • 李飛飛團隊新研究,場景中識別物體屬性,連表面紋理都識別出來了
    白交 發自 凹非寺量子位 報導 | 公眾號 QbitAI現在,細微到物體表面的紋理,AI都可以識別。這就是李飛飛團隊新研究。我們知道,卷積神經網絡在識別視覺對象方面很出色,但還不能很好的識別出物體的具體屬性,比如表面形狀、紋理等。
  • 李飛飛入選美國國家醫學科學院,她用AI改變了醫療
    ,未觀察到的醫療空間的理解。回來後的李飛飛依舊沒有選擇華爾街,而是決定讀取人工智慧與計算機神經科學博士學位。 博士畢業後,李飛飛進入史丹福大學的AI實驗室,深入研究計算機視覺識別。在醫療領域,李飛飛也多次利用視覺AI帶領團隊實現突破。
  • 視覺感知-從人類視覺到計算機視覺
    但是,使計算機感知視覺世界有多困難?截至2019年,我們才取得了一定進展,但依舊還有很長的路要走。計算機視覺是計算機科學的一個相對較新的領域,大約有60年的歷史。 從生物視覺到計算機視覺 上世紀70年代,麻省理工學院的神經科學家David Marr借鑑了Hubel和Wiesel關於大腦視覺處理系統的實驗的想法,開始制定計算機視覺來模仿人類的視覺能力。他說,為了理解視覺信息,在視覺皮層中對其進行處理時需要分幾步進行處理。他提出了這樣的假設:存在少量形成原始視覺對象的幾何組成形狀。
  • 李飛飛對話頂級神經學家:大腦做「微積分」,最高效GPU但很浪費
    紐瑟姆很高興再次見到李飛飛,一番寒暄之後進入正題。李飛飛:讓我們從定義和討論人工智慧與神經科學的交叉點開始,你認為計算在你的領域中的作用是什麼?紐瑟姆: 嗯,這是個很好的問題。在今天的神經科學領域,計算是極其重要的。
  • 李飛飛:人工智慧在帶來機會同時也充滿不確定性
    李飛飛在演講中介紹了人工智慧的早期發展,以下是李飛飛的演講實錄:我今天帶來的,是比較學術的演講。我想跟大家分享一下人工智慧,站在我自己的實驗室的角度,過去的發展的路徑,和我們最近在做的一些工作。他說一個人,或者一個機器,要去理解世界,需要去感知。感知以後,需要做的第一件事是對這個世界的結構進行理解。這叫 Syntax Understanding。Syntax 在自然語言處理領域叫語法,在計算機視覺這個領域可能叫三維結構。Terry 說,Syntax 以後,我們需要理解 Semantics(語義)。
  • Google第一女神李飛飛,從洗碗工,蛻變成為首席科學家
    其實對於李飛飛的印象,原本還比較模糊,僅僅知道她是人工智慧領域大神級人物,也就在今年「影響世界華人盛典」後,才真正認識到這位生活在美國,一直都在努力的女科學家。事實上,提及李飛飛這個名字,在人工智慧領域幾乎是無人不知,無人不曉。
  • 這可能是今年最硬核的AI交流會,李飛飛、圖靈獎得主Pearl等共同...
    雖然今年Bengio沒有出席,但是卻集結了李飛飛、圖靈獎得主Judea Pearl、強化學習泰鬥Rich Sutton、諾獎得主Daniel Kahneman等16位AI行業知名學者。李飛飛說,在過去的五十年裡,「北極星」之一是科學地認識到物體識別是人類認知能力的一個關鍵功能。目標識別帶來了AI基準突破,例如ImageNet競賽。而新的「北極星」是與環境的互動。
  • 李飛飛團隊八年心血換篇《自然》重磅:用AI照亮醫療的黑暗空間
    而我們都知道,機器學習,特別是基於機器學習的計算機視覺,正是李飛飛團隊的老本行。將環境智能技術,也即各種傳感器集成到一起的系統,運用到醫院臨床和病患住家等多種醫療場景下,能夠帶來哪些好處?李飛飛團隊的這篇文章,除了自主研究,也大量引用和匯總了其他公開的論文,將它們集合到一個體系化的研究裡,試圖解答剛才提出的問題。
  • 李飛飛團隊歷時8年發表《自然》文章 將對醫療領域有深遠影響
    而我們都知道,機器學習,特別是基於機器學習的計算機視覺,正是李飛飛團隊的老本行。將環境智能技術,也即各種傳感器集成到一起的系統,運用到醫院臨床和病患住家等多種醫療場景下,能夠帶來哪些好處?李飛飛團隊的這篇文章,除了自主研究,也大量引用和匯總了其他公開的論文,將它們集合到一個體系化的研究裡,試圖解答剛才提出的問題。
  • 李飛飛領銜!16位跨學科大牛談AI的下個十年乾貨
    在過去五十年中,AI領域有一顆很重要的「北極星」就是物體識別,這也是人類認知能力中很重要的部分。物體識別的進步也帶來了如ImageNet等AI基準測試水平的巨大突破。李飛飛援引了1963年一項基於動物的「與環境交互產生行為刺激」的研究,提出培養下一代AI與環境交互是未來很重要的研究方向。
  • 浙大畢業,李飛飛高徒朱玉可加盟UTAustin,曾獲ICRA2019最佳論文
    機器之心報導機器之心編輯部李飛飛的又一位得意門生走向了教學崗位:昨天,剛剛畢業的斯坦福博士朱玉可(Yuke Zhu)宣布即將在 2020 年秋季加入德克薩斯大學奧斯汀分校(The University of Texas at Austin)任助理教授。
  • 李飛飛、鄧中翰入選美國工程院院士,多位華人上榜
    李飛飛教授因提出 ImageNet 以及在機器學習、視覺理解等領域的貢獻而被我們所知。李飛飛在 2018 年當選 ACM Fellow,其 ImageNet 論文在 CVPR 2019 獲經典論文獎。2016 年 11 月,李飛飛加入谷歌雲團隊,成為當時谷歌雲人工智慧團隊領導者。
  • 微軟亞洲研究院梅濤:計算機視覺發展仍有巨大空間,視頻理解難於...
    視覺理解的五層境界圖像的最小單位是像素。對於計算機視覺來說,最難的是判斷每個像素屬於哪個類別,也即語義分割,這需要大量人工進行標註,沒有哪家企業願意花錢僱人做這件事。如果覺得語義分割過於精細,可以不去關心每個像素處於哪個位置,只需要識別圖像中的物體究竟是人還是馬,人和馬的位置在哪裡,也即物體檢測。
  • 關於李飛飛、李佳重磅加盟 Google,這裡有三個有意思的地方
    格林說到:最令人欣喜的一點是李飛飛和李佳均為女性。在人工智慧領域,各大高校和技術公司的重要研究崗位上一直缺乏女性。她們兩人代表著人工智慧熱門領域的、世界領先的研究科學家、實踐者和領導者。像谷歌、Facebook 和 IBM 等公司都把人工智慧當做戰略研究方向,尤其是讓計算機更迅速地處理海量數據任務的深度學習技術。
  • AI圈八大女性領袖:李飛飛、NVIDIA工程副總等在列
    科勒認為醫藥在AI領域才剛剛起步:「選擇一項真正解決問題的AI應用,然後努力研究以真正理解這一領域。僅僅因為我花了20多年時間演習生物學,我才能夠建立insitro公司。現在,我建議年輕人關注的領域還有電力、環境等。」五、李飛飛:史丹福大學計算機科學系的教授世界上很少有人像李飛飛這樣在21世紀為人工智慧領域做出如此卓絕的貢獻。
  • 李飛飛、鄧中翰等當選美國工程院院士,多位畢業於中科大
    其中新院士中有 6 位華人,分別是李飛飛、劉鎮欽、範欽強、俞久平、曾亮、張捷;另有 1 位中國籍學者——鄧中翰當選國際院士。 以下為幾位華人當選美國國家工程院院士和國際院士理由:6名華人新院士李飛飛:為建立大型機器學習和視覺理解知識庫做出了貢獻。
  • 李飛飛莊小威入選美國國家醫學科學院,王辰院士當選國際成員
    李飛飛莊小威入選美國國家醫學科學院,王辰院士當選國際成員 澎湃新聞記者 王心馨 2020-10-20 18:11 來源:澎湃新聞
  • 人工智慧與計算機視覺
    根據這種定義,計算機視覺的目標是對環境的表達和理解,核心問題是研究如何對輸入的圖像信息進行組織,對物體和場景進行識別,進而對圖像內容給予解釋。  計算機視覺(Computer Vision, CV)是一門研究如何讓計算機達到人類那樣「看」的學科。更準確點說,它是利用攝像機和電腦代替人眼使得計算機擁有類似於人類的那種對目標進行分割、分類、識別、跟蹤、判別決策的功能。
  • 作者為ImageNet一作、李飛飛高徒鄧嘉
    蕭簫 發自 凹非寺量子位 報導 | 公眾號 QbitAI作為計算機視覺三大頂會之一,備受矚目的ECCV 2020(歐洲計算機視覺國際會議)最近公布了所有獎項。其中,最佳論文獎被ImageNet一作、李飛飛高徒鄧嘉及其學生摘得。