微軟亞洲研究院梅濤:計算機視覺發展仍有巨大空間,視頻理解難於...

2020-12-04 36氪

計算機視覺是人工智慧的一個應用領域,其主要功能是識別圖像中的內容。部分創業公司以計算機視覺為發力點,尋找適合自己的場景,希望在商業落地上有所突破。對於投資人與創業者來說,計算機視覺作為一個技術壁壘較高的領域,其發展程度與應用領域是最能吸引大家關注的。

為此健一會專門請到了微軟亞洲研究院資深研究員梅濤,請他向大家介紹目前計算機視覺的發展水平與實際應用情況。

本篇實錄系根據健一會(ID:jianyihui2011)沙龍第197位主講人梅濤在健一會與艾瑞投資研究院聯合主辦的「人工智慧的商業化變現」專題沙龍上的精彩分享整理而成。原標題為《深度視覺理解》,現標題為健一君所加。

根據嘉賓意見,分享內容已刪去部分內部信息。

我在微軟待了十二年,一直在做計算機視覺和多媒體分析。我們在人工智慧領域研究了很多年,所做的課題一直沒有變化。這個領域裡有很多釘子,我們只不過是不時地換把錘子敲一敲釘子,把釘子稍微往木板裡敲一點。要想把一顆顆釘子完全敲進木板裡,過程還是很漫長的。

大家現在都在談人工智慧。人工智慧領域很廣,包括機器學習,機器學習裡又包括深度學習,不能把人工智慧和深度學習這兩個概念混淆在一起。計算機視覺是人工智慧的一個應用領域,它就相當於把相機連上電腦,電腦可以將相機所看到的東西一一描述出來。

我也看過一些相關領域的商業BP,一些創始人說我們這個算法有多麼多麼了不起,這個很可笑,按照我們學界的觀點,絕大部分算法的領先周期只有六個月。真正的高手,最多花六個月就可以復現乃至超越別人的算法。

很多人說計算機視覺到明年就可以達到大學生的水平了,我覺得這種說法非常不靠譜。保守一點說,現在計算機視覺在某些視覺認知的任務上可以接近三到五歲兒童的能力,這種說法會比較客觀一些。

機器視覺是否能夠超過人眼視覺?肯定不能這麼說,因為比較的維度不一樣。假如現在有一張圖片,同時請一臺機器和一個人對其進行標註,那一定是人類標註的比機器好,而且更為精細。如果拿出1000張圖片請機器和人來標註,要求1秒鐘內完成,那一定是機器做的比人好。

視覺理解的五層境界

圖像的最小單位是像素。對於計算機視覺來說,最難的是判斷每個像素屬於哪個類別,也即語義分割,這需要大量人工進行標註,沒有哪家企業願意花錢僱人做這件事。

如果覺得語義分割過於精細,可以不去關心每個像素處於哪個位置,只需要識別圖像中的物體究竟是人還是馬,人和馬的位置在哪裡,也即物體檢測。

還有一種情況是機器不去關心圖像中馬和人所處的位置,只是去識別圖像中有什麼物體就行了,這叫圖像分類。

第四種情況是,你給機器一張圖,機器不但要解讀出圖中有哪些物體,或者有哪些詞,然後還要把這些詞連成一句話。這個有點像看圖說話:我給你一張圖,請你說出一段文字,這段文字是自然語言,且不能有任何語法錯誤。

另一種看圖說話的方式是看圖回答問題。我給機器一張圖,它要回答我的問題:圖中有多少個人?圖中出現的馬分別是什麼顏色的?

第五種情況是講故事,這個也是我們微軟之前在做的一個技術。大家現在喜歡出去旅遊,旅途中拍了很多照片,回來分享到博客上。現在機器可以自動幫你寫一些博客文章,通過圖片把圖中的內容以文字的形式表述出來。

視覺理解在「微軟小冰」中的應用

微軟有一個名叫小冰的聊天機器人,會自動給用戶視頻添加評論。小冰的視頻自動評論功能於兩年前上線,上線第一個月,它的粉絲就漲了60%,而且有三分之一的用戶不知道小冰是機器人,因為我們在訓練小冰時,讓它永遠非常樂觀地去評價用戶的內容,假如誇一個用戶長得好看,它不會只是泛泛地誇用戶美,而是會具體指出你是眉毛好看還是身材比較好,所以大家都很喜歡它。

小冰現在還會寫詩,雖然還有很多地方需要不斷改進,但這個功能推出後,用戶很喜歡。我們沒讓小冰寫古體詩,而是選擇了現代詩,按照今天的流行語,叫「freestyle」。機器會通過識別圖片內容,來判斷圖片中的意象是明亮的還是陰暗的,是喜悅的還是悲傷的,在確定圖片的基本情緒後,自動生成詩句。

用計算機視覺設計封面

我們兩年前做了一件事情:用人工智慧來設計封面。人類在設計封面時,通常會考慮文字應該放在封面的什麼位置,該用什麼樣的字體和顏色,沒受過專業訓練的小白用戶一般不知道該怎麼操作。

我們設計的機器視覺模型結合了心理學、廣告學和顏色方面的理論。比如說一張以人物為主體的封面,主標題通常會放在人物視線所及的方向,因為視線代表著讀者關注的焦點。食品類雜誌封面很少用藍色或鮮紅色,這兩種顏色都比較容易影響食慾。很多快餐店喜歡用橘紅色作為主色調,橘紅色容易讓人焦慮,快餐店為了保證翻臺率,當然不希望客人長時間待在店裡。

機器視覺模型的工作原理是:當它拿到封面圖片後,會自動分析圖片主體在哪裡,然後做色彩分析,判斷其有幾種主色調,每種主色調與什麼顏色對應會比較和諧,機器甚至還可以給文字加特效,比如加一幅半透明的背景圖等等。

機器識別在內容管理上的應用

平臺上用戶上傳的內容多了之後,需要對內容進行管理,內容管理最典型的做法是打標籤,在真實世界裡,標籤無窮無盡,人類所認識的花就有25萬種,鳥至少有1萬種,所以要想精細地打好標籤非常難。

我們對於不同物體所打標籤的精細度也不一樣,比如我們對於鳥和狗這兩種類別就做的很細,因為美國人和中國人都喜歡這些小動物。在識別車輛的時候,我們做了一個實驗,從一個二手車網站上把所有車型照片全部下載下來讓機器識別,識別率高達99%。我們對於飛機、食物和醫療相關的標籤打得不夠完整,尤其是醫療,我們沒有特別優質的大數據來做支持。

在視頻領域,我們的機器可以識別出1000種以上物體和500種以上動作,用戶在搜索視頻時就可以通過這些標籤找到相關視頻。識別人體動作有什麼用處呢?現在有很多健身APP,假如嵌入機器識別功能,這些APP就可以判斷出用戶的動作到底做得是否標準、規範並為其打分。

利用計算機視覺做二次編輯

有了視頻和圖像,用戶總要進行消費,也就是編輯或改動。我們為圖片做各種濾鏡,圖像的濾鏡不新鮮,國內很多公司也在做這個事情。我們研究院計算機視覺組最近做的一個研究還蠻酷的,叫style transfer(風格轉換),就是機器可以分析任何一張圖片的風格,並將這種風格應用到另外一張圖片中去。

我們還可以對視頻中的內容進行分割與重新組合,比如將視頻A中的人物抽取出來,放到視頻B的場景裡去。當然。視頻的分割比較費時間,因為機器需要對動態畫面進行計算與處理。

最後,我想以「人工智慧之父」馬文·明斯基說過的一句話作為今天沙龍分享的結尾:沒有一臺電腦可以具有自我意識。不過,我們人類在大多數時候其實也一樣。

【問答環節】

您看好教育行業的哪些場景?

我在美國曾經看過一個教育產業的初創公司。他們有一項業務,在教室黑板上面布置很多臺相機,每臺相機會盯著一個學生的眼睛,通過相機記錄的情況可以分析學生的注意力、聽講情況和上課效率,從而向家長反饋孩子在校內的情況,我覺得這個項目很有趣。 此外還有我剛才講的「看圖說話」,這項技術很有趣,但目前還沒有做到剛需。我知道有些公司目前在研究試卷的自動批改技術。如果我們完全依賴這項技術來判卷,那就比較危險,因為即便準確率達到了99.9%甚至更精確,但只要有0.1%的錯誤率,就等於改變了一個考生的命運。同一個技術,不同的使用方式會帶來不一樣的商業場景和價值。我覺得不論是計算機視覺來還是人工智慧,和機器學習相關的所有方法,都沒有一個0或1的標準,所有的標準都是以一個百分數來呈現的,這個標準是多少需要根據具體場景來設定。

目前機器對商品的識別是不是一件容易的事情?

如果你在ShopWind(一款網店程序)搜索一個商品,系統會自動的把這個商品的位置圈出來,點擊之後還會把類似的產品都顯示出來,機器識別在商品這個領域更容易落地,因為商品的數據集會更固定一些。

您屬於微軟哪一個組?

大家可能對微軟研究院不太熟悉,這裡做一個簡單的介紹。微軟有大約11萬名員工,其中有大約1000名研究員,分布在微軟的幾個研究機構,其中微軟亞洲研究院有大約有200名研究員,300名實習生。內部會劃分幾個方向,比如多媒體、自然語言處理、機器學習等等,我們這個組叫多媒體搜索和挖掘組(Multimedia Search and Mining)。

我們考察過一些做渠道檢測的公司,這些公司幫ToC的廠家檢測貨品的堆放,他們有足夠的照片數據,然後找了一個Open Source(開放原始碼)來做這件事,讓我們很吃驚,覺得幾個人就能做圖像識別了,所以這項技術已經如此容易了嗎?

確實可以做出一些成果,至少可以做出一個小樣給你,讓不懂行的人覺得很驚豔。我們的研究可以告訴大家市場上有某項技術可以使用,其它公司可以利用這項技術做出很多東西, 但我們微軟研究院會在很多方面比這些公司更超前,因為這些公司無法孕育也創造不出這種技術或更尖端的算法。

在商品視覺方面,你們對視頻有什麼理想?做到何種程度?

我們希望能夠識別到像素級,包括所有的物體、背景。距離實現還很遠,無法預測。但是在一個特定的場景中,一些有限集合的物體,如果只做一些關於人的,可能會有不錯的效果,但也不敢說能做到百分之百。現在可以實現的是在視頻裡面檢測出一些物體和事件,檢測出來一些物體,我們希望能夠識別出越來越多的物體。

我覺得深度學習在某種程度上還要做視頻理解,這個東西似乎很強大,什麼都能做。

對。圖片理解使在一個封閉的集合裡,哪怕封閉的數據集很大,深度學習也能接受這些數據,它在很短的時間內就可以超過人的準確率。但是在視頻領域並非如此,難度很大,因為視頻是很長的一些序列,現在目前最好的算法在視頻理解上的準確率離在圖片上的準確率還比較遠。

我看過一家公司,主要研究人臉識別,如果在一些場合監控看不到人臉,只能看到一個人的形體,他們的技術可以實現通過人的形態去追蹤,聲稱識別率能夠達到95%。目前這個技術實際發展到了什麼程度,客觀的識別率怎麼樣?

據我了解,這項技術離商用還比較遠。實際準確率有待提升,需要面對光照、角度、有遮擋等很多類似的問題。我舉個例子,比如人臉識別,一旦人臉基數到10萬以上,99%的算法的準確率都會降到70%左右,如果人臉基數到了100萬以上,這個識別率還會下降,識別率和基數有很大關係。剛剛說的這家公司號稱95%的識別率,還是要看它有多少形體基數,可能面對10個人可以達到95%,但是面對更多人就不好說了。

「微軟小冰」有沒有可能成為一個學科老師?

類似的產品已經有了,叫「小英」,教英語學科的,可以在微信裡面搜到。

我就來自「微軟小冰」的團隊。在教育場景中,機器人最大的問題就是語義理解,只要語義理解能夠突破,後面的很多問題都可以迎刃而解。梅老師有沒有預估過,語義理解大概會在多久以後突破?

我不是這方面專家,對於這個答案不太清楚。這項技術和人相關,一個人在不同年齡的理解能力的都不一樣,很難界定,因為他必須要不斷的學習。在真實的場景下,語義理解和話題轉換都很難,比如說你聊到一半不想這個話題了,切換話題的時候,現在的「小冰」可能就懵了,這也是研究中的一個難點。另外「小冰」對你的理解可能現在還沒有那麼深入,比如它對一個成年男性、對一個小孩、對一個老人聊的話,內容目前都是一樣的,所以聊天機器人還有很多方面需要進步。(完)

■ 梅濤(微軟亞洲研究院資深研究員)

國際模式識別學會會士,美國計算機協會傑出科學家,中國科技大學和中山大學兼職教授博導。主要研究興趣為多媒體分析、計算機視覺和機器學習,發表論文 100餘篇(h-index 43),先後10餘次榮獲最佳論文獎,擁有40餘項美國和國際專利(18項授權),其研究成果10餘次被成功轉化到微軟的產品和服務中。他的研究團隊目前致力於視頻和圖像的深度理解、分析和應用。他同時擔任 IEEE 和 ACM 多媒體彙刊(IEEE TMM 和 ACM TOMM)以及模式識別(Pattern Recognition)等學術期刊的編委,並且是多個國際多媒體會議(如 ACM Multimedia, IEEE ICME, IEEE MMSP 等)的大會主席和程序委員會主席。

相關焦點

  • 微軟亞洲研究院常務副院長郭百寧:計算機視覺的黃金時代到了
    「1998 年微軟亞洲研究院建院的時候我們第一個成立的組就是視覺計算組,那時候計算機視覺應用非常少,很冷門」,微軟亞洲研究院常務副院長郭百寧博士對極客公園說道,他同時也是計算機視覺領域的頂尖科學家,「當時圖形學火了很多年,現在輪到計算機視覺火了。」
  • MSRA視頻理解新突破,實現199層三維卷積神經網絡
    作者介紹邱釗凡,微軟亞洲研究院和中國科學技術大學聯合培養博士生,導師為梅濤研究員和田新梅副教授。主要研究方向包括視頻特徵學習、視頻動作識別和多媒體內容分析。他曾於 2015 年在中國科學技術大學獲得學士學位,並於 2017 年獲得微軟學者獎學金。姚霆博士,微軟亞洲研究院多媒體搜索與挖掘組研究員,主要研究興趣為視頻理解、大規模多媒體搜索和深度學習。
  • 微軟亞洲研究院獲計算機學會首個傑出貢獻獎
    【搜狐IT消息】 中國計算機學會近日向微軟亞洲研究院頒發了首度設立的「傑出貢獻獎」,以表彰和感謝其長期以來對中國計算機人才培養及中國計算機產業發展所做出的不懈努力和卓越貢獻。同時獲此殊榮的還有方正集團。
  • 二十一世紀的計算 | 微軟亞洲研究院洪小文54頁PPT講述人工智慧和...
    近日,「二十一世紀的計算」學術研討會在韓國首爾舉行。它是微軟亞洲研究院自成立之初便開始舉辦的年度學術盛會。作為中國及亞太地區規模最大、最具影響力的計算機科學教育與研究盛會之一,迄今為止該大會已在中國、日本、韓國、新加坡等多個國家和地區成功舉辦了17屆,參會人數累計超過40000人。
  • 國內外優秀的計算機視覺團隊匯總|最新版
    :VCLA研究小組加州大學河濱分校:視頻計算小組加州大學聖塔芭芭拉分校:視覺研究實驗室加州大學聖地牙哥分校:視覺與機器人研究實驗室,機器視覺實驗室, 加州大學爾灣分校:機器視覺實驗室加州大學聖克魯茲分校:認知科學實驗室加州理工學院:計算視覺實驗室南加州大學:機器視覺小組
  • 京東集團副總裁 梅濤_人物專訪_中國新聞出版廣電網
    梅濤:我關注的有兩點,第一點是行業的發展趨勢。因為我們對這個行業的了解是有限的,我希望在大會上看到新形勢下行業發展的態勢。第二點是新技術和產品的進展。   記者:京東的智聯雲事業部計算機視覺產品線目前有哪些產品?將來還計劃推出哪些產品?
  • 學界| 微軟亞洲研究院CVPR 2017 Oral論文:逐層集中Attention的...
    原標題:學界 | 微軟亞洲研究院CVPR 2017 Oral論文:逐層集中Attention的卷積模型 選自CVPR 2017 參與:Smith、路雪、蔣思源
  • 微軟亞洲研究院訪問西安交大
    5月13日,微軟亞洲研究院常務副院長趙峰、副院長宋羅蘭一行訪問西安交大。鄭南寧校長在科學館107會見來賓。鄭南寧校長介紹了學校國際合作交流、網絡公開課、書院等相關情況。雙方就信息技術發展、人文教育、本科生培養、國際交流等問題進行討論和交流,並暢想了未來合作發展模式及內容。
  • 微軟亞洲研究院在西安交大設立「微軟小學者」獎學金
    日前,微軟亞洲研究院與西安交大籤署合作協議,面向學校基礎學科拔尖人才培養試驗班、錢學森實驗班和少年班學生設立「微軟小學者」獎學金項目,獲獎者除獲5000元獎學金外,還將參加當年的微軟暑期夏令營。首批「微軟小學者」獎學金評選近日揭曉,曹彬、竇竟銘、馬賢忠3位同學獲獎,同時,韓思陽等5名同學獲得參加2013年微軟暑期夏令營的機會。
  • 計算機視覺領域的王者與榮耀丨CCF-GAIR 2018
    在這背後,安防視頻監控與醫療影像,也成為眾多AI從業者尤為青睞的兩大行業。當計算機視覺研究與落地大潮湧動之際,第三屆CCF-GAIR全球人工智慧與機器人峰會「計算機視覺專場」,眾多科技巨頭首席技術官、獨角獸首席科學家、國際學術頂會主席、世界名校AI實驗室主任將會公開分享最前沿的計算機視覺技術研究與商用成果。
  • 前微軟AI掌舵人沈向洋加入清華,正面向計算機視覺招收博士生
    與此同時,清華大學高等研究院官網也刊登了一項沈向洋作為導師的博士生招生計劃,顯示將面向計算機視覺、計算機圖形學。沈向洋將以兼職教授的身份加入清華高等研究院。作為計算機視覺和圖形學研究的世界級專家,沈向洋從卡耐基 · 梅隆大學畢業,師從圖靈獎獲得者、著名計算機科學家 Raj Reddy。
  • 他是計算機視覺和圖形領域,全球最頂級專家,離開微軟回祖國效力
    前執行副總裁、第三任微軟亞洲研究院院長兼首席科學家。沈向洋是微軟效力最長、職位最高的華人高管。沈向洋是計算機視覺和計算機圖形領域最有名的專家!1996年,沈向洋從卡內基梅隆大學計算機博士畢業,加入了微軟,任職微軟研究院;1999年,到北京參與創立微軟中國研究院;2004年,升任微軟亞洲研究院院長;2013年,任微軟全球執行副總裁;
  • 沈向洋揮別微軟,但微軟人的中國故事沒有劇終
    沈向洋於2004年成為微軟亞洲研究院院長,在他的領導下,微軟研究院延續了行業聲望和影響力,微軟沒有一個產品或技術領域不曾受到研究院的助力。在人才培養方面,微軟亞洲研究院為中國科技界輸送了大量人才,頂起了科技行業的半邊天。其中,知名技術大咖就包括了阿里王堅、百度陸奇、張亞勤、騰訊張正友、今日頭條馬維英、以及被視為計算機視覺領域鼻祖的張宏江等等。
  • 微軟亞洲研究院王井東:下一代視覺識別的通用網絡結構是什麼樣的...
    CCF-GAIR 2020 峰會由中國計算機學會(CCF)主辦,香港中文大學(深圳)、雷鋒網聯合承辦,鵬城實驗室、深圳市人工智慧與機器人研究院協辦。  作為中國最具影響力和前瞻性的前沿科技活動之一,CCF-GAIR 大會已經度過了四次精彩而又輝煌的歷程。
  • 探討計算機視覺前沿技術,加速智慧城市落地應用 | CNCC 2019
    19日下午,為探索計算機視覺與智慧城市發展,申省梅等著名學者將共同從學術和產業角度探討計算機視覺的場景解譯、人臉識別、人體姿態、視覺內容理解等前沿技術,以及在智能安防、自動駕駛等智慧城市建設方面的研究成果、發展前景與技術應用,值得期待!作為AI領域最熱門的研究與應用方向,目前計算機視覺技術在學術研究和產業落地方面都走在人工智慧發展的最前沿。
  • 微軟亞洲研究院/工程院 交大訪問日程
    出訪人員: 沈向洋 博士 微軟亞洲研究院院長 首席科學家 張益肇 博士 微軟亞洲工程院 副院長 李航   博士 微軟亞洲研究院自然語言組 研究員 校友 鄭海濤 博士 微軟亞洲研究院無線網絡組 研究員 校友 黨映農 博士 微軟亞洲研究院多通道用戶界面組 副研究員 校友 鄒靜   碩士 微軟亞洲研究院高校關係部 高校合作專員
  • 計算機視覺專題報告:「四小龍」同質化競爭,「海大宇」增長放緩
    計算機視覺和安防的結合,還有非常廣泛的增長空間; 如果說安防是計算機視覺最大的落地場景,那麼新零售則是最有潛力的場景之一。計算機視覺公司在安防等重要的市場面臨著幾乎紅海化的競爭,零售場景尚未形成巨頭。
  • 大會直擊|微軟亞洲研究院劉鐵巖:深度學習成功的秘密
    根據微軟亞洲研究院劉鐵巖教授的現場精華整理,全部內容已經經由劉教授確認。在本報告中,我將會介紹微軟研究院的最新成果,展示如何通過「對偶通信博弈技術」有效利用無標籤訓練數據、如何利用「殘差學習技術」解決深層神經網絡的優化問題、如何藉助「二維映射技術」縮小模型規模、以及如何使用「高階泰勒補償技術」解決通信延時問題。這些前沿技術將會陸續通過微軟的開源項目CNTK和DMTK分享給業界,以期和大家一起推動人工智慧技術的進一步發展。
  • 新智元專訪CVPR2019程序主席微軟華剛 :arXiv讓雙盲評審形同虛設...
    他在訪談中分享了地計算機視覺研究情況的觀察,認為預期3個方向近兩年會有發展:一是基於圖像、視頻建模的無監督學習;二是基於任務的視覺建模機制;三是基於知識和小樣本學習進行視覺建模。   「微軟研究院的實力核心在於人才,以及能夠自己培養人才、讓年輕人快速成長的能力。」微軟研究院首席研究員華剛博士在接受新智元專訪時說。