微軟亞洲研究院常務副院長郭百寧:計算機視覺的黃金時代到了

2020-12-07 極客公園

計算機視覺的黃金時代

「計算機視覺是通過採集、處理、分析和理解真實世界中的圖像去得到數字或符號信息的一個領域。」打開維基百科,輸入「計算機視覺」,按下回車鍵,你將看到以上的一段文字。是的,雖然對於我們大部分普通人來說,計算機視覺還是一個略顯遙遠的詞彙,但事實上,它在今天的這個時代已經成為了遍布我們生活的一項科學技術。自從上世紀五十年代被提出之後,計算機視覺經歷了半個多世紀的發展,終於在最近這幾年實現了技術上的飛躍,逐漸走入了我們的實際生活中,成為了目前最炙手可熱的研究領域之一。

然而將時間往回撥,在二十年前,雖然人們已經意識到了計算機視覺的重要性,但那時,它還遠未達到一個成熟的發展階段。「1998 年微軟亞洲研究院建院的時候我們第一個成立的組就是視覺計算組,那時候計算機視覺應用非常少,很冷門」,微軟亞洲研究院常務副院長郭百寧博士對極客公園說道,他同時也是計算機視覺領域的頂尖科學家,「當時圖形學火了很多年,現在輪到計算機視覺火了。」

的確,隨著進入 21 世紀以來更多的對於圖像識別和大規模圖像與視頻資料庫的研究,計算機視覺實現了一個突飛猛進式的發展,現在,僅在中國的科技創新領域,你就能見到許多以計算機視覺為核心技術的創新企業。

在郭百寧博士看來,2011 年是一個計算機視覺領域發展中的一個比較大的轉折點,那一年人們真正覺得計算機視覺可以變成一個大的產業。以微軟 Kinect 為代表,大家發現計算機可以理解動作,並實時地做出反應。緊接著在 2012 年,另外一個很重要的技術開始興起——基於深度學習的圖像識別。以前圖像識別的準確率不是特別高,但有了深度學習之後,識別率逐年上漲,基本是直線上升。由於識別的精確度提高了,以前人們想像的計算機視覺可能實現的應用真的就能用了。

微軟成為主要力量

在這兩年全世界計算機視覺領域的發展中,世界上的幾個科技巨頭可以說是引領這股潮流的一支主要力量,其中微軟就是典型代表。在去年舉行的 ImageNet 2015 的比賽中,微軟亞洲研究院視覺計算組的研究員們就憑藉深層神經網絡技術的最新突破,以絕對優勢獲得圖像分類、圖像定位以及圖像檢測全部三個主要項目的冠軍。其中他們的獨門秘訣就叫「深層殘差網絡(deep residual networks)」技術。

何謂「殘差網絡」技術?這是郭百寧博士給出的解釋:數據放進去後,計算機要學習一個函數,再在函數裡面加一個值的變化。現在我們不要直接學習函數,而是有一個粗略的值,這個粗略的值可能不是最精確的,但是學習的是它和真的函數之間的殘差。殘差學習最重要的突破在於重構了學習的過程,並重新定向了深層神經網絡中的信息流。

如果你看不懂上面所說的專業術語也沒有關係,其實這個技術的突破背後體現的是微軟在這個領域積澱已久的爆發,看了下面的幾個例子,大家也許能夠更清晰地了解計算機視覺所能帶來的改變。

圖像去霧

上面這組圖片是微軟開發的一個圖片處理的小技術,它看起來似乎不太起眼,但卻充滿了技術含量。其中它用到了微軟亞洲研究院研究的基於暗原色先驗的圖像去霧技術實現了這一點。而這篇論文最終也獲得了 CVPR(國際計算機視覺與模式識別會議)最佳論文獎,而這也是首次由中國人獲得最佳論文獎。這篇論文研究的問題就是圖像的去霧技術,它可以還原圖像的顏色和能見度,同時也能利用霧的濃度來估計物體的距離,這些在計算機視覺上都有重要應用(例如三維重建,物體識別)。

Windows Hello

Windows Hello 可能是很多 Surface 設備的用戶已經使用過的一項技術,它也是微軟在計算機視覺方面的代表作。事實上,在幾年前,微軟就在 Xbox 上推行了這項技術,但很多用戶都抱怨不穩定。但最終微軟解決了這個問題:

「後來我們發現一個方法——假如用紅外線的話,永遠是準的。為什麼呢?之所以不準不是因為算法的問題,而是視覺算法對光的敏感度很高,會受到光強弱的影響。紅外線的光就很穩定,不受這些光的影響。於是我們通過大量的實驗推出了 Windows Hello,它與 password 有一致的安全率。因為它的錯誤率低於 10 萬分之一,連雙胞胎都可以分辨出來。」

                          (能分清雙胞胎的 Windows Hello)

OneDrive 「圖片識別」

此外,在很多人都喜歡的存儲應用 OneDrive 中,計算機視覺也體現了很重要的價值,其中具體的表現就是「圖片識別」功能。該功能會自動為用戶上傳的照片創建標籤,比如人、狗、沙灘、落日等等,使用戶藉助標籤能夠更輕鬆地尋找到自己想要的圖片。輸入關鍵詞或標籤,就能搜索出心儀照片。

根據郭百寧博士的介紹,這個技術是利用微軟亞洲研究院實現的一種名為「空間金字塔聚合」(Spatial Pyramid Pooling,SPP)的新算法——通過內部特徵識別,而不是每個區域從頭檢測,對整個圖片只做一次計算,在不損失準確度的前提下,物體檢測速度有了上百倍的提升。

開放性的微軟認知服務

上面這些都是計算機視覺在具體應用中的一些表現。而如何才能將這些技術更廣泛地應用到我們的生活當中呢?微軟給出的方案就是微軟認知服務(Microsoft Cognitive Services)。

微軟認知服務集合了多種來自 Bing、「微軟牛津計劃」等項目的智能 API。應用了這些 API 的系統能看、能聽、能說話,並且能理解和解讀我們通過自然交流所傳達的需求。同時,服務中所包含的知識 API 可以通過強大的網際網路來助力廣大開發者。藉助微軟認知服務,開發者們就算沒有人工智慧的知識背景也能輕鬆開發出屬於自己的智能應用。目前這套認知服務包括視覺、語音、語言、知識和搜索五大類共二十一項 API。有了那些 API 之後,開發者就不需要自己再花很多時間去開發這個技術了,直接用幾行 Code 就可以調用並生成 App。下面這些應用都是基於視覺類 API 生成的。

              (微軟牛津計劃的代表作之一:情緒識別)

在談到未來的計劃時,作為微軟亞洲研究院的常務副院長,郭百寧博士向我們透露了未來微軟亞洲研究院在計算機視覺領域的兩大的發力方向:人臉和視頻。

「我們認為一張圖的重點就是人,人最重要的就是臉。現在人臉做得已經很好了,但還要繼續做好。」對於人臉方面的研究,郭百寧博士如此說道。

而對於視頻方面,他則認為現在遍布各處的視頻攝像頭就已經顯示了這個領域的重要性,在未來,機器將要負責越來越多攝像頭,其中在社會安全領域就有很多的商機存在,也有很多應用問題值得研究。

但話到最後,究竟計算機視覺能給人類帶來多大的改變,恐怕沒有比下面這個視頻更好的範例了。讓看得見的人看得更清楚、更明白,讓看不見的人能看見,這或許就是計算機視覺能給人類帶來的改變吧。

相關焦點

  • 前微軟AI掌舵人沈向洋加入清華,正面向計算機視覺招收博士生
    與此同時,清華大學高等研究院官網也刊登了一項沈向洋作為導師的博士生招生計劃,顯示將面向計算機視覺、計算機圖形學。沈向洋將以兼職教授的身份加入清華高等研究院。作為計算機視覺和圖形學研究的世界級專家,沈向洋從卡耐基 · 梅隆大學畢業,師從圖靈獎獲得者、著名計算機科學家 Raj Reddy。
  • 微軟亞洲研究院訪問西安交大
    5月13日,微軟亞洲研究院常務副院長趙峰、副院長宋羅蘭一行訪問西安交大。鄭南寧校長在科學館107會見來賓。鄭南寧校長介紹了學校國際合作交流、網絡公開課、書院等相關情況。雙方就信息技術發展、人文教育、本科生培養、國際交流等問題進行討論和交流,並暢想了未來合作發展模式及內容。
  • 微軟亞洲研究院梅濤:計算機視覺發展仍有巨大空間,視頻理解難於...
    計算機視覺是人工智慧的一個應用領域,其主要功能是識別圖像中的內容。部分創業公司以計算機視覺為發力點,尋找適合自己的場景,希望在商業落地上有所突破。對於投資人與創業者來說,計算機視覺作為一個技術壁壘較高的領域,其發展程度與應用領域是最能吸引大家關注的。為此健一會專門請到了微軟亞洲研究院資深研究員梅濤,請他向大家介紹目前計算機視覺的發展水平與實際應用情況。
  • 沈向洋揮別微軟,但微軟人的中國故事沒有劇終
    微軟亞洲研究院對百度阿里騰訊的AI研發、以及眾多AI獨角獸公司的創立影響尤為深遠。特別是在計算機視覺領域,CV四小龍所有創始人及高管團隊多多少少都與微軟亞洲研究院有關。阿里巴巴、字節跳動和華為中也有微軟的中堅力量。王堅博士於2008年9月加入阿里巴巴集團擔任首席架構師一職,加入阿里巴巴之前任微軟亞洲研究院常務副院長。
  • 微軟亞洲研究院獲計算機學會首個傑出貢獻獎
    【搜狐IT消息】 中國計算機學會近日向微軟亞洲研究院頒發了首度設立的「傑出貢獻獎」,以表彰和感謝其長期以來對中國計算機人才培養及中國計算機產業發展所做出的不懈努力和卓越貢獻。同時獲此殊榮的還有方正集團。
  • 微軟亞研副院長周明離職,將出任創新工場AI工程院首席科學家
    亞洲研究院副院長周明宣布從微軟離職,將加入李開復創建的創新工場,「以一種新方式尋求學術界和企業界合作之路」。,工作二十一年多,我學到很多,我非常感恩。」(後改名微軟亞洲研究院)剛成立的時候,中國只有一篇 ACL 文章,是清華大學黃昌寧老師的研究組寫的。
  • 微軟亞洲研究院/工程院 交大訪問日程
    出訪人員: 沈向洋 博士 微軟亞洲研究院院長 首席科學家 張益肇 博士 微軟亞洲工程院 副院長 李航   博士 微軟亞洲研究院自然語言組 研究員 校友 鄭海濤 博士 微軟亞洲研究院無線網絡組 研究員 校友 黨映農 博士 微軟亞洲研究院多通道用戶界面組 副研究員 校友 鄒靜   碩士 微軟亞洲研究院高校關係部 高校合作專員
  • 二十一世紀的計算 | 微軟亞洲研究院洪小文54頁PPT講述人工智慧和...
    近日,「二十一世紀的計算」學術研討會在韓國首爾舉行。它是微軟亞洲研究院自成立之初便開始舉辦的年度學術盛會。作為中國及亞太地區規模最大、最具影響力的計算機科學教育與研究盛會之一,迄今為止該大會已在中國、日本、韓國、新加坡等多個國家和地區成功舉辦了17屆,參會人數累計超過40000人。
  • 計算機視覺領域的王者與榮耀丨CCF-GAIR 2018
    演講嘉賓名單  科技巨頭高管張益肇:微軟亞洲研究院副院長王熙:飛利浦中國副總裁、首席技術官  國際學術頂會總主席世界知名實驗室主任田捷:中國科學院自動化所研究員,分子影像重點實驗室主任, IEEE Fellow邢磊:史丹福大學醫學物理系主任,美國科學院院士候選人  獨角獸企業創始人與首席科學家孫劍:曠視科技首席科學家,前
  • 他是計算機視覺和圖形領域,全球最頂級專家,離開微軟回祖國效力
    前執行副總裁、第三任微軟亞洲研究院院長兼首席科學家。沈向洋是微軟效力最長、職位最高的華人高管。沈向洋是計算機視覺和計算機圖形領域最有名的專家!1996年,沈向洋從卡內基梅隆大學計算機博士畢業,加入了微軟,任職微軟研究院;1999年,到北京參與創立微軟中國研究院;2004年,升任微軟亞洲研究院院長;2013年,任微軟全球執行副總裁;
  • ...工業技術研究院院長、哈工大科學與工業技術研究院常務副院長付強
    楊廷雙會見省工業技術研究院院長、哈工大科學與工業技術研究院常務副院長付強 2020-09-07 11:26 來源:澎湃新聞 政務
  • 微軟亞洲研究院在西安交大設立「微軟小學者」獎學金
    日前,微軟亞洲研究院與西安交大籤署合作協議,面向學校基礎學科拔尖人才培養試驗班、錢學森實驗班和少年班學生設立「微軟小學者」獎學金項目,獲獎者除獲5000元獎學金外,還將參加當年的微軟暑期夏令營。首批「微軟小學者」獎學金評選近日揭曉,曹彬、竇竟銘、馬賢忠3位同學獲獎,同時,韓思陽等5名同學獲得參加2013年微軟暑期夏令營的機會。
  • 微軟副總裁沈向洋離職,曾任職微軟23年,是美國院士和世界級專家
    他曾是微軟全球執行副總裁,也是美國國家工程院外籍院士、英國皇家工程院外籍院士,曾在微軟效力時間長達23年,在計算機視覺、計算機圖形、模式識別、統計學習和機器人學領域,發表了100餘篇論文,並擁有50多項美國專利。
  • 前微軟AI掌舵人沈向洋受聘清華大學雙聘教授
    海報中,沈向洋的頭銜和職位介紹為:清華大學高等研究院雙聘教授、美國國家工程院外籍院士、英國皇家工程院外籍院士、微軟公司前執行副總裁、第三任微軟亞洲研究院院長兼首席科學家。澎湃新聞記者查詢清華大學高等研究院官網發現,沈向洋為清華大學高等研究院計算機科學與技術雙聘教授,博士生導師。其博士生招生計劃,顯示將面向計算機視覺、計算機圖形學。
  • 計算機學院博士生與微軟亞洲研究院合作論文獲「2020年國際語音...
    南開新聞網訊(通訊員 楊徵路)日前,在國際語音交流協會主辦的2020年國際語音會議上,南開大學計算機學院博士生王程一與微軟亞洲研究院合作論文《基於偵察網絡的低延遲端到端實時語音識別系統》獲得最佳學生論文提名(第一作者單位為南開大學)。
  • 微軟亞洲研究院王井東:下一代視覺識別的通用網絡結構是什麼樣的...
    CCF-GAIR 2020 峰會由中國計算機學會(CCF)主辦,香港中文大學(深圳)、雷鋒網聯合承辦,鵬城實驗室、深圳市人工智慧與機器人研究院協辦。  作為中國最具影響力和前瞻性的前沿科技活動之一,CCF-GAIR 大會已經度過了四次精彩而又輝煌的歷程。
  • 微軟識花:精細物體識別是怎麼做到的
    400種花基本涵蓋了我國城市綠化和公園常見的花卉品種,想看哪種花都可以搜索到。另外,如果你玩膩了識花,微軟識花還有另一個有趣的功能等待你開掘:那就是對其他常見的日常物體進行識別。拿件衣服、擺個文具來測測這款應用的「智商」,聽起來也是挺有趣的事呢!對於常用物體的識別採用了微軟亞洲研究院最先進的圖像識別技術。在內部測試中,識別精度可以達到90%。
  • 一個時代落幕:沈向洋和那些出走的微軟華人高管們
    在卡耐基梅隆大學期間,他研究的正是計算機視覺技術,因為他認為人對外界的感知有95%是從視覺得來的。1991年,微軟創始人比爾·蓋茨決定創立微軟研究院,找來了原本在卡耐基梅隆計算機科學系、有著「瘋狂天才」稱號的教授Rick Rashid,也吸引了各方人才加入,包括剛從卡耐基梅隆計算機科學系取得博士學位的沈向洋。
  • 大會直擊|微軟亞洲研究院劉鐵巖:深度學習成功的秘密
    根據微軟亞洲研究院劉鐵巖教授的現場精華整理,全部內容已經經由劉教授確認。劉鐵巖博士,微軟亞洲研究院首席研究員,美國卡內基梅隆大學(CMU)客座教授。劉博士的研究興趣包括:人工智慧、機器學習、信息檢索、數據挖掘等。他的先鋒性工作促進了機器學習與信息檢索之間的融合,被國際學術界公認為「排序學習」領域的代表人物,他在該領域的學術論文已被引用近萬次。
  • 學界| 微軟亞洲研究院CVPR 2017 Oral論文:逐層集中Attention的...
    原標題:學界 | 微軟亞洲研究院CVPR 2017 Oral論文:逐層集中Attention的卷積模型 選自CVPR 2017 參與:Smith、路雪、蔣思源