半路出家OCR後成領域專家,白翔:計算機視覺科研沒有捷徑

2020-12-27 騰訊網

華中科技大學白翔教授是計算機視覺領域的優秀學者,也是場景文字領域的知名大牛。在訪談中,白翔教授不僅分享了他對於人工智慧行業、場景文字檢測與識別技術發展的前沿觀點,還為當下的計算機視覺科研者們分享了他非常寶貴的科研經歷與心得。

每一位科研者都走過一條屬於他自己的科研路。那麼白翔教授的科研路是什麼樣的?下文即答案。

白翔,教授,IAPR Fellow。研究領域為計算機視覺與模式識別,文檔分析與識別。已在國內外刊物和學術會議上發表論文180餘篇,谷歌學術顯示引用15000餘次,h指數63 ……

這是白翔教授目前的學術成就。可以說在國內計算機視覺研究領域,白翔教授所處的位置是比較高的。而這份成就的取得,可以從他的學生時代說起。

白翔教授於2003年、2005年和2009年在華中科技大學取得本科、碩士及博士學位,2007年獲「微軟學者」獎,讀博期間以第一作者在計算機視覺最具影響力的期刊PAMI上發表了3篇論文,並於2011年獲湖北省優秀博士論文。可以說,他在學生時代就是出類拔萃的。

但即便如此,白翔教授也有過被拒稿的經歷:

在碩士研究生求學期間,他寫了一篇論文投到《軟體學報》這個權威期刊上,該文章在投稿前在導師的幫助下至少修改了15遍,最後被拒稿。後來,經過不到兩年的努力,白翔教授就在PAMI上發表了2篇論文,同時為SCI核心源雜誌Pattern Recognition擔任審稿人。

當時的他將這一成功簡單地概括為兩點:堅持+興趣。

白翔教授說:「碩士階段的積累很重要,它為後面出成果打下了基礎。學習的收穫,不能僅僅用發了多少論文來衡量。其次,計算機視覺研究確實是我的興趣所在,我是在享受這個過程,名利並不是做研究的目的。」

作為年少成名的科研者,讓人意想不到的是,白翔教授也有過找工作被拒的經歷。碩士畢業後,他曾進入某國際知名企業的最後一輪面試,但沒有獲得Offer。

短暫的動搖之後,他堅守了自己的信念:「在找工作的時候,我發現我更喜歡研究我自己感興趣的東西。我選擇了繼續攻讀博士,因為我覺得前面的研究工作沒有完成,這時候放棄比較可惜。」

後來,事實也證明,留在學校繼續做研究,是他正確的選擇。

在這次訪談中,白翔教授非常耐心地為我們答疑解惑,在分享他在計算機視覺領域的科研經歷的同時,表達了他對於深度學習學業與產業的思考。相信下文的訪談實錄能為你的科研工作與生活帶來不少啟發。

1

關於科研:「堅持的力量」

您在計算機視覺領域造詣深厚,能否分享一段您印象最深的科研經歷?

白翔:印象比較深的是2011年到2013年間,我面臨著選擇新研究課題的問題。因為我在博士階段做的是形狀表述與圖匹配相關的工作,相對來說比較基礎。當時的我特別想嘗試一下應用基礎研究。研究方向的選擇是比較重要的,我花了相當一段時間去思考後,選擇場景文字檢測與識別這個研究課題。我認為該課題具備較高的應用潛力。

進入該領域前期是一個非常困難的階段。當時的場景文字檢測和識別是非常繁瑣的問題,它涉及到很多算法,要實現一套有效的解決方案,需要花大量時間去摸索。具體來說,文本不同於一般目標,是由多個非連通的字符組成,這就要求在算法實現中增加較多經驗式的操作。在傳統的區域特徵提取方法之上,需要完成字符之間的關聯,同時需要克服虛景或非文字部分帶來的幹擾。此外,當時可供參考的開原始碼非常稀少,導致在前期摸索中走了不少彎路(這也是之後我們開源了多篇論文源碼的重要原因)。

儘管困難重重,我跟學生更多強調的是不要著急寫論文,要靜下心來解決實際問題。我們花了大量時間去反覆論證,這一過程也積累了對該研究領域的深刻認識。後來大家看到的這些論文其實跟這段時間的積累是分不開的。

當時,我們觀察到許多照片中的文字並不是呈水平方向排列,很多是傾斜甚至是彎曲的。因此,我們希望做一套方案,能克服當時場景文本檢測方法的局限性,通用於各種形狀的文本。回頭來看,現在多方向文本檢測技術已經很普遍,並且這種方式在遙感目標檢測領域也被普遍採納,但這些都離不開當時做研究的這股韌性和堅持。

您在計算機視覺領域少年成名,在讀博期間就以第一作者發表了3篇計算機視覺頂級期刊TPAMI論文,那麼您認為對於一個計算機視覺博士而言,什麼是完整、全面的博士科研訓練?

白翔:我覺得首先要有興趣,興趣才是最好的老師。按照王國維人生三種境界,初入領域的研究生需經過從第一階段「獨上高樓,忘盡天涯路」通往第二階段「衣帶漸寬終不悔,為伊消得人憔悴」的過程。如果僅僅是把科研做為完成學業的任務去完成,而不是發自內心的喜歡這項工作,是很難在所從事的研究課題上獲得突破的。

當然,興趣也是可以培養的,但必須建立在對計算機視覺研究有一定的了解之上。另外,需要具備一定的程序設計基礎,畢竟這是一個偏應用的學科,對實際動手能力有一定的要求。良好的數學基礎也是必要的,例如概率論、線行代數有關基礎知識。但最重要的不是具備多少基礎,而是怎麼去做這個事。

對於初入研究的學生,我一般會建議他們去參加一些學術競賽或實戰項目。這種方式能讓學生深入了解實際問題,清楚該領域的真正瓶頸所在。閱讀文獻或者聽他人的報告,這雖然有助於快速獲得一些經驗,但對研究入門者而言,它更多只會帶來感性的認識。要獲得理性的認識,就需要接觸實際的數據、實際的算法和系統。對研究問題的認識越深刻,就越有可能突破其瓶頸。

2

探討OCR領域相關研究

OCR在實際應用中經常碰到這樣的情形:不同語種、不同形式的文字同時存在,在這種情況下,學術界是否能有較為通用的方法,來解決這一問題?

白翔:對於文字的多樣性的問題,學術界的考慮其實是不夠的。為什麼這樣說?首先,文字數據與其他數據相比不是那麼豐富,開源的數據規模和種類相對偏少。基於這種情況,我們也在考慮組織構建大規模文字數據集。另外,文字數據很多時候是涉及到隱私的,比如手寫字、發票等,都是不宜對外公開的。第三,文字的標註也比較複雜。對於一般物體,只需一個包圍盒即可;而對文字進行詞或行級別的包圍盒標註不一定足夠,例如漢字,字符級別的標註往往是需要的。特別是對於連寫的手寫字,標註起來更加繁瑣。

我們之前的算法基本都是出於使檢測和識別過程簡易化的目的,對文本行或單詞直接處理。但如果要把它做得更加的魯棒和通用,字符級別的定位與識別也是有較明顯的提升作用的,這也體現在最近一些新的研究工作中,例如Mask TextSpotter,CRAFT等。但不管怎樣,要解決通用OCR這一難題,學術界缺乏數據類型豐富且標註精細的大規模數據集。從另外一個方面看,小樣本或者無監督條件下的文字檢測識別方法目前鮮有學者對此展開研究,這可能是解決通用文字識別的一個途徑。

總體而言,要實現通用OCR,還要有很多工作需要做。這不能靠一個人來做,它需要工業界和學術界的緊密合作,通過制定有關的標準,以及基本數據集和評價方法,才有希望解決這個問題。就現階段來看,文字識別技術泛化性尚可,因為它使用合成數據來進行訓練就可以取得穩定的識別精度,而文字檢測技術的泛化性還存在較大問題,易受環境的影響。但如果遇到版式或結構極其複雜的情況,兩者都會遇到極大的困難。

對於一個場景文本研究者而言,若想取得一定的學術成就,您認為與其他細分領域相比,會有哪些側重?

白翔:研究沒有捷徑可走,但有方法規律可循,這和做什麼細分領域沒有太大關係。無論哪個細分領域,沒有明顯的難易之分,都會面臨極大的挑戰。那麼對於如何做好計算機視覺相關研究,我個人比較注重是否真正的嘗試去解決所在方向的瓶頸問題?

打個比方,場景文字往往是多方向排列的,但傳統文檔文字識別方法一般只關注水平排列的文字,這就要求我們對檢測算法的適用性提出了更高的要求;做文字識別時,發現適合於英文的方法不適用於中文,如何設計一套方法,同時適用於拉丁文(英文)和非拉丁文(例如中文)?因此,需要找到現階段限制該技術發展的瓶頸問題,並圍繞這些瓶頸問題去突破技術的上限。

通過技術的創新可以解決很多問題,但這個問題是不是重要的?是不是卡脖子的問題?當你在做研究的時候,你需要給自己定的一個目標。目標導向正確了,剩下來要做的事情就是如何去解決它。這個過程你會經過反覆的驗證,大膽的嘗試,甚至可能經歷無數次的失敗,但不要害怕失敗,因為失敗本身就是經驗的積累,是提高自身水平的過程,是成功之路上必須經過的環節。

無論做什麼樣的研究,對於年輕學者而言比較困難的是如何做到不忘初心,在研究過程中需要反覆思考你的研究是什麼?解決的這個問題是什麼?要把它做到什麼程度?是不是能給這個領域或者子領域帶來技術上的突破?這是關鍵。

3

關於產業:「計算機視覺離全面落地還有50步要走」

作為場景文本領域的集大成者,您認為這個領域還有哪些值得研究的課題與應用?是否還存在一些被人們忽視的方向?您最近正在以及未來打算繼續深入研究什麼課題?

白翔:雖然計算機視覺熱度非常高,但其中很多技術和方法在實際應用中存在非常大的限制。比如手機端的OCR識別程序,在應對夜間街景圖片時會錯漏百出。對此,我的看法時,要實現計算機視覺全面落地,深度學習與傳統視覺方法可能已經帶我們走完了前50步,後面仍然還有50步要走。

在這種情況下,我覺得目前有這麼幾個方面可以值得去嘗試。首先是圖像合成技術。目前基於生成的方法,已經取得了一些非常逼真的效果。在一些特定領域會有一些實際用途,包括圖像數據生成與擴增,人的服飾搭配,動畫製作,視頻剪輯等。

另外還有多模態融合與感知。人類在識別物體時候,其實是有其3D或其它先驗的,將圖像信息與點雲或來自其它傳感設備得到的信息相融合,可以取得更加可靠的識別效果。例如,國內有些研究組結合紅外成像在視頻監控中取得了理想的應用效果;我們最近將臨床數據與CT影像相結合,在新冠重症預測任務中獲得了更魯棒的測評性能。再舉一個例子,要獲得更準確的視頻行為識別(例如電影片段)需要結合圖像和文字甚至語音的方式。

第三,我認為計算機視覺在對地觀測領域的應用基礎研究將有較大潛力。現有的視覺研究大多面向監控視頻圖像或日常生活圖像,而航拍圖像存在目標尺度變化大、方向性強、形狀和分布更複雜的特點,從事該方向的研究能夠給更多潛在實際應用帶來想像空間。

最後,從行業應用來看,計算機視覺在智慧教育和工業質檢中將大有可為。隨著文字識別與語音識別技術不斷進步,已經可以看到計算機視覺在教育領域展露頭角,比如公式識別在自動閱卷的應用。而工業缺陷的自動檢測能大大減少工業產品質量檢測過程的人力成本並且顯著提升效率。無論是智慧教育還是工業質檢中的視覺技術都存在著較多科學問題和應用問題亟待解決。

在計算機視覺研究領域中,精度和速度一直是兩個很重要的要素,那麼您認為,應當如何取捨模型的精度和速度?

白翔:我跟很多工業界的朋友們有過這方面討論。之前我一直很奇怪一件事情:我們2015年底提出來CRNN算法,為什麼工業界現在還在用?我們後面提出來的一些更魯棒的方法,他們反而不用。後來工業界的朋友告訴我,CRNN一般情況下就夠用了。在企業的實際應用中,還要考慮模型的大小和運算的速度。像BAT這樣的大型網際網路公司,每天都有上億的圖片要處理。從實用性角度來看,如果一個算法太慢,即使它精度很高, 但是時間消耗太大,這些企業是無法接受的。

計算機視覺領域中的很多方法,精度和速度往往是互相矛盾的,如何在精度和速度中(甚至還包括能耗)找到一個平衡至關重要。說到底,計算機視覺是一個面向應用的研究領域,一定要了解實際應用的需求,要考慮精度和速度兩者的推動。如果應用基礎研究問題的定義不從實際應用需求中去總結,那就有點紙上談兵的感覺,甚至會把一些研究方向帶偏。

您如何看待學術界和工業界的關係?您如何看待研究生、博士生找工作、找實習這一問題?

白翔:這個問題問得非常好。現在工業界對人工智慧的技術和人才的熱情非常高,導致很多教授或優秀學生,都高薪去了工業界,那麼這就不是一個穩定的狀態。如果說去工業界的高端人才越來越多,就會削弱高校培養高端人工智慧人才的能力。過去一兩年我在加拿大、美國交流期間,也聽到了一些要把教授、學子還給學術界的呼籲。也有少數企業取代了高校的部分功能,對實習學生進行科研訓練和指導,甚至發表了高水平論文。

總體而言,工業界和學術界之間現在關係已經非常密切,合作產生的研究成果也屢見不鮮,但學術界與工業界的合作形式不應主要放在學生實習方面,我更加看好通過共建校企聯合研究實驗室的方式,這樣可以把學者留在高校,同時也能保證足夠的產學研合作。

目前有很多學生可能對實習的熱情度較高,但高校教師也需要研究生參與完成自己正在承擔的科研課題。總體上我比較支持學生去實習,但我希望學生去實習之前已經具備了一定的研究基礎和技術創新能力。這樣能更加有效地幫助企業在產品線或研究端進行技術升級,同時也有助於學生增加實戰經驗。

另外,我會注意保證學生的實習任務和研究目標的一致性。具體來說,我會建議研究生找一個跟自己開題研究方向相同或密切相關的公司部門或研究組去實習,避免研究任務跨度太大。因為研究是需要專注的,尤其對於年輕學子,頻繁換研究主題會影響做研究的深度。

如今,發表頂會論文已經成為研究生入職的一個重要評價標準,這導致不少研究生在學習階段加強了對頂會論文或學術競賽的追逐,卻忽視了其它素質方面的鍛鍊。事實上視覺有關企業的主要任務是推動科技產業進步,推動科技產業進步和發表多少論文沒有直接關係,發表論文也不能直接證明其推動了科技產業進步。對此,我還呼籲工業界要看重人才的綜合素質,而不能將論文作為評價人才的唯一導向或主要導向。

相關焦點

  • 奧普特研究院及國家博士後科研工作站揭牌暨視覺技術專家研討會
    12月4日上午,廣東奧普特科技股份有限公司(以下簡稱奧普特)舉行奧普特研究院及國家博士後科研工作站揭牌暨視覺技術專家研討會。出席此次揭牌儀式及研討會的嘉賓包括:東莞市人力資源和社會保障局副局長湯麗華、長安鎮黨委委員戴浩平等東莞政界人士;還有國家傑出青年基金獲得者、清華大學教授孫富春,歐洲科學院外籍院士、華南理工大學計算機科學與工程學院院長陳俊龍,以及深圳大學計算機視覺研究所所長沈琳琳等高校專家。此外,奧普特客戶谷歌、騰訊、華為等國內外知名企業的代表也有出席。
  • 他是計算機視覺和圖形領域,全球最頂級專家,離開微軟回祖國效力
    沈向洋,1966年10月出生於江蘇南京,計算機視覺和圖形學專家,清華大學沈向洋是計算機視覺和計算機圖形領域最有名的專家!1996年,沈向洋從卡內基梅隆大學計算機博士畢業,加入了微軟,任職微軟研究院;1999年,到北京參與創立微軟中國研究院;2004年,升任微軟亞洲研究院院長;2013年,任微軟全球執行副總裁;
  • 打造「世界一流視覺企業」 奧普特博士後科研工作站、研究院揭牌
    12月4日,由廣東奧普特科技股份有限公司(以下簡稱「奧普特」)舉辦的國家博士後科研工作站和奧普特研究院成立揭牌儀式暨「對接視覺領域專家,解決企業技術應用難點」研討會在東莞召開。儀式現場,奧普特博士後科研工作站、奧普特研究院正式成立揭牌。
  • 計算機視覺新手指南
    另一種讓你自己了解計算機視覺領域正在進行的研究的方法是跟隨作者並閱讀他們在頂級會議上的論文,如CVPR、ICCV、ECCV、BMVC。與專家的對話以下交談摘錄是我與兩位對計算機視覺領域充滿熱情的專家交談的。
  • 算法到實戰,如何零基礎入門計算機視覺領域
    為了讓大家更好的理解計算機視覺在人工智慧領域的強大應用,12月7日晚,上海交通大學盧憲凱博士受【雷鋒網】AI慕課學院邀請,開展了一場主題為《計算機視覺概述和深度學習簡介》的公開課,盧博士在公開課中給大家介紹了計算機視覺的定義、研究方法和應用舉例,重點介紹深度學習發展歷史,常見深度學習網絡介紹和開發平臺,幫助計算機視覺入門者和從業者進行有效的基礎夯實和系統梳理。
  • 華人計算機視覺科學家黃煦濤逝世,眾多AI大牛發文緬懷
    當地時間2020年4月25日,華人計算機科學家黃煦濤教授在美國印第安納州逝世,享年84歲。黃煦濤教授主要從事教學與圖像處理、模式識別、計算機視覺和人機互動等方面的研究工作,一生出版了 14 本書,發表了 400 多篇學術論文。
  • 繼人工智慧世界盃奪冠後,360在未來計算機視覺研究領域還能怎麼玩?
    ILSVRC競賽是基於ImageNet圖像資料庫的計算機視覺識別競賽,是國際計算機視覺領域受關注度最大、水平最高、競爭最激烈的競賽。在本屆大賽中,360人工智慧團隊最終奪得冠軍!這次專訪,將帶著我們看:360在未來計算機視覺研究領域還能怎麼玩?
  • 計算機視覺的三部曲 - 人人都是產品經理
    計算機視覺目前已經被應用到多個領域,如無人駕駛、人臉識別、文字識別、智慧交通、VA/AR、以圖搜索、醫學圖像分析等等,是人工智慧(AI)目前最火的領域之一。那計算機視覺是什麼?完整鏈路是怎樣的?有哪些技術點?本文將跟大家一起探討。計算機視覺(Computer Vision),就是用機器來模擬人的視覺獲取和處理信息的能力。
  • 華人計算機視覺宗師,Thomas S.Huang(黃煦濤)先生去世!
    這於計算機視覺,特別是中國計算機視覺領域,無疑是一大哀痛。 在我國計算機視覺歷史上,起到關鍵作用的有兩位重要人物,分別是:傅京孫(1930-1985)和黃煦濤(1936-2020)。 如果說模式識別之父、普渡大學的傅京孫是中國模式識別的引路人,那麼也曾在普渡任教的黃煦濤則是中國計算機視覺的「關鍵先生」。
  • 中國計算機視覺技術現狀與發展趨勢分析
    Al領域計算機視覺佔比最重  計算機視覺在人工智慧裡可以類比於人類的眼睛,是在感知層上最為重要的核心技術之一。計算機視覺技術模擬生物視覺,將捕捉到的圖像中的數據及信息進行分析識別、檢測、跟蹤等,真正去「識別」和「理解」這些圖像。目前此項技術已經廣泛應用到安防、自動駕駛、醫療、消費等,也是目前人工智慧技術中落地最廣的技術之一。
  • AlphaGo 早已擊敗圍棋冠軍,計算機視覺還是 3 歲的「智力」
    20 世紀 50 年代和 60 年代,計算機視覺並沒有被看成重頭戲,人們認為視覺系統很容易複製,而教計算機下棋更加困難。
  • AlphaGo 早已擊敗圍棋冠軍,計算機視覺還是 3 歲的 「智力」
    20 世紀 50 年代和 60 年代,計算機視覺並沒有被看成重頭戲,人們認為視覺系統很容易複製,而教計算機下棋更加困難。此外,大多數研究人員都是在孤立的小組內工作,缺乏比較有意義的,可以推進該領域科學進展的方式。有一則故事可以反映當時研究人員的美好預期、以及預期落空後他們自身及和外界的失落與嘲諷。
  • 頂會最佳論文獎得主:初入科研領域,如何正確做科研?
    文字整理:智源社區 常政、賈偉、王煒強每個人都擁有著相似的才智,為什麼有些人能順利地完成學生到學者的過渡,能在學術生涯早期早早地做出突破性工作;而有些人,雖有雄心壯志,卻始終不得其法,不能進入科研之門?初入科研領域,如何才能正確地做科研?這是一個困惑了許多人,卻始終沒有「官方」答案的問題。
  • 為什麼說現在是計算機視覺最好的時代?
    隨著深度學習的迅猛發展,計算機視覺也成為了目前人工智慧領域落地最順利的技術。計算機視覺(Computer Vision)是一門研究如何用攝影機和計算機代替人眼對目標進行跟蹤、識別、分析、處理等。此過程極具挑戰性,光是隔離圖像並進行識別的簡單概念就花費了研究人員大量的時間。
  • 如何用ocr識別軟體提取圖片中的文字
    ocr識別軟體是一種可以識別文字的工具,在查找資料遇到圖片素材想提取文字等一些場景都可以利用ocr識別軟體把圖片中的文字提取出來。那我們需要如何用ocr識別軟體提取圖片中的文字呢,接下來教你用迅捷OCR文字識別軟體把圖片中的文字提取出來。
  • 人工智慧之計算機視覺應用專題報告2016
    計算機視覺作為人工智慧技術的基礎,受到深度學習的成功影響在近幾年內取得了突破性的進展,正在成為影響行業發展的下一個引擎。巨頭紛紛布局,市場也吸引了越來越多的人才創業參與其中。計算機視覺正在成為人工智慧最火熱的細分領域之一。本報告將針對計算機視覺技術發展的關鍵節點、市場現狀及應用場景進行分析和研究。
  • ...985計算機視覺畢業後找不到工作怎麼辦?怒刷leetcode,還是另尋...
    新智元報導   編輯:嘯林   【新智元導讀】985研究生,學計算機視覺,出來後找不到工作?新智元帶你看看這個70萬瀏覽量問題下的答案乾貨:找工作難,是因為前兩年AI領域泡沫太大。然而,真正的人才什麼時候都緊缺,搞紮實自己的基本功比什麼都重要。心態放平,好好刷leetcode,好offer總在不遠處。   計算機視覺畢業後找不到工作怎麼辦?   AI專業畢業後是不是找不到工作?近日,有知乎網友提問,獲得了70萬閱讀量。
  • 計算機視覺入門大全:基礎概念、運行原理、應用案例詳解
    今天,由於其廣泛應用和巨大潛力,計算機視覺成為最熱的人工智慧和機器學習子領域之一。其目標是:複製人類視覺的強大能力。但是,到底什麼是計算機視覺?它在不同行業中的應用現狀如何?知名的商業用例有哪些?典型的計算機視覺任務是什麼?
  • 任正非狼性文化:人生沒有捷徑,職業的成功這三個條件不可缺少
    當所有人都陷在華為成功的慶祝宴上時,只有任正非在居安思危,進行自我反思:公司發展得太順利,從來沒有遇到過什麼磨難,這對於一個企業來說也許就是災難。員工有沒有想過如果有一天面對企業危機,我們怎麼來面對,如果是大家都過於樂觀,那這一天很快就要來臨。
  • 計算機視覺 AI 工具集 OpenVINO,是你心目中的深度學習框架 Top1 嗎?
    再牛的硬體設施,沒有好用順手的軟體工具加持也是把沒開刃的刀。這條準則在所有技術領域皆準,包括人工智慧領域發展最成熟、落地最廣泛的計算機視覺。AI晶片使得計算機視覺技術得以在現實生活中落地,為了更加充分地挖掘處理器的性能,各大廠家都發布了各種軟體框架和工具,比如國外Intel的OpenVINO,Nvidia的TensorRT,國內的OpencvReal ViewBench、Visionbank機器視覺軟體等。但是計算機視覺軟體框架和工具雖多,真正功能強大,使用方便的也是屈指可數。