華中科技大學白翔教授是計算機視覺領域的優秀學者,也是場景文字領域的知名大牛。在訪談中,白翔教授不僅分享了他對於人工智慧行業、場景文字檢測與識別技術發展的前沿觀點,還為當下的計算機視覺科研者們分享了他非常寶貴的科研經歷與心得。
每一位科研者都走過一條屬於他自己的科研路。那麼白翔教授的科研路是什麼樣的?下文即答案。
白翔,教授,IAPR Fellow。研究領域為計算機視覺與模式識別,文檔分析與識別。已在國內外刊物和學術會議上發表論文180餘篇,谷歌學術顯示引用15000餘次,h指數63 ……
這是白翔教授目前的學術成就。可以說在國內計算機視覺研究領域,白翔教授所處的位置是比較高的。而這份成就的取得,可以從他的學生時代說起。
白翔教授於2003年、2005年和2009年在華中科技大學取得本科、碩士及博士學位,2007年獲「微軟學者」獎,讀博期間以第一作者在計算機視覺最具影響力的期刊PAMI上發表了3篇論文,並於2011年獲湖北省優秀博士論文。可以說,他在學生時代就是出類拔萃的。
但即便如此,白翔教授也有過被拒稿的經歷:
在碩士研究生求學期間,他寫了一篇論文投到《軟體學報》這個權威期刊上,該文章在投稿前在導師的幫助下至少修改了15遍,最後被拒稿。後來,經過不到兩年的努力,白翔教授就在PAMI上發表了2篇論文,同時為SCI核心源雜誌Pattern Recognition擔任審稿人。
當時的他將這一成功簡單地概括為兩點:堅持+興趣。
白翔教授說:「碩士階段的積累很重要,它為後面出成果打下了基礎。學習的收穫,不能僅僅用發了多少論文來衡量。其次,計算機視覺研究確實是我的興趣所在,我是在享受這個過程,名利並不是做研究的目的。」
作為年少成名的科研者,讓人意想不到的是,白翔教授也有過找工作被拒的經歷。碩士畢業後,他曾進入某國際知名企業的最後一輪面試,但沒有獲得Offer。
短暫的動搖之後,他堅守了自己的信念:「在找工作的時候,我發現我更喜歡研究我自己感興趣的東西。我選擇了繼續攻讀博士,因為我覺得前面的研究工作沒有完成,這時候放棄比較可惜。」
後來,事實也證明,留在學校繼續做研究,是他正確的選擇。
在這次訪談中,白翔教授非常耐心地為我們答疑解惑,在分享他在計算機視覺領域的科研經歷的同時,表達了他對於深度學習學業與產業的思考。相信下文的訪談實錄能為你的科研工作與生活帶來不少啟發。
1
關於科研:「堅持的力量」
您在計算機視覺領域造詣深厚,能否分享一段您印象最深的科研經歷?
白翔:印象比較深的是2011年到2013年間,我面臨著選擇新研究課題的問題。因為我在博士階段做的是形狀表述與圖匹配相關的工作,相對來說比較基礎。當時的我特別想嘗試一下應用基礎研究。研究方向的選擇是比較重要的,我花了相當一段時間去思考後,選擇場景文字檢測與識別這個研究課題。我認為該課題具備較高的應用潛力。
進入該領域前期是一個非常困難的階段。當時的場景文字檢測和識別是非常繁瑣的問題,它涉及到很多算法,要實現一套有效的解決方案,需要花大量時間去摸索。具體來說,文本不同於一般目標,是由多個非連通的字符組成,這就要求在算法實現中增加較多經驗式的操作。在傳統的區域特徵提取方法之上,需要完成字符之間的關聯,同時需要克服虛景或非文字部分帶來的幹擾。此外,當時可供參考的開原始碼非常稀少,導致在前期摸索中走了不少彎路(這也是之後我們開源了多篇論文源碼的重要原因)。
儘管困難重重,我跟學生更多強調的是不要著急寫論文,要靜下心來解決實際問題。我們花了大量時間去反覆論證,這一過程也積累了對該研究領域的深刻認識。後來大家看到的這些論文其實跟這段時間的積累是分不開的。
當時,我們觀察到許多照片中的文字並不是呈水平方向排列,很多是傾斜甚至是彎曲的。因此,我們希望做一套方案,能克服當時場景文本檢測方法的局限性,通用於各種形狀的文本。回頭來看,現在多方向文本檢測技術已經很普遍,並且這種方式在遙感目標檢測領域也被普遍採納,但這些都離不開當時做研究的這股韌性和堅持。
您在計算機視覺領域少年成名,在讀博期間就以第一作者發表了3篇計算機視覺頂級期刊TPAMI論文,那麼您認為對於一個計算機視覺博士而言,什麼是完整、全面的博士科研訓練?
白翔:我覺得首先要有興趣,興趣才是最好的老師。按照王國維人生三種境界,初入領域的研究生需經過從第一階段「獨上高樓,忘盡天涯路」通往第二階段「衣帶漸寬終不悔,為伊消得人憔悴」的過程。如果僅僅是把科研做為完成學業的任務去完成,而不是發自內心的喜歡這項工作,是很難在所從事的研究課題上獲得突破的。
當然,興趣也是可以培養的,但必須建立在對計算機視覺研究有一定的了解之上。另外,需要具備一定的程序設計基礎,畢竟這是一個偏應用的學科,對實際動手能力有一定的要求。良好的數學基礎也是必要的,例如概率論、線行代數有關基礎知識。但最重要的不是具備多少基礎,而是怎麼去做這個事。
對於初入研究的學生,我一般會建議他們去參加一些學術競賽或實戰項目。這種方式能讓學生深入了解實際問題,清楚該領域的真正瓶頸所在。閱讀文獻或者聽他人的報告,這雖然有助於快速獲得一些經驗,但對研究入門者而言,它更多只會帶來感性的認識。要獲得理性的認識,就需要接觸實際的數據、實際的算法和系統。對研究問題的認識越深刻,就越有可能突破其瓶頸。
2
探討OCR領域相關研究
OCR在實際應用中經常碰到這樣的情形:不同語種、不同形式的文字同時存在,在這種情況下,學術界是否能有較為通用的方法,來解決這一問題?
白翔:對於文字的多樣性的問題,學術界的考慮其實是不夠的。為什麼這樣說?首先,文字數據與其他數據相比不是那麼豐富,開源的數據規模和種類相對偏少。基於這種情況,我們也在考慮組織構建大規模文字數據集。另外,文字數據很多時候是涉及到隱私的,比如手寫字、發票等,都是不宜對外公開的。第三,文字的標註也比較複雜。對於一般物體,只需一個包圍盒即可;而對文字進行詞或行級別的包圍盒標註不一定足夠,例如漢字,字符級別的標註往往是需要的。特別是對於連寫的手寫字,標註起來更加繁瑣。
我們之前的算法基本都是出於使檢測和識別過程簡易化的目的,對文本行或單詞直接處理。但如果要把它做得更加的魯棒和通用,字符級別的定位與識別也是有較明顯的提升作用的,這也體現在最近一些新的研究工作中,例如Mask TextSpotter,CRAFT等。但不管怎樣,要解決通用OCR這一難題,學術界缺乏數據類型豐富且標註精細的大規模數據集。從另外一個方面看,小樣本或者無監督條件下的文字檢測識別方法目前鮮有學者對此展開研究,這可能是解決通用文字識別的一個途徑。
總體而言,要實現通用OCR,還要有很多工作需要做。這不能靠一個人來做,它需要工業界和學術界的緊密合作,通過制定有關的標準,以及基本數據集和評價方法,才有希望解決這個問題。就現階段來看,文字識別技術泛化性尚可,因為它使用合成數據來進行訓練就可以取得穩定的識別精度,而文字檢測技術的泛化性還存在較大問題,易受環境的影響。但如果遇到版式或結構極其複雜的情況,兩者都會遇到極大的困難。
對於一個場景文本研究者而言,若想取得一定的學術成就,您認為與其他細分領域相比,會有哪些側重?
白翔:研究沒有捷徑可走,但有方法規律可循,這和做什麼細分領域沒有太大關係。無論哪個細分領域,沒有明顯的難易之分,都會面臨極大的挑戰。那麼對於如何做好計算機視覺相關研究,我個人比較注重是否真正的嘗試去解決所在方向的瓶頸問題?
打個比方,場景文字往往是多方向排列的,但傳統文檔文字識別方法一般只關注水平排列的文字,這就要求我們對檢測算法的適用性提出了更高的要求;做文字識別時,發現適合於英文的方法不適用於中文,如何設計一套方法,同時適用於拉丁文(英文)和非拉丁文(例如中文)?因此,需要找到現階段限制該技術發展的瓶頸問題,並圍繞這些瓶頸問題去突破技術的上限。
通過技術的創新可以解決很多問題,但這個問題是不是重要的?是不是卡脖子的問題?當你在做研究的時候,你需要給自己定的一個目標。目標導向正確了,剩下來要做的事情就是如何去解決它。這個過程你會經過反覆的驗證,大膽的嘗試,甚至可能經歷無數次的失敗,但不要害怕失敗,因為失敗本身就是經驗的積累,是提高自身水平的過程,是成功之路上必須經過的環節。
無論做什麼樣的研究,對於年輕學者而言比較困難的是如何做到不忘初心,在研究過程中需要反覆思考你的研究是什麼?解決的這個問題是什麼?要把它做到什麼程度?是不是能給這個領域或者子領域帶來技術上的突破?這是關鍵。
3
關於產業:「計算機視覺離全面落地還有50步要走」
作為場景文本領域的集大成者,您認為這個領域還有哪些值得研究的課題與應用?是否還存在一些被人們忽視的方向?您最近正在以及未來打算繼續深入研究什麼課題?
白翔:雖然計算機視覺熱度非常高,但其中很多技術和方法在實際應用中存在非常大的限制。比如手機端的OCR識別程序,在應對夜間街景圖片時會錯漏百出。對此,我的看法時,要實現計算機視覺全面落地,深度學習與傳統視覺方法可能已經帶我們走完了前50步,後面仍然還有50步要走。
在這種情況下,我覺得目前有這麼幾個方面可以值得去嘗試。首先是圖像合成技術。目前基於生成的方法,已經取得了一些非常逼真的效果。在一些特定領域會有一些實際用途,包括圖像數據生成與擴增,人的服飾搭配,動畫製作,視頻剪輯等。
另外還有多模態融合與感知。人類在識別物體時候,其實是有其3D或其它先驗的,將圖像信息與點雲或來自其它傳感設備得到的信息相融合,可以取得更加可靠的識別效果。例如,國內有些研究組結合紅外成像在視頻監控中取得了理想的應用效果;我們最近將臨床數據與CT影像相結合,在新冠重症預測任務中獲得了更魯棒的測評性能。再舉一個例子,要獲得更準確的視頻行為識別(例如電影片段)需要結合圖像和文字甚至語音的方式。
第三,我認為計算機視覺在對地觀測領域的應用基礎研究將有較大潛力。現有的視覺研究大多面向監控視頻圖像或日常生活圖像,而航拍圖像存在目標尺度變化大、方向性強、形狀和分布更複雜的特點,從事該方向的研究能夠給更多潛在實際應用帶來想像空間。
最後,從行業應用來看,計算機視覺在智慧教育和工業質檢中將大有可為。隨著文字識別與語音識別技術不斷進步,已經可以看到計算機視覺在教育領域展露頭角,比如公式識別在自動閱卷的應用。而工業缺陷的自動檢測能大大減少工業產品質量檢測過程的人力成本並且顯著提升效率。無論是智慧教育還是工業質檢中的視覺技術都存在著較多科學問題和應用問題亟待解決。
在計算機視覺研究領域中,精度和速度一直是兩個很重要的要素,那麼您認為,應當如何取捨模型的精度和速度?
白翔:我跟很多工業界的朋友們有過這方面討論。之前我一直很奇怪一件事情:我們2015年底提出來CRNN算法,為什麼工業界現在還在用?我們後面提出來的一些更魯棒的方法,他們反而不用。後來工業界的朋友告訴我,CRNN一般情況下就夠用了。在企業的實際應用中,還要考慮模型的大小和運算的速度。像BAT這樣的大型網際網路公司,每天都有上億的圖片要處理。從實用性角度來看,如果一個算法太慢,即使它精度很高, 但是時間消耗太大,這些企業是無法接受的。
計算機視覺領域中的很多方法,精度和速度往往是互相矛盾的,如何在精度和速度中(甚至還包括能耗)找到一個平衡至關重要。說到底,計算機視覺是一個面向應用的研究領域,一定要了解實際應用的需求,要考慮精度和速度兩者的推動。如果應用基礎研究問題的定義不從實際應用需求中去總結,那就有點紙上談兵的感覺,甚至會把一些研究方向帶偏。
您如何看待學術界和工業界的關係?您如何看待研究生、博士生找工作、找實習這一問題?
白翔:這個問題問得非常好。現在工業界對人工智慧的技術和人才的熱情非常高,導致很多教授或優秀學生,都高薪去了工業界,那麼這就不是一個穩定的狀態。如果說去工業界的高端人才越來越多,就會削弱高校培養高端人工智慧人才的能力。過去一兩年我在加拿大、美國交流期間,也聽到了一些要把教授、學子還給學術界的呼籲。也有少數企業取代了高校的部分功能,對實習學生進行科研訓練和指導,甚至發表了高水平論文。
總體而言,工業界和學術界之間現在關係已經非常密切,合作產生的研究成果也屢見不鮮,但學術界與工業界的合作形式不應主要放在學生實習方面,我更加看好通過共建校企聯合研究實驗室的方式,這樣可以把學者留在高校,同時也能保證足夠的產學研合作。
目前有很多學生可能對實習的熱情度較高,但高校教師也需要研究生參與完成自己正在承擔的科研課題。總體上我比較支持學生去實習,但我希望學生去實習之前已經具備了一定的研究基礎和技術創新能力。這樣能更加有效地幫助企業在產品線或研究端進行技術升級,同時也有助於學生增加實戰經驗。
另外,我會注意保證學生的實習任務和研究目標的一致性。具體來說,我會建議研究生找一個跟自己開題研究方向相同或密切相關的公司部門或研究組去實習,避免研究任務跨度太大。因為研究是需要專注的,尤其對於年輕學子,頻繁換研究主題會影響做研究的深度。
如今,發表頂會論文已經成為研究生入職的一個重要評價標準,這導致不少研究生在學習階段加強了對頂會論文或學術競賽的追逐,卻忽視了其它素質方面的鍛鍊。事實上視覺有關企業的主要任務是推動科技產業進步,推動科技產業進步和發表多少論文沒有直接關係,發表論文也不能直接證明其推動了科技產業進步。對此,我還呼籲工業界要看重人才的綜合素質,而不能將論文作為評價人才的唯一導向或主要導向。