隨著美國的3DRobotics、法國的 Parrot以及中國的DJI(大疆創新)等一系列無人機龍頭企業的崛起,無人機航拍在軍事及民用領域如軍事偵察、邊境巡邏、城市監控、地質勘探、災情監測等方面的應用越來越頻繁,而計算機視覺技術作為無人機智能化的理論基礎,它的技術提升和應用擴展也成了目前很多科學家一直攻堅的科研難題。如今,伴隨社會各界對無人機航拍技術的需求與日俱增,長期堅守在計算機視覺和圖像視頻處理領域,特別是在目標跟蹤和分類領域的大連理工大學信息與通信工程學院副教授王棟,聯合項目團隊主攻國家自然科學基金面上項目——「廣域低幀率航拍場景下在線目標跟蹤」,竭力攻克技術難關,歷盡風雨寒霜,在無人機城市安全監控、生活模式分析等方面取得一番佳績,進一步推動了智能無人機監控領域的發展。
初心之於王棟,像海上迷途中的一盞塔燈,它能在迷失航向時發出明亮閃爍的光芒,指引他在重要時刻做出順應本心的選擇。本科期間,王棟在學習數位訊號處理的過程中結識了盧湖川教授,並對盧教授從事的圖像處理方向研究產生了極大的興趣。起初的結識許是偶然,但這興趣的由來卻是天性使然,正是這場貌似命中注定的相遇讓王棟與「目標追蹤技術」開始了長達數十年的緣分。循著初始的興趣,2008年,王棟報考並順利成為盧湖川教授的學生。5年後博士畢業時,王棟在人生岔路口面臨企業工作和留校科研兩個截然不同的選擇,而他毅然地選擇留校繼續在盧教授團隊主攻目標跟蹤方向研究,誓必將初心踐行到底,始終如一。
在2015—2016年期間,王棟前往美國天普大學訪學,在那裡結識了來自天普大學的凌海濱教授,並受到他的指導。接觸中,他發現凌海濱教授的研究思路聚焦於如何給該領域帶來新的見解、提出新的問題、做前人未做過的研究上,這對於當時專攻精度和速度的王棟來說受益匪淺。在國外一年裡,王棟學與研並行,他在高空無人機場景的跟蹤中取得了一些階段性的實驗結果,為回國之後開展無人機方面的檢測與跟蹤奠定了基礎。
王棟在CCF頒獎典禮上獲獎
科研一旦啟航,途中總避免不了風浪,當下的迫停不是坐待天晴,而是蓄銳養精。2016年下半年回國之後,王棟繼續主攻目標跟蹤方向的應用研究,但他發現當時目標跟蹤技術的算法精度不高,根本無法解決行業痛點問題,以至於他此後半年一直困於技術瓶頸和迷茫期。後來,隨著在大疆無人機上看到應用前景,王棟及其團隊也對近年來深度視覺跟蹤方面的研究工作進行深入總結和分析,全面掌握了現有算法進展及優缺點。通過深入挖掘深度神經網絡的局部結構,提出局部敏感回歸跟蹤算法,在國際標準測評VOT2017公開數據集上獲得第一名。而後他們更是提出了聯合判決性和可靠性學習的相關濾波跟蹤算法,進一步提升了跟蹤算法的精度,在國際標準測評OTB2015和VOT2017均取得當時最高精度。王棟及其團隊在深度視覺跟蹤方面的最新進展和突破為之後的多項關於目標跟蹤方面的國家及省部級研究課題奠定了堅實基礎。
艱澀難懂的科學理論對外介紹時總被該領域的科學家簡而言之,以更為貼近生活的理解方式傳遞給科學圈外的大眾,但越是淺出的講解靠的越是深入的科研實踐。作為計算機視覺和圖像視頻處理研究的專家,當談及計算機視覺時,王棟先把相機的攝像頭比作人的眼睛,把連接的電腦或者其他的計算平臺比作人的大腦,後又通過流動人群跟蹤和大疆無人機的環繞式拍照兩個生活應用實例,使其領域的研究內容以一種更為通俗易懂的方式呈現出來。當落實到當前的科研實戰,王棟及其團隊並沒有將目標跟蹤技術僅僅止步在「人的眼睛」上,而是重點突擊當時在國內外研究均處於起步階段的「廣域低幀率航拍場景下在線目標跟蹤」課題,解決由目標外觀特徵的模糊性及運動場景的複雜性帶來的諸多挑戰,包括目標尺寸小、視覺特徵模糊、運動複雜、光照陰影變化、背景雜亂等問題,合力打造出一隻捕捉更快、鎖定更準、顯示更清的「數位化獵鷹」。
相關經典及前沿理論是項目實施的堅實基礎。王棟及其團隊以最前沿的深度學習理論為指導,以項目團隊前期在三種模型,包括子空間和稀疏表示模型、部距離度量模型、深度學習模型下的在線跟蹤方面的初步研究為基礎,以生成對抗網絡模型作為模擬小樣本目標及背景的實踐支撐,由此開始研究低解析度小目標的深度學習模型、小目標訓練樣本生成和深度網絡模型訓練、低幀率相似目標的時空語義關聯模型,並提出廣域低幀率航拍場景中在線目標跟蹤算法。
多年相關研究經驗是項目實施的必要條件,合理的團隊結構和緊密的國際合作是項目實施的有力保障。王棟的團隊是由一批有著豐富理論和實踐知識儲備的碩博士研究生組成的,他們一直主攻目標跟蹤和分類方向的研究,在基於子空間、稀疏表示、局部距離度量方面曾提出了一系列表現優異的模型算法,對於深度視覺跟蹤算法的綜述和最新突破,為如何利用深度神經網絡建立魯棒外觀模型提供了技術條件。同時,王棟及項目團隊與美國加州大學Merced分校Ming-Hsuan Yang教授、美國Temple大學Haibin Ling教授、香港中文大學Xiaogang Wang教授等目標跟蹤和深度學習領域的資深研究人員一直保持著良好的學術交流合作,並能及時獲得最前沿的研究動態和指導。
特色與創新是項目收穫突破性成果的最強證明。針對廣域場景下小目標外觀建模問題,他們嘗試創新性地提出融合深度孿生匹配模型和深度特徵分類模型的深度目標外觀模型,將深度學習理論推廣到廣域航拍視頻序列中的在線目標跟蹤問題上。同樣是廣域場景下小目標方向,針對其訓練樣本缺乏有效訓練深度模型問題,他們嘗試創新性地提出利用生成對抗網絡模擬真實小樣本目標並將其嵌入到真實背景,並離線學習適合本項目場景的深度特徵。之後,為解決目標行動軌跡及背景的複雜性難題,王棟及其團隊著手低幀率視頻序列特性的研究,嘗試創新性地利用多目標跟蹤思想來解決在線單目標跟蹤問題,並提出時空語義關聯模型來統一建模目標外觀模型和時空語義模型,推理待跟蹤目標的最優軌跡。
「數位化獵鷹打造計劃」讓當時的國內視覺目標跟蹤領域突破了之前的技術限制,取得了多次國際性賽事的重大成果。從2017年到2020年,王棟及其團隊6次在國際視覺目標跟蹤競賽(VOT)中獲得第一名,其中包括VOT長時組(VOT2018-LT,VOT2019-LT,VOT2020-LT)三連冠。他們站在巨人的肩膀上,向著科學的更遠處眺望,可當遠景別在心頭後,他們又默默低下頭,錘鍊出以創新為內核的片瓦去搭建更為壯觀的科學高樓。
所謂學無止境,在強調持久學習的同時也點明了學習的環境不是唯一。對於王棟來說,學習與科研的地點並不僅限於實驗室,工作之「娛」同樣也是學習的平臺。尤其近幾年來大熱的3D國漫《秦時明月》,讓他將「學」巧妙滲透在個人的娛樂活動裡。在被動漫本身的劇情吸引外,「術業有專攻」的他將視覺研究向生活娛樂及興趣領域外延,更關注動畫製作在圖形和計算機視覺上的進展,而當下動漫視覺技術的提高也讓紮根於視覺技術領域多年的他備受鼓舞。
所謂學無止境,學習不僅要躬行實踐,苦熬此時燈下,更要高瞻遠矚,統籌未來規劃。王棟基於目前的研究工作,設想在今後的科研中能與國內相關的領域學者共同努力,引領計算機視覺從主攻具體成品向制定領域標準發展,在未來做出具有更大話語權的成果,在企業合作、公共生活、航天科工方面取得較大的社會效益。
王棟在個人學術方面一直堅守著專業要求,他在計算機視覺相關領域具有紮實的理論基礎和豐富的實踐經驗,也不斷更新著知識的廣度和深度。個人領域上的自修積澱成集體項目的科研高樓,登上這高樓環望,在線目標跟蹤技術似獵鷹一般,盡情翱翔在這無邊藍天,護佑著人民安全並予之方便。