看視頻的時候,喜歡用彈幕和「吃瓜群眾」們互動;當彈幕多到蓋住了畫面,又不能好好地欣賞視頻……你是不是也有這樣的經歷?
彈幕作為一種新的互動方式,近年來逐漸在各大視頻網站推廣開來。在享受彈幕帶來的陪伴和熱鬧的同時,你會不會也有觀感被影響的時候?如今有一項新的技術可以把視頻中的人和背景分割開來,為觀眾帶來更好的體驗。
這種「黑科技」能夠使彈幕文字自動避開人物,從背後穿越而過,是不是相當Amazing!
圖為bilibili彈幕視頻網站UP主洪千辰的視頻畫面
彈幕會在人物背後「穿過」
西交利物浦大學智能工程學院學者的研究為這項技術帶來新的發展,他們提出的模型在大幅度提升速度的同時還提高了識別的準確率。
該研究成果於近日收錄於計算機視覺領域最頂級的IEEE國際計算機視覺與模式識別會議(IEEE Conference on Computer Vision and Pattern Recognition,CVPR),這也是西浦第一篇以第一作者和第一單位身份收錄於該會議的文章。
據論文的第一作者、電氣與電子工程系博士生孫銘傑介紹,他們的研究使用了強化學習算法來解決如何快速、準確地跟蹤到視頻中的對象並將其與視頻背景進行分離的問題。這項技術能夠被廣泛應用在視頻彈幕、影視製作等領域,未來甚至有可能讓電影特技拍攝告別綠幕,直接在複雜背景中進行摳圖。
圖片說明:運用不同方法進行視頻對象分割的效果。由上到下依次為官方提供的真實值、西浦團隊提出的方法、SiamMask算法和RGMP算法,J值越大精確度越高。
孫銘傑的指導老師肖繼民博士指出,強化學習在人工智慧領域內是一項非常前沿的技術,目前關注度很高,比如戰勝了圍棋世界冠軍的人工智慧機器人AlphaGo就是其中的知名應用。
「使用強化學習算法研究視頻對象跟蹤與分割的過程中有一些很容易被忽視的技術難點,作為老師應該鼓勵博士生緊跟這些最前沿的技術,挑戰有技術深度和應用前景的課題。」他說道。
孫銘傑把研究重點放在目標模版的判定這一細節上。通過使用強化學習算法訓練模型,它可以智能、自主地完成「是否要用新的識別對象去替換原有的目標模板」這一決策判定。
圖為孫銘傑正在進行研究
他解釋道:「當計算機識別視頻中的對象時,首先需要一個參照物來和視頻中的對象比對,這個參照物就被稱作目標模版,它可能是被識別對象的照片或者其在其他視頻中的截圖。」
「當計算機根據目標模板識別出了視頻中某一幀的對象後,理論上來說這一幀的對象是可以替換原有的目標模板來進行後續信息識別的,因為它更接近視頻裡的真實信息。但因為視頻是動態的,可能這一幀的精確度並不高,或者周圍有遮擋物,如果這種情況下依舊用它進行後續識別的話,識別的精確度就會下降,甚至會導致目標模版損壞、無法繼續識別。」
孫銘傑表示,在使用強化學習算法訓練這個模型後,它可以主動學習提升,能夠像一個「智能開關」一樣自主決定是否需要替換模板,「和以前手寫很多規則的解決辦法相比,我們提出的模型覆蓋的規則更為全面,而且節省人力。」
測試結果表明,他們的模型在速度和質量兩方面都有所提升,對視頻對象進行追蹤與分割的工作效率明顯優於其他幾組。
圖片說明:在CVPR會議提供的DAVIS 2017數據集中不同方法的測試結果。橫軸為時間由短到長,縱軸為精準度由低到高,綠色星星代表西浦團隊提出的方法。
孫銘傑是由西浦智能工程學院院長林永義教授和肖繼民博士共同指導的博士生。林教授表示,作為博士生第一年的研究項目就可以成為西浦首篇發表在CVPR會議上的文章,這是對學生探索能力和老師教學能力的肯定。「在這個過程中,不論師生都頗有收穫,這也是我們在做科研的過程中緊貼研究導向型教學理念的一種體現。」
圖片從左到右依次為:
林永義教授、孫銘傑、肖繼民博士
指導老師簡介
林永義 教授
Prof Eng Gee Lim
電子與電氣工程系
教授
英國工程技術學會
會士 (IET Fellow)
英國皇家特許工程師
林教授於2002年畢業於英國諾森比亞大學,獲得電氣工程學博士,後就職於全球知名的通訊系統公司安德魯公司。於2007年加入西浦,現任西浦智能工程學院院長。
林教授在中外環境下積累了廣泛的科研、教學、學科建設、工商企業合作、國際合作以及管理方面的經驗。他的科研方向包括人工智慧,虛擬實境應用,機器人,智能醫療,射頻/微波工程等。他主持並參與完成了多個科研及企業合作課題。林教授是英國和澳洲工程與技術學會會士、英國高等教育學會資深會士、英國和澳洲皇家特許工程師、美國電氣與電氣工程學會高級會員。獲中國國家專利授權17項,發表學術論文及專著100餘篇。
肖繼民 博士
Dr Jimin Xiao
電氣與電子工程系
副教授
2013年取得英國利物浦大學博士學位,2013年至2014年任芬蘭坦佩雷科技大學信號處理系高級研究員,諾基亞研究中心研究員。
肖博士的研究項目獲得了多項國家自然基金(青年和面上)的支持。研究興趣有圖像視頻處理、計算機視覺、深度學習等。簡單來說就是如何讓電腦看懂圖像或者視頻裡面的內容,從而具有類似人腦的理解力。
肖博士近幾年在CVPR, AAAI, IEEE Transactions, pattern recognition頂級會議和權威期刊發表了論文20多篇。
來源:西交利物浦大學 記者:胡秋辰 金畫恬 編輯:寇博 攝影:趙宸緒 新媒體:袁小婉 俞啟凡 監製:王婧