近日,以電子科技大學未來媒體研究中心高聯麗研究員為第一作者的論文《Video Captioning with Attention-based LSTM and Semantic Consistency》獲得多媒體領域頂級期刊《IEEE Transaction on Multimedia》(IEEE TMM)雜誌2020年最佳論文獎(2020 Prize Paper Award)。
這是電子科技大學首次獲得此獎項。該論文作者及作者單位為:高聯麗(電子科大)、郭招(電子科大)、張含望(新加坡南洋理工大學)、徐行(電子科大)、申恆濤(電子科大)。
創刊於1999年的IEEE多媒體彙刊是多媒體領域最具影響力的頂級期刊,期刊影響因子6.051。IEEE Transaction on Multimedia最佳論文獎是由國際多媒體領域資深專家組成的IEEE TMM評獎委員會,根據論文創新性、實用性、時效性、寫作表達等方面,從過去三年發表的所有論文中推薦評選出的唯一最佳論文獎。
高聯麗研究員的論文自2017年發表以來,得到國內外同行廣泛關注,入選ESI高被引論文,獲Google學術引用241次。
該論文研究主題為視頻描述生成(Video Captioning),屬於計算機視覺和自然語言處理的交叉領域,目的是通過算法能夠總結視頻當中發生的一些事情或者記錄一下人類的某些信息,並生成一些符合人類語言規則的描述。
作者發現,當前的大多數方法都是將整個視頻的幀或者片段均等得輸入到算法模型當中,從而忽略了有些視頻幀或者片段其實對視頻內容起著至關重要的作用,有些幀或者片段對整個視頻的影響微乎其微。此外一些方法還因為忽略了句子語義和視覺內容之間的相關性的情況,導致翻譯錯誤,視頻內容和生成句子內容不一致的問題。
為了解決這個問題,作者提出了一個基於注意力長短時記憶網絡的一致性模型,它能夠發掘視頻當中顯著的一些視頻片段來輔助獲取更加具有代表性的視頻內容,同時還能構建語言和視覺信息的一致性,使得生成的句子語義和視頻當中的語義保持一致。
該工作設計了一種基於注意力機制的長短時記憶單元,如上圖所示,在每一次解碼生成單詞的時候,基於注意力的長短時記憶單元都會根據每一幀圖像或者每一個片段視頻的重要性賦予其一個權重,最終加權之後的視覺特徵被作為最終的視覺表徵來幫助預測下一個單詞。這樣的注意力單元能夠幫助模型定位具有特徵表示能力的片段,更加準確的挖掘到重要的視頻內容信息。
為了保證生成句子和視頻內容的一致性,除了現有的從視頻轉化為句子的損失函數之外,該工作又引入了一個視覺和語言的一致性損失函數,以保證兩者表達的語義保持一致,不會出現語義上的偏差,同時創建了一個兩種模態數據交叉關聯的映射函數,將語言和視覺兩種模態的數據通過線性變換映射到一個高維語義空間:
為了構建兩種模態之間的互相關聯,該工作通過一個左乘操作確保統一實例的視覺和單詞特徵在A空間中一致:
其中,
因此能夠通過最小化語義相關度的二範數得分,保證生成的單詞與視頻視覺上下文之間的語義一致性,使句子具有豐富的語義上下文信息。
在實驗驗證階段,工作組分別測試了長短時記憶視覺編碼模塊和語義一致性模塊在模型當中的具體效果,實驗結果如下表所示:
能夠看出兩者對於最終模型都有非常大的貢獻,兩者也是缺一不可。
作者將該工作模型結果和當時最好的一些方法的結果進行了比較,從MSVD數據集的實驗結果來看,該工作模型在各項指標中都取得了當時最好的結果,這也驗證了模型的有效性。
除了量化指標之外,論文作者還展示了一些模型生成句子的一些結果,圖中SA表示的是soft attention方法,GT表示的是groundtruth,是人類針對這些視頻數據進行的標註。從這個可視化圖來看的話,首先表示了該工作增加的語義一致性思想是有效的,它能生成更加準確的句子描述,能更加準確的把握視頻當中的關鍵信息,例如「road」,「singing」等動作。和其他的方法相比的話它的預測也更加準確,更加接近人類的語言描述習慣。
相關連結:
高聯麗研究員累計發表高水平國際論文100餘篇(一作/通訊53篇),Google Scholar引用2289次。在國際頂級期刊和會議(如CCF A類會議、IEEE/ACM彙刊等)上發表論文共計50餘篇,如IEEE T-PAMI、IJCV、 IEEE T-IP、 IEEE T-MM、CVPR、ACM Multimedia、AAAI/IJCAI等。其中入選ESI高被引論文4篇(一作/通信),並獲得IEEE TMM最佳論文獎、國際會議ADC最佳學生論文獎。主持多項國家級和省部級項目,主研國家科技部重點項目一項,自然科學基金面上項目一項等。曾擔任CCF-B會議的ISWC研討會的程序委員會主席,SCI期刊JCVIR特刊的客座編委,APWEB-WAIM會議研討會(workshop)主席(chair)等學術兼職,以及擔任CCF推薦的多個會議和期刊的審稿人。獲2019年阿里巴巴「達摩院青橙獎」(全國僅10名),2020年IEEE TCMC學術新星獎(Rising Star Award),入選2020年四川省「三八紅旗手」。