北理工&阿里文娛:結合常識與推理,更好地理解視頻並生成描述

2021-01-09 機器之心Pro

機器之心發布

機器之心編輯部

人工智慧頂級會議 AAAI 2020 將於 2 月 7 日-2 月 12 日在美國紐約舉辦,不久之前,AAAI 2020 公布論文介紹結果:今年最終收到 8800 篇提交論文,評審了 7737 篇,接收 1591 篇,接收率 20.6%。本文對北京理工大學、阿里文娛摩酷實驗室合作的論文《Joint Commonsense and Relation Reasoning for Image and Video Captioning》進行解讀。

論文連結:https://wuxinxiao.github.io/assets/papers/2020/C-R_reasoning.pdf

在此論文中,作者們提出了一種聯合常識和關係推理的圖像視頻文本描述生成方法。該方法通過迭代學習算法實現,交替執行以下兩種推理方式:(1) 常識推理,將視覺區域根據常識推理,嵌入到語義空間中從而構成語義圖;(2) 關係推理,將語義圖通過圖神經網絡編碼,生成圖像視頻文字描述。

一、研究動機

圖像視頻的文字描述本質上是視覺到語言 (Vision-to-Language,即 V2L) 的問題。作為視覺理解 (Visual Understanding) 的一個研究方向,連接著視覺與語言,模型需要在理解圖像視頻的基礎上給出描述視覺內容的自然語言語句。該任務在人機互動或者素材檢索中有著重要的應用前景。比如在圖 1(a) 中,老師要求幼兒園或者低年級的小朋友們看圖說故事,具備圖像視頻的文字描述技術的機器可以輔助教學,與小朋友形成互動。在圖 1(b) 中,一個視頻網站的編輯運營人員試圖搜索「易烊千璽跳舞」或者「在海邊散步的戀人」的視頻片段。

圖 1(a)

圖 1(b)

推理視覺關係有助於提高圖像視頻文字描述模型的性能。現有方法 [1-3] 通常使用預訓練的物體或關係檢測器來提取場景圖,再推理圖中各物體之間的關係。該類模型依賴魯棒的物體或關係檢測器,遇到遮擋、小物體等情況會導致檢測結果不準確,進而影響文字描述的生成。在現實生活中,人們可以通過常識(先驗知識)來聯想推理一些不易識別或不可見的事物。如圖 2 所示,人們通常會用「Several people waiting at a race holding umbrellas(一些打著雨傘的人在等一場比賽)」來描述圖中內容,但實際上並不能從圖像中直接觀測到「race(比賽)」這個語義。然而可以通過觀測到的「人群圍在馬路兩旁」來推斷出這是一場比賽。而這個推斷的依據就是「人群圍觀」和「比賽」之間的關聯常識。受此啟發,本文作者提出利用常識引導推斷圖像視頻中的語義關係,進而生成文字語句的描述方法。該方法聯合關係與常識推理,不依賴任何物體或關係檢測器,並且在訓練時也不需要場景圖的標註,這樣的好處是:(1) 通過額外知識的引導,探索獲得難以從視覺信息中學到的物體或關係;(2) 通過端到端的學習,可以保持圖像視頻和文字描述的語義一致性。

圖 2 基於常識推理的圖像視頻文字描述生成示例圖

二、方法

本文提出的聯合推理方法,結合以下兩種推理方式:(1) 常識推理,將圖像視頻區域根據常識推理,嵌入到語義空間中從而構成語義圖;(2) 關係推理,將語義圖通過圖神經網絡(graph convolutional network, GCN)編碼,生成圖像視頻的文字描述。如圖 3 所示,該方法包含三個模塊:視覺映射與知識映射、常識推理、關係推理。在視覺映射與知識映射模塊中,首先稠密採樣圖像或視頻的局部區域,將這些區域根據表觀特徵聚類得到候選語義(即物體、屬性和關係)。然後分別使用視覺映射與知識映射學習候選語義的視覺特徵向量和知識向量。在常識推理模塊中,根據知識圖譜來挑選候選語義組成語義圖。在關係推理模塊中,使用圖卷積網絡和基於序列的語言模型將給定的語義圖經過關係推理得到圖像或視頻的文字描述。

圖 3 聯合常識和關係推理方法示意圖

2.1 視覺映射與知識映射

視覺映射是提取圖像或視頻的局部特徵。首先稠密採樣每個圖像(視頻)的 2D 圖像塊(3D 視頻塊),然後使用預訓練的 CNN 提取特徵,最後將這些特徵聚類,用聚類中心表示候選語義的視覺特徵向量。

知識映射是將圖像(視頻)的候選語義映射到知識空間上。首先,將每個圖像(視頻)的視覺特徵通過多頭注意力機制(multi-head attention mechanism)映射到語義概念空間(每個圖像視頻的真值語義是直接由其真值句子通過詞類標註工具自動得到),得到語義概念;然後學習這些語義概念的知識嵌入(knowledge embedding);最後將知識嵌入向量作為基,語義概念的概率作為權重係數,加權相加後得到圖像(視頻)候選語義的知識向量。

2.2 聯合常識和關係推理

給定圖像(視頻)候選語義的視覺特徵向量和知識向量,迭代執行常識和關係推理訓練視頻(圖像)文字描述模型,如圖 4 所示。

圖 4 迭代執行常識和關係推理示意圖

具體地,常識推理包含語義映射(semantic mapping)和準則(criterion)模塊,語義映射將圖像視頻的視覺特徵和知識向量表達為語義特徵,而常識推理的準則根據 [4] 設置為:

其中 s^h,s^r 和 s^t 分別為頭實體(物體語義),關係(關係語義)和尾實體(物體或屬性語義)的語義特徵,W 為權重矩陣,Re(·) 和 Im(·) 分別表示取實部和虛部。根據該準則來選取三元組構成圖像(視頻)的語義圖。

關係推理由 GCN+LSTM 模塊實現,使用 [5] 提出的 GCN 得到關係敏感(relation-aware)的三元組特徵,將三元組的語義特徵級聯,輸入到 top-down attention LSTM [6] 中得到文字描述。

通過過端到端的方式聯合訓練本文模型,設置目標函數為

其中,

為交叉熵損失,用於學習生成句子;

,指導學習三元組的語義特徵,由常識推理中的準則來度量。

由於使用常識推理準則來構建語義圖是一個「硬分配」任務,直接反向求導優化效果不佳。本文提出迭代推理算法,交替執行基於常識推理的語義圖生成以及利用常識和關係推理的文字描述生成來優化模型,從而使模型的端到端訓練更加穩定,如算法 1 所示。

算法 1

三、實驗

在 MSVD 視頻數據集和 MSCOCO 圖像數據集上進行了實驗。結果如表 1 和表 2 所示。在 MSVD 數據集上的結果表明,即便與使用了檢測器的方法比較,本文方法的性能也十分優越。在 MSCOCO 數據集上,由於檢測器在 MSCOCO 目標檢測集上預訓練,所以檢測結果比較準確。為了公平起見,本文加入了直接使用檢測器提取局部圖像塊的實驗,結果明顯高於所有 state-of-the-art 方法。

表 1 MSVD 數據集上各方法的對比結果

表 2 MSCOCO 數據集上各方法的對比結果

本文還在 MSVD 數據集上進行了消融實驗,結果如表 3 所示。其中「Anderson et al. (2019)」是 baseline 方法,相當於本文方法去掉了常識和關係推理;「Ours w/o CR」方法直接使用預訓練檢測器,來代替常識推理生成語義圖;「Ours w/o RR」方法是去掉了關係推理,即 GCN。實驗結果表明了本方法各個模塊的有效性,值得注意的是,「Ours w/o CR」方法的性能甚至低於「Anderson et al. (2019)」,可見在視頻上使在圖像域預訓練的檢測器得到的語義圖直接進行關係推理會導致性能下降。

表 3 MSVD 數據集上消融實驗的結果

本文還展示了 MSVD 數據集和 Youku-VC 視頻中文描述數據集的定性實驗結果,如圖 5 所,其中「o-r-o」和「o-r-a」分別表示語義圖中的「物體-關係-物體」和「物體-關係-屬性」。由圖可見,本文方法可以推斷識別出一些不易檢測(遮擋,小尺寸)的物體,如圖 (b) 中的「makeup」,(d) 中的「woman」,和 (f) 中的「話筒」。

圖 5 MSVD 和 Youku-VC 數據集上的定性實驗結果

四、總結

本文提出了一種聯合常識和關係推理的方法用於圖像視頻的文字描述生成。該方法利用先驗知識交替迭代執行常識推理和關係推理,生成語義圖來學習物體之間的語義關係,從而準確描述圖像視頻的內容。在圖像和視頻數據集上的實驗表明,該方法優於其他最新方法。

參考文獻[1]Li, X.; and Jiang, S. Know more say less: Image captioning based on scene graphs. IEEE TMM, 2019.[2]Yao, T.; Pan, Y.; Li, Y.; and Mei, T. Exploring visual relationship for image captioning. ECCV, 2018.

[3]Yang, X.; Tang, K.; Zhang, H,; and Cai, J. Auto-encoding scene graphs for image captioning. CVPR, 2019.[4]Trouillon, T.; Welbl, J.; Riedel, S.; Gaussier, .; and Bouchard, G. Complex embeddings for simple link prediction. In ICML, 2018.

[5]Johnson, J.; Gupta, A.; and Fei-Fei, L. Image generation from scene graphs. CVPR, 2018.

[6]Anderson, P.; He, X.; Buehler, C.; Teney, D.; Johnson, M.; Gould, S.; and Zhang, L. Bottom-up and top-down attention for image captioning and visual question answering. In CVPR, 2019.

相關焦點

  • 阿里大文娛或將重建土豆視頻 對標是嗶哩嗶哩?
    1月5日,有消息稱阿里大文娛將重建土豆視頻,目前正在前期調研階段。據了解,在《土豆視頻重建項目用戶喜好調研》問卷中,有問題是「你喜歡的快看UP主風格」、「你喜歡的快看段視頻呈現方式」以及「你喜歡的up主(至少3個)」,其中的關鍵詞「快看」和「up主」,可以看出土豆視頻重建的方向似乎向嗶哩嗶哩(BILI.US)靠攏。紅星資本局從阿里大文娛的內部人士處獲悉,項目目前是想走年輕化路線,但還處於前期階段,只有個基礎方向。
  • 蝦米音樂被迫關停,阿里大文娛難辭其咎|阿里巴巴|大文娛|蝦米|網易...
    同樣以QQ音樂為例,騰訊視頻在今年自製了大批選秀綜藝《創造營》、《明日之子》這其中大量的參賽歌曲、成名曲、新作品在QQ音樂中同步上傳,在整個生態內形成一條產業鏈,甚至免去了版權費。騰訊文娛內部的聯動也是QQ音樂更受年輕人歡迎的重要原因。這也就透視出了,蝦米背後的阿里大文娛也正處於同樣水深火熱的局面。
  • 文娛百草枯?蝦米音樂宣布關停,阿里「大文娛」戰略擱淺
    天天動聽被阿里收購後併入「阿里音樂」,千千靜聽被百度收購併改名「百度音樂」,此後又被更名「千千音樂」。 蝦米的關停,意味著阿里野心勃勃的「大文娛」戰略失敗,「阿里大文娛」戰略包括蝦米音樂、UC瀏覽器、優酷、書旗小說等平臺。
  • 阿里文娛大魚號詳解2017發展重點 構建全新大魚體系
    據透露,大魚號將構建全新大魚體系,打造真正的自媒體生態,集海量用戶、多個超級產品、數字內容全形態的阿里文娛媒體矩陣正在形成。「做好服務、做好賦能、做好規則、做好打通」,這是周曉鵬在沙龍上提出的2017年大魚號發展「十六字訣」,強調用阿里大魚生態與內容創作者共同成長。吳越透露,平臺將進一步打造生態式的大魚體系,通過提昇平臺服務,採取「投補結合」扶持等方式,抓平臺生產、促帳號成長。
  • 搭建阿里大文娛電影矩陣,淘票票×優酷創造「無限觀影好時光」
    4月19日,阿里影業與抖音達成短視頻營銷戰略合作,雙方將在未來一年內進行資源整合,在短視頻領域展開更多電影宣發層面的合作。
  • ChinaJoy2018西伯利亞攜阿里文娛和玖的亮相
    ChinaJoy2018首日 西伯利亞攜手阿里文娛和玖的為玩家送福利作為一年一度的全球數碼互動娛樂盛會,2018年第十六屆ChinaJoy將於今天(8月3)日在上海新國際博覽中心正式開幕。本屆展會預計觀展人數將再次度突破30萬人次,BTOB預計交易額將突破5億美金,展會規模將再創歷史新高。
  • S.K.Y天空少年首支單曲《BURN》燃炸上線,阿里文娛引航偶像賽道
    七位青春洋溢的少年以「文娛少年夢想官」身份正式加入酷漾娛樂,成為阿里文娛大家庭中的一份子。阿里文娛同時攜手合作夥伴為S.K.Y天空少年揭曉《時尚先生fine》電子刊、「UCCA藝術體驗官」以及舒客代言等多重出道資源,加磅少年們夢想啟航。作為2020年唯一一檔男生選拔節目,《少年之名》是優酷持續布局偶像綜藝賽道的一次積極探索。
  • 人工智慧生成虛擬人物照
    為幫助軟體更好地識別圖片中的人,Googl e、Facebook等公司在多年之前就已經開始使用這種人工神經網絡。現在,研究人員又開發出了一種名為「生成對抗網絡」的新型人工神經網絡,它由一個能生成圖像的生成器網絡和一個負責評價圖像真偽的鑑別器網絡組成。 「要讓神經網絡學會識圖,需要經過數百萬張圖片的訓練。
  • 優酷起訴咪貓視頻:內容違規屢遭處罰,背靠阿里仍難乘涼?
    此前7月份,北京知產法院審結了一起不正當競爭糾紛案,案件涉及免費觀看VIP視頻資源、屏蔽視頻廣告的問題。訴訟雙方正是優酷和萬凱達公司,後者經營了一款叫做"電視控"的軟體,可將手機中播放的視頻投屏到電視觀看,同時屏蔽原視頻片頭的廣告,而且普通用戶也可以直接觀看優酷VIP視頻資源。優酷公司認為此舉涉嫌不正當競爭,將萬凱達公司訴至法院。
  • 「吃豆人」周邊預售破億,解密阿里影業衍生品生意
    2數據渠道支持下的IP價值放大器阿里影業的衍生品業務肩負著阿里大文娛娛樂電商整合開發的使命,此前董方團隊嘗試探索著不同的路線,經過一年的打磨,阿里影業的衍生品業務回歸更為擅長的平臺定位。這也是阿里和其他衍生品市場的玩家不同——作為平臺方的阿里衍生業務擁有全行業的商家庫與淘系流量,自帶連接線上線下的渠道。
  • 江湖傳聞蝦米音樂關閉,阿里「魔咒」再現?
    隨後機器會不斷細分採集並記錄你的行為標籤,從而讓你喜歡看的內容越來越精準,可能最後細化到只給你推送」某個明星「的相關新聞或者視頻。蝦米的最後一絲優勢也蕩然無存。阿里沒有內容基因?前段時間,王興在飯否上表示:「阿里放棄大文娛已經是一件可以開始倒計時的事了。」
  • 阿里集團大文娛牽手上海經佳文化打造新娛樂產業園
    中國經濟網北京1月18日訊(記者 裴珍珍)阿里集團大文娛與上海經佳文化產業投資股份有限公司於近日在北京籤訂戰略合作協議,雙方將聯手打造「新娛樂產業園」,為傳媒巨頭產業鏈上的中小企業定製功能獨特的 「保姆式」園區綜合服務。
  • 大學副教授入職阿里當客服,每天給「雲小蜜」上課
    對於他而言,電腦程式語言,以形式化的方式定義詞彙、語法和語義,結構嚴整,沒有歧義,比天馬行空的文學語言更好理解。2006年,布生帶領同事,在半年內完成「面向新聞的話題發現與跟蹤系統」開發,並於2010年獨立開發第二版。據說,這個系統能產生類似百度新聞的聚類效果,為體育、財經、娛樂等頻道各產生十個新聞熱門話題。
  • ...幫你做行測題,UCLA朱松純團隊提出關係和類比視覺推理數據集RAVEN
    瑞文測試(RPM)是一項廣泛應用的非文字推理能力測試,屬於漸近性矩陣圖。測試者需要在漸進矩陣圖中根據直接觀察結果進行間接抽象推理。這一測試已得到廣泛認可,並被認為與真實智能高度相關 [7]。與 VQA 不同,RPM 直接位於人類智能中心 [7],是對抽象和結構推理能力的判斷 [9],並且描述了高級智能的定義特徵,即流體智能 [21]。圖 1:(a) RPM 示例。
  • 阿里大魚號專訪:短視頻創作都用起人工智慧了?!
    沒人能擺脫地心引力的約束,也沒有誰能逃避網際網路短視頻的風口。因此,有人瞄準女性用戶需求,深耕美食、旅行、服飾、美妝等小而美的短視頻垂類;也有人另闢蹊徑,選擇了幾乎所有男人天生都抗拒不了的特種兵、汽車領域,通過短視頻可視化特點呈現刀槍熱血、速度激情。
  • 虛擬主播、視頻客服,阿里CCO打造的未來客服太酷了
    昨天,阿里巴巴集團客戶體驗事業群(簡稱:阿里CCO)2020年造風創新大賽落下帷幕,「有問必答」且24小時在線的虛擬主播;有售後問題,開個三方視頻會議就能解決的視頻客服,生動詮釋了未來客服的模樣。而大賽的冠軍項目——Glimmer 無障礙工作檯,將讓視障雲客服們的工作變得更簡單,也能為更多視障人士提供就業機會。
  • 阿里創作平臺大魚號 雙11「花樣」賦能創作者
    據悉,阿里大魚號意欲在每年10月底至11月期間打造「阿里專屬創作時間」,在全民剁手狂歡之時,將整合阿里系資源,對創作者花樣賦能、加碼賦能,激發創作活力。「大魚創作狂歡季」也將成為大魚創作者的年度節日。
  • 它正在學習根據文字生成...
    它們雖然具備一定的預測能力,但並不足以生成符合語法和常識的長句子。BERT 通過引入一種稱為 「masking(遮罩)」 的新技術,使模型這方面的能力得到了大幅加強。 模型會被要求完成類似下面的填空題: 這位女士去___鍛鍊。