...VTT競賽蟬聯冠軍?人民大學金琴老師分享奪冠經驗 | ACMMM 2017

2020-12-08 雷鋒網

雷鋒網消息:上周在加州山景城舉辦的ACMMM 2017大會上,來自中國的研究者表現出色,不僅拿到了今年ACMMM的最佳論文,還在MSR Video to Language Challenge(MSR-VTT)、Social Media Prediction (SMP)等多項競賽中取得第一。值得一提的是,來自人民大學的衛冕冠軍金琴團隊是在去年舉行的第一屆MSR-VTT奪得冠軍後,今年再度取得了主觀人工評測和客觀性能評測的雙冠軍。

關於競賽

MSR Video to Language Challenge (MSR-VTT)是由微軟主辦的視頻標註競賽。自2016年來已連續舉辦兩屆,其任務為自動地為短視頻生成自然語言視頻內容描述,今年共有全球57支隊伍註冊參加。

今年的MSR-VTT挑戰賽要求參賽者根據所提供的MSR-VTT數據集和利用其它數據,識別廣泛的對象、場景和事件,並開發從視頻到自然語言的系統。比賽要求系統為每個測試視頻生成至少一個句子,評測階段則分為兩部分,在客觀評測部分將會通過BLEU@4, METEOR, ROUGE-L及CIDEr等多個常用標準來進行計算評估,在主觀評測部分將與預先由人類生成的「答案」進行比較,從語法、正確性、相關性、對盲人的幫助(額外加分項)等四方面進行評分。

這對於人類來說是小事一樁的任務,但在計算機視覺領域,視頻標註需要在視頻信息和文本信息兩種不同形式的信息之間進行「翻譯」,對計算機來說算是不小的挑戰。在團隊發表的論文「Knowing yourself: improving video caption via in-depth recap」中,金琴老師對VTT任務的現狀進行了完整的回顧和分析,並創新地提出了基於隱含主題指導的視頻內容描述生成模型,並根據視頻的不同分類,通過融合(Ensemble)和排序(Reranking)等方法綜合描述模型,在MSR-VTT數據集上取得了優秀的效果,並對模型的通用泛化能力和「距離人類水準的距離」進行了分析,為今後該任務的發展和需要解決的重點問題提供了方向,該論文也獲得了Best Grand Challenge Paper Award。

在大會結束後,雷鋒網也聯繫了金琴老師就本次奪冠的經驗進行了分享。


雷鋒網(公眾號:雷鋒網)(以下用Q代表):恭喜你們蟬聯ACMMM MSR Video to Language Grand Challenge的冠軍,有什麼感想可以分享一下呢?

金琴(以下用A代表):謝謝!感謝ACM Multimedia和MSR組織這樣的公共挑戰賽,為促進Video to Language的研究提供了很好的數據和評測平臺。很開心我們蟬聯該項Grand Challenge的冠軍,一份耕耘一份收穫,這是對我們團隊紮實做研究的獎勵。我希望大家繼續保持對研究的激情和嚴謹,持續做出更好的研究發現。

 

Q:可以介紹奪冠團隊中的幾位成員以及大家的工作情況嗎?

A: 這次參賽隊伍主要成員包括陳師哲和陳佳。陳師哲是我的博士生,現在剛進入博士三年級。陳佳目前在卡內基梅隆大學Alex Hauptmann教授課題組做博士後,我們有多年的合作。

 

Q:今年的比賽任務和去年相比有什麼不同,存在哪些難點?

A: 今年延用了去年的訓練數據集,但是測試數據集是重新採集的,比去年的測試集更大。在去年的任務中,訓練集和測試集中有些視頻片段是節選自同一個長視頻,而今年新的測試集和訓練集完全沒有任何交集,類似於跨數據集去驗證caption系統了,因此對模型generalization的要求更高。

 

Q:針對上述不同,您的團隊今年做了哪些針對性的調整?解決問題的具體步驟是什麼樣的呢?

A: 我們主要從三個方面提高模型的泛化能力:第一個是訓練數據的擴充。模型見過的訓練數據越多,性能也會隨之提升。但由於video caption數據的標註代價很高,現在並沒有很大規模的video caption數據集,我們只補充了msvd和trecvid兩個數據集,視頻數量大約是原有訓練數據的三分之一。第二個是新模型的提出(topic-guided caption model)。網際網路上視頻涵蓋了各種各樣不同的主題內容,這種主題的多樣性會影響視頻內容描述的生成。一方面不同主題下視頻中不同模態的貢獻度不一樣,例如音樂類視頻中音頻信號比較關鍵而在運動類視頻中視覺動作更為重要,另一方面在不同主題下使用的詞彙和表達方式會不一樣,因此不能用同一模型刻畫出句子的多樣性。因此,我們提出了基於隱含主題指導的caption模型,隱含主題是因為數據集中並沒有視頻的主題信息,需要自動地去挖掘視頻主題,這個模型可以生成主題相關的更加準確更加細節的視頻描述,同時泛化性能也大大提高。最後一個改進是對不同模型的融合,我們發現並沒有一個one king to rule them all的模型,不同模型在不同視頻上還是有互補性的,因此我們利用wisdom of the crowd,提出了主題敏感的ensembling和reranking方法來融合不同模型,提高整體系統的穩定性和效果。

 

Q:在參賽中你們還遇到了什麼問題,如何解決的?

A: 在現有的caption相關論文中大家往往使用的不是同一個數據集或者相同特徵,因此沒有在同樣的一個大數據集上,不同caption模型以及不同特徵的公平比較。對於caption而言,到底是更強的特徵還是更強的模型更重要,沒有答案。所以我們嘗試了現有的很多模型,在一個公平的比較方式上衡量不同模型性能,然後我們發現很多模型在特徵變強了以後提升就小了,甚至有些沒有提升。這也對現有研究提出了一個挑戰,就是要在一個更強的baseline上去改進模型,像模型和特徵的一個互相博弈過程。

 

Q:目前該領域中最厲害的方法與人類有多大的差距?下一步的有哪些研究重點?

A:在msrvtt數據集上我們試著回答了一下這個問題。我們用人工的描述ground truth估計了人類的caption平均性能。在caption任務的幾個客觀評價指標上,我們的系統和人類平均水平基本持平,有些指標上高於人類,有些指標上與人類相差不多。但這並不意味著我們攻克這個任務了。一方面,現有的評價指標還不能很好衡量句子的質量,說一句general但沒有太多信息量的話評測會高,另一個重要方面就是模型的泛化性能和人的差距較大。因此,下一步會針對提高caption模型的泛化能力、表達能力(生成更細節更生動的描述)等方面進行研究突破。

 

Q:你們團隊在大會第一天的Audio/Visual Emotion Challenge and Workshop(AVEC 2017)中也奪得了Affect Sub-Challenge的冠軍,你們在這兩個比賽中使用了哪些相同的方法和技巧嗎?

A: 這是兩個很不同的任務,每個任務要做到好的performance都必須針對任務提出好的解決方法。但有一些基本的模型還是可以通用的,例如時序模型LSTM在兩個任務中都很重要,另外有些思路兩個任務都可以互相借鑑,比如多任務學習等。


雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • ACMMM大會第三天總結:多項獎項公布,中國學者表現搶眼 | ACMMM 2017
    在中午的Business Lunch環節,大會還頒發了最佳論文、最佳學生論文、最佳Demo、最佳博士論壇學生、最佳編輯及競賽頒獎等多個獎項,其中最受關注的最佳論文由電子科技大學申恆濤團隊的《Adversarial Cross-Model Retrival》獲得。
  • 學霸故事分享:她從南華大學保研復旦大學,分享這些經驗、心得!
    》——2018年《電子技術》《基於無線傳感技術的生物體PH監測儀的研究》——2018年《科技風》《核輻射探測器的現狀及其展望》——2017年國家級期刊《求知導刊》《新型半導體溫差發電技術在實驗室中的發現》——2017年國家級期刊《求知導刊》競賽經歷2016年南華大學「大學生思想政治理論課微視頻、微評論展示活動」獲三等獎2017年南華「大學生研究性學習和創新性實驗計劃」項目名稱
  • 北京交通大學獲第35屆ACM/ICPC亞洲區預賽金獎
    中國教育網訊,日前,在第35屆 ACM/ICPC亞洲區預賽哈爾濱賽區競賽中,北京交通大學ACM代表隊奮勇拼搏,勇創佳績,獲得了亞洲區預賽哈爾濱賽區金獎。  ACM-ICPC是由ACM(Association for Computer Machinery,美國計算機協會)主辦的面向大學本科生的國際性程序設計競賽(International Collegiate Programming Contest,國際大學生程序設計競賽),至今已舉辦了34屆,被稱為大學生的計算機奧林匹克競賽。
  • 蟬聯奧運冠軍並19破世界紀錄後 羽生結弦從早稻田順利畢業了
    蟬聯奧運冠軍並19破世界紀錄後 羽生結弦從早稻田順利畢業了 今天故事的主題是「 羽生結弦畢業了
  • 票房狂轟22.63億,連續4周蟬聯冠軍,又一部恐怖片轟動整個好萊塢
    最新出爐的全球周末票房榜《雪怪大冒險》又以3862萬美元力壓環球影業《夜校》奪冠,海外榜《修女》連續4周蟬聯冠軍創下偉大壯舉。華納《雪怪大冒險》北美4131家戲院開畫,票房進帳2302萬美元不敵《夜校》2800萬美元屈居亞軍,不過它憑藉海外票房加成全球登頂。海外周末49個市場收得1560萬美元,其中墨西哥360萬美元,澳大利亞140萬美元,巴西130萬美元。
  • 奧林匹克競賽獲冠軍,能保送清華北大嗎?答案很現實
    這兩天中國隊在奧賽奪冠再次刷爆了朋友圈。在英國巴斯舉辦的第60屆國際數學奧林匹克競賽,中國隊和美國隊以227分並列第一名,這次奪冠是中國繼2014年後再度獲得團隊冠軍。奧林匹克競賽是由中國科學技術協會主辦的智力競賽活動,為在某一方面有特殊天賦的學生提供平臺,創造機遇,讓更多優秀的青少年脫穎而出,為國家選拔並培養頂尖人才,是全國中學生競賽中級別最高、規模最大、最具影響力 的賽事。奧林匹克競賽有數學、物理、化學、生物和信息學5大門類,舉辦幾十年來,深受學生和家長歡迎,是一項很有權威性和影響力的賽事。
  • ACM國際大學生程序設計競賽將於杭州召開
    據悉,本屆論壇得到了阿里巴巴集團的大力支持,屆時來自全國五個省市近百所高校的逾百名院長、老師與程序設計高手將匯聚杭州。  此前,阿里巴巴集團與全國多所院校已展開合作,針對這些合作院校的計算機相關專業的學生提供阿里巴巴集團子公司的實習崗位,讓學生在走出校園前就已掌握大型網際網路公司對各個技術崗位的要求,便於其在職業生涯的規劃上增加前瞻性視角。
  • ARM設計競賽 虎尾科大與臺科大雙奪冠
    歷經三個月的創意激蕩與實作挑戰,ARM Design Contest設計競賽冠軍由來自國立虎尾科技大學資訊工程系的「來望星星的你」隊伍,以作品「智慧望遠鏡」拿下本年度 Cortex-M 組冠軍寶座;國立臺灣科技大學電子工程系「貝思特桂圓蛋糕」,則以作品「基於 Cortex-A 的手術模擬訓練系統」一舉奪下Cortex-A組冠軍。
  • 票房狂收20億,連續3周蟬聯冠軍,好萊塢年度最佳恐怖片誕生
    第38周全球票房榜出爐,國內周末恰逢中秋節假期,不過國產片票房表現不佳,周末全球票房冠軍依舊由好萊塢大片蟬聯。錢嘉樂導演,鄭伊健,陳小春等主演《黃金兄弟》內地票房未能大爆,周末3天僅收1.57億元(約2291萬美元)排名全球榜第四位。
  • 浙大獲ACM國際大學生程序設計競賽總決賽冠軍
    美國當地時間5月30下午2時,第35屆ACM國際大學生程序設計競賽全球總決賽在佛羅裡達州的奧蘭多揭曉,由浙大計算機學院巫澤俊、歐陽嘉林和數學系莫璐怡三位同學組成的
  • 愛奇藝攜手ACM MM舉辦2019"多模態人物識別競賽"
    3月8日,愛奇藝與全球多媒體領域頂尖會議ACM International Conference on Multimedia (以下簡稱ACM MM)聯合舉辦多模態人物識別競賽官網正式上線。
  • 愛奇藝攜手ACM MM舉辦2019「多模態人物識別競賽」
    3月8日,愛奇藝與全球多媒體領域頂尖會議ACM International Conference on Multimedia (以下簡稱ACM MM)聯合舉辦多模態人物識別競賽官網正式上線。作為全球多媒體領域頂級競賽的一部分,此次愛奇藝將於3月18日向全球參賽者開放最接近實際媒體應用場景的視頻人物數據集(iQIYI-VID-2019),更具挑戰性。愛奇藝攜手全球頂尖研究團隊探索視頻應用場景的多模態人物識別技術進一步突破。
  • 浙江這所非著名大學如何與985名校抗衡? ACM逆襲!
    基本上是同樣的題目,到了大學階段則叫ACM—ICPC,是由美國計算機協會主辦的全球性程序設計競賽,被譽為「大學裡難度最高的學科競賽之一」,採取的是「三個人組隊5小時做10—13道題目」的考法,一般前十道題相對容易一些,後三道題超難,比信奧題都難。高中階段被推至神壇的信奧,到了大學階段以ACM的面目,被更多的勇於挑戰的學生所熟知擁抱。
  • NIPS 2017競賽全回顧:「NIPS史上最長Workshop」有何魅力?
    該演講內容雷鋒網將在後續進行整理和分享。(Dawn Song在演講中)該競賽的冠軍是來自清華大學的TSAIL團隊,董胤鵬代表團隊介紹了競賽的經驗。清華大學的龐天宇和約翰霍普金斯大學的謝慈航也作為另外兩隻優勝隊伍代表介紹了各自的方法。(清華大學TSAIL團隊董胤鵬在演講中)隨後進行介紹的第二個競賽是「Learning to Run」。
  • 瀋陽城市學院蟬聯機器人世界盃足球機器人·類人組中國賽冠軍
    4月21日,持續3天的2019RoboCup機器人世界盃中國賽在浙江紹興落下帷幕,瀋陽城市學院代表隊在足球機器人·類人組項目比賽中戰勝2018年世界排名第四的浙江大學隊,以中國賽區第一名的成績,進軍7月份在雪梨舉辦的世界盃總決賽
  • 永遠的女排精神——《中國年鑑》四十年全景記錄中國女排「奪冠...
    2020年9月25日,《奪冠》全國公映,兩天票房過億,燃哭無數觀眾。《奪冠》講述了幾代中國女排的奮鬥歷程以及她們歷經浮沉不屈不撓、頑強拼搏為國爭光的感人故事,展現出時代變化中「祖國至上、團結協作、頑強拼搏、永不言敗」的女排精神。
  • 全球超算500強榜單出爐:日本「富嶽」蟬聯冠軍,基於ARM架構運算...
    全球超算500強榜單出爐:日本「富嶽」蟬聯冠軍,基於ARM架構運算性能破紀錄  Evelyn Zhang • 2020-11
  • NIPS 2017 | 清華大學人工智慧創新團隊在AI對抗性攻防競賽中獲得冠軍
    清華大學張鈸院士帶領的人工智慧創新團隊在 NIPS 2017 AI 對抗性攻防競賽中獲得冠軍(指導教師:朱軍、胡曉林、李建民、蘇航
  • ACM全球冠軍、依圖科技聯合創始人:想奪冠的隊伍是沒有陪練的
    1997年考入上海交通大學材料學院,2000年轉入計算機系,2002年為交大奪得ACM全球大學生程序設計競賽總決賽首個冠軍,打破亞洲零紀錄。2005年加入微軟亞洲研究院。2008年進入阿里雲任技術總監,搭建中國首個擁有自主智慧財產權的分布式計算平臺「飛天」。2012年與同學朱瓏一起聯合創立「依圖科技」開始了人工智慧領域的探索和實踐。
  • [專稿]一周內地票房綜述:《007》蟬聯票房冠軍
    [專稿]一周內地票房綜述:《007》蟬聯票房冠軍 時間:2008.11.19 來源:1905電影網 作者:未知 分享到: