重磅!百度多模態模型ERNIE-ViL刷新5項任務紀錄 登頂權威榜單VCR

2021-01-08 手機鳳凰網

機器之心報導

機器之心編輯部

近日,百度在多模態語義理解領域取得突破,提出知識增強視覺-語言預訓練模型 ERNIE-ViL,首次將場景圖(Scene Graph)知識融入多模態預訓練,在 5 項多模態任務上刷新世界最好效果,並在多模態領域權威榜單 VCR 上超越微軟、谷歌、Facebook 等機構,登頂榜首。此次突破充分藉助飛槳深度學習平臺分布式訓練領先優勢。據機器之心了解,基於飛槳實現的 ERNIE-ViL 模型也將於近期開源。

多模態語義理解是人工智慧領域重要研究方向之一,如何讓機器像人類一樣具備理解和思考的能力,需要融合語言、語音、視覺等多模態的信息。

近年來,視覺、語言、語音等單模態語義理解技術取得了重大進展。但更多的人工智慧真實場景實質上同時涉及到多個模態的信息。例如,理想的人工智慧助手需要根據語言、語音、動作等多模態的信息與人類進行交流,這就要求機器具備多模態語義理解能力。

近日,百度在該領域取得突破,提出業界首個融合場景圖知識的多模態預訓練模型 ERNIE-ViL。百度研究者將場景圖知識融入到視覺-語言模型的預訓練過程,學習場景語義的聯合表示,顯著增強了跨模態的語義理解能力。ERNIE-ViL 還在包括視覺常識推理、視覺問答、引用表達式理解、跨模態圖像檢索、跨模態文本檢索等 5 項典型多模態任務中刷新了世界最好效果。並在多模態領域權威榜單視覺常識推理任務(VCR)上登頂榜首。

ERNIE-ViL 登頂 VCR 榜單

VCR Leaderboard 最新版。子任務一:Q->A(Question Answering)。子任務二:QA→R(Answer Justification)。綜合得分:Q→AR:模型的綜合表現(兩個子任務都對才得分)。

上小學的時候,「看圖說話」在語文試卷中常年佔據著一席之地。比如給出下面這張圖,讓我們描述圖裡的人物在幹什麼、想什麼、有著怎樣的心情。

同樣,在人工智慧領域,機器也需要具備「看圖說話」 的能力。

如下邊這張圖,出題人問:「右邊的那個人是如何獲得她面前的錢的?」進一步還要回答 「你為什麼做出這樣的推斷?」 也就是說,模型不僅需要識別出圖像中的物體 「人」、「樂器」、「硬幣」,還需要對它們的關係 「人演奏樂器」 等進行理解,並通過 「街頭表演掙錢」 這樣的常識進行推理。

VCR(Visual Commonsense Reasoning,視覺常識推理)就是由十幾萬這樣的圖片和問題組成的數據集。該數據集由華盛頓大學和艾倫人工智慧研究所的研究者聯合創建,考查的是模型的多模態語義理解與推理能力。

微軟、谷歌、Facebook 等科技公司及 UCLA、喬治亞理工學院等頂尖高校都對該任務發起了挑戰。

6 月 24 號,該榜單被再次刷新,來自百度 ERNIE 團隊的 ERNIE-ViL 在單模型效果和多模型效果上都取得了第一的成績,並在聯合任務上以準確率領先榜單第二名 3.7 個百分點的成績登頂,超越了微軟、谷歌、Facebook 等機構。

融合場景圖知識的 ERNIE-ViL

當人們看到上面這張圖的時候,首先會關注圖中的物體(Objects)以及特點屬性(Attributes)和期間的關係(Relationships)。如:「車」、 「人」、「貓」、「房屋」 等物體構成了圖片場景中的基本元素;而物體的屬性,如:「貓是白的」,「汽車是棕色的」 則對物體做了更精細的刻畫;物體間的位置和語義關係,如:「貓在車上」,「車在房屋前」 等,建立了場景中的物體的關聯。因此,物體、屬性和關係共同構成了描述視覺場景的細粒度語義(Detailed Semantics)。

基於此觀察,百度的研究者將包含場景先驗知識的場景圖(Scene Graph)融入到多模態預訓練過程中,建模了視覺-語言模態之間的細粒度語義關聯,學習到包含細粒度語義對齊信息的聯合表示。

如下圖所示,基於文本中解析出的場景圖,ERNIE-ViL 提出了三個多模態預訓練的場景圖預測(Scene Graph Prediction)任務:物體預測(Object Prediction)、屬性預測(Attribute Prediction)、關係預測(Relationship Prediction)。

物體預測:隨機選取圖中的一部分物體,如圖中的「house」,對其在句子中對應的詞進行掩碼,模型根據文本上下文和圖片對被掩碼的部分進行預測;

屬性預測:對於場景圖中的屬性 - 物體對,如圖中的「 」,隨機選取一部分詞對其中的屬性進行掩碼,根據物體和上下文和圖片對其進行預測;

關係預測:隨機選取一部分 「物體 - 關係 - 物體」 三元組,如圖的「 」,然後對其中的關係進行掩碼,模型根據對應的物體和上下文和圖片對其進行預測。

通過場景圖預測任務,ERNIE-ViL 學習到跨模態之間的細粒度語義對齊,如將語言中 「貓」、「車是棕色的」、「貓在車上」 等語義信息對應到圖像中相應的區域。

除以上提出的場景圖預測的任務外,ERNIE-ViL 的預訓練還使用了掩碼語言模型(Masked Language Modelling)、掩碼圖像區域預測(Masked Region Prediction)、圖文對齊(Image-Text Matching)等任務。

實驗結果

研究者通過視覺常識推理、視覺問答等多模態下遊任務,對 ERNIE-ViL 的模型能力進行了驗證。

除了在視覺常識推理任務上取得 SOTA 之外,ERNIE-ViL 在視覺問答、跨模態圖片檢索、跨模態文本檢索、引用表達式理解等任務上也刷新了 SOTA 結果。

引用表達式理解(Referring Expressions Comprehension, RefCOCO+)任務是給定一段自然語言描述,圖像中定位到相關的區域,該任務涉及到細粒度的跨模態語義對齊(自然語言短語與圖像區域),因此更加考查聯合表示對語義刻畫的精細程度,ERNIE-ViL 在該任務的兩個測試集上(testA、testB)對比當前最優效果均提升了 2.0 個百分點以上。

視覺問答(Visual Question Answering,VQA)任務是給定一個圖片以及文本描述的問題,要求模型給出答案。該任務需要對文本和圖像進行更深入的理解和推理,同時該任務裡的問題涉及細粒度的語義(物體、物體屬性、物體間關係),能夠檢驗模型對於場景的理解深度。ERNIE-ViL 在該任務上以 74.93% 的得分取得了單模型的最好成績。

跨模態圖像 & 文本檢索 (Cross-modal Image-Retrieval,IR; Cross-modal Text-Retrieval,TR)任務是多模態領域的經典任務,給定圖像檢索相關的文本以及給定文本檢索相關的圖像。該任務實質上是計算圖像模態和文本模態在語義上的相似度,要求模型同時兼顧整體語義和細粒度語義。ERNIE-ViL 在這兩個任務上分別以 R@1 提升 0.56 個百分點和 0.2 個百分點的結果刷新了 SOTA。

模型分析

百度研究者通過構建多模態完形填空測試實驗,驗證了 ERNIE-ViL 更強的跨模態知識推斷能力:給定一組圖片 - 文本對齊數據,分別將文本中的物體、關係或屬性詞掩碼,讓模型根據上下文和圖片進行預測。實驗表明,在對文中表述細粒度語義的詞(物體、屬性、關係)進行預測時,ERNIE-ViL 表現更為優越,準確率分別提升 2.12%、1.31% 和 6.00%。

同時,論文中給出了完形填空測試的若干實例,從下圖中可以看出,ERNIE-ViL 往往能夠更精確地預測出被掩碼的物體、屬性和關係,而基線模型往往只能預測出原有詞的詞性,但是很難準確預測出具體的詞。

結語

聽懂、看懂、理解環境是人工智慧的重要目標之一,實現該目標的首要任務是讓機器具備多模態語義理解能力。此次百度提出的知識增強多模態模型 ERNIE-ViL,首次將場景圖知識融入多模態模型的預訓練過程,在視覺問答、視覺常識推理等 5 個任務上刷新紀錄,為多模態語義理解領域研究提供了新的思路。除了上述公開數據集效果突破外,ERNIE-ViL 技術也逐步在真實工業應用場景中落地。未來百度將在該領域進行更深入的研究和應用,使其發揮更大的商業和社會價值。

相關焦點

  • 「金猿技術展」文心ERNIE——基於知識增強的語義理解技術
    該技術由百度申報並參與「數據猿年度金猿策劃活動——2020大數據產業創新技術突破榜榜單及獎項」評選。文心(ERNIE)是一個取得世界級突破的語義理解技術與平臺,依託百度的深度學習平臺飛槳打造,將機器理解語言的水平提升到新的高度,全面刷新了各項NLP任務的世界最好效果,取得了諸多權威語義評測比賽的世界冠軍。
  • UNIMO:百度提出統一模態學習方法,同時解決單模與多模任務
    受此啟發,百度提出統一模態學習方法,能夠同時使用大量文本和圖像的單模數據進行學習,並利用圖文對的多模數據進行跨模態聯想對比,通過預訓練獲得統一語義表示,從而在多種理解與生成的下遊任務上超越 ViLBERT、Oscar 等多模預訓練模型以及 RoBERTa、UniLM 等文本預訓練模型,同時登頂視覺問答 VQA 權威榜單。
  • AI算法瞬間學習理解96種語言 斬獲國際權威競賽冠軍
    最近,百度人工智慧模型ERNIE-M,取得自然語言領域最新進展,它通過一個算法可以學習並同時掌握 96 門語言,不僅刷新5項經典多語言理解任務的世界最好成績,還一舉超越谷歌、微軟、臉書,問鼎國際權威多語言理解評測榜單 XTREME,邁出人工智慧領域自然語言處理技術的突破性一步,並在相關真實工業場景中落地,發揮出實際應用價值。
  • 百度正式發布ERNIE 2.0:16項中英文任務超越BERT、XLNet刷新SOTA
    ERNIE 2.0 是什麼如前所述,文本中還有很多非常有價值的信息,為此百度提出持續學習語義理解框架 ERNIE 2.0。該框架支持增量引入不同角度的自定義預訓練任務,以捕捉語料中詞法、語法、語義等信息。這些任務通過多任務學習對模型進行訓練更新,每當引入新任務時,該框架可在學習該任務的同時,不遺忘之前學到過的信息。
  • 中國人工智慧學會2020年度優秀科技成果出爐,百度文心入選
    2019年底,文心(ERNIE)以首次突破90分大關、超越人類得分的成績登頂全球權威數據集GLUE榜單。2020年,文心團隊持續創新,提出基於多流機制的預訓練語言生成技術ERNIE-GEN和知識增強跨模態語義理解技術ERNIE-ViL:ERNIE-GEN在摘要生成、問題生成、多輪問答等自然語言生成任務上取得突破;ERNIE-ViL首次將場景圖知識融入到跨模態的預訓練模型中,登頂多模態領域權威榜單 VCR。
  • 百度ERNIE語義理解開源套件重磅升級 零基礎也能秒變NLP達人
    從模型拉取到執行預測,只需7行代碼,ERNIE開源套件就能用起來!話不多說直接上才藝:如此簡潔易用,得益於本次ERNIE語義理解開源開發套件的全新升級。pip install paddle-ernie新版ERNIE套件最大程度地保證了邏輯的簡潔,整體模型結構核心代碼量較原來減少了41%,並採用了大家熟悉的面向對象設計。
  • 一文讀懂最強中文NLP預訓練模型ERNIE
    Figure 5: ERNIE 1.0 不同的mask 策略說明2.3: ERNIE 2.0 介紹傳統的pre-training 模型主要基於文本中words 和 sentences 之間的共現進行學習, 事實上,訓練文本數據中的詞法結構,語法結構,語義信息也同樣是很重要的。在命名實體識別中人名,機構名,組織名等名詞包含概念信息對應了詞法結構。
  • 達摩院NLP團隊斬獲六項世界冠軍背後,讓AI沒有難懂的語言
    近日,達摩院NLP團隊自研的預訓練模型框架ALICE (ALIbaba Collections of Encoder-decoders), 包括多語言模型VECO、多模態語言模型StructVBERT、生成式語言模型PALM等6大自研模型相繼刷新了世界紀錄,在預訓練模型的競技中處於領先地位。
  • 百度EasyDL全新升級,文心(ERNIE)3項能力助力快速定製企業級NLP模型
    近日,百度文心(ERNIE)重磅發布三項功能,新增定製多標籤文本分類、情感傾向分析模型等功能,同時數據管理能力也進一步增強,更好地滿足自然語言處理(NLP)領域開發者需求,開發者可通過百度AI開發平臺EasyDL進行使用。
  • 自研晶片+自主AI框架,百度CTO王海峰攜百度大腦6.0亮相
    剛剛,百度用AI技術帶我們體驗了一把「穿越」的感覺,面對20年前的自己。今天「百度世界大會」首次與「央視新聞」合作,總臺央視主持人康輝和百度創始人、董事長兼CEO李彥宏、百度CTO王海峰,「5個人」進行了一次特殊的對話。明明只有康輝、李彥宏和王海峰三人,為何會變成「5個人」的對話呢?
  • 如何0代碼、快速定製企業級NLP模型?百度工程師詳解技術選型與模型...
    在多模態領域,我們的ERNIE-ViL(知識增強的視覺語言表示學習)更加強調的是在引入圖像信息的同時,融合了更多知識。即細粒度語義信息抽取,區分普通詞與語義次,構建了物體預測、屬性預測、關係預測三個預訓練任務,聚焦細粒度的語義對齊知識。
  • Gartner最新報告:百度翻譯整合多項AI能力 多模態翻譯助跨國交流
    近日,全球權威的技術研究與諮詢機構Gartner發布最新報告《Market Guide for AI-Enabled Translation Services》,百度憑藉在機器翻譯方面出色的表現強勢入圍全球AI翻譯服務代表性提供商(representative vendor)。
  • 百度大腦奪CVPR2020智能交通頂賽4項世界冠軍,助攻Apollo更強大
    在本屆大會與智能交通關係最緊密的AI CITY Challenge和MOTS Challenge兩大挑戰賽中,百度一舉擊敗阿里、滴滴、卡內基梅隆大學等參賽者,斬獲4項世界冠軍及1個榜單冠軍,並成功衛冕1項冠軍,再度彰顯了百度在「新基建」的大潮下,在智能交通和智慧城市領域領先的技術實力。此外,百度本次奪冠也與飛槳的強力支撐密不可分。
  • 《長夜餘火》登頂起點5大榜單
    上線1小時 1萬收藏、1.6萬推薦票、1萬+評論上線3小時 5萬+收藏、3.8萬推薦票、15萬粉絲、38個盟主上線1天 30萬+收藏、17萬+推薦票、1萬+人打賞、近50萬粉絲>登頂起點5大榜單:角色星耀榜、起點男神榜、日打賞榜、推薦榜、籤約榜 寫作9年、擁有5部完結作品,每部作品成績都以火箭速度直線上升,並憑藉《詭秘之主》頻頻刷新網文圈紀錄的——愛潛水的烏賊,新書《長夜餘火》也不負重望,頻頻創造紀錄。
  • 百度的CVPR2020高光時刻——22篇論文 8項冠軍 2場Workshop
    作為「中國AI頭雁」,百度已多年連續出徵CVPR,驕人成績一如既往。CVPR2020上,大會論文錄取率僅有22%,百度入選22篇論文,較上年增加5篇;在視頻動作分析、動作識別、圖像增強、智慧城市等挑戰賽中,百度與全球科技巨頭同臺競技,斬獲8項世界冠軍,站上計算機視覺「頂流」之席;同時,百度還舉辦2場高水準Workshop,並有多篇Workshop論文被接收。
  • 菲爾普斯與鯊魚衣的天作之合:刷新43項紀錄空前絕後!
    43項紀錄,此舉堪稱空前絕後!在北京奧運會上菲爾普斯一個人獨攬8塊金牌,他的成就轟動了全世界,因為此前沒有人能夠在一屆奧運會上多的8塊金牌的,所以人們開始把目光放在了他所穿的第四代鯊魚皮泳衣身上。由於菲爾普斯在北京奧運會上的出色發揮也讓鯊魚衣第一次受到人們質疑:鯊魚皮泳衣是否應該歸為違禁物品?
  • 百度王海峰出席中國認知計算和混合智能學術大會 深度解析「多模態...
    他是自然語言處理領域最權威的國際學術組織ACL 50多年歷史上唯一出任主席(President)的華人,也是ACL亞太分會(AACL)創始主席。同時,王海峰是百度人工智慧的奠基者和領導者,為百度創建和發展了自然語言處理、知識圖譜、語音、視覺、深度學習等AI核心技術,並成立AI技術平臺體系(AIG)擔任總負責人,致力於AI相關技術的研究及其應用落地。
  • 《藍色星球2》9.9分登頂豆瓣紀錄劇集榜
    《藍色星球2》9.9分登頂豆瓣紀錄劇集榜在剛剛公布的豆瓣2017年度電影榜單中,紀錄片《藍色星球2》以9.9分的超高評分,獲封年度評分最高的紀錄劇集。自開播以來,《藍色星球2》的總播放量已經突破2.2億,豆瓣評分人數過萬。
  • AI晶片、框架、語言與知識、量子計算……百度大腦6.0發布
    吳甜披露最新數據,百度大腦已經開放了273項AI能力,凝聚超過230萬開發者,創建超過31萬模型,並培養了超過100萬AI人才,有力推動了中國AI技術研發、實踐應用與生態建設。英特爾的高級工程師Andres Rodrigus也在演講中提到深度學習框架與硬體配合打出的「組合拳」,可以在AI任務上帶來更高的計算性能與精度。據介紹,第二代英特爾至強可擴展處理器可以為文心(ERNIE)在INT8上獲得3倍的性能提升;第三代英特爾至強可擴展處理器在Bfloat16上更有利於訓練和推理等任務,可提供2倍多的計算性能和計算吞吐量。