AI看圖說話首超人類!微軟認知AI團隊提出視覺詞表預訓練超越...

2020-12-06 TechWeb

能看圖會說話的AI,表現還超過了人類?最近,Azure悄然上線了一個新的人工智慧服務,能精準的說出圖片中的內容。而背後的視覺詞表技術,更是超越了基於Transformer的前輩們,拿到nocaps挑戰賽冠軍。

有沒有發現,搜索出來的圖片有時相關性很差?

現在很多搜尋引擎都是基於圖片的文本標籤,但是我們的世界每天產生不計其數的照片,很多都沒有標記直接傳到了網上,給圖片搜索帶來了很多混亂。

如果系統能自動給圖片加上精準的描述,圖像搜索的效率將大為提高。

看圖說話的AI:基於模板和Transformer都不盡如人意

看圖說話(或者叫圖像描述),近年來受到了很多關注,它可以自動生成圖片描述。但是目前無論是學術界還是工業界,做的效果都差強人意。

看圖說話系統一方面需要計算機視覺進行圖像的識別,另一方面需要自然語言來描述識別到的物體。帶標籤的圖片可以針對性訓練,那如果出現了從未標註的新物體,系統是不是就失效了?

這個問題困擾了人們很久,即描述清楚一個新出現的東西。

人工智慧領域驗證一個模型的好壞,通常會用一個基準測試。比如NLP方向會用GLUE、SuperGLUE等,圖像識別會用ImageNet等。

為了測試模型能否在沒有訓練數據的情況下完成看圖說話,nocaps應運而生。nocaps可以衡量模型能否準確描述未出現過的物體。

傳統的看圖說話方法主要有兩種:一種是模板生成,一種是基於 Transformer 的圖像文本交互預訓練。

模板生成方法,在簡單場景下可以使用,但無法捕捉深層次的圖像文本關係,而基於Transformer的模型又需要海量的標註數據,所以不適合nocaps。

為解決這些問題,微軟認知服務團隊的研究人員提出了一種名為視覺詞表預訓練(Visual Vocabulary Pre-training,簡稱VIVO)的解決方案。

無需配對圖文數據,VIVO看圖說話奪冠nocaps首次超越人類

VIVO可以在沒有文本標籤的數據上進行文本和圖像的多模態預訓練,擺脫了對配對圖文數據的依賴,可以直接利用ImageNet等數據集的類別標籤。藉助VIVO,模型可以學習到物體的視覺外表和語義之間的關係,建立視覺詞表。

這個視覺詞表是啥呢?其實就是一個圖像和文本的聯合特徵空間,在這個特徵空間中,語義相近的詞會聚類到一起,如金毛和牧羊犬,手風琴和樂器等。

預訓練建好詞表後,模型只需在有少量共同物體的配對圖文的數據上進行微調,模型就能自動生成通用的模板語句,使用時,即使出現沒見過的詞,也能從容應對,相當於把圖片和描述的各部分解耦了。

所以VIVO既能利用預訓練強大的物體識別能力,也能夠利用模板的通用性,從而應對新出現的物體。

Azure AI 認知服務首席技術官黃學東解釋說,視覺詞表的預訓練類似於讓孩子們先用一本圖畫書來閱讀,這本圖畫書將單個單詞與圖像聯繫起來,比如一個蘋果的圖片下面有個單詞apple,一隻貓的圖片下面有個單詞cat。

視覺詞表的預訓練本質上就是訓練系統完成這種動作記憶。

目前,VIVO 在 nocaps 挑戰中取得了 SOTA效果,並首次超越人類表現。

VIVO取得成功可不僅僅是挑戰賽的SOTA,目前已經有了實際應用。

看圖說話SOTA已上線,AI不能一直處於灰色的迭代

據世界衛生組織統計,各年齡段視力受損的人數估計有2.85億人,其中3900萬人是盲人。

實力受損的用戶想要獲取圖片和視頻中的信息,就要依靠自動生成的圖片描述或字幕(或者進一步轉化為語音),他們非常相信這些自動生成的描述,不管字幕是否有意義。

「理想情況下,每個人都應該在文檔、網絡、社交媒體中給圖片添加描述,因為這樣可以讓盲人訪問內容並參與對話。」但是,這很不現實,很多圖片都沒有對應的文本。

Azure AI 認知服務公司首席技術官黃學東說: 「看圖說話是計算機視覺的核心能力之一,可以提供廣泛的服務」。

現在VIVO看圖說話的能力已經集成到了Azure AI中,任何人都可以將它集成到自己的視覺AI應用中。

黃學東認為, 把VIVO的突破帶到 Azure 上,為更廣泛的客戶群服務,不僅是研究上的突破,更重要的是將這一突破轉化為 Azure 上的產品所花費的時間。

基於VIVO的小程序Seeing AI在蘋果應用商店已經可以使用了,Azure也已經上線了免費API,供盲人或者視障人士免費使用。如果再加上Azure的翻譯服務,看圖說話可以支持80多種語言。

的確,有太多的實驗室SOTA技術倒在了灰色的不斷迭代中,沒能完成它最初的使命。

看圖說話只是認知智能的一小步,受古登堡印刷機啟發開創新魔法

近年來,微軟一直在尋求超越現有技術的人工智慧。

作為 Azure 認知服務的首席技術官,黃學東所在的團隊一直在探索,如何更全面、更人性化地來學習和理解這個世界。

他認為要想獲得更好的認知能力,三個要素至關重要,單語言文本(X)、音頻或視覺等感覺信號(Y)和多語言(Z)。

 

「我們相信 XYZ-Code正在實現我們的長期願景: 跨領域、跨模式和跨語言學習。我們的目標是建立預先訓練好的模型,這些模型可以學習大範圍的下遊人工智能任務的表示,就像今天人類所做的那樣。」

黃學東團隊從德國發明家約翰內斯·古登堡那裡獲得靈感,他在1440年發明了印刷機,使人類能夠快速、大量地分享知識。作為歷史上最重要的發明之一,古登堡的印刷機徹底改變了社會進化的方式。

古登堡和他發明的印刷機

在今天的數字時代,認知智能的願景也是開發一種能夠像人一樣學習和推理的技術,對各種情況和意圖做出精準推斷,進而做出合理的決策。

在過去的五年裡,我們已經在人工智慧的很多領域實現了人類的平等地位,包括語音識別對話、機器翻譯、問答對話、機器閱讀理解和看圖說話。

這五個突破讓我們更有信心實現人工智慧的飛躍,XYZ-Code將成為多感官和多語言學習的重要組成部分,最終讓人工智慧更像人類。

正如古登堡的印刷機革命性地改變了通信的過程,認知智能將幫助我們實現人工智慧的偉大復興。

看圖說話體驗連結:

https://apps.apple.com/us/app/seeing-ai/id999062298

 

相關焦點

  • 超越BERT、GPT,微軟提出通用預訓練模型MASS
    2018年開始,預訓練(pre-train) 毫無疑問成為NLP領域最熱的研究方向。藉助於BERT和GPT等預訓練模型,人類在多個自然語言理解任務中取得了重大突破。然而,在序列到序列的自然語言生成任務中,目前主流預訓練模型並沒有取得顯著效果。
  • 微軟亞研院提出通用預訓練模型MASS
    5月10日消息,微軟亞洲研究院的研究員在ICML 2019上提出了一個全新的通用預訓練方法MASS(Masked Sequence to Sequence Pre-training),在序列到序列的自然語言生成任務中全面超越BERT和GPT。在微軟參加的WMT19機器翻譯比賽中,MASS幫助中-英、英-立陶宛兩個語言對取得了第一名的成績。
  • 中國最大AI預訓練模型發布:113億參數,北京智源研究院、阿里、清華...
    「文匯」主要面向的是認知,「看圖說話」是它一種基本能力。例如,給出下面一張圖片:嗯,確實有「看圖寫作」的味道了。而在此技術背後,是研究組提出的針對多模態認知生成的大規模預訓練的架構M6:MultiModality-to-MultiModality Multi-task Mega-Transformer。
  • 微軟和谷歌的人工智慧,在SuperGLUE基準測試中超越了人類
    當SuperGLUE剛被推出時,排行榜上表現最佳的模式和人類表現之間有近20個百分點的差距。但截至1月初,有兩個模型:微軟的DeBERTa和谷歌的T5 + Meena——已經成為第一個超越人類基線的模型。
  • 微軟推出機器學習系統Brainwave,超低延遲、堪稱實時AI
    目前,Brainwave支持使用微軟CNTK框架和谷歌TensorFlow框架的訓練模型。 【AI星球(微信ID:ai_xingqiu)】8月23日報導(編譯:福爾摩望)微軟今天推出了一款可以支持高速、低延遲機器學習模型的系統,也預示著微軟開始在專用AI硬體領域嶄露頭角。
  • AI會話能力超越人類!CoQA挑戰賽微軟創新紀錄
    也就是說,人類與這個模型互動更像是與真人之間的交流。CoQA挑戰賽通過理解文本段落,並回答對話中出現的一系列相互關聯的問題,來衡量機器的性能。此次,微軟亞研院NLP團隊和微軟Redmond語音對話團隊聯手組成黃金搭檔參賽。在CoQA挑戰賽歷史上,他們是唯一一個在模型性能方面達到人類水平的團隊!
  • 華人研究團隊推出AI「諷刺」檢測模型,準確率達86%
    早在美國大選之前,Facebook AI Research團隊就開始利用AI語言模型,識別網絡中的虛假信息或仇恨言論,有數據統計,在2020年第一季度,Facebook利用XLM語言模型刪除了960萬條涉及仇恨言論的帖子。
  • 華人研究團隊推出AI「諷刺」檢測模型,準確率達86%
    早在美國大選之前,Facebook AI Research團隊就開始利用AI語言模型,識別網絡中的虛假信息或仇恨言論,有數據統計,在2020年第一季度,Facebook利用XLM語言模型刪除了960萬條涉及仇恨言論的帖子。
  • AI唱歌不僅中英文無壓力,還會粵語!微軟聯手浙大研發出DeepSinger
    聽微軟小冰唱粵語歌會是一種怎樣的體驗?想必你一定聽過最近大火的"AI女團",7月10日,微軟小冰攜手小米小愛、B站冷鳶、百度小度首次集體亮相世界人工智慧大會,以一首AI歌曲《智聯家園》正式「出道」。AI女團的首場演唱會可謂驚豔全場。從整首歌的歌詞、卡點、節奏來看,這首《智聯家園》演唱得不亞於專業音樂團隊。
  • 阿里巴巴、智源研究院、清華大學聯合發布全新AI模型,可賦予AI認知...
    1月12日,阿里巴巴、智源研究院、清華大學等聯合研究團隊發布面向認知的超大規模新型預訓練模型「文匯」。該模型不僅能提升AI的理解能力,還可基於常識實現AI創作,未來將應用於文本理解、人機互動、視覺問答等場景。
  • 一周AI最火論文 | 生成描述性文字的新平臺,用語言加強AI在動態...
    結果:作為這方面研究的首個基準,實驗表明,同樣都是在模擬環境下訓練的模型,當同時對模型在模擬環境和精心構造的真實環境進行測試時,這些模型表現出很大差異性。  為了解決這一難題,本文的研究人員提出通過自監督學習進行單眼6D姿態估計,從而消除對有注釋的真實數據的需求。本文提出的自監督網絡先在合成RGB數據的監督下進行訓練,再利用神經渲染的最新技術對未注釋的真實RGB-D數據進行自監督學習,以尋求最佳的視覺和幾何對齊。
  • 【微軟】大型神經語言模型的對抗性訓練,Adversarial Training
    對抗性訓練可以增強魯棒性,但是過去的工作常常發現它不利於推廣。在自然語言處理(NLP)中,預訓練大型神經語言模型(例如BERT)在針對各種任務的通用化方面顯示出令人印象深刻的收益,而從對抗性微調中得到了進一步的改進。但是,這些模型仍然容易受到對抗性攻擊。在本文中,我們表明對抗性預訓練可以同時提高泛化性和魯棒性。
  • 騰訊提出NumNet+模型,超越谷歌登DROP排行榜第一名
    新智元楊靜、科大訊飛胡鬱、微軟王永東、華為王成錄、英特爾宋繼強、曠視及智源學者孫劍、滴滴葉傑平、AWS張崢、依圖顏水成、地平線黃暢、autowise.ai黃超等重磅嘉賓中關村論劍,重啟充滿創新活力的AI未來。
  • AI和ML(NLP、計算機視覺、強化學習)技術總結和19年趨勢(上)
    我將在本文中介紹自然語言處理(NLP)、計算機視覺、工具庫、強化學習、走向合乎正道的人工智慧2、自然語言處理(NLP)讓機器分析單詞和句子似乎是一個夢想,就算我們人類有時候也很難掌握語言的細微差別,但2018年確實是NLP的分水嶺。
  • Facebook AI 正在升維突破:教AI像人類一樣理解三維世界
    研究團隊相信,通過加強對三維物體的了解,AI 可以更緊密地連接二維和三維世界,在計算機視覺領域扮演更重要的角色,推動 3D 列印、AR 和 VR 等技術在現實生活中的進步,將這些技術拓展到更廣泛的任務上,最終像人類一樣理解三維世界。
  • 全球三十大最佳 AI 創業公司公布
    公司主要業務是為企業客戶和開發人員解決視覺領域的問題與挑戰。Clarifai 提供 API 類型的工具,Clarifai 的視覺識別 API 可以識別超過 11,000 種不同內容的照片和視頻,公司同時也提供應用於特定領域的識別工具。
  • NeurIPS|既能理解又能生成自然語言,微軟提出統一預訓練新模型
    選自arXiv作者:Li Dong、Nan Yang、Wenhui Wang 等機器之心編譯參與:Panda自然語言是人工智慧正在攻克的一大難關,而微軟的研究者最近發布了一種統一的預訓練語言模型 UniLM
  • 夏日專刊AI產品上新升級集錦,50餘項軟硬能力加速場景落地
    &hmsr=aibanner&hmpl=8.18 智能招聘方案新增簡歷畫像功能,開放邀測依託百度 TIC 團隊在招聘方向的深耕,同時結合百度自然語言處理、百度文字識別的 AI 能力,提供多項招聘功能。
  • 美國領跑AI創新?福布斯全球AI 創企Top 50
    36.CROWDFLOWER這是一個對數據科學團隊很重要的人類幹預訓練平臺,幫助客戶生成高質量的自定義訓練數據。36.RAPIDMINERRapidminer是業界第一大開源數據科學平臺。通過授權所有組織提供數據來修整行業科學背後的決定。
  • 這個AI算法神了,可同時學習96門語言,還拿下多項世界第一
    最近,百度人工智慧模型ERNIE-M,取得自然語言領域最新進展,它通過一個算法可以學習並同時掌握 96 門語言,不僅刷新5項經典多語言理解任務的世界最好成績,還一舉超越谷歌、微軟、臉書,問鼎國際權威多語言理解評測榜單 XTREME,邁出人工智慧領域自然語言處理技術的突破性一步,並在相關真實工業場景中落地,發揮出實際應用價值。