人機對戰又添新領域:這篇SIGGRAPH AISA 2020論文讓機器在「你畫我...

2020-12-08 騰訊網

機器之心報導

SketchX 實驗室

「你畫我猜」是一種廣泛流傳在不同文化中的人類通識遊戲,其形式簡單但高度體現人類的認知智慧。近日一篇被計算機圖形學頂會 SIGGRAPH ASIA 2020 接收的論文提出了一種基於草圖的生成優化方法。在給定一個視覺概念的前提下,相較於人類競爭者,該模型能夠以相似或更快的速度實現可識別的草圖渲染。

近幾十年來,AI 在越來越多的遊戲中逐漸達到了能夠與人類同臺競技的水平。從 1997 年在西洋棋比賽中勝出的 Deep Blue 到 2011 年在電視智力競賽項目 Jeopardy 中大放異彩的 IBM Watson,從 2013 年 DeepMind 開發的能夠勝任各種 Atari 小遊戲的程序到 2016 年所向披靡戰勝職業圍棋選手的 AlphaGo。至少對於公眾來說,每一個實例都把技術的突破和抽象計算的進步變成了一場具有觀賞性的運動。

在這樣的背景下,AI 能在你畫我猜(Pictionary)遊戲中表現優異的消息也就沒有那麼令人難以置信了。Pictionary 是一個受猜字遊戲啟發的遊戲,需要一個人粗略地勾勒出視覺畫像,其他人則試圖以最快的速度猜出他/她畫的是什麼。這正是英國薩裡大學 SketchX 實驗室的研究人員近期的研究成果:一種對速度敏感並以競爭驅動的草圖生成 AI——Pixelor。即給定一個視覺概念,Pixelor 能夠像人類競爭者一樣快速甚至更快地畫出一幅人類和機器均能識別的目標對象草圖。

將現實世界複雜的圖像還原成草圖,是令人印象深刻的。這需要很強的抽象能力:把人臉看作一個橢圓形,並由兩個更小的橢圓形組成眼睛,一條彎曲的線段作為鼻子以及一個半圓形去模擬嘴巴。這種感知圖像的方式通常是孩子們快速發展認知理解能力的重要特徵之一。然而就像莫拉維克悖論 (Moravec's Paradox) 所總結的那樣,「對人類十分棘手的問題對計算機來說通常較為簡單,而對人類來說非常容易的事計算機則極難處理」。抽象感知,這種看似大多數兩歲孩童與生俱來的基本技能,對於機器智能來說則是一項巨大的挑戰。

與人類草圖相關的計算機視覺工作主要集中於判別性任務的分析,包括基於草圖的識別 [1]、語義分割 [2]、美化 [3]、3D推理 [4],以及在檢索框架下與現實圖片的聯繫 [5,6]。直至近期在開創性的工作 SketchRNN 中 [7],AI 首次展示出可以適應不同的風格和抽象水平、並且像人類一樣逐筆渲染出可識別草圖的能力。

但這對於 Pixelor 來說仍然是不夠的。你畫我猜是一個競速類遊戲。你可能是一個偉大的藝術家,但是如果花費 12 個小時去畫一隻完美的貓,那麼你將是一個糟糕的你畫我猜玩家。

正如Pixelor工作的通訊作者、來自薩裡大學視覺語音和信號處理中心 (CVSSP) 的教授、SketchX實驗室主任宋一晢 (Yi-Zhe Song) 所言:「對於Pixelor來說,最重要的是推理出哪些是對視覺識別最重要的筆畫,並保證這些筆畫能夠被優先儘早地渲染出來。我們已經發布了面向公眾的Pixelor版本。我們希望人類玩家能夠擊敗我們的AI模型,甚至通過與AI的博弈來逐漸提高他們的遊戲策略並成為更好的你畫我猜玩家。」

Pixelor 模型做了什麼

Pixelor 是通過兩階段的框架來訓練的。

在第一階段,研究人員輸入一個給定的訓練草圖集,並將每個個體草圖以隨機的筆畫順序打亂,其目的是希望學習推斷出能夠最大化該訓練集早期識別度的筆畫級排序。這樣做是因為人類數據中的原始排序並不是最優的,這也是人類在你畫我猜的遊戲中會被精心設計訓練的 Pixelor 打敗的深層原因。

想要實現更優草圖筆畫順序的目標,一個顯而易見的策略是詳盡地評估所有可能的筆畫順序,然而這會在計算上產生難以處理的巨大搜索空間。Pixelor 採用了 NeuralSort [8],一種可微分的允許直通梯度 (Straight-through gradients) 反向傳播的排序算法,並用更先進的可學習感知特徵代替了啟發式損失函數。總而言之,該框架通過學習筆劃評分策略避開了筆劃順序的組合搜索,進而實現了早期識別。

在第二階段,Pixelor 根據上述經過最佳筆畫順序更新的數據集,來訓練序列到序列的草圖生成模型。不同於之前 SketchRNN 模型的是,研究人員提出用最佳傳輸距離 (optimal transport) 替代基於KL散度的方式(常見於變量自編碼器中)來約束嵌入特徵空間。這種設計選擇是基於對人類手繪行為的直觀觀察。面對同一個視覺概念,雖然不同的個體可能在你畫我猜遊戲中展現相似的競技性,但他們仍然會有不同的草圖策略。這使得筆畫序列空間本質上是多模態分布的,而最佳傳輸距離可以更好地捕捉這種分布。

Pixelor,遠不止遊戲

Pixelor 的意義,不僅僅是又一個會玩遊戲的新 AI。就像計算機系統既有我們交互的用戶界面,又有後臺代碼一樣。每一個重要的 AI 遊戲裡程碑背後都有著更深層次的考量。實驗室花費大量的時間和人力物力,不是為了在人類不再擅長的事情列表上再增加一項,而是為了完善人工智慧的基礎能力,以用於解決現實問題。

在 Pixelor 的案例中,研究人員的最終目標是讓機器能夠更好地弄清楚在特定場景中什麼對人類來說是重要的。當我們看一張圖片時,我們馬上就能知道最需要注意的部分是什麼。

比如,當你下班開車回家的時候。雖然路邊的風景如畫,遠處的廣告牌也可能很有趣,但這都不如你面前可能隨時出現的行人重要。在你有意識地處理這些信息之前,大腦就已經把最重要的細節挑了出來。

而如何教會計算機做到這一點呢?一個好的起點就是尋找人類在手繪時如何優先考慮頭腦影像中突出的可識別細節。「傳統照片中並沒有人類的主觀輸入,我們想要的是人類數據。而手繪的過程正是體現了人類理解與表達視覺場景的方式。」宋一晢教授如是說。

一個優秀的你畫我猜玩家,就像一個優秀的拳擊手一樣,需要知道達成某一目標所需要的絕對最短路徑。從宏觀上看,這一點正是這篇 SIGGRAPH AISA 2020 論文的更大意義。這不僅僅是教會 AI 玩一項遊戲那麼簡單,而是懷有一種更大的願景:讓AI學會推理圖像場景中的重要之處,並能夠更好地泛化。從自動駕駛到智慧機器人,這都是一項亟需解決的任務。

論文地址:https://ayankumarbhunia.github.io/pixelor/image/pixelor.pdf

Pixelor項目主頁:http://sketchx.ai/pixelor

SketchX實驗室主頁:http://sketchx.ai

薩裡大學CVSSP主頁:https://www.surrey.ac.uk/centre-vision-speech-signal-processing

參考文獻

[1] Qian Yu, Yongxin Yang, Yi-Zhe Song, Xiang Tao, and Timothy M. Hospedales. Sketch-a-net that beats humans. BMVC 2015. (Best Science Paper Prize)

[2] Rosália G Schneider and Tinne Tuytelaars. Example-based sketch segmentation and labeling using crfs. SIGGRAPH 2016.

[3] Mikhail Bessmeltsev and Justin Solomon. Vectorization of line drawings via polyvector fields. SIGGRAPH 2019.

[4] Wanchao Su, Dong Du, Xin Yang, Shizhe Zhou, and Hongbo Fu. Interactive sketch-based normal map generation with deep neural networks. ACM on Computer Graphics and Interactive Techniques 2018.

[5] Qian Yu, Feng Liu, Yi-Zhe Song, Tao Xiang, Timothy M. Hospedales, and Chen Change Loy. Sketch Me That Shoe. CVPR 2016.

[6] Patsorn Sangkloy, Nathan Burnell, Cusuh Ham, and James Hays. The sketchy database: learning to retrieve badly drawn bunnies. SIGGRAPH 2016.

[7] David Ha and Douglas Eck. A Neural Representation of Sketch Drawings. ICLR 2018.

[8] Aditya Grover, Eric Wang, Aaron Zweig, and Stefano Ermon. Stochastic Optimization of Sorting Networks via Continuous Relaxations. ICLR 2019.

Amazon SageMaker實戰教程(視頻回顧)

Amazon SageMaker 是一項完全託管的服務,可以幫助機器學習開發者和數據科學家快速構建、訓練和部署模型。Amazon SageMaker 完全消除了機器學習過程中各個步驟的繁重工作,讓開發高質量模型變得更加輕鬆。

10月15日-10月22日,機器之心聯合AWS舉辦3次線上分享,全程回顧如下:

第一講:Amazon SageMaker Studio詳解

黃德濱(AWS資深解決方案架構師)主要介紹了Amazon SageMaker的相關組件,如studio、autopilot等,並通過在線演示展示這些核心組件對AI模型開發效率的提升。

視頻回顧地址:https://app6ca5octe2206.h5.xiaoeknow.com/v1/course/alive/l_5f715443e4b005221d8ea8e3

第二講:使用Amazon SageMaker 構建一個情感分析「機器人」

劉俊逸(AWS應用科學家)主要介紹了情感分析任務背景、使用Amazon SageMaker進行基於Bert的情感分析模型訓練、利用AWS數字資產盤活解決方案進行基於容器的模型部署。

視頻回顧地址:https://app6ca5octe2206.h5.xiaoeknow.com/v1/course/alive/l_5f715d38e4b0e95a89c1713f

第三講:DGL圖神經網絡及其在Amazon SageMaker上的實踐

張建(AWS上海人工智慧研究院資深數據科學家)主要介紹了圖神經網絡、DGL在圖神經網絡中的作用、圖神經網絡和DGL在欺詐檢測中的應用和使用Amazon SageMaker部署和管理圖神經網絡模型的實時推斷。

視頻回顧地址:https://app6ca5octe2206.h5.xiaoeknow.com/v1/course/alive/l_5f715d6fe4b005221d8eac5d

THE END

轉載請聯繫本公眾號獲得授權

相關焦點

  • 人機對戰又添新領域:這篇論文讓機器在「你畫我猜」中擊敗你
    機器之心報導SketchX 實驗室「你畫我猜」是一種廣泛流傳在不同文化中的人類通識遊戲,其形式簡單但高度體現人類的認知智慧。但這對於 Pixelor 來說仍然是不夠的。你畫我猜是一個競速類遊戲。你可能是一個偉大的藝術家,但是如果花費 12 個小時去畫一隻完美的貓,那麼你將是一個糟糕的你畫我猜玩家。
  • 真·降維打擊SIGGRAPH 2020論文幫你想像三維生物眼裡的四維空間
    機器之心報導參與:張倩、小舟、蛋醬四維空間是什麼樣子?裡面的物體如何運動?一篇 SIGGRAPH 2020 論文幫我們 「想像」 出了這個過程,看完論文,你還可以上手試試遊戲。四維空間是什麼?三個空間維度加一個時間維度?不,那是四維時空,跟四維空間是兩個不同的概念。
  • 真·降維打擊:SIGGRAPH 2020論文幫你想像三維生物眼裡的四維空間
    機器之心報導參與:張倩、小舟、蛋醬四維空間是什麼樣子?裡面的物體如何運動?一篇 SIGGRAPH 2020 論文幫我們 「想像」 出了這個過程,看完論文,你還可以上手試試遊戲。這使得這些高維物體不那麼抽象,和大多數人對它們的體驗形成鮮明對比。這篇論文的貢獻在於:1、將基於幾何代數的經典三維剛體動力學公式推廣到了 n 維。通過將幾何代數算子表示為矩陣,以一種簡單的方式構建、對角化(diagonalize)、轉換任意 n 維簡單網格,無論這個 n 是多少。這樣一來,就可以在 n 維中建立歐拉方程,比如研究四維歐拉方程在無力矩條件下的情況。
  • ACM MM 2020|Rokid人機互動系統論文入選Oral Paper
    近日,Rokid 視覺算法團隊提出的基於 Rokid Glass 的新型人機互動系統論文 ARSketch 入選了 ACM Multimedia 2020(以下簡稱為 ACM MM),並被選作口頭報告(Oral Presentation),此類論文僅佔總投稿數的 8.9%。
  • 華人學者再獲 SIGGRAPH 優秀博士論文獎:「每章都能作為博士論文」
    閆令琪發表了 7 篇 SIGGRAPH 論文和一篇 ACM TOG 論文,這樣的成績大大超越了其他人。本論文在三個方面提供了突破性的貢獻:鏡面微結構或微光建模、毛皮反射和快速蒙特卡洛渲染。關於微光部分,則是基於 2014 年、2016 年和 2018 年的論文,介紹了如何分析評估鏡面反射,以及如何執行光傳遞的全波動光學模擬,這些思想在商業產品中有所運用,如 AutoDesk Fusion 360 和 Rise of the Tomb Raider 2016。在論文第二章,閆令琪開發了一個動物皮毛模型,通過測量和模擬來進行測試,然後簡化並推廣模型,並展示了如何用它進行全局光照計算。
  • 圍棋人機大戰柯潔哭了 機器卻沒有笑
    棋至中局,下完白126貼之後,柯潔起身離席,在現場的宣傳板後激動灑淚,約20分鐘之後才重返棋局,平復心情的他堅持下完了這盤棋,正如他賽前所說:「我會拼盡全力,贏不了也要下出精彩的棋。」賽後發布會柯潔再度哽咽,並向臺下鞠躬說:「今天的棋我以為能下得好一點,沒想到在布局階段就走岀了一步我自己都無法原諒的惡手,後面就一直很困難。很多人都能比我做得更好,我也不值得大家的讚美,我輸了,很抱歉。」
  • 2020年7月內地高校再添17篇Nature & Science發文
    2020年7月內地高校再添17篇Nature & Science發文 2020-08-02 09:29 來源:澎湃新聞·澎湃號·湃客
  • 被ACL 2020收錄11篇NLP論文?百度:小意思,見慣了
    近日,國際自然語言處理領域頂級學術會議「國際計算語言學協會年會」(ACL 2020)公布了今年大會的論文錄用結果。根據此前官方公布的數據,本屆大會共收到 3429 篇投稿論文,投稿數量創下新高。其中,百度共有11篇論文被大會收錄,再次展現出在自然語言處理領域的超高水準。
  • 「直播預告」ACL 2020百度論文作者與你暢聊頂會論文
    4月初,國際自然語言處理領域頂級學術會議「國際計算語言學協會年會」(ACL 2020)公布了今年大會的論文錄用結果,百度共有11篇論文入選,展現出了百度在自然語言處理領域出色的技術實力。5月21日、22日,我們將邀請百度技術委員會主席、百度自然語言處理首席科學家吳華博士攜6位 NLP 研發工程師為大家帶來2場「聽大咖講論文」直播活動,對百度入選 ACL 2020的6篇論文進行詳細解讀。
  • 認知智能又有新突破!阿里巴巴18篇論文入選機器學習頂會KDD 2020
    5月25日,國際機器學習頂會KDD 2020公布了論文入選結果,阿里巴巴18篇論文入選,是近幾年KDD會議論文入選數量最多的科技公司之一。據介紹,18篇論文中,涵蓋阿里巴巴在認知智能、曝光偏差、圖表示學習等前沿AI領域的研究突破。
  • 七張圖告訴你,2020年出版了多少篇新冠論文
    疫情還推動了預印本論文的增加,讓男性作者的產出超過了女性作者,並且影響了審稿時間——一些主題的審稿變快了,另一些則變慢了。新冠洪流2020年,科研人員發表的有關新冠疫情的論文遠超10萬篇。根據Dimensions資料庫的統計,這些論文可能在12月初就超過了20萬篇。
  • ICLR 2020 匿名評審九篇滿分論文,最佳論文或許就在其中|模型|杜克...
    機器之心整理參與:思源、蛋醬、澤南從反傳的自動微分機制,到不平行語料的翻譯模型,ICLR 2020 這 9 篇滿分論文值得你仔細閱讀。早在去年12月,ICLR 2020的論文接收結果就已經出來了,其接收率達到了26.5%。
  • 周伯文對話斯坦福教授曼寧:人機對話智能新進展需要新"圖靈測試"
    機器之心報導機器之心編輯部6 月 22 日,在 2020 智源大會上,有一場大佬對大佬的精彩會談。過去一年裡,人工智慧進展最大的方向在自然語言處理(NLP),BERT、GPT-2 等預訓練模型引領了很多方向的新時代,又催生出了大量商業應用機會。面對技術的進步,AI 領域的頂級學者和從業高管是如何看待未來前景的?
  • 2020年全球最火的5篇醫學領域論文
    自2013年,Altmetric每年都會發布TOP100文章,這100篇是社交媒體上被討論最多的文章,與研究本身的質量無關。2020年的榜單相比往年,最大的變化是按照學科進行了分類,每個領域列出Altmetric得分最高的前5篇文章。
  • 繼CVPR、AAAI大豐收後,百度又有11篇論文被ACL 2020錄用
    近日,國際自然語言處理領域頂級學術會議「國際計算語言學協會年會」(ACL 2020)公布了今年大會的論文錄用結果。根據此前官方公布的數據,本屆大會共收到 3429 篇投稿論文,投稿數量創下新高。其中,百度共有11篇論文被大會收錄,再次展現出在自然語言處理領域的超高水準。
  • 每章都能當做一篇博士論文:閆令琪獲SIGGRAPH 2019最佳博士論文獎
    Ramamoorthy 傑出科研獎 —— 這是歷史上首位獲獎的華人。此外,他的科研成果還被直接應用於電影和遊戲業,曾幫助影片《猩球崛起 3:終極之戰》於 2018 年獲得奧斯卡最佳視覺效果獎提名。最佳博士論文獎有著開創新領域的貢獻,閆令琪獲得最佳博士論文獎著實讓人感到實至名歸。
  • SIGGRAPH 2020 AR/VR論文匯總
    查看引用/信息源請點擊:映維網 SIGGRAPH 2020大會收錄的論文匯總 (映維網 2020年09月07日)成立於1967年的SIGGRAPH大會一直致力於推廣和發展計算機繪圖和動畫製作的軟硬體技術,並已經成為一個集科學
  • 中國學者積極參與人工智慧關鍵領域研究
    2020年3月16日,工作人員通過語音向一款智能電梯控制系統發出上下行指令,目前該產品已在北京市海澱醫院投入使用。語音控制等產品的出現得益於自然語言處理研究的進展。新華社記者任超 攝新華社北京7月10日電(記者李宓)自然語言處理領域頂級國際會議國際計算語言學年會(ACL2020)近日線上開幕。清華大學開發的科技大數據發掘與服務平臺Aminer通過對大會論文的統計分析顯示,中國學者愈發積極地參與自然語言處理這一人工智慧關鍵領域的研究。自然語言處理讓計算機理解並生成語言。
  • 人工智慧研究院「人機混合智能與智慧健康研究中心」獲ICCSIP 2020...
    人工智慧研究院「人機混合智能與智慧健康研究中心」獲ICCSIP 2020國際會議最佳論文獎 2020-12-28 16:40 來源:澎湃新聞·澎湃號·政務
  • 做目標檢測,這6篇就夠了:CVPR 2020目標檢測論文盤點
    CVPR 2020 會議上,有哪些目標檢測論文值得關注?目標檢測是計算機視覺中的經典問題之一。憑藉大量可用數據、更快的 GPU 和更好的算法,現在我們可以輕鬆訓練計算機以高精度檢測出圖像中的多個對象。前不久結束的 CVPR 2020 會議在推動目標檢測領域發展方面做出了一些貢獻,本文就為大家推薦其中 6 篇有價值的目標檢測論文。