想不到,那些讓我半夜偷偷收藏的沙雕表情包,竟是出自AI之手

2020-12-17 機器之心Pro

機器之心報導

參與:蛋醬

要是收藏夾裡沒幾個獨家沙雕表情包,當代網民都無法在朋友圈立足。但有一些「妙不可言」的圖片,也許是 AI 生成的結果。

一般人很難讀出「meme」這個詞,它通常譯為「模因」,起源於 1976 年,本意為「模仿傳遞行為」。

但讀音和來源或許沒那麼重要,重要的是每個網上衝浪的人都見過它,甚至沉迷於它。在中文裡,它大概被稱為「網絡梗圖」、「沙雕圖片」、「表情包」等等……

比如這個:

還有這個:

這個金髮藍衣的快樂男孩,你難道不眼熟嗎?

作為機器學習研究者,你可能還偷偷在收藏夾裡保存了這些:

這是一張在深度學習社區流傳很廣的圖,表達的是新的預訓練方法如何比之前的 SOTA 方法更優越。當然,新 SOTA 方法是層出不窮的,這樣的圖片收集起來甚至能形成一個完整的系列。

圖的創建通常只有兩步:選一張時興的 meme 模版(即圖像),然後配上「精妙絕倫」的說明文字,製造出一種別有韻味的幽默感。

.

這種圖像、文字和幽默感的奇妙組合,在信息傳遞方面極具穿透力和感染力,比如當你看到這張圖時:

雖然這只是一張靜態圖片,句子也不成句子,但你的眼前已經浮現出了七人共舞的場景。

當代網友人人都用表情包,甚至還會自製。比如:

然而,表情包除了自製,還可以由 AI 生成。你可能想不到,某個平平無奇的表情包背後竟然隱藏著「神秘力量」。

今天,我們就來了解一下 meme 自動生成。

meme 自動生成一直是深度學習領域的課題之一。以往的生成方法要麼是從一堆 meme 字幕中選擇最適合的一個,要麼是基於給定圖片和模版來生成 meme 字幕,似乎有點不夠「便捷」。

近日,來自美國亞利桑那州立大學的研究者對 meme 圖生成方法進行了改進提升。在這篇論文中,研究者提出了一種根據給定的輸入語句來生成匹配圖片的方法。這是一項很有挑戰性但有趣的 NLP 任務。

論文地址:https://arxiv.org/abs/2004.14571v1

通過對 meme 圖生成機制的深入了解,研究者決定將 meme 圖生成與自然語言翻譯結合起來。

在自然語言翻譯工作中,為了將輸入的語句轉換為目標語言,必須對語句的完整含義進行解碼,分析其含義,然後將源語句的含義編碼為目標語句。

類似地,此處也可以將源語句的含義編碼為圖像和字幕對,使之傳達與源語句相同的含義或情感,從而將語句翻譯成「梗」。

受該方法的啟發,研究者提出了一種端到端的編碼-解碼模型「memeBot」,可面向任意給定的語句生成 meme 圖。同時在訓練的過程中,研究者創建了首個大型 meme 圖字幕數據集。

給出句子「I am curiously waiting for my father to cook supper tonight」,memeBot 使用 meme 模板選擇合適的圖,然後用字幕生成器生成恰當的字幕,從而生成 meme 表情包。

如何用 memeBot 製作表情包?

「memeBot」是一種端到端的神經與概率架構。該模型共有兩個組成部分,如下圖所示,首先是使用 meme 模版選擇模塊,根據輸入語句確定用哪張圖;然後是 meme 字幕生成器,生成合適的字幕。

meme 模版選擇模塊

基於 BERT、XLNet、Roberta 等 trans-former 架構的預訓練語言表徵被廣泛用於自然語言理解任務。這些模型在針對相應任務微調之後,均達到了新的 SOTA 水平。

該研究在 meme 模版選擇任務上,使用線性神經網絡對預訓練語言表徵模型進行了微調。在訓練過程中,通過使用公

將依據給定語句選擇正確模版的概率最大化。其中θ_1 表示 meme 模版選擇參數,T 表示模版,S 是輸入句。

meme 字幕生成

研究者借鑑了降噪編碼器的方法,通過破壞輸入字幕來訓練 meme 字幕生成器,並使用詞性標註器(POS Tagger)來提取輸入字幕的詞性。研究者使用 POS 向量來對輸入字幕進行遮罩,僅把名詞短語和動詞短語作為輸入傳遞給 meme 字幕生成器。

破壞數據的目的是讓模型從現有的字幕中學習 meme 生成,並在推斷過程中將基於給定輸入語句生成 meme 的過程進行泛化。

meme 字幕生成器模型使用了 transformer 架構,通過對選定的 meme 模版和輸入語句執行多頭縮放點積注意力,來創建給定輸入語句的 meme 嵌入。

transformer 解碼器首先對預期的字幕執行 masked multi-head attention,然後在編碼的 meme 嵌入和 masked multi-head attention 的輸出之間執行多頭縮放點積注意力(如圖 3 所示)。這使得 meme 字幕生成器能夠學習輸入語句、所選 meme 模版和預期 meme 字幕之間的依賴關係。

此外,該研究還使用公式

來優化 transformer。

其中θ_2 表示 meme 字幕生成器的參數,C 表示 meme 字幕,M 是基於 transformer 編碼器獲得的 meme 嵌入。

數據集

模型訓練所用數據有兩個來源,一個是全球最大的 meme 圖片生成網站「imgflip」,另一個就是眾所周知的 meme 圖片集合地「推特」。為了爬取更多的數據,研究者開發了一款網絡爬蟲工具,儘可能多地收集 meme 圖。

該研究最終創建的數據集包含源自 24 個「經典沙雕梗」的 177942 個 meme 字幕。表 1 展示了數據樣本的組成部分,附錄 A 展示了訓練所用的「經典源圖」,圖 4 為 meme 字幕主題的分布情況。

表 1:meme 字幕數據集中的樣本示例,包括模版名稱(Template name)、字幕(Caption)、meme 圖(Meme Image)三部分。

附錄 A:實驗所用 meme 字幕數據集中的的模版和圖像。

圖 4。

此外,研究者收集了推特平臺的推文,用以評估 memeBot 在線上社交互動中通過語句生成 meme 的效力。

研究者在關鍵詞「Coronavirus」查詢結果中隨機抽取 6000 條推文,從中選擇了 1000 條非負面情緒的推文。目的是通過輸入推文讓模型生成 meme 圖,並評估生成結果是否與推文內容相關。

memeBot 效果如何

該研究在訓練、驗證和測試階段的數據集分別包括 142341、17802 和 17799 個樣本,評估內容包括模版選擇模塊在選擇兼容模版時的性能、字幕生成器的生成效力等。

首先,研究者對 BERT、XLNet 和 Roberta 幾種預訓練語言表徵模型進行了微調,並在 meme 字幕測試數據集上測試了模型的 meme 模版選擇性能,結果如表 2 所示。

表 2:加粗部分為最佳分數,精確度和 F1 兩項指標是越高越好,損失則越低越好。研究者使用了性能表現最佳的 Roberta_base 模型作為 meme 生成 pipeline 中的模版選擇模塊。

然後,在字幕生成任務中,研究者使用了兩個變體「MT2MC」和「SMT2MC」(SMT2MC 也有兩個變體),分別代表「基於模版生成字幕」和「基於輸入語句及模版生成字幕」。下圖是字幕生成器的變體所生成的 meme 示例。

可以看出,MT2MC 根據給定的 meme 模版隨機生成字幕,與輸入語句無關聯,SMT2MC 變體生成的 meme 字幕則與輸入語句有語境關聯。在 SMT2MC 的變體中,以名詞短語和動詞短語作為輸入生成的字幕能夠更好地還原輸入語句的本意。

在評估時,研究者使用了 BLEU 分數來評估生成字幕的質量。鑑於 meme 生成沒有固定的指標,研究者還引入了一組評估人員進行「主觀評價」,評估的維度包括圖片與字幕的連貫性和相關性等等,分數在 1-4 分不等。

BLEU 值以及人類評估得分情況。

相關性與連貫性分數的定性比較。

研究者還設計了一個實驗,來評估 meme 生成結果在線上社交環境中的效力:

表 5:推特數據中的人類評估分數。相關性和一致性指標滿分為 4 分,「User Likes」一項代表喜歡該生成結果的人數佔總體的百分比。

圖 9:SMT2MC-NP+V 變體生成的 meme 結果。

最後,研究者也提到,meme 的生成效果評價因人而異,很難通過預定義的指標進行評估。接下來他們會將繼續拓展這一方面的研究,比如將 meme 引入社交媒體流,並根據 meme 在人群中的傳播對其進行評估。meme 傳播率和傳播人群可用於強化訓練,生成更高質量和更具創意的 meme。

相關焦點

  • 表情包:那些狂戳笑點的沙雕表情包
    我帶著我的今日份表情包問候大家了,準備拿出手機幹事,這次開始我就不帶水印,方便大家存圖。更了這麼多次表情包,大致知道了該從哪點了解在座的各位了。現在的人類真是奇奇怪怪的,喜歡的事物都非正常行為hhhhhc,我直接愛了。為什麼大家都喜歡這類表情包啊,你們都是些啥樣的沙雕,怕不是跟我一樣的。
  • 沙雕網友表情包:嫌對象消息回得慢的話,換我,我回得快!
    各位沙雕網友,你們好,別管我在哪,你看那個表情包,多像你!今天又是元氣滿滿的一天,作為一位正能量網友,手機裡沒沙雕網友表情包:嫌對象消息回得慢的話,換我,我回得快!各位沙雕網友,你們好,別管我在哪,你看那個表情包,多像你!
  • 穿幫君惡搞李易峰、周杰倫沙雕表情包 網友:想逗死我嗎?
    「我要收藏表情包了」「放飛自我的節奏」「鬥圖嗎?我不差表情包哈哈哈」「這圖看著小公舉很享受呀」「哈哈哈 好可愛呀」「真的是太可愛了」「可以當表情包了」「這些表情包也是我的快樂源泉」「小公舉來襲」「哈哈哈,真的是沙雕表情包啊。看著太搞笑了吧。我家峰峰還是這麼帥。」
  • 友利奈緒的「顏藝」表情笑翻漫迷,那些動漫表情包的「萬惡之源」
    不過雖然每天我們經常都會用到一些動漫表情包,但你真的知道他們的出處到底是哪裡嗎?今天部長我就帶大家一起來看看動漫中那些動漫表情包的「萬惡之源」吧!薩塔妮亞 《珈百璃的墮落》相信這個魔性的「笑容逐漸放肆」大家都見過,而這個有趣的表情出自《珈百璃的墮落》中笨蛋惡魔薩塔妮亞!
  • 小丑竟是我自己是什麼梗?小丑竟是我自己表情包
    小丑竟是我自己是什麼梗?小丑竟是我自己表情包時間:2020-12-22 23:01   來源:今日頭條   責任編輯:毛青青 川北在線核心提示:原標題:小丑竟是我自己是什麼梗?小丑竟是我自己表情包 小丑竟是我自己是最近流行起來的一個梗,主要講的就是那些舔狗求而不得,像一個小丑一樣,來源是之前的一個長途,不斷的卸掉小丑的妝容,然後對方打一個招呼,立馬就變成了小丑,下面就是具體的小丑竟是我自己是     原標題:小丑竟是我自己是什麼梗?
  • 沙雕表情包:只要我夠沙雕,煩惱都追不到我!
    沙雕表情包:只要我夠沙雕,煩惱都追不到我!歡迎收看新一期的沙雕表情包,小編會每天更新表情包,沙雕們日後也有聚集地,你也想有沙雕隊友麼?那就速度來這裡集合,幾十萬的沙雕同胞等待你,然後收入你,成為沙雕的一員!
  • 怪味·沙雕表情包:從此以後,努力做自己的舔狗!
    怪味·沙雕表情包:從此以後,努力做自己的舔狗!   現在你們的表情包是不是該更新了?現在分享幾個比較沙雕的表情包!
  • 「沙雕」表情包來襲,上了我的床,走路要扶牆
    「沙雕」表情包來襲,上了我的床,走路要扶牆   小編今天是來給大家推薦好用的表情包的,一般鬥圖中只有沙雕的表情包才會獲勝的,只有當你的朋友沒有你沙雕,你鬥圖才是最厲害的,小編這邊有最沙雕實用的表情包哦!
  • 黑人問號,熊貓圖,emoji,為什麼表情包這麼火?
    每天N個小知識之表情包篇~聊天界面頻頻出現沙雕圖,半夜群員竟懟圖不眠,究竟是人性的扭曲還是道德的淪喪?就在今天,請跟隨書生的腳步,帶你揭秘表情包背後的真相!好了,不皮表情的誕生就是為了傳達感情,從蘋果在輸入法裡引入emoji表情後,表情文化逐漸成了「世界通用語言」而後,機(sha)智(diao)的網友慢慢發揚光大,衍生出了不少表情包那麼在這個表情包橫行的時代
  • 沙雕表情包 l 來一波敲搞笑表情包
    每天都有不一樣的精彩,喜歡就多多分享 沙雕頭像表情包 「 一 個 笑 點 滿 滿 的 公 眾 號 」
  • 這個被玩壞的表情包原來出自《雷神》,網友:我用了這麼久才知道
    在這個被二次元文化充斥著的生活裡,你們肯定沒少用各種動漫角色的表情包,但你們一定都知道它們的來源嗎?最近在偶然之間我就發現了有一個被網友玩壞的表情包,竟讓是出自《雷神》這部片子。相信就算你們不是漫威粉,也一定看過一兩部漫威相關的作品吧?
  • 沙雕表情包:圖多話少小編又回來了,帶你們重新進入沙雕的世界
    沙雕表情包:圖多話少小編又回來了,帶你們重新進入沙雕的世界。歡迎大家觀看新一期的表情包,這裡每天都會更新新的表情包,沙雕網友們聚集地,你想成為沙雕網友嗎?那就快到這裡集合吧,幾萬個沙雕網友等著你的加入,並立即同化你,讓你變得沙雕。
  • B站現傳說中的斜王真眼,有的人看起來很正經,沙雕起來變表情包
    整部動畫全程都是笑點不斷,百合大法,各種搞怪,就是動畫時間有點短,因為這是小劇場,也是很正常的,但是重要的還是那沙雕有經典表情包在這動畫裡表現的特別活躍,不過大家都想知道,為啥嗶哩嗶哩在這動畫裡有製作,那麼到底都在做什麼?
  • 被表情包綁架的當代社交,我受夠了!
    可能直到我們某一次看到新的沙雕圖時,又不加思索地點擊「添加到表情」,才能猛然意識到,自己的社交正在被這些表情包「綁架」。看不懂TA的表情包,我都不配跟TA說話不論你喜不喜歡,手機裡一定都多多少少存著一些表情包,畢竟在聊天中使用表情包,正逐漸成為現代社會的一種社交禮儀。
  • 那些奇怪又可愛的小符號|可愛表情包
    包妹從網上找到了一些可愛的符號,可以添加到自己的網名裡,很實用哦,快收藏起來吧!_ ·今天一個男生問包包:「女孩子的表情包是不是都很奶然後翻了翻自己的表情庫,哇!一個粉嫩嫩的都沒得!裡面全是沙雕動圖和熊貓頭看來包包要收集可可愛愛的表情包去撩小哥哥了/託腮/圖源自網絡,侵刪End下方留言區打出你想要的表情包哦~包包超寵粉!
  • 萌萌噠的微信表情包竟然出自上虞的這兩個大學生之手
    2018-05-11 07:48 | 浙江新聞客戶端 | 記者 何靜媛 景彬現在,微信表情已經,成為了聊天的標配,朋友間聊天,經常會互甩幾個表情包,來代替自己想要說的話,這樣既有趣,又俏皮。圓圓的臉蛋、長長的金髮、紫色的紗裙、紅色的髮飾,開心的時候手舞足蹈,生氣的時候怒氣衝衝……這就是微信表情包「小七公舉」的形象。最近,這套表情包在浙江理工大學科技與藝術學院的師生間火了,大家用微信聊天時,時不時會帶上幾個萌萌噠的「小七公舉」。
  • AI表情包生成器來了!給AI餵了96萬個表情包文案,做出的圖能接地氣嗎?
    聲明:本文來自於微信公眾號大數據文摘(ID:BigDataDigest),作者:牛婉楊,授權站長之家轉載發布。在這個一言不合就鬥圖的年代,表情包已經成為了人人必需的「裝備」。
  • 你要的情侶「沙雕」表情包到了!互撩起來不再無聊,網友:666
    精神抖擻的小新今天要給大家分享一些情侶「沙雕」表情包到了,互撩起來不再無聊,這肯定是情侶之間的調味劑呢。快來欣賞一下吧。情侶的關係真的是相愛相殺呢,就像這兩隻貓一樣,一開始總想把最好的展現給大家,久了就開始互毆,哈哈,其實放鬆是最好的表現。這個讓我想起了宋小寶的那個,你鎖我喉,嘿嘿,這個表情包也很聊呢。
  • 小丑竟是我自己表情包大全:朋友圈小丑竟是我自己圖片[多圖]
    小丑竟是我自己有哪些表情包?最近朋友圈抖音上的小丑竟是我自己表情包特別火,很多人也都在討論小丑竟是我自己,今天遊戲鳥小編就來給大家帶來小丑竟是我自己的最新圖片表情包,想要得到這些有趣的表情包,可以通過下面的攻略獲得。
  • 玩家多沙雕?Steam遊戲封面換表情包,蔡徐坤張家輝都被玩壞
    劃重點二:沙雕網友從不辜負期待 遊戲庫變成表情包收藏夾 不過沙雕網友的功力可不限於此,除了這些正經的封面之外,大家更擅長把封面做成各種表情包。