「正經字幕」太無聊?用「神經玩笑機」就可以生成逗你笑的趣味字幕

2021-02-24 將門創投

原文:arXiv 編譯:本文經授權轉載自「雷克世界」

可以毫不誇張地說,笑是一種特殊的高階功能,且只有人類才擁有。那麼,是什麼引起人類的笑聲表達呢?最近,日本東京電機大學(Tokyo Denki University)和日本國家先進工業科學和技術研究所(AIST)的科學家們提出了一種新方法,通過使用它就能夠生成引人發笑的字幕。

想問大家一個問題:什麼是能夠引起人類笑聲的有效表達?在本文中,為了從學術角度思考這個問題,我們用計算機生成了一個能夠引人「大笑」的圖像字幕(image caption)。我們構建了一個基於計算機視覺領域中所提出的圖像字幕,能夠輸出趣味字幕的系統。此外,我們還提出了「趣味分數」(Funny Score),它能夠根據一個評估資料庫靈活地給出權重。滑稽分數能夠更有效地帶出「笑聲」從而對模型進行優化。另外,我們構建了一個自收集的BoketeDB,其中包含一個主題(圖像)和張貼在「Bokete」上的趣味字幕(文本),這是一個Image Ogiri網站。在實驗中,我們通過比較使用所提出的方法獲得的結果和使用MS COCO預先訓練的CNN + LSTM(這是由人類創建的基線)獲得的結果,從而驗證所提出的方法的有效性。我們將所提出的方法稱為神經玩笑機器(Neural Joking Machine,NJM),該方法使用BoketeDB預訓練模型。

圖1:NJM從圖像輸入中生成的有趣字幕樣本

可以毫不誇張地說,笑是一種特殊的高階功能,且只有人類才擁有。在對笑聲的分析中,正如維基百科所言,「笑聲被認為是構圖(模式)的轉變」,並且當接受者的構圖發生變化時,笑聲就會經常發生。然而,笑聲的視角在很大的程度上取決於接受者的位置。因此,想要對笑聲進行定量測量是非常困難的。最近出現了諸如「Bokete」等網絡服務的Image Ogiri,其中,用戶在主題圖片上發布有趣的字幕,而字幕也會並在類似SNS的環境中進行評估。用戶進行競爭以獲得最多的「星星」。雖然對笑聲進行量化被認為是一項非常困難的任務,但Bokete評估和圖像之間的對應關係使得我們我們能夠定量地處理笑聲。圖像字幕是計算機視覺中的一個活躍話題,而且我們認為可以實現幽默的圖像字幕。本文的主要貢獻如下:

我們基於最近在計算機視覺領域的圖像字幕研究,提出了一個用於趣味字幕生成器的框架。

我們定義了趣味分數(Funny Score),這是一個基於資料庫中現有滑稽字幕評估的權重系統。而這個趣味分數常用於損失函數。

我們收集了數據以從Web服務Bokete上創建BoketeDB。該資料庫包含999,571張圖像和字幕對。

BoketeDB

在實驗部分,我們將所提出的基於趣味分數和BoketeDB預訓練參數的方法與MS COCO 預訓練的 CNN + LSTM所提供的基線進行了比較。我們還將NJM的結果與人類所提供的趣味字幕進行比較。在人類的評估中,該方法所提供的結果排名要低於人類所提供的結果(22.59%VS 67.99%),但排名要高於基線(9.41%)。最後,我們顯示了若干張圖像中所生成的趣味字幕。

圖2:所提出的有趣字幕生成的CNN + LSTM體系結構

相關研究

憑藉在深度神經網絡(DNNs)所取得的重大研究進展,我們發現卷積神經網絡和循環神經網絡(CNN+RNN)的組合,是一種用於特徵提取和序列處理的成功模型。儘管沒有明確的劃分,但CNN通常用於圖像處理,而RNN通常用於文本處理。此外,這兩個領域是相互統一的。一項成功的應用是使用CNN+LSTM(CNN+長短期記憶)生成圖像字幕。該技術可以從圖像輸入中自動生成文本。然而,我們認為圖像字幕需要人類的直覺和情感。在本文中,我們將幫助引導一個圖像字幕進行有趣的表達。接下來,我們將介紹幽默圖像字幕生成的相關研究。

Wang等人提出了一種自動「meme」生成技術。meme是一種有趣的圖像,通常包含幽默文字。Wang等人通過統計分析meme和評論之間的相關性,從而對概率依賴關係(例如圖像和文本的依賴關係)進行建模,並自動生成meme。

Chandrasekaran等人通過構造一個分析器來量化圖像輸入中的「視覺幽默」,從而對圖像進行幽默增強。他們還構建了包含有趣的(3200張)和無趣的(3200張)人類標記圖像在內的數據集來評估視覺幽默。可以通過定義5個階段來訓練一張圖像的「趣味性」。

圖3:輸出結果的比較:「Human」行表示人類用戶所提供的字幕,且在Bokete網站上排名最高。「NJM」行表示應用所提出的基於Funny Score和BoketeDB的模型生成的結果。「STAIR字幕」欄表示MS COCO的日語翻譯結果。

所提出的方法

我們通過使用所提出的滑稽分數進行權重評估來對趣味字幕生成器進行有效的訓練。我們採用CNN + LSTM作為基準,但我們一直在探索有效的評分函數和資料庫構建。我們將所提出的方法稱為神經玩笑機器(NJM),它是與BoketeDB預訓練模型相結合的。

CNN + LSTM

所提出方法的流程如圖2所示。基本上,我們採用了Show和Tell中使用的CNN + LSTM模型,但CNN被ResNet-152替代為圖像特徵提取方法。接下來,我們將詳細描述如何使用滑稽分數計算損失函數。該函數能夠適當地評估星星的數量和它的「趣味性」。

趣味分數(Funny Score)

Bokete Ogiri網站使用星星的數量來評估字幕的趣味程度。用戶對已發布的字幕的「趣味性」進行評估,並為字幕指定一至三顆星。因此,有趣的標題往往會被分配更多的星星。因此,我們關注的是星星的數量,以提出一種有效的訓練方法,其中,趣味分數使得我們能夠評估字幕的趣味性。根據我們先前實驗的結果,擁有100顆星星的趣味分數被視為閾值。換句話說,當星星的數量小於100時,趣味分數輸出損失值L;相反,當星星的數量超過100時,趣味分數返回L -1.0。損失值L是用LSTM進行計算的,作為每個小批量的平均值。

圖4.使用所提出的NJM獲得的可視化結果

總而言之,在本文中,我們提出了一種方法,通過使用它能夠生成引人發笑的字幕。我們構建了Bokete DB,其中包含在Bokete Ogiri網站上發布的一個主題(圖像)和相應的有趣字幕。通過權重評估,我們有效地訓練了一個帶有趣味分數的趣味字幕生成器。雖然我們以CNN+LSTM為基準,但我們始終在探索一種有效的評分函數和資料庫結構。本次研究的實驗表明,NJM比基準STAIR字幕要有趣得多。

原文連結:https://arxiv.org/pdf/1805.11850.pdf

-The End-

將門是一家以技術創新為切入口的早期創新發掘機構,旗下設有將門創新服務、將門技術社群以及將門投資基金。

將門創新服務專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門投資基金專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機互動、企業計算。在兩年的時間裡,將門投資基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十家具有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我「門」: bp@thejiangmen.com

 

將門創投

讓創新獲得認可!

微信:thejiangmen

bp@thejiangmen.com

相關焦點

  • 為什麼中國觀眾愛「原聲加字幕」|大象公會
    儘管在質疑譯者時通常會用「四級過了沒」這樣的說法,但他們對原聲影視的熟絡並非來自四六級英語應試教育。」譯為「口袋妖怪」 視頻網站出現後,這些字幕組又開始將經過壓制帶有中文字幕的「熟肉」版電視劇上傳分享,一集電視劇會經外掛字幕、「熟肉」下載、「熟肉」在線三種途徑提供給不同口味的劇迷。
  • 《刺客信條起源》設置中文字幕日文配音方法
    導 讀 展開 《刺客信條起源》偶爾聽聽其他語種配音也是不錯的體驗,但是如果想使用其他配音時,也繼續用中文字幕就有些難度了
  • IMDB全球票選NO.1,看極客「Rick 大爺」和他癲狂的「晚年生活」
    這個特輯叫「完全極客養成指南」,這麼多期之後相信大家多少對如何成為一名極客有了大概的了解。不過,成為極客然後呢?我們似乎還沒提到過然後,今天就和大家聊聊——如何度過一個具有極客精神的晚年生活。說到這,可能很多人會想到各種黑科技的產品、人工智慧的輔助、醫治絕症……等等,不過這些和今天要說的「晚年生活」比起來未免有些稀鬆平常,太過小兒科。
  • 「趣味諺語」——七個跟顏色有關的有趣諺語!
    「玫瑰色眼鏡」、「飛揚的色彩」、「給他人綠光」!?這些是什麼意思?讓小編來告訴你!1.see through rose-tinted glasses 樂觀看待事物所謂「帶著玫瑰色的眼鏡」,像帶著粉紅色的夢幻視野看著這世界。
  • 「最終幻想」曾被翻譯為「太空戰士」,這些讓人笑尿的臺灣譯名你...
    同樣的作品流傳到中國大陸以及港臺地區時常常就會出現多個不同的譯名,有些名字大同小異,而有的譯名則天差地別,甚至翻譯得連親媽都不認識,尤其是臺灣譯名,在大陸朋友看來,可以說是非常奇葩了。笑尿!動漫遊戲影視作品中的奇葩臺灣譯名:「最終幻想」,臺譯「太空戰士」對於遊戲玩家來說,最有代表性的就是「最終幻想」系列了,原名「Final Fantasy」,直譯過來也就是「最終幻想」,結果臺譯整了個「太空戰士」。至於原因,知乎上有人解答過,說是當時翻譯的人覺得這款遊戲天上天下的打來打去,所以就叫太空戰士……當然現在也都是用最終幻想了。「中華一番!」
  • 這「過氣頂流」,戳中了國產喜劇的痛
    「因為研究不出來好的包袱了,沒有特別好的事,不新鮮了。小品現在都是喜頭悲尾,我不喜歡。我喜歡逗大家笑,從頭到尾地把你們(觀眾逗)笑得開心,這是我想要的。」從春晚後的一夜成名,到如今的「過氣」喜劇人。小瀋陽一番話卻引起不少人的共鳴。尤其是那句「喜頭悲尾」。誠如他所說,現在的春晚舞臺,幾乎看不到一部好笑的小品了。
  • 楊嘉雯的食之無味 「可以吃嗎?」「看看就好.」
    看似有些正經的設計,但是,食物的最後奧秘,還是快樂呀!「食之無味」是探討味覺經驗的多感覺感知過程的信息視覺設計項目,通過研究調查味覺經驗的形成過程,解讀味覺經驗是如何為大腦帶來的愉悅感與滿足感,將「食物味覺之外」的四種基本感官「視覺、聽覺、觸覺、嗅覺」以圖表藝術設計的形式視覺表現,探索人體「味覺快感」奧秘。
  • R級喜劇片《倉皇一夜》,「性感女神」斯嘉麗·詹森,失控出演!
    我覺得《倉皇一夜》很適合那種可以一起聊男人,且可以聊到限制級層面的女性朋友一起去看。拘謹的可能不適合,因為電影不時就在「迷」這些。男女一起去看好像也有點沒那麼搭,就像女生陪男生去看美女電影一樣,男生看得很爽但似乎女生就難跟男生去討論什麼吧?
  • 宋智孝用英文寫「廚房紙巾」,金鐘國一看「果斷神救援」暖翻
    在最新一集播出內容中,成員們來到梁世燦家中作客,還在裡頭玩起遊戲,其中進行知識PK環節時,宋智孝臨時被CUE,要用英文寫出「廚房紙巾」的單字Kitchen towel,結果卻讓金鐘國驚到趕緊阻止,「智孝阿!不要做!」節目中,為了不用花錢,一群《RM》成員們來到梁世燦家,完成HAHA 想玩的「密室逃脫」遊戲。
  • 視頻語音自動生成字幕怎麼做?分享一個視頻字幕生成器—繪影字幕
    很多人都對語音轉文字有所了解,其實視頻加字幕和語音轉文字,前期使用的技術手段是一樣的。都是通過機器對人聲進行識別,轉成文字。不過,生成字幕還需要對字幕切分和給字幕添加時間戳。所以視頻加字幕會在語音轉成文字的基礎上,機器精準切分時間軸,給文字加上時間戳生成字幕。
  • 「劇評」夏洛克的思維宮殿是一種怎樣的存在?
    Sherlock眼中的數據想必很多觀眾喜歡上Sherlock就是因為他眼中的這些數據吧,記得S01E01的時候,第一次在畫面上呈現第一視角的事物,並像遊戲中對物品的標記那樣,直觀的顯示在影視劇畫面上,很新穎的表達方式:哈哈,很久沒有回看了,本以為第一次呈現的「移動字幕」會是推理環節,沒想到在這裡。
  • 從翻譯影片到國內外IP版權運營,在線翻譯平臺「人人譯視界」要探索...
    36氪獲悉,5月28日科技公司「譯滿天下」研發的在線翻譯平臺人人譯視界正式公布,該產品結合AI技術,為各語種翻譯從業人員、愛好者和翻譯公司提供智能翻譯服務。 譯視界基於海量語料庫和AI技術,支持視頻聽譯、文檔速譯,快速匹配語料,自動生成影片字幕。
  • 直播真的如此「墮落」嗎?我們不妨將目光轉向大海另一邊的英語世界...
    直播真的如此「墮落」嗎?網際網路時代,用戶對「無聊」內容的集體痴迷,混沌中是否有建立新秩序的可能性? 尋找答案的過程中,我們不妨將目光轉向大海另一邊的英語世界:在這裡,同樣有一種以「無聊」與「無用」為核心的原創視頻形式正迅速崛起,其中,人氣最高的創作者們更是收穫了流量與商業的雙重成功。
  • 「社畜」青年為什麼需要「沙雕」文化?
    據不完全統計,2019年具有一定聲量、引起市場關注的「沙雕劇」比2018年至少翻了3倍;從口碑來看,2019年的「沙雕劇」豆瓣均分躍升一個段位,邁過及格線,達到6.7分左右,這個成績在國產劇中,整體還算可以。進入2020年,「沙雕」在國內劇集市場颳得更加猛烈。
  • 「熱映電影」瘋狂原始人2
    網友「室內滂沱」覺得:「電腦動畫水平是現今所有這類動作動畫電影的頂級。比第一集好看,因為修正了前作一個關鍵缺點,畫面內所有運動物體不再是無節制地亂跑,單位時間內的信息量回到正常,觀影時不會再有疲勞感,故事裡的人再怎麼折騰,觀眾心情也是跟著活躍的,精神飽滿一起嗨才是看這個系列的最適合狀態。
  • ULSUMFootball | 「看不見你的笑我怎麼睡得著」
    ULSUMFootball | 「看不見你的笑我怎麼睡得著」 原標題:ULSUMFootball | 「看不見你的笑我怎麼睡得著」
  • 「老婆」用日語怎麼說?
    這詞從日本古代就有的詞語,但明治以前多把「妻」讀作「さい」,羅馬音是:sai,「つま」是新近才有的讀法。而「家內」要比「妻」略微顯得尊敬,除了表示「妻子,內人」等含義以外,還可以引申為「家屬,家裡」。其實,在日語中除了「妻」(つま),還有幾個詞可以用來表達「妻子」的含義,它們分別是:[1] 「嫁」(よめ) 羅馬音:yo me[2] 「奧さん」(おくさん) 羅馬音:o ku sann[3] 「女房」(にょうぼう) 羅馬音:nyo u bo
  • 孔子是「無神論者」還是「有神論者」?
    從南北朝開始,就出現「儒教」的說法,與當時逐漸在民間流傳的佛教和道教,合稱為「三教」,有跟佛教和道教分庭抗禮的意味。「儒教」又被稱為「聖教」,而孔子也從「至聖先師」變成了「聖教主」。其實,這只是某些人想用另一種方式來將孔子神聖化,把他的言論和教誨奉為聖典的舉動,很難獲得真正儒家學者的認同。
  • 日語中的「バカ」原來不只有「傻瓜」的意思!
    不管學沒學過日語的人,都知道「ばか」(baka)(傻瓜,笨蛋)這個詞。在大部分人印象中,它是一句罵人的話,但其實「ばか」的意思可能跟你想像的不太一樣,今天就跟小編一起來看一下吧。「バカ」表示傻瓜、笨蛋「ばか」漢字是「馬鹿」,也可以寫作片假名「バカ」。表示傻瓜,笨蛋,蠢貨,缺乏社會常識的人,它可以做名詞或形容詞。比如:まったくバカな奴だ。 真是個愚蠢的傢伙。
  • 「粒子」效果的片頭字幕製作,pr剪輯我看很好用,主要是易學
    大家好,我是漠北,今天我們繼續學習pr軟體字幕的創建,這節主要來講片頭字幕的製作,想必大家看電影的時候,經常看到演員的名字,左進右出,或者右進左出,在中間停留或者在邊緣上下停留幾秒鐘消失,看起來很神奇,其實這些功能對於我們pr視頻剪輯來說,很簡單,我們來看下效果截圖。