這款「狗屁不通」文章生成器火了,效果確實比GPT 2差太遠

2021-01-15 騰訊網

整理 | 夕顏

出品 | AI科技大本營(ID:rgznai100)

【導讀】最近,一個名字相當接地氣的「狗屁不通」文章生成器(BullshitGenerator)火了,截至目前 GitHub 上 Star 數已超過 3200,還上了微博熱搜。這個神器可以生成各種各樣奇葩文章,比如領導專用「彩虹屁」萬字長文。只有你想不到,沒有這個神器寫不成的文章。但是,生成的文章確實也是「狗屁不通」。這次我們就來解讀一下,這個生成器是怎麼運行的,以此為例,延展探討一下文本生成未來還有哪些改進的方向。

話說,BullshitGenerator 這個項目最初起源於知乎上一位網友的提問:「學生會退會申請六千字怎麼寫?」,本來很簡單的一個問題,但是回答中很多跑偏題的,於是本項目的貢獻者之一表示看不下去了,並「隨便寫了個項目」:狗屁不通文章生成器,幫助這位同學寫了一篇退會申請。

用 Python 生成的這篇文章長這樣:

由於下拉十多下沒滑到底,讓人失去了截全圖的耐心,文章也實在看不下去,因為它真的是一篇邏輯不通的 bullshit。

AI科技大本營(ID:rgznai100)也用這個生成器嘗試了幾個大家都會思考的主題,比如:

試完之後筆者發現,文章本身是沒什麼探討的必要性了,不信你可以自己試試:

生成器地址:https://suulnnka.github.io/BullshitGenerator/index.html

但是關於生成器的工作原理,相信很多人是比較感興趣的。

運行原理是什麼?

據貢獻者介紹,本項目最初的目的是用於中文文字 GUI 開發時測試文本渲染,用 Python 3 版本寫成,目前共有 7 位貢獻者。

鑑於目前 AI 用於文字生成非常流行,這個項目是否也用到了 AI 相關算法呢?答案是否定的,作者表示,BullshitGenerator 沒有用到任何自然語言處理相關算法,只是簡單地擼代碼就可以達到效果。

那 BullshitGenerator 運行的原理是怎樣的?AI科技大本營採訪了CSDN博客專家@小宋是呢進行解讀:

「狗屁不通生成器」是一個文本生成器,用來生成一些中文文字用於 GUI 開發時測試文本渲染。由於此項目的目的只是用於 GUI 開發時測試文本渲染,所以對文本的連貫性和含義要求不高,這也就是「狗屁不通」的含義了

從源碼中可以看出,生成文本的方式就是從本地讀取到的文本中按照一定規律隨機讀取,並且替換掉文本中「x」為指定的主題文本,並未使用深度學習方法。不難發現,生成的文本會存在句子不連貫、重複性高的特點。

是否能與 GPT 2 結合?

issue 中有人發表了對這個項目的評價:

可以看到,大家對這個項目的評價還是以正面居多。其中,有人提到了希望與 GPT 2 進行整合:

很快有人對這個想法提出疑問,比如算力的問題。那麼,BullshitGenerator 與 GPT 2 整合的想法可行嗎?或者是否有必要?@小宋是呢給出的看法如下:

個人覺得「狗屁不通生成器」與「GPT」結合意義不大,這兩個項目的目標和特點差異很大。「狗屁不通生成器」是為了快速用來生成一些中文文字用於 GUI 開發時測試文本渲染,而「GPT」文本生成器目標是生成高質量連貫文本,「GPT」的特點是模型大速度慢質量高,並不滿足「狗屁不通生成器」的設計需求。

GPT 2 是 OpenAI 推出的一個中文生成模型,由加拿大工程師 Adam King 製作的網站上,任何人都能調教簡化版的 GPT-2,它能夠識別從新聞、歌詞、詩歌、食譜、代碼的各種輸入,甚至還為《復仇者聯盟》寫了一個細節豐富的續集,內容可讀性相當高。

令人振奮的是,這個史上最強的 NLP 模型今天正式全部開源,OpenAI 正式放出了 GPT 2 的最後一部分代碼。

開源地址:https://github.com/openai/gpt-2。

作為 GPT 2 分段發布中的最後一輪,此次公開的完整 GPT-2 包含 15 億條參數,其中包含用於檢測 GPT-2 模型輸出的全部代碼及模型權重。

當然,關於 GPT 2 的討論仍在繼續,比如它的實用性,生成假新聞被濫用引發的安全問題等,都是後續還有待改善的關鍵點。

此外,GPT 2 還有一個中文版本,相比之下,GPT2 與 BullshitGenerator 不同之處在於前者使用了 BERT 或 BPE 編譯器,但同樣不需要算法基礎,只要簡單 clone 運行即可,技術上的實現難度更大一些。

「GPT」是比較標準的自回歸語言模型了,Transformer 出現前都是通過 RNN 的方法,之前比較火的「CharRNN」深度學習作詩與作曲都屬於這個範疇。「GPT」將 Transformer 替換了 RNN,使得提取特徵的能力與運算速度都得到很大提升,當然使用大規模數據訓練模型也是「GPT」效果好的一個重要因素。

相較於「GPT」,「狗屁不通生成器」實現就簡單很多,主要代碼就幾十行,基本上只用到了Python 編程技術。體現在文本的連貫性和含義上,雖然生成文本的質量不高,但它也滿足了生成一些中文文字用於 GUI 開發時測試文本渲染的要求。

GPT2 中文項目:https://github.com/Morizeyao/GPT2-Chinese

文本生成的未來

GPT 2 的橫空出世讓大家看到了 AI 在文本生成方面的潛力。正如 Open AI 官博所說,雖然 GPT 2 還面臨檢測等方面的挑戰,但它的潛力還很大, Open AI 表示,未來這個模型還將繼續進行改進,他們期望語言模型能夠在性能上有更大的提升,以此提供更高的輸出質量和準確性。

BullshitGenerator 項目也公布了下一步計劃:

防止文章過於內容重複

加入更多囉嗦話.

加入馬三立裡的內容

加入手寫體直接渲染出圖片的功能(僅僅用於測試本人的印表機是否工作正常, 請勿做它用).

大膽設想一下,日後類似於 BullshitGenerator 這樣的文本生成器將進一步改進,那麼是否在沒有 AI 算法的參與下,僅憑簡單的代碼就能夠生成高質量的文本(雖然可能性幾乎為零,但如果可以實現將是顛覆性的成果)?從另一個思路來講,以 GPT2 為代表的 NLP 模型現在已經可以生成以假亂真的文本,未來又該如何克服目前的挑戰,生成更高質量的作品,同時能夠保證安全?是否未來有一天,文本生成技術或許真的會取代一部分人類的工作?這些問題都值得深思。

目前研究方向:自然語言處理與自動語音識別、圖像識別與自動檢測、圖神經網絡與推薦系統。

相關焦點

  • 狗屁不通文章生成器是怎麼火起來的?
    你不需要像線下課堂一樣認真聽45分鐘的課,也不需要在寫作時隨時數還差多少字,更不用為了一個開頭把自己的筆咬破,只需要打開一個網頁。如上圖所示,你如果對這篇不滿意,還可以隨時「再來一篇」。以上這段猛一看十分厲害,仔細讀讀卻完全不懂的文字,不是某個企圖矇混過關的學生的論文,而是一篇名為《如何寫一份十萬加的推文》的文章,是我在狗屁不通文章生成器中一鍵生成的。雖然以上這段看似和十萬加的推文毫無關係,但實際上整篇文章隨時隨地都在點題,圍繞主題展開豐富而嚴謹的探討:「解決如何寫一份十萬加的推文的問題,是非常非常重要的。
  • 「狗屁不通文章生成器」登頂GitHub熱榜,分分鐘寫出萬字形式主義大作
    看到這裡,我們不得不開始思考一個問題:狗屁不通文章生成器,到底是為什麼而誕生的?對世界的意義又是什麼?(誤)本著不懂就問的原則,量子位戳了一下生成器的作者萌老師,他給了我們一個精彩的答案。緣分,都是從偶遇一個知乎問題開始的:退會申請六千字
  • 高考滿分作文生成器來了!批量完成"生活在XX上"
    如何用AI寫一篇能看懂的作文對於這篇高考滿分作文本身,最大的爭議點就在於「不說人話」。而這個「滿分作文生成器」,簡單來說就是根據這篇作文套模板。那麼,如果以《生活在樹上》這個題目展開,作文「正確的打開方式」,應該是什麼樣呢?用之前特別火的AI「狗屁不通生成器」,效果也是別具一格。
  • 類似傻瓜文案生成器的有哪些?微博超火生成器網頁地址大全[視頻...
    傻瓜文案生成器的玩法很多,微博上也出現了很多熱門的生成器玩法,這次小編會分享一些超級火爆的生成器,下面就是這次小編要給大家分享的內容,想要知道傻瓜文案生成器的玩法和其他生成器的入口,都可以參考下面的攻略哦!
  • 各種好玩的模擬器和生成器,這88個網站值得你轉發收藏
    「諾基亞簡訊圖片生成器」:很多人都喜歡用這種簡訊樣式的表情包,而這個諾基亞簡訊圖片生成器則只需要輸入指定文字,就可以一鍵生成出想要的簡訊表情包,而且非常還原真實的功能機簡訊顯示效果。「賽博朋克2077生成器」:《賽博朋克2077》是一款備受大家關注的遊戲,遊戲中充滿了科幻感十足的賽博朋克元素,而這個生成器就是通過加logo的方式,幫大家製作出一張極具賽博朋克風格的照片,讓萬物皆可賽博朋克。
  • 我用「喪屍生成器」給愛豆們換了妝,效果太鬼畜!
    是的,這些真·喪屍全部出自一款『喪屍生成器』,只需輸入一張照片就可以立刻生成一張喪屍照,而且妝效感人......不知道大家還記不記得,之前小編曾報導過一款換臉網站Toonify,這個網站可以把人臉切換成動漫臉,效果非常逼真,上線當天訪問量就超過了25萬。
  • 我用「喪屍生成器」給愛豆們換了妝 效果太鬼畜!
    是的,這些真·喪屍全部出自一款「喪屍生成器」,只需輸入一張照片就可以立刻生成一張喪屍照,而且妝效感人……不知道大家還記不記得,之前小編曾報導過一款換臉網站Toonify,這個網站可以把人臉切換成動漫臉,效果非常逼真,上線當天訪問量就超過了25萬。
  • 《盜將行》狗屁不通?女教授批評歌詞遭歌手花粥怒懟:管你屁事
    《盜將行》狗屁不通?女教授批評歌詞遭歌手花粥怒懟:管你屁事圖片來源於網絡,文章原創歡迎關注說起《盜將行》相信很多人都知道,因其古色古風的歌詞韻味被大家熟知,一段時間被各大平臺的歌手翻唱,成為很多視頻BGM的熱門。很多人也是因為這首歌認識了「花粥」這個民謠歌手。
  • 我們試了一款「狗屁不通生成器」,發現了它別的用處
    一方面 AI 確實能實現內容自動篩選和優化能力,編輯只要對 AI 作品進行幹預和優化;另一方面,微軟也可以通過 AI 節省大量新聞編輯的人力成本。更為重要的是,相比於人類編輯,AI 還能 24 小時不間斷工作,無論在時效性和效率方面,機器都遠高於人類。
  • 教授怒斥古風「狗屁不通」,阿蘭曬圖維權,大量古風歌曲被下架!
    如今的古風圈最火的是什麼?不是疫情當頭諸多正能量,八方馳援戰疫情,眾志成城克時難。也不是河圖給大家的天下,也不是其他的正能量新聞,充斥古風圈大多內容是,雙笙實力打臉原唱,某某某抄襲,又有那首歌侵權了……雙笙先不說,這個00後小歌手,自己本身是不承認是古風圈的,但由於古風作品居多,前期靠翻唱古風火了起來,所以很多人給她的定位就是古風,不過大多都是小孩子嘛,還不存在什麼辨別能力是值得理解的,雙笙的年紀也不大,大家就當成是一堆小孩子瞎鬧了,不予什麼追究
  • 他發明英文書法,作品賣上千萬,網友:狗屁不通
    文丨史筆如鋼(文章原創 ,版權歸本人所有,歡迎個人轉發分享)我國是一個擁有著深厚歷史底蘊的國家,在許多方面我國都有特殊的優勢,比如在藝術方面。是否能夠帶給人藝術美的享受還未可知,但是英文書法剛發明出來,就遇到了一個問題,那就是除了發明者徐冰,沒有人能夠看得懂他的書法,中國人無法從其中發現這是漢字,而外國人也沒發現他寫的是英文。想要看懂他的書法,必須要根據徐冰寫出的方塊字字母表,將26個字母拆解開來,用漢字書法的方式將它寫出來,所以說,要看懂英文書法,還必須要想重新學習「寫字」。
  • 「你的笑像條惡犬」,大學老師批歌詞狗屁不通,遭網友圍攻!
    近日,一位大學老師在網絡平臺貼出一份「古風歌詞」並發文稱:這是什麼狗屁不通的東西,在計程車上聽到的,真是刷新難聽底線。」該言論發出不久,便遭到部分網友的怒懟,「您配嗎?」「蹭熱度,回家葬母吧。」「你這智商怎麼寫的書,給小學生看的?」
  • 衰漫畫:阿衰的作文全是成語,但讀起來卻狗屁不通?
    導讀:《阿衰》漫畫解讀,阿衰的作文全是成語,但讀起來卻狗屁不通? 阿衰是一個不折不扣的學渣,每次在寫作文的時候都要絞盡腦汁,可即便如此他寫出來的作文還是會被金老師批評。
  • 萬聖節定製「喪屍生成器」,編輯部親測,效果鬼畜
    AI 是一個盛產陰間產品的領域,這一點似乎已經毋庸置疑。前不久,有人做了個用來生成「大眼萌」漫畫形象的網站「」,但很快就有人走向了另一個極端:用類似技術做一個喪屍生成器!利用 Toonify 生成的威爾 · 史密斯漫畫形象。利用「喪屍生成器」生成的威爾 · 斯密斯喪屍形象。
  • 萬聖節定製「喪屍生成器」,編輯部親測,效果鬼畜
    AI 是一個盛產陰間產品的領域,這一點似乎已經毋庸置疑。前不久,有人做了個用來生成「大眼萌」漫畫形象的網站「Toonify」,但很快就有人走向了另一個極端:用類似技術做一個喪屍生成器!利用 Toonify 生成的威爾 · 史密斯漫畫形象。
  • 朋友圈裝逼圖片生成器集合
    其實其中的一部分原來是使用網頁來一鍵生成的裝逼圖片,這不接下來筆者就要給各位介紹一些朋友圈的裝逼圖片生成器,讓你也能娛樂一下。不過裝逼可不要太過分哦,比如你說買了一架飛機那可是牛皮吹上天了!這不,一個關於無人機的裝逼神器--無人機駕駛證件生成器出現了,看看證件上印上的正是你的名字,趕緊發到朋友圈讓大家驚嘆一下吧!
  • 9款魔性#傻瓜生成器#,上班可以划水一天
    1  沙雕DIY跳舞生成器這款傻瓜生成器,真不能叫傻瓜,只能叫沙雕。保準能把在座的各位逗樂。你可以直接DIY看著就想笑的小人,然後再隨手瞎畫幾個配件,點擊生成,它就能開始魔性自由發揮:旋轉、跳躍、我不停轉......
  • 用GPT-2做個「姥爺」!57行代碼給《瑞克和莫蒂》寫新劇集
    訓練集是用來訓練模型的,測試集則用來評估模型效果。訓練模型Hugging Face’s Transformers庫提供了一個簡單的GPT2模型訓練腳本(https://github.com/huggingface/transformers/tree/master/examples/language-modeling#gpt-2gpt-and-causal-language-modeling