這款「狗屁不通」文章生成器火了,效果確實比GPT 2差太遠

2021-01-15 騰訊網

整理 | 夕顏

出品 | AI科技大本營（ID:rgznai100）

【導讀】最近，一個名字相當接地氣的「狗屁不通」文章生成器（BullshitGenerator）火了，截至目前 GitHub 上 Star 數已超過 3200，還上了微博熱搜。這個神器可以生成各種各樣奇葩文章，比如領導專用「彩虹屁」萬字長文。只有你想不到，沒有這個神器寫不成的文章。但是，生成的文章確實也是「狗屁不通」。這次我們就來解讀一下，這個生成器是怎麼運行的，以此為例，延展探討一下文本生成未來還有哪些改進的方向。

話說，BullshitGenerator 這個項目最初起源於知乎上一位網友的提問：「學生會退會申請六千字怎麼寫？」，本來很簡單的一個問題，但是回答中很多跑偏題的，於是本項目的貢獻者之一表示看不下去了，並「隨便寫了個項目」：狗屁不通文章生成器，幫助這位同學寫了一篇退會申請。

用 Python 生成的這篇文章長這樣：

由於下拉十多下沒滑到底，讓人失去了截全圖的耐心，文章也實在看不下去，因為它真的是一篇邏輯不通的 bullshit。

AI科技大本營（ID:rgznai100）也用這個生成器嘗試了幾個大家都會思考的主題，比如：

試完之後筆者發現，文章本身是沒什麼探討的必要性了，不信你可以自己試試：

生成器地址：https://suulnnka.github.io/BullshitGenerator/index.html

但是關於生成器的工作原理，相信很多人是比較感興趣的。

運行原理是什麼？

據貢獻者介紹，本項目最初的目的是用於中文文字 GUI 開發時測試文本渲染，用 Python 3 版本寫成，目前共有 7 位貢獻者。

鑑於目前 AI 用於文字生成非常流行，這個項目是否也用到了 AI 相關算法呢？答案是否定的，作者表示，BullshitGenerator 沒有用到任何自然語言處理相關算法，只是簡單地擼代碼就可以達到效果。

那 BullshitGenerator 運行的原理是怎樣的？AI科技大本營採訪了CSDN博客專家@小宋是呢進行解讀：

「狗屁不通生成器」是一個文本生成器，用來生成一些中文文字用於 GUI 開發時測試文本渲染。由於此項目的目的只是用於 GUI 開發時測試文本渲染，所以對文本的連貫性和含義要求不高，這也就是「狗屁不通」的含義了

從源碼中可以看出，生成文本的方式就是從本地讀取到的文本中按照一定規律隨機讀取，並且替換掉文本中「x」為指定的主題文本，並未使用深度學習方法。不難發現，生成的文本會存在句子不連貫、重複性高的特點。

是否能與 GPT 2 結合？

issue 中有人發表了對這個項目的評價：

可以看到，大家對這個項目的評價還是以正面居多。其中，有人提到了希望與 GPT 2 進行整合：

很快有人對這個想法提出疑問，比如算力的問題。那麼，BullshitGenerator 與 GPT 2 整合的想法可行嗎？或者是否有必要？@小宋是呢給出的看法如下：

個人覺得「狗屁不通生成器」與「GPT」結合意義不大，這兩個項目的目標和特點差異很大。「狗屁不通生成器」是為了快速用來生成一些中文文字用於 GUI 開發時測試文本渲染，而「GPT」文本生成器目標是生成高質量連貫文本，「GPT」的特點是模型大速度慢質量高，並不滿足「狗屁不通生成器」的設計需求。

GPT 2 是 OpenAI 推出的一個中文生成模型，由加拿大工程師 Adam King 製作的網站上，任何人都能調教簡化版的 GPT-2，它能夠識別從新聞、歌詞、詩歌、食譜、代碼的各種輸入，甚至還為《復仇者聯盟》寫了一個細節豐富的續集，內容可讀性相當高。

令人振奮的是，這個史上最強的 NLP 模型今天正式全部開源，OpenAI 正式放出了 GPT 2 的最後一部分代碼。

開源地址：https://github.com/openai/gpt-2。

作為 GPT 2 分段發布中的最後一輪，此次公開的完整 GPT-2 包含 15 億條參數，其中包含用於檢測 GPT-2 模型輸出的全部代碼及模型權重。

當然，關於 GPT 2 的討論仍在繼續，比如它的實用性，生成假新聞被濫用引發的安全問題等，都是後續還有待改善的關鍵點。

此外，GPT 2 還有一個中文版本，相比之下，GPT2 與 BullshitGenerator 不同之處在於前者使用了 BERT 或 BPE 編譯器，但同樣不需要算法基礎，只要簡單 clone 運行即可，技術上的實現難度更大一些。

「GPT」是比較標準的自回歸語言模型了，Transformer 出現前都是通過 RNN 的方法，之前比較火的「CharRNN」深度學習作詩與作曲都屬於這個範疇。「GPT」將 Transformer 替換了 RNN，使得提取特徵的能力與運算速度都得到很大提升，當然使用大規模數據訓練模型也是「GPT」效果好的一個重要因素。

相較於「GPT」，「狗屁不通生成器」實現就簡單很多，主要代碼就幾十行，基本上只用到了Python 編程技術。體現在文本的連貫性和含義上，雖然生成文本的質量不高，但它也滿足了生成一些中文文字用於 GUI 開發時測試文本渲染的要求。

GPT2 中文項目：https://github.com/Morizeyao/GPT2-Chinese

文本生成的未來

GPT 2 的橫空出世讓大家看到了 AI 在文本生成方面的潛力。正如 Open AI 官博所說，雖然 GPT 2 還面臨檢測等方面的挑戰，但它的潛力還很大， Open AI 表示，未來這個模型還將繼續進行改進，他們期望語言模型能夠在性能上有更大的提升，以此提供更高的輸出質量和準確性。

BullshitGenerator 項目也公布了下一步計劃:

防止文章過於內容重複

加入更多囉嗦話.

加入馬三立裡的內容

加入手寫體直接渲染出圖片的功能(僅僅用於測試本人的印表機是否工作正常, 請勿做它用).

大膽設想一下，日後類似於 BullshitGenerator 這樣的文本生成器將進一步改進，那麼是否在沒有 AI 算法的參與下，僅憑簡單的代碼就能夠生成高質量的文本（雖然可能性幾乎為零，但如果可以實現將是顛覆性的成果）？從另一個思路來講，以 GPT2 為代表的 NLP 模型現在已經可以生成以假亂真的文本，未來又該如何克服目前的挑戰，生成更高質量的作品，同時能夠保證安全？是否未來有一天，文本生成技術或許真的會取代一部分人類的工作？這些問題都值得深思。

目前研究方向：自然語言處理與自動語音識別、圖像識別與自動檢測、圖神經網絡與推薦系統。

相關焦點

狗屁不通文章生成器是怎麼火起來的?

你不需要像線下課堂一樣認真聽45分鐘的課，也不需要在寫作時隨時數還差多少字，更不用為了一個開頭把自己的筆咬破，只需要打開一個網頁。如上圖所示，你如果對這篇不滿意，還可以隨時「再來一篇」。以上這段猛一看十分厲害，仔細讀讀卻完全不懂的文字，不是某個企圖矇混過關的學生的論文，而是一篇名為《如何寫一份十萬加的推文》的文章，是我在狗屁不通文章生成器中一鍵生成的。雖然以上這段看似和十萬加的推文毫無關係，但實際上整篇文章隨時隨地都在點題，圍繞主題展開豐富而嚴謹的探討：「解決如何寫一份十萬加的推文的問題，是非常非常重要的。
「狗屁不通文章生成器」登頂GitHub熱榜,分分鐘寫出萬字形式主義大作

看到這裡，我們不得不開始思考一個問題：狗屁不通文章生成器，到底是為什麼而誕生的?對世界的意義又是什麼?(誤)本著不懂就問的原則，量子位戳了一下生成器的作者萌老師，他給了我們一個精彩的答案。緣分，都是從偶遇一個知乎問題開始的：退會申請六千字
高考滿分作文生成器來了!批量完成"生活在XX上"

如何用AI寫一篇能看懂的作文對於這篇高考滿分作文本身，最大的爭議點就在於「不說人話」。而這個「滿分作文生成器」，簡單來說就是根據這篇作文套模板。那麼，如果以《生活在樹上》這個題目展開，作文「正確的打開方式」，應該是什麼樣呢？用之前特別火的AI「狗屁不通生成器」，效果也是別具一格。
類似傻瓜文案生成器的有哪些?微博超火生成器網頁地址大全[視頻...

傻瓜文案生成器的玩法很多，微博上也出現了很多熱門的生成器玩法，這次小編會分享一些超級火爆的生成器，下面就是這次小編要給大家分享的內容，想要知道傻瓜文案生成器的玩法和其他生成器的入口，都可以參考下面的攻略哦！
各種好玩的模擬器和生成器,這88個網站值得你轉發收藏

「諾基亞簡訊圖片生成器」：很多人都喜歡用這種簡訊樣式的表情包，而這個諾基亞簡訊圖片生成器則只需要輸入指定文字，就可以一鍵生成出想要的簡訊表情包，而且非常還原真實的功能機簡訊顯示效果。「賽博朋克2077生成器」：《賽博朋克2077》是一款備受大家關注的遊戲，遊戲中充滿了科幻感十足的賽博朋克元素，而這個生成器就是通過加logo的方式，幫大家製作出一張極具賽博朋克風格的照片，讓萬物皆可賽博朋克。
我用「喪屍生成器」給愛豆們換了妝,效果太鬼畜!

是的，這些真·喪屍全部出自一款『喪屍生成器』，只需輸入一張照片就可以立刻生成一張喪屍照，而且妝效感人......不知道大家還記不記得，之前小編曾報導過一款換臉網站Toonify，這個網站可以把人臉切換成動漫臉，效果非常逼真，上線當天訪問量就超過了25萬。
我用「喪屍生成器」給愛豆們換了妝效果太鬼畜!

是的，這些真·喪屍全部出自一款「喪屍生成器」，只需輸入一張照片就可以立刻生成一張喪屍照，而且妝效感人……不知道大家還記不記得，之前小編曾報導過一款換臉網站Toonify，這個網站可以把人臉切換成動漫臉，效果非常逼真，上線當天訪問量就超過了25萬。
《盜將行》狗屁不通?女教授批評歌詞遭歌手花粥怒懟:管你屁事

《盜將行》狗屁不通？女教授批評歌詞遭歌手花粥怒懟：管你屁事圖片來源於網絡，文章原創歡迎關注說起《盜將行》相信很多人都知道，因其古色古風的歌詞韻味被大家熟知，一段時間被各大平臺的歌手翻唱，成為很多視頻BGM的熱門。很多人也是因為這首歌認識了「花粥」這個民謠歌手。
我們試了一款「狗屁不通生成器」,發現了它別的用處

一方面 AI 確實能實現內容自動篩選和優化能力，編輯只要對 AI 作品進行幹預和優化；另一方面，微軟也可以通過 AI 節省大量新聞編輯的人力成本。更為重要的是，相比於人類編輯，AI 還能 24 小時不間斷工作，無論在時效性和效率方面，機器都遠高於人類。
教授怒斥古風「狗屁不通」,阿蘭曬圖維權,大量古風歌曲被下架!

如今的古風圈最火的是什麼？不是疫情當頭諸多正能量，八方馳援戰疫情，眾志成城克時難。也不是河圖給大家的天下，也不是其他的正能量新聞，充斥古風圈大多內容是，雙笙實力打臉原唱，某某某抄襲，又有那首歌侵權了……雙笙先不說，這個00後小歌手，自己本身是不承認是古風圈的，但由於古風作品居多，前期靠翻唱古風火了起來，所以很多人給她的定位就是古風，不過大多都是小孩子嘛，還不存在什麼辨別能力是值得理解的，雙笙的年紀也不大，大家就當成是一堆小孩子瞎鬧了，不予什麼追究
他發明英文書法,作品賣上千萬,網友:狗屁不通

文丨史筆如鋼（文章原創，版權歸本人所有，歡迎個人轉發分享)我國是一個擁有著深厚歷史底蘊的國家，在許多方面我國都有特殊的優勢，比如在藝術方面。是否能夠帶給人藝術美的享受還未可知，但是英文書法剛發明出來，就遇到了一個問題，那就是除了發明者徐冰，沒有人能夠看得懂他的書法，中國人無法從其中發現這是漢字，而外國人也沒發現他寫的是英文。想要看懂他的書法，必須要根據徐冰寫出的方塊字字母表，將26個字母拆解開來，用漢字書法的方式將它寫出來，所以說，要看懂英文書法，還必須要想重新學習「寫字」。
「你的笑像條惡犬」,大學老師批歌詞狗屁不通,遭網友圍攻!

近日，一位大學老師在網絡平臺貼出一份「古風歌詞」並發文稱：這是什麼狗屁不通的東西，在計程車上聽到的，真是刷新難聽底線。」該言論發出不久，便遭到部分網友的怒懟，「您配嗎？」「蹭熱度，回家葬母吧。」「你這智商怎麼寫的書，給小學生看的？」
衰漫畫:阿衰的作文全是成語,但讀起來卻狗屁不通?

導讀：《阿衰》漫畫解讀，阿衰的作文全是成語，但讀起來卻狗屁不通？阿衰是一個不折不扣的學渣，每次在寫作文的時候都要絞盡腦汁，可即便如此他寫出來的作文還是會被金老師批評。
萬聖節定製「喪屍生成器」,編輯部親測,效果鬼畜

AI 是一個盛產陰間產品的領域，這一點似乎已經毋庸置疑。前不久，有人做了個用來生成「大眼萌」漫畫形象的網站「」，但很快就有人走向了另一個極端：用類似技術做一個喪屍生成器！利用 Toonify 生成的威爾 · 史密斯漫畫形象。利用「喪屍生成器」生成的威爾 · 斯密斯喪屍形象。
萬聖節定製「喪屍生成器」,編輯部親測,效果鬼畜

AI 是一個盛產陰間產品的領域，這一點似乎已經毋庸置疑。前不久，有人做了個用來生成「大眼萌」漫畫形象的網站「Toonify」，但很快就有人走向了另一個極端：用類似技術做一個喪屍生成器！利用 Toonify 生成的威爾 · 史密斯漫畫形象。
朋友圈裝逼圖片生成器集合

其實其中的一部分原來是使用網頁來一鍵生成的裝逼圖片，這不接下來筆者就要給各位介紹一些朋友圈的裝逼圖片生成器，讓你也能娛樂一下。不過裝逼可不要太過分哦，比如你說買了一架飛機那可是牛皮吹上天了！這不，一個關於無人機的裝逼神器--無人機駕駛證件生成器出現了，看看證件上印上的正是你的名字，趕緊發到朋友圈讓大家驚嘆一下吧！
9款魔性#傻瓜生成器#,上班可以划水一天

1 沙雕DIY跳舞生成器這款傻瓜生成器，真不能叫傻瓜，只能叫沙雕。保準能把在座的各位逗樂。你可以直接DIY看著就想笑的小人，然後再隨手瞎畫幾個配件，點擊生成，它就能開始魔性自由發揮：旋轉、跳躍、我不停轉......
用GPT-2做個「姥爺」!57行代碼給《瑞克和莫蒂》寫新劇集

訓練集是用來訓練模型的，測試集則用來評估模型效果。訓練模型Hugging Face’s Transformers庫提供了一個簡單的GPT2模型訓練腳本（https://github.com/huggingface/transformers/tree/master/examples/language-modeling#gpt-2gpt-and-causal-language-modeling

這款「狗屁不通」文章生成器火了,效果確實比GPT 2差太遠

相關焦點

狗屁不通文章生成器是怎麼火起來的?

「狗屁不通文章生成器」登頂GitHub熱榜,分分鐘寫出萬字形式主義大作

高考滿分作文生成器來了!批量完成"生活在XX上"

類似傻瓜文案生成器的有哪些?微博超火生成器網頁地址大全[視頻...

各種好玩的模擬器和生成器,這88個網站值得你轉發收藏

我用「喪屍生成器」給愛豆們換了妝,效果太鬼畜!

我用「喪屍生成器」給愛豆們換了妝 效果太鬼畜!

《盜將行》狗屁不通?女教授批評歌詞遭歌手花粥怒懟:管你屁事

我們試了一款「狗屁不通生成器」,發現了它別的用處

教授怒斥古風「狗屁不通」,阿蘭曬圖維權,大量古風歌曲被下架!

他發明英文書法,作品賣上千萬,網友:狗屁不通

「你的笑像條惡犬」,大學老師批歌詞狗屁不通,遭網友圍攻!

衰漫畫:阿衰的作文全是成語,但讀起來卻狗屁不通?

萬聖節定製「喪屍生成器」,編輯部親測,效果鬼畜

萬聖節定製「喪屍生成器」,編輯部親測,效果鬼畜

朋友圈裝逼圖片生成器集合

9款魔性#傻瓜生成器#,上班可以划水一天

用GPT-2做個「姥爺」!57行代碼給《瑞克和莫蒂》寫新劇集

我用「喪屍生成器」給愛豆們換了妝效果太鬼畜!