電腦程式如何幫助顯示JK羅琳寫一個杜鵑的呼喚

2020-12-15 桃花亂春風

「寫這封信的人是德國人。你是否注意到這句話的特殊結構?「這些是夏洛克·福爾摩斯在」波希米亞的醜聞「中的一句話,分析了一位客戶的說明,揭露了波希米亞國王的隱姓埋名,順便說一句,他是一位傑出的文學分析家。 。傳說中的夏洛克福爾摩斯(Sherlock Holmes)無法保密,他可以從一滴水中讀取海洋。就像紙張帶有皇室手指的標記一樣,對於熟練的讀者來說,寫作帶有皇家心靈的印記。

小說最近成為了改進的時尚科學,寫作風格研究的事實。1964年,弗雷德裡克·莫斯特勒(Frederick Mosteller)和大衛·華萊士(David Wallace)發表了一份為期三年的關於聯邦黨人論文中常用詞分布的研究並且表明亞歷山大·漢密爾頓和詹姆斯·麥迪遜的寫作風格在微妙的方面有所不同。例如,只有麥迪遜使用「while」這個詞(漢密爾頓用「而」代替)。更為巧妙的是,雖然漢密爾頓和麥迪遜都使用了「by」這個詞,但麥迪遜更頻繁地使用它,足以讓你猜到誰通過查看這個詞的使用頻率來撰寫哪些論文。莫斯特勒和華萊士將這項工作作為結論,並且能夠證明漢密爾頓和麥迪遜聲稱的某些「有爭議」的論文絕對可能來自麥迪遜的筆。今天,計算機可以在幾秒鐘內完成這種類型的分析,無論是發現一起謀殺 - 偽裝成自殺的案例,研究一部匿名的中世紀詩歌,解決有關作者信用的爭議,甚至為難民提供政治庇護。例如,在最後一個案例中,一個鎮壓外國政府的批評者根據他在網上撰寫和發表的文章聲稱有庇護。但問題是這些文章是匿名發表的。這不一定能阻止一個只有懷疑足以被監禁的地方的鎮壓特工。但是這項技術能夠使移民法官相信他所涉及的文件的作者身份,從而讓他留下來。

在過去的十年中,我開發了一個電腦程式,基於數百萬種不同的功能,對寫作風格進行了這種分析。該程序將採用寫作樣本,並根據相似性確定一組作者中最有可能編寫該樣本的人。7月份,我收到倫敦「 星期日泰晤士報」記者發來的電子郵件,詢問我是否可以幫助他們解開謎團。記者收到了一條提示,即JK羅琳秘密用鋼筆名稱寫了一本小說:杜鵑的召喚羅伯特·加爾布雷思(Robert Galbraith)曾被描述為皇家軍事警察的前成員,他的小說「直接源於他自己的經歷和他的軍事朋友的經歷。」這一提示至少是合情合理的。羅琳和加爾布雷思有同樣的經紀人和編輯。這本書對於一個假定的第一次小說家而言異乎尋常地完成了。加爾布雷思,一個表面上花了數年時間穿制服的男人,出人意料地擅長描述女裝。但是仍然缺乏確鑿的證據。記者想知道電腦程式可以確定什麼。

語言使用是一組個人選擇。例如,英語為詞語提供了大量的選擇來描述大於大的詞,例如「巨大」,「巨大」,「巨大」或「巨大」等詞。作家可以選擇表達一個想法用一些精確的單詞或一堆普通的,一般的單詞,類似於將一個複雜的想法 - 或者不是 - 打成一口大小的簡單句子。我們甚至沒有意識到這些選擇中的許多。

在一項著名的實驗中,心理學家表明,人們對句子一般含義的記憶要比他們逐字回憶句子的能力要好得多。例如,聽到這句話的主題 - 「 浣熊在樹上跑,狗在他們周圍跑」 -幾分鐘之後被問到是否聽過這句話:浣熊跑到樹上,狗圍著它跑。如果你正在快速閱讀,你可能沒有注意到最後一個字的微小變化。大多數科目也無法區分。人們不會太注意這些常見的小詞,只要他們理解句子的意思(狗在樹上跑著一些浣熊),但作者的指紋在代詞選擇中是可見的。

我開發的程序,JGAAP(Java Graphical Authorship Attibution Program)對大量功能的相似程度進行了數學分析,對於任何人類分析師來說都是太多了。例如,莫斯特勒和華萊士看了大約三十個不同的詞。JGAAP可以跟蹤一組百科全書中的每個單詞。通過觀察加爾布雷思的語言選擇,該計劃可以量化羅琳和加爾布雷思之間的相似程度。如果他們完全不同,這可以有效地排除羅琳作為作者並且詆毀小費。如果它們非常相似,特別是與同類型的其他作者相比,則表明她可能是作者。雖然這不能證明羅琳已經寫過,但這將是一種強有力的客觀證據。

重要的是要仔細決定要看哪些相似之處。並非所有選擇都是平等的; 某些選擇(例如字長)比其他選擇(例如使用介詞)更容易被注意,控制和改變。通常更好的方法是檢查許多不同的功能而不僅僅是少數功能,並運行許多分析以確定它們是否一致。對於這種分析,我選擇了四組不同的功能,這些功能已被證明可以提供有關作者身份的有用信息。同樣重要的是,他們也相對獨立,因此他們互相提供交叉檢查。例如,我使用的一個變量是字長的分布。每部小說都有很多單詞,每個單詞都有一個長度,因此人們可以得到一個強有力的描述,即本文中的這類單詞中有如此百分比的字母。

另一個特徵是100個最常見的單詞。該文件的百分比是「the」,什麼是「of」,等等。這又是一個易於通過計算機提取的豐富數據集。最後,我根據作者詞彙進行了兩次測試。第一個是關於字符4克的分布,四個相鄰字符的組。這些可能是單詞,單詞的一部分(如「內部」一詞中的四個字母「nsid」)或兩個單詞的一部分(就像「n」中的四個字母「n」一樣) 。我還使用單詞雙字母,相鄰單詞對(如「對」,「相鄰單詞」和「相鄰單詞」)再次成為具有良好記錄的功能。遺憾的是,這種方法的一個優點也是缺點。跟蹤了數千個功能,是什麼使這個像羅琳。」 Stylometry,喜歡運動,經常英寸的遊戲。

在這項研究中,記者和我選擇了三位類似小說家的羅琳小說和故事(所有英國女性犯罪小說家:羅琳自己 的休閒空缺,露絲倫德爾的 聖齊塔社會,PD詹姆斯' 私人病人 和Val McDermid的 The Wire在血液中)看看哪一個與加爾布雷思最相似。 在這四個分析中,羅琳是唯一一個始終如一地匹配風格的作家。例如,Val McDermid以與Galbraith非常相似的方式使用單詞對,但她使用長短單詞與Galbraith非常不同。字長分布與羅琳或詹姆斯相似。

解釋這些結果可能很棘手,但簡單的統計數據可以說明這種匹配的緊密程度。首先,除了羅琳之外,所有作者都被至少一項測試明確排除在外。無論是杜鵑的作者是誰,都不是露絲倫德爾。有四位作者,一個隨機選擇的作者同樣可能最接近詹姆斯和McDermid,或者就像Renlell可能與羅琳不同。如果作者不是四個中的任何一個,那麼她就像「遠離」(第三或第四個候選人)那樣「接近」加爾布雷思(意思是列表中可能排在前兩位的作者之一)。換句話說,如果羅琳沒有寫過杜鵑,她只有50/50的鏡頭,有相似的字長。她也只有50/50的機會擁有相似的單詞對,具有相似的字符簇或類似的常用單詞。16歲中只有一位作家「幸運」到足以擁有與加爾布雷思相似的寫作風格。如果羅琳不是作者,那麼該推特只有大約6%的機率命名一直相似的人。

這是否「證明」羅琳的作者身份?當然不是。即使是DNA也無法做到這一點; DNA匹配僅僅意味著感興趣的人或具有相似基因的人,可能是家庭成員。測量學比DNA更不可靠和準確 - 畢竟,你的DNA在你的一生中是恆定的,絕對恆定和不變的,但如果兩部小說根本沒有變化,那麼它們就是同一部小說。所有我們都知道這一點,無論是羅琳本人,還是那些以與羅琳非常相似的風格寫作的人。但這足以讓「 星期日泰晤士報」了解她的經紀人。2013年7月13日,她承認了The Cuckoo's Calling是她的工作,她希望通過以筆名出版,獲得毫無期望的反饋。

這項技術顯然是一把雙刃劍。如果可以通過計算分析識別羅琳,那麼舉報人呢?任何人都可以安全地避開現代的Sherlock全視之眼嗎?目前,是的。真正違反羅琳隱私的人不是我的電腦,甚至不是「 星期日泰晤士報」的記者,而是首先提出調查建議的推特。看每個潛在的作者看看誰可能寫了一本書是不可行的; 沒有老式的偵探工作(和線人),大海撈針仍然足夠大,以至於針頭可以成功隱藏

相關焦點

  • JK羅琳作品被退稿因為寫得差?
    JK羅琳與他的新書《布穀鳥的呼喚》作者 仲岸近日,《哈利·波特》小說作者J·K·羅琳在推特上曬出了自己幾年前收到的兩封退稿信。退稿信顯示,她當時以「羅伯特·加爾布雷斯」的筆名向出版社投稿《布穀鳥的呼喚》一書,可是出版社拒絕了這本書。J·K·羅琳說曬退稿信的目的是想鼓勵大家,面對退稿的挫折不要灰心。大作家J·K·羅琳換個馬甲,作品立馬被出版社退稿,這是因為她真的寫得差嗎?或者是出版社看稿編輯的「有眼無珠」鬧了大笑話?
  • 羅琳新作聚焦上流社會(全文)
    《杜鵑的呼喚》不是一本激發創造力的小說,羅琳在《哈利·波特》系列小說中運用創造力勾畫了一個充滿想像的世界,這個世界有著自己的儀式和規則。《哈利·波特》系列小說強調的是善與惡、喪失純真、死亡與自由靈魂等大主題,而《杜鵑的呼喚》講述的是更加世俗的東西,如中年危機、仇富心理以及當代倫敦的社會人類學。
  • JK羅琳發新書《The Ickabog》 故事與哈利波特無關
    JK羅琳發新書《The Ickabog》 故事與哈利波特無關 2020-05
  • 哈利波特票房過億,55歲JK·羅琳:你是你自己的魔法師
    從被摧毀的生活中重建自己在《哈利·波特》出版之前,回顧JK羅琳的頭他幾乎是一個被反覆敲打的故事。在一次採訪中,JK羅琳描述了他30歲之前的歲月:「我人生的前一部分,一直掙扎在自己的理想和周圍人對我的期望之間的矛盾。」(右邊是JK·羅琳)童年時代她從小就喜歡寫作和閱讀,6歲開始寫故事。
  • 《神奇動物在哪裡2》作者JK羅琳匿名投稿被拒,被建議去報班培訓
    羅琳但是在2013年羅琳通過筆名「羅伯特·加爾布雷斯」向多家出版處投稿《布穀鳥的呼喚》都被拒絕,其中有一家出版社回信建議其應該參加寫作課程。後來無奈羅琳自己的出版社印發了該作,銷量僅有449本,《星期日泰晤士日報》書評人茵迪亞·奈特閱讀之後,公開質疑該書作者就是羅琳。羅琳只好承認,一夜之間《布穀鳥的呼喚》銷量劇增50000倍,榮獲暢銷榜榜首。
  • JK羅琳再推懸疑小說 「隱姓埋名」成行為藝術?
    耐人尋味的是,在第一部推理小說《布穀鳥的呼喚》使用化名被揭穿之後,羅琳此次再次使用這個化名,不過這回已經不是可以保持低調,而是成了一個眾所周知的商業噓頭。看來,還是名氣比圖書更好賣。  《蠶》的套路是很「福爾摩斯」的,透著英倫推理之風。不過更引人注目的,恐怕還是此書的書名。羅琳在這部作品中用了化名「羅伯特·加爾布雷思」。
  • J.K.羅琳小說慘遭退稿 出版社:建議你去上寫作課
    【環球網報導 記者 任梅子】據臺灣東森新聞雲3月26日報導,以《哈利波特》系列小說紅遍全球的英國著名作家 J.K.羅琳(JK Rowling)竟然也會被退稿。J.K.羅琳25日在社交網站推特上發布了一則訊息,表示她以筆名羅勃.蓋布瑞斯(Robert Galbraith)寫的首本小說《杜鵑的呼喚》(The Cuckoo's Calling),在尋找出版社出書時並不順利,有出版社甚至還建議她重新上寫作課,此消息一出令網友相當震驚。據報導,J.K.羅琳雖然公布了出版社回絕她的信,但她強調此訊息不是為了要報復,而是希望藉此鼓勵其他想要創作的人。
  • 因跨性別問題,兩大《哈利波特》粉絲站與JK羅琳「劃清界限」
    英國《衛報》3日消息,破釜酒吧(Leaky Cauldron)和麻瓜網(Mugglenet)當地時間2日宣布,他們將不再提供羅琳的個人網站連結、不再使用她的照片、不再提及其除了《哈利波特》外的其他成就。原因是他們反對羅琳在「驕傲月」中一系列關於跨性別者的言論。
  • 多年來關於哈利波特,JK羅琳爆的那些你可能不知道的料!
    「這是一個非常困難的咒語。」3.伏地魔的" T "顯然是無聲的。根據羅琳的說法,我們一直以來都把黑魔王的名字念錯了:「據@jk_rowling說,我總是忘記提一句哈利波特的小故事:伏地魔的t是沉默的。」作者分享了這條推特的連結,並補充道:「……」但我敢肯定,我是唯一這麼說的人。
  • 難捨哈利波特情結 JK羅琳:永遠不會說再見
    不認為哈利波特的冒險旅程結束了  儘管現年45歲的羅琳感覺到哈利波特系列,在《哈利波特與死亡聖器》11月11日倫敦首映後正在走向終結,但她也很樂觀地表示,也許過些時候,她還會創造另外一個「哈利波特」。「《哈7》是哈利波特系列中我最喜歡的一部。首映當晚我太激動了,我還期望著再看一遍」。
  • JK羅琳的人生故事是什麼樣的?
    這是JK羅琳給我的人生感悟。說起《哈利波特》,便提及它的作者羅琳,那麼這位給無數讀者創造了魔法世界的女作家,她究竟是一個怎麼樣的人?今天就跟大家聊一聊JK羅琳的魔法修煉之路的故事。JK羅琳原名叫喬安妮.羅琳,小名喬,1965年7月31日JK羅琳在英國格溫特郡的一個普通家庭中誕生,父親是飛機製造廠的一名退休管理員,母親是一位實驗室技術人員,她還有一個比自己小兩歲的妹妹戴安妮.羅琳。妹妹出生後不久,羅琳全家遷到了溫特本,在這裡她度過了一段快樂的童年時光。
  • JK羅琳的奇幻人生,比哈利波特精彩太多了
    同樣的,這句話也適用於身居國外的JK羅琳。說到JK羅琳,可能還有很多人不知道這個名字。但是提到《哈利波特》下至三歲小孩上到四十歲左右的中年人肯定都有聽過。而在這之間的大部分人,都是《哈利波特》的忠實粉絲。讓大家難以相信的是,《哈利波特》的作者JK羅琳在創作小說的時候,已經為人母,而且還是一個獨自撫養孩子的單身母親。
  • J.K.羅琳新作《蠶》英美即將上市
    從去年《布穀鳥的呼喚》開始,J.K羅琳就以這樣一個男性化名開始寫以私家偵探「科莫蘭·斯特萊克」為主角的系列驚悚小說。 ■ 年內出中文版■ 早報將獨家刊登小說前兩章,敬請留意後天出版的「星期四原創」
  • JK羅琳被哈利波特粉絲們開除,原因是什麼呢?
    很多人看到這條消息都十分費解,起因是因為羅琳與跨性別歧視之爭引起的,去年12月份,英國計劃對跨性別的政策作出一些調整,認證程序將進行簡化,就算沒有做變性手術,只要自己認定自己是異性了,就可以被認為是跨性別異性,英國一位女性反對此項政策,認為侵犯了女性的性別空間,而她也因此丟掉了工作。而羅琳就公開為這位女性抱不平,認為言論自由,不應該因此失去工作,堅決支持這位女性。
  • 遊戲也急於劃清界限,JK羅琳為何落得「眾叛親離」?
    開除JK羅琳的兩大粉絲網站之一Mugglenet  這樣的魔幻行為簡直就像是在說:「JK羅琳就是個寫書的,她懂個屁的《哈利波特》。」讓不少吃瓜群眾看得頭上直冒問號。——表明自己從未在書中明確寫過赫敏是什麼膚色(雖然書中有Hermione's white face的描述)。
  • JK羅琳談《哈利波特》靈感起源 不是傳言中的咖啡館
    《哈利波特》系列伴隨了不少人的童年一起成長,此前一直有傳言稱《哈利·波特》第一部是J.K.羅琳在一家名為「the elephant house」的咖啡館寫完的,然而事實並非如此。近日J.K.羅琳在推特飆升在這個咖啡館裡寫過文,但是這並不是出生地,一起來了解一下吧!
  • 羅琳動筆續寫哈利波特系列 新故事脫胎於哈利教材
    昨日記者獲悉,羅伯特・加爾布雷斯的《布穀鳥的呼喚》(暫定名)中文簡體字版權,由上海九久讀書人獲得,他們將與人民文學出版社合作出版。羅伯特・加爾布雷斯是暢銷書哈利・波特系列作者J.K.羅琳使用的化名,也是J.K之後,羅琳再次使用男性化名寫作。
  • JK羅琳宣布將在網上免費發布新書《The Ickabog》
    據外媒報導,當地時間周二,《哈利波特》系列作者JK羅琳在Twitter上宣布,她將於5月26日在網上發布新書《The Ickabog》。這位作家表示,她將在6月10日前的每個工作日在Ickabog網站上免費發布一章內容。
  • 《哈利波特》:今天聊聊JK羅琳的母校,埃克塞特大學
    在上一期小魚介紹了《哈利波特》電影中三位小主演的童年經歷和成年生活,今天小魚跟小夥伴們聊一聊《哈利波特》作者,JK羅琳的母校-埃克塞特大學。在這裡,JK羅琳獲得了哪些幫助其完成《哈利波特》的靈感呢?這所大學又位於哪裡,有哪些好玩的故事呢?快來跟愛冒險de魚一探究竟吧。
  • 哈利波特粉絲集體宣布開除JK羅琳?「你這種人不配當HP作者!」
    去年12月,英國計劃對跨性別的政策作出調整:調整後,跨性別的身份認證程序將進行簡化。即使沒有進行性別轉換手術的人,只要認定自己是異性,依然可以被認為是跨性別異性。羅琳的態度一次比一次鮮明,羅琳的反對者一次比一次激進,可爭議,到底出在哪裡?在之前的長篇論述中,羅琳大概闡述了自己的觀點:她也愛跨性別群體,但現在,跨性別認定程序的簡化,造成了對單一女性空間的擠壓。