「寫這封信的人是德國人。你是否注意到這句話的特殊結構?「這些是夏洛克·福爾摩斯在」波希米亞的醜聞「中的一句話,分析了一位客戶的說明,揭露了波希米亞國王的隱姓埋名,順便說一句,他是一位傑出的文學分析家。 。傳說中的夏洛克福爾摩斯(Sherlock Holmes)無法保密,他可以從一滴水中讀取海洋。就像紙張帶有皇室手指的標記一樣,對於熟練的讀者來說,寫作帶有皇家心靈的印記。
小說最近成為了改進的時尚科學,寫作風格研究的事實。1964年,弗雷德裡克·莫斯特勒(Frederick Mosteller)和大衛·華萊士(David Wallace)發表了一份為期三年的關於聯邦黨人論文中常用詞分布的研究並且表明亞歷山大·漢密爾頓和詹姆斯·麥迪遜的寫作風格在微妙的方面有所不同。例如,只有麥迪遜使用「while」這個詞(漢密爾頓用「而」代替)。更為巧妙的是,雖然漢密爾頓和麥迪遜都使用了「by」這個詞,但麥迪遜更頻繁地使用它,足以讓你猜到誰通過查看這個詞的使用頻率來撰寫哪些論文。莫斯特勒和華萊士將這項工作作為結論,並且能夠證明漢密爾頓和麥迪遜聲稱的某些「有爭議」的論文絕對可能來自麥迪遜的筆。今天,計算機可以在幾秒鐘內完成這種類型的分析,無論是發現一起謀殺 - 偽裝成自殺的案例,研究一部匿名的中世紀詩歌,解決有關作者信用的爭議,甚至為難民提供政治庇護。例如,在最後一個案例中,一個鎮壓外國政府的批評者根據他在網上撰寫和發表的文章聲稱有庇護。但問題是這些文章是匿名發表的。這不一定能阻止一個只有懷疑足以被監禁的地方的鎮壓特工。但是這項技術能夠使移民法官相信他所涉及的文件的作者身份,從而讓他留下來。
在過去的十年中,我開發了一個電腦程式,基於數百萬種不同的功能,對寫作風格進行了這種分析。該程序將採用寫作樣本,並根據相似性確定一組作者中最有可能編寫該樣本的人。7月份,我收到倫敦「 星期日泰晤士報」記者發來的電子郵件,詢問我是否可以幫助他們解開謎團。記者收到了一條提示,即JK羅琳秘密用鋼筆名稱寫了一本小說:杜鵑的召喚,羅伯特·加爾布雷思(Robert Galbraith)曾被描述為皇家軍事警察的前成員,他的小說「直接源於他自己的經歷和他的軍事朋友的經歷。」這一提示至少是合情合理的。羅琳和加爾布雷思有同樣的經紀人和編輯。這本書對於一個假定的第一次小說家而言異乎尋常地完成了。加爾布雷思,一個表面上花了數年時間穿制服的男人,出人意料地擅長描述女裝。但是仍然缺乏確鑿的證據。記者想知道電腦程式可以確定什麼。
語言使用是一組個人選擇。例如,英語為詞語提供了大量的選擇來描述大於大的詞,例如「巨大」,「巨大」,「巨大」或「巨大」等詞。作家可以選擇表達一個想法用一些精確的單詞或一堆普通的,一般的單詞,類似於將一個複雜的想法 - 或者不是 - 打成一口大小的簡單句子。我們甚至沒有意識到這些選擇中的許多。
在一項著名的實驗中,心理學家表明,人們對句子一般含義的記憶要比他們逐字回憶句子的能力要好得多。例如,聽到這句話的主題 - 「 浣熊在樹上跑,狗在他們周圍跑」 -幾分鐘之後被問到是否聽過這句話:浣熊跑到樹上,狗圍著它跑。如果你正在快速閱讀,你可能沒有注意到最後一個字的微小變化。大多數科目也無法區分。人們不會太注意這些常見的小詞,只要他們理解句子的意思(狗在樹上跑著一些浣熊),但作者的指紋在代詞選擇中是可見的。
我開發的程序,JGAAP(Java Graphical Authorship Attibution Program)對大量功能的相似程度進行了數學分析,對於任何人類分析師來說都是太多了。例如,莫斯特勒和華萊士看了大約三十個不同的詞。JGAAP可以跟蹤一組百科全書中的每個單詞。通過觀察加爾布雷思的語言選擇,該計劃可以量化羅琳和加爾布雷思之間的相似程度。如果他們完全不同,這可以有效地排除羅琳作為作者並且詆毀小費。如果它們非常相似,特別是與同類型的其他作者相比,則表明她可能是作者。雖然這不能證明羅琳已經寫過,但這將是一種強有力的客觀證據。
重要的是要仔細決定要看哪些相似之處。並非所有選擇都是平等的; 某些選擇(例如字長)比其他選擇(例如使用介詞)更容易被注意,控制和改變。通常更好的方法是檢查許多不同的功能而不僅僅是少數功能,並運行許多分析以確定它們是否一致。對於這種分析,我選擇了四組不同的功能,這些功能已被證明可以提供有關作者身份的有用信息。同樣重要的是,他們也相對獨立,因此他們互相提供交叉檢查。例如,我使用的一個變量是字長的分布。每部小說都有很多單詞,每個單詞都有一個長度,因此人們可以得到一個強有力的描述,即本文中的這類單詞中有如此百分比的字母。
另一個特徵是100個最常見的單詞。該文件的百分比是「the」,什麼是「of」,等等。這又是一個易於通過計算機提取的豐富數據集。最後,我根據作者詞彙進行了兩次測試。第一個是關於字符4克的分布,四個相鄰字符的組。這些可能是單詞,單詞的一部分(如「內部」一詞中的四個字母「nsid」)或兩個單詞的一部分(就像「n」中的四個字母「n」一樣) 。我還使用單詞雙字母,相鄰單詞對(如「對」,「相鄰單詞」和「相鄰單詞」)再次成為具有良好記錄的功能。遺憾的是,這種方法的一個優點也是缺點。跟蹤了數千個功能,這是什麼使這個像羅琳。」 Stylometry,喜歡運動,經常英寸的遊戲。
在這項研究中,記者和我選擇了三位類似小說家的羅琳小說和故事(所有英國女性犯罪小說家:羅琳自己 的休閒空缺,露絲倫德爾的 聖齊塔社會,PD詹姆斯' 私人病人 和Val McDermid的 The Wire在血液中)看看哪一個與加爾布雷思最相似。 在這四個分析中,羅琳是唯一一個始終如一地匹配風格的作家。例如,Val McDermid以與Galbraith非常相似的方式使用單詞對,但她使用長短單詞與Galbraith非常不同。字長分布與羅琳或詹姆斯相似。
解釋這些結果可能很棘手,但簡單的統計數據可以說明這種匹配的緊密程度。首先,除了羅琳之外,所有作者都被至少一項測試明確排除在外。無論是杜鵑的作者是誰,都不是露絲倫德爾。有四位作者,一個隨機選擇的作者同樣可能最接近詹姆斯和McDermid,或者就像Renlell可能與羅琳不同。如果作者不是四個中的任何一個,那麼她就像「遠離」(第三或第四個候選人)那樣「接近」加爾布雷思(意思是列表中可能排在前兩位的作者之一)。換句話說,如果羅琳沒有寫過杜鵑,她只有50/50的鏡頭,有相似的字長。她也只有50/50的機會擁有相似的單詞對,具有相似的字符簇或類似的常用單詞。16歲中只有一位作家「幸運」到足以擁有與加爾布雷思相似的寫作風格。如果羅琳不是作者,那麼該推特只有大約6%的機率命名一直相似的人。
這是否「證明」羅琳的作者身份?當然不是。即使是DNA也無法做到這一點; DNA匹配僅僅意味著感興趣的人或具有相似基因的人,可能是家庭成員。測量學比DNA更不可靠和準確 - 畢竟,你的DNA在你的一生中是恆定的,絕對恆定和不變的,但如果兩部小說根本沒有變化,那麼它們就是同一部小說。所有我們都知道這一點,無論是羅琳本人,還是那些以與羅琳非常相似的風格寫作的人。但這足以讓「 星期日泰晤士報」了解她的經紀人。2013年7月13日,她承認了The Cuckoo's Calling是她的工作,她希望通過以筆名出版,獲得毫無期望的反饋。
這項技術顯然是一把雙刃劍。如果可以通過計算分析識別羅琳,那麼舉報人呢?任何人都可以安全地避開現代的Sherlock全視之眼嗎?目前,是的。真正違反羅琳隱私的人不是我的電腦,甚至不是「 星期日泰晤士報」的記者,而是首先提出調查建議的推特。看每個潛在的作者看看誰可能寫了一本書是不可行的; 沒有老式的偵探工作(和線人),大海撈針仍然足夠大,以至於針頭可以成功隱藏