梵蒂岡秘密檔案是世界上最偉大的歷史收藏之一。它也是最沒用的。
宏偉是顯而易見的。位於梵蒂岡的圍牆內,在使徒圖書館的隔壁,在西斯廷教堂的北面,VSA的房子有53個線段,可以追溯到12個多世紀以前。它包括一些像教皇布爾那樣的寶,他們把馬丁·路德和請求幫助的蘇格蘭瑪麗女王在她被處死之前送到了羅馬教皇六世。在規模和範圍上,收藏幾乎是無與倫比的。
也就是說,VSA對現代學者用處不大,因為它太難懂了。在這53英裡中,只有幾毫米的頁面被掃描並在網上提供。甚至更少的頁面被轉錄成計算機文本,並進行搜索。如果你想要閱讀其他的東西,你必須申請特殊的訪問,schlep一直到羅馬,並且每一頁都要手寫。
但一個新項目可能會改變這一切。它使用了人工智慧和光學字符識別(OCR)軟體的組合,來搜索這些被忽略的文本,並使它們的轉錄本第一次可用。如果成功的話,這項技術還可以在世界各地的歷史檔案館中打開不計其數的其他文件。
多年來,OCR一直被用來掃描書籍和其他印刷文件,但它不太適合秘密檔案中的材料。傳統的OCR通過在字母之間尋找空格來將單詞分解成一系列字母圖像。然後將每個字母圖像與記憶中的字母銀行進行比較。在決定哪個字母最匹配圖像後,軟體將字母轉換成計算機代碼(ASCII),從而使文本可以搜索。
然而,這個過程實際上只適用於排版文本。這對任何手寫的東西來說都很糟糕,就像大多數古老的梵蒂岡文件一樣。這是1200年前早期的一個例子,是用卡洛琳的小腳本寫的,看起來像是書法和草書的組合:
這個例子中的主要問題是字母之間缺少空格(所謂的「髒分割」)。OCR不能區分字母的位置和另一個字母的起始位置,因此不知道有多少字母。其結果是一個計算上的僵局,有時被稱為Sayre的悖論:OCR軟體需要將一個單詞分割成單個字母,然後才能識別它們,但是在手寫的文本和連接的字母中,軟體需要識別字母來分割它們。這是「第22條軍規」。
一些計算機科學家試圖通過開發OCR來識別整個單詞而不是字母來解決這個問題。這是一種很好的技術——計算機不會「關心」它們是在解析單詞還是字母。但是讓這些系統運行起來是一種負擔,因為它們需要龐大的存儲庫。這些系統不需要幾十個字母,而是要識別成千上萬個普通單詞的圖像。這意味著你需要一整個排的學者,在中世紀的拉丁語中有專門知識,可以查閱舊文檔,捕捉每個單詞的圖像。事實上,你需要每個人的幾張圖片,來解釋筆跡或糟糕的燈光和其他變量的怪癖。這是一個艱巨的任務。
在編碼中,通過一種新的手寫OCR方法來迴避這些問題。這個項目的四個主要科學家是保羅·梅裡多,多納泰拉·弗馬尼,以及羅馬的埃琳娜·尼德杜,以及vsa -裙子賽·塞雷的悖論,這一創新被稱為「拼圖分割」。這一過程,正如團隊最近在一篇論文中概述的那樣,將單詞分解為字母而不是字母,而是更接近於單個筆的筆畫。OCR通過將每個單詞劃分為一系列的垂直和水平的頻帶,並尋找局部最小值——更薄的部分,那裡的墨水較少(或者實際上,像素更少)。然後軟體將這些字母放在這些關節上。最終的結果是一系列的拼圖塊:
就其本身而言,這種拼圖並不是非常有用。
但是軟體可以用不同的方式把它們拼成一個字母。它只需要知道哪些組塊代表真正的字母,哪些是假的。
為了教授這個軟體,研究人員求助於一個不同尋常的幫助:高中生。該團隊在義大利的24所學校招收學生,以建立項目的記憶庫。學生們登錄了一個網站,在那裡他們發現了一個有三個部分的圖片:
上面的綠色條子裡有一些很好的例子,來自中世紀拉丁文字的字母g,中間的紅條包含了一些虛假的g的例子,這是科學家們所謂的「假朋友」。底部的網格是程序的核心部分。每一幅圖像都是由幾個拼圖塊組成的,OCR軟體在一起的時候,就會在一個貌似可信的字母上進行猜測。然後學生們判斷了OCR的努力,告訴它哪些猜測是好的,哪些是壞的。他們通過將每張圖片與完美的綠色字母相比較,然後點擊一個複選框。
通過圖片,點擊一下,學生們就會學會這個軟體,在中世紀拉丁字母(a-i, l-u,加上其他形式的s和d)中,22個字符是什麼樣子的。
這種設置確實需要一些專家的意見:學者們必須找出綠色的完美例子,以及紅色的假例子。但一旦他們這樣做了,就不再需要他們了。學生們甚至不需要能夠閱讀拉丁文。他們所要做的就是匹配視覺模式。起初,「讓高中生參與其中的想法被認為是愚蠢的,」Merialdo說。但是現在機器學習是由於他們的努力。我認為,許多人做出的一個小小的、簡單的貢獻,確實有助於解決一個複雜的問題。
最後,當然,學生們也離開了。一旦他們在足夠多的例子上投下了「是」,軟體就開始獨立地將拼圖碎片拼在一起,並自行判斷哪些字母在那裡。軟體本身成為了專家——它變成了人工智慧。
至少。事實證明,把拼圖塊拼成看似合理的字母是不夠的。計算機還需要額外的工具來解開手寫文本的結。想像一下你正在讀一封信,你會發現這句話:
薩姆肯恩:對他們來說是「清楚」還是「親愛的」?很難說,因為構成「d」和「cl」的筆畫幾乎是一樣的。OCR軟體也面臨著同樣的問題,尤其是像Caroline這樣高度程式化的腳本。嘗試破譯這個詞:
在穿過不同的拼圖組合後,OCR舉起了手。猜測包括aimo, amio, aniio, aiino,甚至是老麥克唐納的Farm-ish aiiiio。這個詞是anno,拉丁語是「year」,軟體把a和o釘在了一起,但是中間那四個平行的柱子使它混亂了。
為了解決這個問題,在編撰比率的團隊中,他們必須教授他們的軟體一些常見的感官實踐智能。他們發現了150萬本已數位化的拉丁單詞的語料庫,並對它們進行了兩、三字母組合的檢查。由此,他們決定了哪些字母組合是常見的,哪些是不會發生的。OCR軟體可以使用這些統計數據來為不同的字母串分配概率。結果,軟體發現「nn」比「iiii」更有可能。
隨著這種改進,OCR終於可以自己閱讀一些文本了。該小組決定向它提供一些來自梵蒂岡登記冊的文件,這是一個超過18000頁的秘密檔案的子集,其中包括寫給歐洲國王的信件、關於法律事務的裁決以及其他信件。
最初的結果好壞參半。到目前為止,在抄寫的文本中,有三分之一的單詞包含一個或多個拼寫錯誤,而OCR猜錯了字母。如果yov是tryinj,去讀那些在博克的小動物,那將會是非常令人驚訝的。(最常見的拼寫錯誤包括m/n/i混淆和另一種常見的困惑:字母f和一種陳舊的、拉長的s格式)。儘管如此,該軟體還是有96%的手寫信件是正確的。而且,即使是「不完美的轉錄也能提供足夠的信息和背景資料」,這是很有用的,Merialdo說。
和所有人工智慧一樣,隨著時間的推移,軟體將會不斷改進,因為它會消化更多的文本。更讓人興奮的是,在編碼的過程中,我們可以很容易地用其他語言閱讀文本。這可能為谷歌圖書為印刷品提供的手寫文件提供了幫助:向世界各地的研究人員開放信件、期刊、日記和其他論文,使他們更容易閱讀這些文件並搜索相關資料。
這就是說,依靠人工智慧確實有局限性,美國印第安納大學哲學和古文字學家(古筆跡專家)Rega Wood說。她說:「對於那些沒有專業寫作但又被非專業人士抄襲的手稿來說,這將是一個問題。」因為這些手稿的字跡和字跡在這些文檔中會有很大的差異,因此很難教授OCR。此外,在只有少量的材料樣本的情況下,「它不僅更加準確,而且在沒有這種技術的情況下也能快速製作出文字。」
丹·布朗:梵蒂岡機密檔案館裡的的「秘密」,並沒有提到任何秘密或陰謀。這僅僅意味著檔案是教皇的個人財產;「私人檔案」可能是更好的翻譯原名稱:Archivum Secretum。然而,直到最近,VSA還可能是世界上大部分被封鎖的、基本上無法訪問的秘密。「我們把這些手稿帶回到生活中是很神奇的,」Merialdo說,「讓每個人都能理解它們。