人工智慧即將揭曉梵蒂岡秘密檔案館

2020-11-29 宅斌

梵蒂岡秘密檔案是世界上最偉大的歷史收藏之一。它也是最沒用的。

宏偉是顯而易見的。位於梵蒂岡的圍牆內,在使徒圖書館的隔壁,在西斯廷教堂的北面,VSA的房子有53個線段,可以追溯到12個多世紀以前。它包括一些像教皇布爾那樣的寶,他們把馬丁·路德和請求幫助的蘇格蘭瑪麗女王在她被處死之前送到了羅馬教皇六世。在規模和範圍上,收藏幾乎是無與倫比的。

也就是說,VSA對現代學者用處不大,因為它太難懂了。在這53英裡中,只有幾毫米的頁面被掃描並在網上提供。甚至更少的頁面被轉錄成計算機文本,並進行搜索。如果你想要閱讀其他的東西,你必須申請特殊的訪問,schlep一直到羅馬,並且每一頁都要手寫。

但一個新項目可能會改變這一切。它使用了人工智慧和光學字符識別(OCR)軟體的組合,來搜索這些被忽略的文本,並使它們的轉錄本第一次可用。如果成功的話,這項技術還可以在世界各地的歷史檔案館中打開不計其數的其他文件。

多年來,OCR一直被用來掃描書籍和其他印刷文件,但它不太適合秘密檔案中的材料。傳統的OCR通過在字母之間尋找空格來將單詞分解成一系列字母圖像。然後將每個字母圖像與記憶中的字母銀行進行比較。在決定哪個字母最匹配圖像後,軟體將字母轉換成計算機代碼(ASCII),從而使文本可以搜索。

然而,這個過程實際上只適用於排版文本。這對任何手寫的東西來說都很糟糕,就像大多數古老的梵蒂岡文件一樣。這是1200年前早期的一個例子,是用卡洛琳的小腳本寫的,看起來像是書法和草書的組合:

這個例子中的主要問題是字母之間缺少空格(所謂的「髒分割」)。OCR不能區分字母的位置和另一個字母的起始位置,因此不知道有多少字母。其結果是一個計算上的僵局,有時被稱為Sayre的悖論:OCR軟體需要將一個單詞分割成單個字母,然後才能識別它們,但是在手寫的文本和連接的字母中,軟體需要識別字母來分割它們。這是「第22條軍規」。

一些計算機科學家試圖通過開發OCR來識別整個單詞而不是字母來解決這個問題。這是一種很好的技術——計算機不會「關心」它們是在解析單詞還是字母。但是讓這些系統運行起來是一種負擔,因為它們需要龐大的存儲庫。這些系統不需要幾十個字母,而是要識別成千上萬個普通單詞的圖像。這意味著你需要一整個排的學者,在中世紀的拉丁語中有專門知識,可以查閱舊文檔,捕捉每個單詞的圖像。事實上,你需要每個人的幾張圖片,來解釋筆跡或糟糕的燈光和其他變量的怪癖。這是一個艱巨的任務。

在編碼中,通過一種新的手寫OCR方法來迴避這些問題。這個項目的四個主要科學家是保羅·梅裡多,多納泰拉·弗馬尼,以及羅馬的埃琳娜·尼德杜,以及vsa -裙子賽·塞雷的悖論,這一創新被稱為「拼圖分割」。這一過程,正如團隊最近在一篇論文中概述的那樣,將單詞分解為字母而不是字母,而是更接近於單個筆的筆畫。OCR通過將每個單詞劃分為一系列的垂直和水平的頻帶,並尋找局部最小值——更薄的部分,那裡的墨水較少(或者實際上,像素更少)。然後軟體將這些字母放在這些關節上。最終的結果是一系列的拼圖塊:

就其本身而言,這種拼圖並不是非常有用。

但是軟體可以用不同的方式把它們拼成一個字母。它只需要知道哪些組塊代表真正的字母,哪些是假的。

為了教授這個軟體,研究人員求助於一個不同尋常的幫助:高中生。該團隊在義大利的24所學校招收學生,以建立項目的記憶庫。學生們登錄了一個網站,在那裡他們發現了一個有三個部分的圖片:

上面的綠色條子裡有一些很好的例子,來自中世紀拉丁文字的字母g,中間的紅條包含了一些虛假的g的例子,這是科學家們所謂的「假朋友」。底部的網格是程序的核心部分。每一幅圖像都是由幾個拼圖塊組成的,OCR軟體在一起的時候,就會在一個貌似可信的字母上進行猜測。然後學生們判斷了OCR的努力,告訴它哪些猜測是好的,哪些是壞的。他們通過將每張圖片與完美的綠色字母相比較,然後點擊一個複選框。

通過圖片,點擊一下,學生們就會學會這個軟體,在中世紀拉丁字母(a-i, l-u,加上其他形式的s和d)中,22個字符是什麼樣子的。

這種設置確實需要一些專家的意見:學者們必須找出綠色的完美例子,以及紅色的假例子。但一旦他們這樣做了,就不再需要他們了。學生們甚至不需要能夠閱讀拉丁文。他們所要做的就是匹配視覺模式。起初,「讓高中生參與其中的想法被認為是愚蠢的,」Merialdo說。但是現在機器學習是由於他們的努力。我認為,許多人做出的一個小小的、簡單的貢獻,確實有助於解決一個複雜的問題。

最後,當然,學生們也離開了。一旦他們在足夠多的例子上投下了「是」,軟體就開始獨立地將拼圖碎片拼在一起,並自行判斷哪些字母在那裡。軟體本身成為了專家——它變成了人工智慧。

至少。事實證明,把拼圖塊拼成看似合理的字母是不夠的。計算機還需要額外的工具來解開手寫文本的結。想像一下你正在讀一封信,你會發現這句話:

薩姆肯恩:對他們來說是「清楚」還是「親愛的」?很難說,因為構成「d」和「cl」的筆畫幾乎是一樣的。OCR軟體也面臨著同樣的問題,尤其是像Caroline這樣高度程式化的腳本。嘗試破譯這個詞:

在穿過不同的拼圖組合後,OCR舉起了手。猜測包括aimo, amio, aniio, aiino,甚至是老麥克唐納的Farm-ish aiiiio。這個詞是anno,拉丁語是「year」,軟體把a和o釘在了一起,但是中間那四個平行的柱子使它混亂了。

為了解決這個問題,在編撰比率的團隊中,他們必須教授他們的軟體一些常見的感官實踐智能。他們發現了150萬本已數位化的拉丁單詞的語料庫,並對它們進行了兩、三字母組合的檢查。由此,他們決定了哪些字母組合是常見的,哪些是不會發生的。OCR軟體可以使用這些統計數據來為不同的字母串分配概率。結果,軟體發現「nn」比「iiii」更有可能。

隨著這種改進,OCR終於可以自己閱讀一些文本了。該小組決定向它提供一些來自梵蒂岡登記冊的文件,這是一個超過18000頁的秘密檔案的子集,其中包括寫給歐洲國王的信件、關於法律事務的裁決以及其他信件。

最初的結果好壞參半。到目前為止,在抄寫的文本中,有三分之一的單詞包含一個或多個拼寫錯誤,而OCR猜錯了字母。如果yov是tryinj,去讀那些在博克的小動物,那將會是非常令人驚訝的。(最常見的拼寫錯誤包括m/n/i混淆和另一種常見的困惑:字母f和一種陳舊的、拉長的s格式)。儘管如此,該軟體還是有96%的手寫信件是正確的。而且,即使是「不完美的轉錄也能提供足夠的信息和背景資料」,這是很有用的,Merialdo說。

和所有人工智慧一樣,隨著時間的推移,軟體將會不斷改進,因為它會消化更多的文本。更讓人興奮的是,在編碼的過程中,我們可以很容易地用其他語言閱讀文本。這可能為谷歌圖書為印刷品提供的手寫文件提供了幫助:向世界各地的研究人員開放信件、期刊、日記和其他論文,使他們更容易閱讀這些文件並搜索相關資料。

這就是說,依靠人工智慧確實有局限性,美國印第安納大學哲學和古文字學家(古筆跡專家)Rega Wood說。她說:「對於那些沒有專業寫作但又被非專業人士抄襲的手稿來說,這將是一個問題。」因為這些手稿的字跡和字跡在這些文檔中會有很大的差異,因此很難教授OCR。此外,在只有少量的材料樣本的情況下,「它不僅更加準確,而且在沒有這種技術的情況下也能快速製作出文字。」

丹·布朗:梵蒂岡機密檔案館裡的的「秘密」,並沒有提到任何秘密或陰謀。這僅僅意味著檔案是教皇的個人財產;「私人檔案」可能是更好的翻譯原名稱:Archivum Secretum。然而,直到最近,VSA還可能是世界上大部分被封鎖的、基本上無法訪問的秘密。「我們把這些手稿帶回到生活中是很神奇的,」Merialdo說,「讓每個人都能理解它們。

相關焦點

  • 梵蒂岡秘密檔案館可能隱藏的十件事
    梵蒂岡是世界上基督教,天主教最大教派的中心。憑藉其將近2000年的存在和神秘的性質,難怪有傳言稱,多年來,梵蒂岡和它所代表的天主教會擁有許多陰謀詭計。從現實生活中的魔術製品到魔鬼再到外星人,有傳言說梵蒂岡幾乎擁有一切。而且,這些東西的假定位置是真正的梵蒂岡秘密檔案館。因此,今天,簡單聊聊比較感興趣的地方。
  • AI將揭開梵蒂岡機密檔案館之謎
    梵蒂岡機密檔案館(Vatican Secret Archives)被列為世界十大禁地之一,它是羅馬教皇的檔案保管機構,也是歐洲教會中收藏檔案最豐富,最古老的檔案館。其珍藏的許多文件從未轉錄,即便教堂檔案員也對其中隱藏的秘密一無所知。然而,機器視覺系統將會揭開中世紀文本的神秘面紗。梵蒂岡機密檔案館頗為傳奇。
  • 梵蒂岡宗座檔案館外流檔案,堪比全球情報機構,書籍並排達84公裡
    梵蒂岡是天主教最高領袖的駐紮地,它位在義大利首都旁,雖然他是土地面積最小的國家,但他卻是全世界1/6人口信仰的中心點,也許正因為天主教的興盛,使得他比任何人更有機會搜集全世界最重要的資訊,而這將近兩2000多年來,天主教從世界各地搜集而來的資料就存放在梵蒂岡的宗座檔案館,這個檔案館很有可能就保有我們人類最真實的歷史以及世界各地未解之謎的解答。
  • 梵蒂岡秘密檔案,保留了多少我們不知道的東西
    梵蒂岡秘密檔案梵蒂岡,義大利。梵蒂岡城牆內地下所埋葬得大多都是梵蒂岡機密檔案,其中容納了羅馬教廷恢弘的歷史,其中一些可以追溯到八世紀。《梵蒂岡秘密檔案》是一部收錄了105份秘密檔案的書。這些秘密檔案是梵蒂岡秘密檔案館收藏了千年的「秘密檔案」。
  • 梵蒂岡公開「爭議教皇」秘密檔案
    當地時間2日,梵蒂岡宗座檔案館中與庇護十二世相關的文件檔案開始陸續對外開放,真相可能將慢慢浮出水面。據英國《衛報》1日報導,二戰時期是梵蒂岡最具爭議的歷史階段之一。這一時期在位的教皇庇護十二世被指是「希特勒的教皇」和納粹的同情者。隨著2日梵蒂岡宗座檔案館開放庇護十二世的檔案,如何評價他將出現新局面。全世界的研究人員此後可以查詢這位教宗在任期間(1939至1958年)的檔案文件。
  • AI 破解梵蒂岡秘密檔案;智能手錶讓手臂變觸控螢幕|一周 AI 新聞
    its-even-from-disney/科研報告連結:https://www.disneyresearch.com/publication/soft-robotic-hand-and-arm-system/文化 | 破解梵蒂岡秘密檔案
  • 梵蒂岡檔案館,封存著人類最真實的歷史,他們到底發現了什麼?
    說起梵蒂岡,這就相當有意思了,這個國土面積只有0.44平方公裡的獨立主權國家,甚至還不如一個村,國際地位竟可比肩中國、美國、俄羅斯,這個天主教徒心中的聖地,充滿著神秘色彩。也許也正因為天主教興盛,使得它比任何人都更有機會了解到世界各地未解之謎的真相,這座封存著人類最真實歷史的宗座檔案館,超越了世界上任何一個國家的情報機構。
  • 梵蒂岡秘密檔案庫:世上最隱秘圖書館,藏匿了太多不可告人的實錘
    世界上最隱秘的圖書館,首推梵蒂岡秘密檔案庫,可能沒有之一。梵蒂岡作為全世界天主教中心,這座秘密檔案庫,也屬於宗教聖地,也就是大家常說的「聖域」。在基督教最初草創的幾百年裡,因為實力弱小,被各方勢力驅趕,教眾們生活得顛沛流離,再加上平均文化水平不高,並沒有多少文獻資料存留。
  • 《無心法師3》嶽綺羅和無心續前緣,即將揭曉當年一眾秘密
    大家好,歡迎閱讀本期節目內容,在這裡每天都會為您呈現最新鮮、最熱最前沿的娛樂內容,本期的熱門內容是:《無心法師3》嶽綺羅和無心續前緣,即將揭曉當年一眾秘密。而此中,網友們所最為關心的幾個謎底也即將連點成線,呼之欲出。1.嶽綺羅和柳氏姐弟有著怎樣千絲萬縷的聯繫?2.無心到底為何百年沉睡一次?醒來時又將前塵往事忘卻得一乾二淨?3.白琉璃和無心有著怎樣的恩怨?4.青雲觀的開山祖師是否是尚青天?
  • 氣象檔案館究竟藏著哪些秘密?!
    檔案館照片伴隨著新中國的建立與成長,再到改革開放後的快速發展,機關檔案室、氣象資料室等氣象檔案事業相繼建立,見證了中國氣象事業發展的歷史足跡。自1983年以來,國省氣象檔案館陸續掛牌成立專職機構,構建起了1個國家級氣象檔案館(中國氣象局氣象檔案館)和31個省級氣象檔案館的體系架構,全國氣象檔案館機構設置保持與氣象信息(數據)中心一個機構、兩個牌子。
  • 一拳超人:殭屍男跟蹤盔甲大猩猩,限制器的秘密即將揭曉
    正因為殭屍男出現在這裡,限制器的秘密即將被揭曉。殭屍男是從進化之家逃走的實驗體66號,也是唯一一個擁有不死之身的實驗體。在逃出進化之家後,殭屍男加入了英雄協會成為了排名第8的S級英雄。現在處於特殊時期,怪人協會入侵人類世界,英雄協會自然要派人調查,殭屍男就是其中一位。原本他是調查元首猩猩的,奈何元首猩猩太不爭氣,直接被盔甲大猩猩打敗。
  • 梵蒂岡與共濟會之間的秘密,他們在計劃什麼?松果體是否就是天眼
    之前的文章有跟大家聊過臺大校長李世成的研究,他發現人腦中的天眼再次開啟就可以看到靈界,而那裡是一個充滿神靈意識的信息場,許多宗教裡的神就是存在於信息場裡,沒想到的是早在李教授發現天眼的好幾千年以前,我們的祖先早就已經已經發現了他,而最不可思議議的是根據一些學者們的研究,目前有一些秘密組織正在透過天眼與更高的智慧群體合作
  • 梵蒂岡與共濟會之間的秘密,他們在計劃什麼?松果體是否就是天眼
    之前的文章有跟大家聊過臺大校長李世成的研究,他發現人腦中的天眼再次開啟就可以看到靈界,而那裡是一個充滿神靈意識的信息場,許多宗教裡的神就是存在於信息場裡,沒想到的是早在李教授發現天眼的好幾千年以前,我們的祖先早就已經已經發現了他,而最不可思議議的是根據一些學者們的研究,目前有一些秘密組織正在透過天眼與更高的智慧群體合作
  • 因為各種原因,你可能永遠都無法進入的6個秘密之地
    這一次,我們就要為你帶來,因為各種原因,你可能永遠都無法進入的6個秘密之地。5、梵蒂岡秘密檔案館>梵蒂岡秘密檔案館被認為是世界上最封閉,並且戒備最森嚴的圖書館。
  • 胚胎幹細胞「全能」秘密揭曉
    胚胎幹細胞「全能」秘密揭曉2017-07-04 07:45 來源: 科技日報 胚胎幹細胞「全能」秘密揭曉表達活躍的「Pramel7」蛋白或是幕後功臣瑞士科學家在最新一期《自然·細胞生物學》雜誌上發表論文稱,他們發現了胚胎幹細胞保持「全能」的秘密:一種被稱為「Pramel7」的蛋白質能阻止其內遺傳物質甲基化
  • 智慧檔案館(室)——我國檔案館(室)建設的新方向
    檔案行業對建設智慧檔案館(室)有了更高的積極性,使智慧檔案館(室)建設有了實現主體從檔案部門來說,有些檔案室十幾年前就通過手工錄入的方法,對檔案進行了「數據化」,把檔案中的所有文字轉化成了電腦可以檢索的數據。只可惜那時尚無數據挖掘技術,因而未對這些數據進行智慧性開發、關聯性挖掘和自主式推送。
  • 中國愛樂樂團將為梵蒂岡教皇演出 被指意義重大
    中新社北京五月三日電 中國愛樂樂團與上海歌劇院合唱團的歐洲巡演即將啟程,而首站就是梵蒂岡的保羅六世音樂廳。  據中國外交部新聞司透露,這是一次民間文化交流活動。該司官員稱:「音樂可以駕起溝通的橋梁,我們祝願這次演出取得成功。
  • 登月歸來後的秘密任務,人類無法觸及的維度
    當下,神父就意識到手中的禮物很有可能是具有一定年份的文物,於是神父小心翼翼的將這些文物妥善保管並報告給了遠在梵蒂岡的教會。直到他收藏了大約五萬多件文物以後,梵蒂岡才終於撥出經費為神父在當地建起了一間卡洛斯•克雷斯皮博物館。不過說也奇怪,就在這個博物館建成以後,一九六二年忽然起了一場大火,這場大火把所有的文物燒的一乾二淨,就連極耐高溫的陶藝品也被燒得連渣都不剩。
  • 世界上最小的國家梵蒂岡 有一個超級大的廣場
    穿過義大利羅馬寬敞的街道,來到了這個世界上面積最小的國家梵蒂岡。  一個小小的內邦國,人口極少,可是梵蒂岡為何如此富裕?梵蒂岡教皇神秘力量是什麼?梵蒂岡教皇掌握秘密是什麼?教皇既是宗教首領,又是擁有世俗權力的一國之君,直接管轄的領土達四萬多平房千米。  它基本上是義大利羅馬的一個有圍牆的飛地。
  • 謝輝丨梵蒂岡圖書館藏漢籍版本價值初探
    從版本種類上來看,都不能與梵蒂岡圖書館相比。法國國家圖書館藏有張賡校訂本[12]、溫嶺景教堂刻本、武昌重刻本、廣州大原堂重刻本、兩種杭州天主堂刻本,以及無刊板地之本[13],共計七種,種類不可謂不多,但亦僅與梵蒂岡持平。舉此一例,梵蒂岡圖書館藏漢籍版本之豐富即由此可見。需要指出的是,此種情況並非特例,而是普遍存在於梵蒂岡圖書館所收藏的漢籍之中。