Academia della Crusca 今天辦公的地方
Academia della Crusca,是義大利專門研究語言的學院。該學院2017年與UTET出版社籤訂了合作協議,將史上最大的義大利語詞典Salvatore Battaglia 主編的Grande Dizionario della Lingua Italiana 進行電子化,提供給學者使用。就是上個月,這項數位化工作已經上線了。
這套義大利語大詞典的數位化有什麼意義呢?這部大詞典是20世紀偉大的工程,今後可能將會有很多資料庫,容量將更大,但在很多使用上無法超越這部詞典了。而之前學者的很多工作,也將隨著這部詞典的數位化,得到重新檢驗。舉個簡單的例子,有一個對達文西的手稿進行術語研究的項目,出版了一系列的GLOSSARIO LEONARDIANO研究,比如最近出版的GLOSSARIO LEONARDIANO Nomenclatura dell'anatomia nei disegni della Collezione Reale di Windsor,但這些術語研究的結果放入到這部大詞典時,將會重新得到檢驗。
達文西的術語研究系列,最新出版的一冊是關於溫莎的手稿
藝術史的語言詞典系列:
一、藝術史的詞典系列之一:古典語言詞典推薦(上) 藝術史的語言詞典系列之一:古典語言詞典推薦(下 )
二、大型紙質詞典如何進行數位化:目前最大的義大利語詞典GDLI的數位化之路
三、義大利語詞典推薦
義大利語中最為龐大的詞典是Grande dizionario della lingua italiana,總共編了40年,共21卷,2004年增補一卷,2009年增補一卷,人名索引一卷。簡稱為GDLI,但常被稱為Battaglia。
21卷本的義大利語大詞典,以下是出版信息:
Battaglia S., Grande dizionario della lingua italiana
Luogo: Torino
Editore: Utet
Anno: 1961-2002
diretto da G. Bàrberi-Squarotti.
Con Supplemento 2004, diretto da E. Sanguineti, Torino, UTET, 2004, e Indice degli autori citati nei volumi I-XXI e nel Supplemento 2004, a cura di G. Ronco, Torino, UTET, 2004; e Supplemento 2009, diretto da E. Sanguineti, Torino, UTET, 2008.
Volumi: 21 voll.
這中間的LEI 是在編的義大利語詞源詞典,按照現在的編輯計劃,將來是有可能超過Grande的,但這部畢竟是詞源詞典,裡面收錄了大量的方言
2016年從義大利回國時,一度很想買這套詞典回國,其實價錢並不貴,四五百歐,但實在是太重,不方便運輸回國。但對於研究來說,這詞典有點像定海神針一樣,對於瓦薩裡的某些詞實在沒把握,我就會去工具書區查這個詞典。因為詞典較大、較厚,需要支架,有幾次,跟一個妹子一起蹲在那查詞典,簡直無比安靜美好。
其實曾有幾次想嘗試掃一下,大概掃了一百頁就放棄了,這玩意實在太重了。但是這麼多重要詞典中,唯有這部最重要的沒有數字版,回國之後,查到國圖有,找了半天,最後也沒找到。
就在上個月,這部詞典終於電子化了,而且免費提供使用。http://www.gdli.it(點擊原文。
這是GDLI電子版的檢索首頁
這篇推文分三個部分:一、義大利的這部大型詞典數位化的方法;二、進一步優化的可能;三、查詞的方法。
GDLI的數位化方法現在全世界數字人文發展很快,這種詞典類的更是朝向數位化發展。相對來說,英語這種,市場巨大,基本是全世界都在用,因此可以投入更多,一般來說數位化後做成的無論是在線檢索或是APP都是跟紙質詞典差不多的價格,而專業化的詞典更是比紙質詞典還要昂貴,比如上次提到的Brill翻譯的希意詞典,在線版要幾千歐一年,相比之下,原版希意詞典才幾十歐的手機APP。
義大利語的大百科全書,尤其藝術類,都是由專家撰寫,而且免費提供使用。GDLI則也免費提供使用。
義大利很多數字人文項目,都在第一個階段就開始阻滯不前,就是掃描紙版階段。比如GDLI這個,居然全搞完好了,就缺2009年的增補本。以前看到Roberto Longhi早期的術語研究的資料庫,其掃描的文本居然不齊全。
上面是這個大詞典的數據化過程,大致上就是高質量掃描後,對頁面進行OCR,分為文字層和圖像層,文字層進行詞頭和頁碼校正,然後再用相關的資料庫建成可供查詢的網頁。
這裡面最大的問題就是事實上低層文本並沒有經過校對,自動OCR有多少精度,其檢索的結果就有多少精度。這個就個人資料庫來說還可以接受,居然這麼重要的詞典資料庫也搞成這樣,這還是有點誇張。
進一步優化的可能要進一步優化,有以下幾點:
1. 校對現在的文本,從而保證這個底本完全無誤。但是這個校對工作確實工作量相當之大,總共有兩萬多頁,按每人校對五十頁,需要四百個學生。放中國還能搞搞,放義大利人身上,大概四十個學生的工作量已經意味著徹底完不成了。
2. 目前的圖像質量太差。掃描其實得到的是高質量圖像,包括OCR所使用的,但是現在網上能看到的圖像太差,直接影響了使用。其實利用現有的圖像,進行圖像的黑白處理,並用Acrobat的clearscan,就能得到非常好的效果,而且圖像層依舊是圖像層。
經過處理後的圖像
未經處理的圖像
3. 這個詞典最大的問題是詞條,既然是一個大項目,既然是一個詞典,竟然沒有單獨把詞典的詞條都提取出來。詞典的詞頭提取,高手編個程序可以從每個頁面自動進行(理論上感覺是可行的),能力不行的,那可以利用現有的大型詞典的詞條,再逐一進行頁面對應和增補新詞條,這詞典總共兩萬多頁,感覺一個人做做,也就是個把月的時間,對於如此重要的一個項目來說,是真正值得的。
有了詞條之後,檢索就可以直接檢索某個詞,出現到某個該詞條的頁面,這是查紙質詞典的最基本的方法,現在這個電子版其實只是做了掃描和自動OCR,兩者都可以用不到人(掃描只要通過切邊放那種自動掃的就行),開著機器幹事,就能出去喝咖啡了,大概這是目前最適合大意呆幹活的方式。不過,其中的希臘語部分是單獨輸入的,這點是值得表揚的。
查詞的方法
受限於上述的工作的不徹底性,這個查詞就比較講究。
官方的查詞共有六種:自由檢索、順序檢索、詞形目錄、按頻次詞形目錄、按引用作者、按縮寫。
而這六種,實際有用的就是前兩種。詞形目錄其實只是將Abbyy的OCR結果中的詞形進行排序,實在是無語。後面按引用作者,只是根據印刷版的工作OCR了一下,這項工作其實就是將6000多個引用作者作為一個庫,編個程序,走一遍文本,直接就可以打完標籤。多的不說,但這項工作還是有意義的。
至於前兩種,自由檢索和順序檢索,其實只是搜組合詞時的區別,順序就是嚴格按照兩個或多個單詞出現的順序,比如搜già spiegato,自由檢索時只要出現兩者之一就檢得,而順序檢索是必須兩者同時出現,且順序一致時才檢得。
自由檢索già spiegato
順序檢索già spiegato,只有3條記錄
平常使用,一般就檢索單個詞,自由檢索就可以了。
如果要檢索詞條,還是要熟悉每一卷的詞頭範圍,這樣你搜abbacinato,就會先往卷一找,當然,這種檢索結果較少的,直接找檢得數最多的頁面就可以了,一般都是詞條所在頁。這個檢索結果,其實應該加上一個按檢得數量排列,那樣對於檢索結果較多的單詞也能較快定位到頁面。
在相應的頁面,點擊Vedi PDF的話,就會出現文字版的PDF頁面,且會高亮檢索詞。
如果點擊Vedi jpg,那就會出現該頁的圖像。
而這兩者其實並沒有對應起來的,圖片歸圖片,文字歸文字。
其實我的用法是通過建立自己的個人資料庫,來與其他的藝術術語等庫進行配合使用。
其中使用到的方法大致來自於以下幾篇文章:
數字人文時代的個人資料庫之六:資料庫的索引與檢索工具FoxTrot Pro.
數字人文時代的個人資料庫之三:pdf優化工具和OCR工具的選擇
數字人文時代的個人資料庫之二:獲取藝術史電子資源的方法
以下是藝術史的數字人文時代的個人資料庫系列:
零:數字人文時代的個人資料庫之導論:目錄學下的資料庫閱讀
一:如何用目錄學追蹤藝術史的最新進展:書籍編目的工具Zotero
二:數字人文時代的個人資料庫之二:獲取藝術史電子資源的方法
三:數字人文時代的個人資料庫之三:pdf優化工具和OCR工具的選擇
四:藝術史的漫遊者:散漫式的閱讀和筆記工具—E-ink 閱讀器
五:藝術史的寫作:圖像的尤利西斯之旅
六:數字人文時代的個人資料庫之六:資料庫的索引與檢索工具FoxTrot Pro
七:藝術的判斷力之源:隨身攜帶的個人資料庫Foxtrot attaché
八:藝術史研究中原始材料和術語的整理:Marginnote在藝術史研究中的兩個實例
九:Evernote作為藝術史閱讀和觀看的判斷力工具
十:數字人文時代的個人資料庫之十:數據的同步與備份
藝術史研究中的圖像使用系列:
藝術史家的圖像和檔案管理軟體--Tropy
億萬像素的藝術史研究圖片庫:Haltadefinizione
本公眾號的結構和更新計劃: 「藝術史圖書館」的結構
相關推送:
潘諾夫斯基1967年在UCLA的《聖經題材和使徒故事的問題》講座
朱青生:我的博士論文選題由隨機的方式確定
用「藝術」打開藝術:Roberto Longhi藝術史研究的方法及用「語言」寫作中國藝術史 上
藝術史家的講座:潘諾夫斯基1967年在UCLA的《提香和奧維德》的講座
Gertrud Bing:瓦爾堡的私人圖書館、記憶女神和和語言風格研究的核心人物
北大《藝術史方法論》課程的書目和版本(上)
北大《藝術史方法論》課程的書目和版本(中)
米開朗基羅的紙張使用——手稿的擦除、重寫與復原
掃碼關注藝術史圖書館
10、100、4000、2萬、30萬,這是一系列圖書數量的數據,10本著作大約可以比較有把握地掌握一個研究主題,100本可以差不多地勾勒出一個研究方向的框架,4000本可以滿足一個學者的研究需求和一個私人圖書館的藏書開端,2萬本則達到了私人藏書較為完美的狀態,30萬是一個專門學科的藏書的公共圖書館的量。這個公眾號旨在建成一個私人的藝術史圖書館,藏書量在三萬左右,主要收集藝術文獻(5000)、藝術史學史(15000)以及瓦薩裡《大藝術家傳》中對各藝術家的註解所需要的基本研究著作(10000)。