大型紙質詞典如何進行數位化:目前最大的義大利語詞典GDLI的數位化之路

2021-03-01 藝術史圖書館
藝術史圖書館按:

Academia della Crusca 今天辦公的地方

Academia della Crusca,是義大利專門研究語言的學院。該學院2017年與UTET出版社籤訂了合作協議,將史上最大的義大利語詞典Salvatore Battaglia 主編的Grande Dizionario della Lingua Italiana 進行電子化,提供給學者使用。就是上個月,這項數位化工作已經上線了。

這套義大利語大詞典的數位化有什麼意義呢?這部大詞典是20世紀偉大的工程,今後可能將會有很多資料庫,容量將更大,但在很多使用上無法超越這部詞典了。而之前學者的很多工作,也將隨著這部詞典的數位化,得到重新檢驗。舉個簡單的例子,有一個對達文西的手稿進行術語研究的項目,出版了一系列的GLOSSARIO LEONARDIANO研究,比如最近出版的GLOSSARIO LEONARDIANO Nomenclatura dell'anatomia nei disegni della Collezione Reale di Windsor,但這些術語研究的結果放入到這部大詞典時,將會重新得到檢驗。

達文西的術語研究系列,最新出版的一冊是關於溫莎的手稿

藝術史的語言詞典系列:

一、藝術史的詞典系列之一:古典語言詞典推薦(上)  藝術史的語言詞典系列之一:古典語言詞典推薦(下 )

二、大型紙質詞典如何進行數位化:目前最大的義大利語詞典GDLI的數位化之路

三、義大利語詞典推薦

義大利語中最為龐大的詞典是Grande dizionario della lingua italiana,總共編了40年,共21卷,2004年增補一卷,2009年增補一卷,人名索引一卷。簡稱為GDLI,但常被稱為Battaglia。

21卷本的義大利語大詞典,以下是出版信息:

Battaglia S., Grande dizionario della lingua italiana

Luogo: Torino

Editore: Utet

Anno: 1961-2002

diretto da G. Bàrberi-Squarotti.

Con Supplemento 2004, diretto da E. Sanguineti, Torino, UTET, 2004, e Indice degli autori citati nei volumi I-XXI e nel Supplemento 2004, a cura di G. Ronco, Torino, UTET, 2004; e Supplemento 2009, diretto da E. Sanguineti, Torino, UTET, 2008.

Volumi: 21 voll.

這中間的LEI 是在編的義大利語詞源詞典,按照現在的編輯計劃,將來是有可能超過Grande的,但這部畢竟是詞源詞典,裡面收錄了大量的方言

2016年從義大利回國時,一度很想買這套詞典回國,其實價錢並不貴,四五百歐,但實在是太重,不方便運輸回國。但對於研究來說,這詞典有點像定海神針一樣,對於瓦薩裡的某些詞實在沒把握,我就會去工具書區查這個詞典。因為詞典較大、較厚,需要支架,有幾次,跟一個妹子一起蹲在那查詞典,簡直無比安靜美好。

其實曾有幾次想嘗試掃一下,大概掃了一百頁就放棄了,這玩意實在太重了。但是這麼多重要詞典中,唯有這部最重要的沒有數字版,回國之後,查到國圖有,找了半天,最後也沒找到。

就在上個月,這部詞典終於電子化了,而且免費提供使用。http://www.gdli.it(點擊原文。

這是GDLI電子版的檢索首頁

這篇推文分三個部分:一、義大利的這部大型詞典數位化的方法;二、進一步優化的可能;三、查詞的方法。

GDLI的數位化方法

現在全世界數字人文發展很快,這種詞典類的更是朝向數位化發展。相對來說,英語這種,市場巨大,基本是全世界都在用,因此可以投入更多,一般來說數位化後做成的無論是在線檢索或是APP都是跟紙質詞典差不多的價格,而專業化的詞典更是比紙質詞典還要昂貴,比如上次提到的Brill翻譯的希意詞典,在線版要幾千歐一年,相比之下,原版希意詞典才幾十歐的手機APP。

義大利語的大百科全書,尤其藝術類,都是由專家撰寫,而且免費提供使用。GDLI則也免費提供使用。

義大利很多數字人文項目,都在第一個階段就開始阻滯不前,就是掃描紙版階段。比如GDLI這個,居然全搞完好了,就缺2009年的增補本。以前看到Roberto Longhi早期的術語研究的資料庫,其掃描的文本居然不齊全。

上面是這個大詞典的數據化過程,大致上就是高質量掃描後,對頁面進行OCR,分為文字層和圖像層,文字層進行詞頭和頁碼校正,然後再用相關的資料庫建成可供查詢的網頁。

這裡面最大的問題就是事實上低層文本並沒有經過校對,自動OCR有多少精度,其檢索的結果就有多少精度。這個就個人資料庫來說還可以接受,居然這麼重要的詞典資料庫也搞成這樣,這還是有點誇張。

進一步優化的可能

要進一步優化,有以下幾點:

1.   校對現在的文本,從而保證這個底本完全無誤。但是這個校對工作確實工作量相當之大,總共有兩萬多頁,按每人校對五十頁,需要四百個學生。放中國還能搞搞,放義大利人身上,大概四十個學生的工作量已經意味著徹底完不成了。

2.   目前的圖像質量太差。掃描其實得到的是高質量圖像,包括OCR所使用的,但是現在網上能看到的圖像太差,直接影響了使用。其實利用現有的圖像,進行圖像的黑白處理,並用Acrobat的clearscan,就能得到非常好的效果,而且圖像層依舊是圖像層。

經過處理後的圖像


未經處理的圖像

3.   這個詞典最大的問題是詞條,既然是一個大項目,既然是一個詞典,竟然沒有單獨把詞典的詞條都提取出來。詞典的詞頭提取,高手編個程序可以從每個頁面自動進行(理論上感覺是可行的),能力不行的,那可以利用現有的大型詞典的詞條,再逐一進行頁面對應和增補新詞條,這詞典總共兩萬多頁,感覺一個人做做,也就是個把月的時間,對於如此重要的一個項目來說,是真正值得的。

有了詞條之後,檢索就可以直接檢索某個詞,出現到某個該詞條的頁面,這是查紙質詞典的最基本的方法,現在這個電子版其實只是做了掃描和自動OCR,兩者都可以用不到人(掃描只要通過切邊放那種自動掃的就行),開著機器幹事,就能出去喝咖啡了,大概這是目前最適合大意呆幹活的方式。不過,其中的希臘語部分是單獨輸入的,這點是值得表揚的。

查詞的方法

受限於上述的工作的不徹底性,這個查詞就比較講究。

官方的查詞共有六種:自由檢索、順序檢索、詞形目錄、按頻次詞形目錄、按引用作者、按縮寫。

而這六種,實際有用的就是前兩種。詞形目錄其實只是將Abbyy的OCR結果中的詞形進行排序,實在是無語。後面按引用作者,只是根據印刷版的工作OCR了一下,這項工作其實就是將6000多個引用作者作為一個庫,編個程序,走一遍文本,直接就可以打完標籤。多的不說,但這項工作還是有意義的。

至於前兩種,自由檢索和順序檢索,其實只是搜組合詞時的區別,順序就是嚴格按照兩個或多個單詞出現的順序,比如搜già spiegato,自由檢索時只要出現兩者之一就檢得,而順序檢索是必須兩者同時出現,且順序一致時才檢得。

自由檢索già spiegato

順序檢索già spiegato,只有3條記錄

平常使用,一般就檢索單個詞,自由檢索就可以了。

如果要檢索詞條,還是要熟悉每一卷的詞頭範圍,這樣你搜abbacinato,就會先往卷一找,當然,這種檢索結果較少的,直接找檢得數最多的頁面就可以了,一般都是詞條所在頁。這個檢索結果,其實應該加上一個按檢得數量排列,那樣對於檢索結果較多的單詞也能較快定位到頁面。

在相應的頁面,點擊Vedi PDF的話,就會出現文字版的PDF頁面,且會高亮檢索詞。

如果點擊Vedi jpg,那就會出現該頁的圖像。

而這兩者其實並沒有對應起來的,圖片歸圖片,文字歸文字。

其實我的用法是通過建立自己的個人資料庫,來與其他的藝術術語等庫進行配合使用。

其中使用到的方法大致來自於以下幾篇文章:

  數字人文時代的個人資料庫之六:資料庫的索引與檢索工具FoxTrot Pro.

  數字人文時代的個人資料庫之三:pdf優化工具和OCR工具的選擇

   數字人文時代的個人資料庫之二:獲取藝術史電子資源的方法

以下是藝術史的數字人文時代的個人資料庫系列:

           零:數字人文時代的個人資料庫之導論:目錄學下的資料庫閱讀

           一:如何用目錄學追蹤藝術史的最新進展:書籍編目的工具Zotero

           二:數字人文時代的個人資料庫之二:獲取藝術史電子資源的方法

               三:數字人文時代的個人資料庫之三:pdf優化工具和OCR工具的選擇

               四:藝術史的漫遊者:散漫式的閱讀和筆記工具—E-ink 閱讀器

               五:藝術史的寫作:圖像的尤利西斯之旅

           六:數字人文時代的個人資料庫之六:資料庫的索引與檢索工具FoxTrot Pro

           七:藝術的判斷力之源:隨身攜帶的個人資料庫Foxtrot attaché

           八:藝術史研究中原始材料和術語的整理:Marginnote在藝術史研究中的兩個實例

           九:Evernote作為藝術史閱讀和觀看的判斷力工具

           十:數字人文時代的個人資料庫之十:數據的同步與備份

         

  藝術史研究中的圖像使用系列:

 藝術史家的圖像和檔案管理軟體--Tropy

 億萬像素的藝術史研究圖片庫:Haltadefinizione

  本公眾號的結構和更新計劃: 「藝術史圖書館」的結構

 相關推送:

             潘諾夫斯基1967年在UCLA的《聖經題材和使徒故事的問題》講座 

              朱青生:我的博士論文選題由隨機的方式確定 

             用「藝術」打開藝術:Roberto Longhi藝術史研究的方法及用「語言」寫作中國藝術史 上

             藝術史家的講座:潘諾夫斯基1967年在UCLA的《提香和奧維德》的講座

             Gertrud Bing:瓦爾堡的私人圖書館、記憶女神和和語言風格研究的核心人物

              北大《藝術史方法論》課程的書目和版本(上)

              北大《藝術史方法論》課程的書目和版本(中)

              米開朗基羅的紙張使用——手稿的擦除、重寫與復原

     

 掃碼關注藝術史圖書館

10、100、4000、2萬、30萬,這是一系列圖書數量的數據,10本著作大約可以比較有把握地掌握一個研究主題,100本可以差不多地勾勒出一個研究方向的框架,4000本可以滿足一個學者的研究需求和一個私人圖書館的藏書開端,2萬本則達到了私人藏書較為完美的狀態,30萬是一個專門學科的藏書的公共圖書館的量。這個公眾號旨在建成一個私人的藝術史圖書館,藏書量在三萬左右,主要收集藝術文獻(5000)、藝術史學史(15000)以及瓦薩裡《大藝術家傳》中對各藝術家的註解所需要的基本研究著作(10000)。

相關焦點

  • 《新法漢詞典》App推出 數位化推動詞典「革命」
    上海譯文出版社副總編輯朱亞軍表示:「此舉既是順應數位化潮流的舉措,也是應對紙質詞典銷量下滑的需要。」詞典App是否能挽救紙質詞典日漸下滑的銷售情況?詞典數位化將面臨哪些難題?應用軟體具有紙質詞典無法比擬的優勢打開手機翻譯軟體,輸入法文單詞,屏幕上會呈現一個卡片,上面有單詞的中文翻譯、例句、短語搭配等內容,可視可聽。
  • 傳統工具書試水數位化 新法漢詞典APP問世
    張嫣說,智慧型手機普及高峰的2008年至2010年,完全改寫了紙質詞典的地位。此前,《新法漢詞典》年銷量在13000冊,之後,這個數字下降到3000冊。「這是目前工具書的普遍現狀。沒有銷量,今後詞典的更新怎麼做?」  「我能查到的20多個新華字典手機軟體,全部是盜版。」張嫣認為,對紙質工具書銷量衝擊巨大的,是如今充斥網絡的諸如盜版《新華字典》的「雜牌詞典」。
  • 《新法漢詞典》將推應用軟體 傳統工具書試水數位化
    張嫣說,智慧型手機普及高峰的2008年至2010年,完全改寫了紙質詞典的地位。此前,《新法漢詞典》年銷量在13000冊,之後,這個數字下降到3000冊。「這是目前工具書的普遍現狀。沒有銷量,今後詞典的更新怎麼做?」   「我能查到的20多個新華字典手機軟體,全部是盜版。」張嫣認為,對紙質工具書銷量衝擊巨大的,是如今充斥網絡的諸如盜版《新華字典》的「雜牌詞典」。
  • 從Twitter、Amazon學習,90歲的《牛津英語詞典》這樣擁抱數位化
    在19世紀中後期,牛津大學出版社承印了《牛津英語詞典》的項目,其業務也不斷擴充,包括英語語言文字教學書籍等,自此便開啟了全球化業務拓展的道路。Grathwohl 已經在牛津大學出版社工作超過20年。從紙質圖書印刷到現在的在線詞典,他親眼見證了牛津大學出版社的歷史,也見證了整個科技演變的過程及其對行業帶來的影響。
  • 正版網上詞典來了!辭書走上轉型「智能化」之路
    ,以特大型漢語語文工具書《漢語大詞典》為基礎,首次嘗試基於「工具書數據開放平臺」的產品合作。  掌閱目前為安卓平臺最大的閱讀品牌,未來,使用掌閱產品閱讀的用戶,如有漢語查詢需求,只需簡單操作,即可從工具書數據開放平臺調取《漢語大詞典》權威釋義並予以呈現。  侵權看似「方便」實則「多輸」  侵犯《漢語大詞典》著作權,影響網際網路漢語工具書產品的生態環境,乃至漢語語詞的純淨性。
  • 目前最大的權威英漢雙解詞典APP在滬上市
    本報訊(記者 餘傳詩)全球最大的英漢雙解詞典——《新牛津英漢雙解大詞典》APP近日正式發布。上海市辭書學會與上海外語教育出版社聯合牛津大學出版社(中國)有限公司和上海詞海信息技術有限公司,近日在上海隆重舉行了「數位化環境下的辭書編纂與出版工作研討會暨《新牛津英漢雙解大詞典》APP發布會」。
  • 電子詞典線上詞典大行其道 紙質字典被丟在角落
    與偏遠山區孩子缺字典的情形完全不同的是,在北京等大中城市,紙質字典初顯萎縮之勢,很多人將紙質字典丟在了角落,倒是電子詞典、線上詞典、手機詞典開始大行其道。  大學生幾乎不用紙質字典  記者在北京一些大學做了個小調查,發現大學生幾乎不用紙質字典。
  • 《英漢大詞典》 與讀者一起編詞典
    在做編纂概念發布時,朱績崧說,「雖然詞典編纂是一個因襲性很強的行業,但我們明顯有別於前人的地方,就是『高度數位化』『深度社會化』。」據介紹,《英漢大詞典》第三版編纂團隊將對詞典進行高度數位化處理,讓這部2400多頁、22萬詞條,體量龐大的工具書最大限度地適應網際網路環境,在各類終端設備,譬如手機、平板電腦和筆記本電腦上,都能淋漓盡致地發揮它的各項強大功能。
  • "英漢大詞典"第三版依託網際網路 與讀者一起編詞典
    在做編纂概念發布時,朱績崧說,「雖然詞典編纂是一個因襲性很強的行業,但我們明顯有別於前人的地方,就是『高度數位化』『深度社會化』。」   據介紹,《英漢大詞典》第三版編纂團隊將對詞典進行高度數位化處理,讓這部2400多頁、22萬詞條,體量龐大的工具書最大限度地適應網際網路環境,在各類終端設備,譬如手機、平板電腦和筆記本電腦上,都能淋漓盡致地發揮它的各項強大功能。
  • 《英漢大詞典》第三版依託網際網路 與讀者一起編詞典
    在做編纂概念發布時,朱績崧說,「雖然詞典編纂是一個因襲性很強的行業,但我們明顯有別於前人的地方,就是『高度數位化』『深度社會化』。」   據介紹,《英漢大詞典》第三版編纂團隊將對詞典進行高度數位化處理,讓這部2400多頁、22萬詞條,體量龐大的工具書最大限度地適應網際網路環境,在各類終端設備,譬如手機、平板電腦和筆記本電腦上,都能淋漓盡致地發揮它的各項強大功能。
  • 商務印書館:「工具書的王國」再添數位化新成員 《現代漢語詞典...
    精心整理的特色分類詞彙功能,形成多種分類小詞典,用戶可進行詞彙專項學習。「意義相關詞」功能通過意義關聯,幫助用戶由一個詞擴展到一批詞,由單純的查詞拓展綜合的詞語理解與運用,達到語言學習舉一反三、觸類旁通的效果。     四是實現智能化知識服務。
  • 從「大部頭」到數位化平臺 辭書App帶來了什麼?
    1.工具書數位化 是大勢所趨光明智庫:數字出版技術日新月異,網際網路查詢越來越便利,傳統工具書的境遇如何?還有哪些辭書像《現代漢語詞典》這樣,轉向網際網路應用?章宜華:當前傳統工具書面臨的最大問題是:人們的閱讀習慣和興趣發生了很大變化。
  • 《現代漢語詞典》有了APP,收費98元,比買紙質書還貴……你看值不值?
    具體來看:目前這款APP是能夠免費下載的,在App Store的評分為4.6分(滿分為5分)。據「差評」此前下載後的實際體驗,如果遇到了生僻字,只需要用拍照圖片識別的方法就能直接識別查找,詳情頁裡還有關於這個字的組詞,造句,以及詞語的詳細解釋,可以說跟紙質版的詞典沒有什麼區別,使用起來還更方便。
  • 《現代漢語詞典》有了APP,收費98元,比買紙質書還貴…你看值不值?
    目前這款APP是能夠免費下載的,在App Store的評分為4.6分(滿分為5分)。據「差評」此前下載後的實際體驗,如果遇到了生僻字,只需要用拍照圖片識別的方法就能直接識別查找,詳情頁裡還有關於這個字的組詞,造句,以及詞語的詳細解釋,可以說跟紙質版的詞典沒有什麼區別,使用起來還更方便。「聽說」功能則可以幫你糾正發音,製作組還請到了央視的新聞聯播主播來錄製官方發音。用戶們可以跟讀發起發音挑戰,APP會根據你的讀音打分。
  • 商務印書館數位化再發力重磅推出《現代漢語詞典》APP
    其中,全詞典69000個字詞的標準普通話音頻由著名新聞主播李瑞英帶來。  《現代漢語詞典》是新中國第一部規範型語文詞典,由中國社會科學院語言研究所詞典編輯室編纂,是現代漢語普通話讀音規範、漢字規範和詞彙規範的主要參考工具書。
  • 《現代漢語詞典》出APP了,收費98元,你會買單嗎?
    中新網客戶端北京9月21日電(記者 上官雲)「《現代漢語詞典》出APP了!」近日,這個消息傳出後,很快引發廣泛關注。不少使用過的網友都認為,一本厚重的工具書變成手機應用,實用又方便。但也有人提出,它的使用需要收費,這點不太合理。  像《新華字典》、《現代漢語詞典》這一類APP應不應該收費?網際網路時代,辭書等傳統工具書的數位化面臨哪些問題?
  • 《現代漢語詞典》出APP了收費98元,你會買單嗎?
    像《新華字典》、《現代漢語詞典》這一類APP應不應該收費?網際網路時代,辭書等傳統工具書的數位化面臨哪些問題?又會帶來怎樣的變化?  《現代漢語詞典》也有了APP  日前,由商務印書館推出的《現代漢語詞典》(第7版)APP正式發布。
  • 《現代漢語詞典》推出APP,收費98元,你會買單嗎?
    目前這款APP是能夠免費下載的,在App Store的評分為4.6分。針對《現代漢語詞典》APP版本收費98元,比同款紙質書貴一事,網友的爭議主要分為三派:反對收費、支持收費、支持收費,但價格不妨親民點。
  • 《英漢大詞典》第三版依託網際網路 搜集最妥帖、最時髦的用法
    在做編纂概念發布時,朱績崧說,「雖然詞典編纂是一個因襲性很強的行業,但我們明顯有別於前人的地方,就是『高度數位化』『深度社會化』。」 據介紹,《英漢大詞典》第三版編纂團隊將對詞典進行高度數位化處理,讓這部2400多頁、22萬詞條,體量龐大的工具書最大限度地適應網際網路環境,在各類終端設備,譬如手機、平板電腦和筆記本電腦上,都能淋漓盡致地發揮它的各項強大功能。
  • 《現代漢語詞典》APP上線
    和紙質詞典不同,《現代漢語詞典》APP不僅呈現拼音、部首等紙書檢索方式,還新增手寫輸入查詢、語音輸入查詢、攝像頭組詞查詢等數位化檢索方式。檢索結果除了所查字詞外,還同時呈現同音字、同部首字,以及同音詞、順序詞、居中詞、倒序詞、相關詞等。同時,APP實現了全文任意字詞「即點即查」。