大數據文摘出品
來源:thegradient
編譯:李雷、劉俊寰、陳若朦
人類歷史進程中留下的大量歷史文獻和文物,而隨著當時的語言文字消逝,儘管這些文檔包含了對現代文化遺產至關重要的歷史傳說記載,對於普通讀者而言連基本的「讀懂」都無法做到。
例如,考古學家曾在古代巴比倫遺址發掘成千上萬的陶土片 ,但只有幾百名專業學者可以對記載的文字進行翻譯。截止到現在,絕大多數記錄這些陶土片內容的文件也鮮有人問津。
再比如,1851年,一個考古隊發現了一塊記載了吉爾伽美什傳說的陶片,其含義直到1872年才被解讀出來。陶片上還有對聖經出現前的一次洪水的記載,作為理解諾亞方舟故事的背景資料,具有巨大的文化和宗教意義。
這是一個全球性問題,其中,日本尤其值得關注,因為日本在識別古文字上已經有了相當大的進展和突破。
從公元800年到1900年,日本統一使用的是一種稱為古草體(Kuzushiji)的文字,1900年日本小學教育改革時,將古草體從課程中刪除。
目前,絕大多數日本人無法閱讀150年前的文字,能夠無障礙閱讀古草體的人只佔了日本全國人數的0.01%,這些人大多是日本古典文學和日本歷史博士,這對日本歷史研究相當不利!
與之相對應的,這些古書籍的數量驚人,存儲量超過300萬本。目前僅有一個數位化圖書館存儲了2000萬頁此類文檔,但其總數(包括但不限於信件和個人日記)估計超過10億。
如果通過資助這些博士將古草體翻譯成現代日語,無疑是一個費時且費力的工作。這也催生了使用機器學習來理解古書籍文檔的相關研究。
識別古草體識別到底有哪些困難?
但這仍然是一項艱巨的任務。
古草體的書寫規律與現代日語完全不同,雖然能通過機器學習將古草體文字轉錄成為現代日語,但由於一些語法和詞彙的變化,要徹底理解還存在困難。
目前已經採用了深度學習和計算機視覺等各種利用計算機輔助的方法來識別古草體。但是,這些模型的識別精度還有待提高,這是因為光學字符識別(OCR)體系沒有很多識別日本歷史文獻的經驗,以及缺乏高質量的標準化數據集。
OCR研究人員曾試圖自己創建訓練數據集。但是,由於自創數據集的字符數非常有限,因此在對所有字符範圍進行識別時,模型性能很差。
為此,NIJL-CODH為研究人員進行訓練和評估提供了一個大而全的古草體數據集,解決了這個問題。日本國立文學研究所(NIJL)創建並發布了一個古草體數據集,該數據集由人文開放數據中心(CODH)策劃,目前資料庫已經具有4000多個字符類和一百萬個字符圖像。
古草體識別具有挑戰性的原因有以下幾個:
理解上下文。由於某些字符與上下文字符相連,在分類時應該考慮多個字符而不是單獨考慮每個字符。詞彙表中的字符總數非常大。具體來說,NIJL-CODH數據集包含超過4300個字符,事實上遠遠不止。此外,數據集遵循長尾分布,數據集中很多字符僅出現幾次甚至一次。基於變體假名(Hentaigana),許多字符可以多種方式書寫。變體假名是一種書寫平假名或日語注音字符的古老方法,其特點是許多字符會映射到同一個現代字符上。古草體文本通常寫在插圖或背景圖上,這些插圖和背景很難與文本分開。因為近代日本最流行的印刷系統是木刻版印刷,其中很多是用整塊木頭來雕刻插圖。這就使得文字布局更為複雜,也不容易用序列表示。近現代日語中很流行一種類似於「草書」的書法形式,這在個人信件和詩歌中很常見。人們可以根據字符的大小和墨水的深淺來決定從哪裡開始閱讀。
使用墨水和畫筆的木版印刷技術
KuroNet模型能快速準確地進行轉錄
KuroNet是一種古草體字體轉錄模型,由Alex Lamb與兩位合作夥伴,來自日本國立信息學研究所人文信息系統ROIS-DS開放數據中心的Tarin Clanuwat和Asanobu Kitamoto共同開發。KuroNet模型能夠通過處理整個文本圖像頁面,以捕獲全局和局部文字依賴關係。
KuroNet將包含整個文本頁面的圖像送入殘餘U-Net架構(FusionNet)處理,以獲得特徵表示。但是,數據集中的字符類總數相對較大,超過4300個,因此,預測每個位置的確切字符需要複雜的計算。
古草體文本刻在一個木版上以進行印刷
為了解決這個問題,研究人員引入了一個近似值,用於初始估計某位置是否包含字符,這樣就只需根據實際情況在包含字符的位置上計算相對複雜的字符分類。
這其實是一種「Teacher Forcing」訓練機制,有助於顯著降低內存使用量和計算量。
研究人員還探究了使用數據增強來提高泛化性能,這在標記數據量有限的情況下對於深度學習而言尤為重要。他們在探索Mixup正則化項的變體,保留原始標籤的同時,沿隨機不同數據的方向進行了少量插值。
許多古書所用的紙張相對較薄,相鄰頁面的內容通常可能會透過紙張,由Mixup生成的圖像看起來有點類似於這種情況。Mixup能有助於使模型忽略相鄰頁面的內容。
有關KuroNet的更多信息,請查看相關論文《KuroNet:用深度學習識別古近代日本古草體字符》,該論文已被收錄於2019年國際文檔分析和識別會議(ICDAR)會刊。
論文連結:
https://arxiv.org/abs/1910.09433
F1分數高於0.9的頁面上的KuroNet轉錄示例。
KuroNet可以轉錄整個古草體文本頁面,平均時間為每頁1.2秒,包括未優化的模型後處理管道。儘管對不同書的識別的性能差異仍然很大,但研究人員發現,KuroNet模型對於17至19世紀的江戶時代的木刻印刷書籍的識別表現很好。但也必須承認,KuroNet對非常規大小和罕見字符的識別上還存在不足。
除此之外,研究人員還利用各種書籍的「留出」(held-out)頁評估了該模型,發現識別最差的書籍是字典和一本烹飪書籍,字典內包含了許多罕見字符,而烹飪書中穿插著許多插圖和非常規的排版方式。
Kaggle古草體識別競賽結果公布
KuroNet在研發階段取得了極好的結果,其相關論文也發表在文檔分析和識別領域的頂級會議上。為了激發對古草體的進一步研究,並發現KuroNet可能存在的缺陷,研究人員希望向更廣泛的社會群體開放這項研究。
最終,經過3個月的比賽,共有293支隊伍,338名參賽者參加Kaggle Kuzushiji 字體識別競賽,2652份代碼被提交,第一名的F1分數高達0.950。
使用相同的設置評估KuroNet,可以發現它的F1得分為0.902,排名第12位——儘管達到了可以接受的水平,但其結果與最優解決方案仍然存在差距。
以下是比賽排行榜前十:
從這次Kaggle比賽中我們可以吸取了一些重要教訓:
一些現有的對象檢測算法,即使在「開箱即用」的情況下,也能很好地完成此任務。例如,Faster R-CNN和Cascade R-CNN,無需修改或使用任何Kuzushiji特定技術即可達到出色結果。令人驚訝的是,即使Kuzushiji與通常的對象檢測任務之間存在很大區別,但仍具有良好的表現。與此同時,其他算法則在未經修改的情況下表現不佳。例如,儘管付出了很大的努力,對象檢測算法YOLO(You Only Look Once)的表現還是很差。其他技術在使用了CenterNet後得到了很好的效果,但是需要花費大量精力針對特定參數進行調整後才能正常工作。其中有幾種算法模型具有領先水平,可同時執行檢測和分類;而那些沒有採用巧妙技術將上下文字符納入其分類管道的算法則無法做到。很少有高分算法使用語言模型或是嘗試將字符視為序列。
未來的研究方向
目前CODH已經在轉錄古草體文本方面取得了實質性進展,但是,對於解鎖歷史文獻知識的整體問題還遠沒有解決。甚至在轉錄古草體方面,仍然存在著巨大的、開放式的挑戰。
其中一個難題是,人們可能想要轉錄許多其他類型的古草體文本,有些是手寫的,還有印刷的(通常使用木刻版)。曾有人發現了一個用古草體字體書寫的石刻路標,並希望將其轉錄。另外,某些頁面具有非典型的或罕見的內容——例如書籍的書名頁。
對於這些特別的數據,尤其是當書寫介質發生變化的情況下,識別工作可能會非常困難。
另外還存在的問題是,所有的技術都只能將古草體文檔轉換為現代日語文本——這意味著雖然可以識別各個字符,但是整體文本仍然具有閱讀難度。
通過與日語為母語的人進行討論,得到一個結論:像這樣轉錄的文本可以被當代日本人所閱讀,但是要理解其含義還是稍有難度。
因此,需要進一步研究將古草體轉換為現代日語詞彙(非字符)和語法。在許多情況下,可以將過時的詞彙換成現代的單詞,然而對於詩歌和優美的散文,要將其用詞之間的細微差別正確地翻譯出來幾乎是不可能的。此外,缺乏(或只有少量)來自古典和現代日語之間完全準確的配對數據也是一個問題。
研究人員表示,這是當今機器學習中最具影響力的應用之一,如要取得進展,則需要具有歷史文獻領域特定專業知識的歷史學家、機器學習應用研究人員和機器學習算法研究人員之間的協作——這需要跨學科的努力。
歷史學家可以幫助確定相關的子問題,並可以直觀地判斷算法指標是否真正發揮作用;應用研究人員可以構建模型來優化各項指標,並確定當前算法的不足之處;而算法研究人員則可以幫助改進算法。
當前機器學習領域中受到廣泛關注和研究的內容是:開發能夠進行多次學習的更優算法,同時能夠更好地適應不斷變化的上下文本語境。
同時,這還需要國際上的協作努力。文檔數據難以獲得是世界各地的古代語言識別的共同問題,只有讓來自各國的研究人員共同參與,我們才有希望取得進展。此外,與土著群體進行交流也很重要。
在世界許多地方,歷史和文學教育的價值被大大低估了。在這個虛假新聞日益增長的世界中,對歷史的深入了解比以往任何時候都更為重要。對歷史文獻學習和理解,可以使學生系統地接觸大量的歷史內容,從而有助於提高對歷史重要性的認識。
這項工作將使學生和公眾能夠通過豐富的插圖和易於理解的書寫風格,原汁原味地閱讀歷史故事。同時研究對象也將在更多類型的文獻之間進行選擇,包括動作,喜劇和冒險小說,從而使研究變得更加有趣和實用。