機器學習解鎖古日本時代!KuroNet輕鬆閱讀古草體

2020-12-14 大數據文摘

大數據文摘出品

來源:thegradient

編譯:李雷、劉俊寰、陳若朦

人類歷史進程中留下的大量歷史文獻和文物,而隨著當時的語言文字消逝,儘管這些文檔包含了對現代文化遺產至關重要的歷史傳說記載,對於普通讀者而言連基本的「讀懂」都無法做到。

例如,考古學家曾在古代巴比倫遺址發掘成千上萬的陶土片 ,但只有幾百名專業學者可以對記載的文字進行翻譯。截止到現在,絕大多數記錄這些陶土片內容的文件也鮮有人問津。

再比如,1851年,一個考古隊發現了一塊記載了吉爾伽美什傳說的陶片,其含義直到1872年才被解讀出來。陶片上還有對聖經出現前的一次洪水的記載,作為理解諾亞方舟故事的背景資料,具有巨大的文化和宗教意義。

這是一個全球性問題,其中,日本尤其值得關注,因為日本在識別古文字上已經有了相當大的進展和突破。

從公元800年到1900年,日本統一使用的是一種稱為古草體(Kuzushiji)的文字,1900年日本小學教育改革時,將古草體從課程中刪除。

目前,絕大多數日本人無法閱讀150年前的文字,能夠無障礙閱讀古草體的人只佔了日本全國人數的0.01%,這些人大多是日本古典文學和日本歷史博士,這對日本歷史研究相當不利!

與之相對應的,這些古書籍的數量驚人,存儲量超過300萬本。目前僅有一個數位化圖書館存儲了2000萬頁此類文檔,但其總數(包括但不限於信件和個人日記)估計超過10億。

如果通過資助這些博士將古草體翻譯成現代日語,無疑是一個費時且費力的工作。這也催生了使用機器學習來理解古書籍文檔的相關研究。

識別古草體識別到底有哪些困難?

但這仍然是一項艱巨的任務。

古草體的書寫規律與現代日語完全不同,雖然能通過機器學習將古草體文字轉錄成為現代日語,但由於一些語法和詞彙的變化,要徹底理解還存在困難。

目前已經採用了深度學習和計算機視覺等各種利用計算機輔助的方法來識別古草體。但是,這些模型的識別精度還有待提高,這是因為光學字符識別(OCR)體系沒有很多識別日本歷史文獻的經驗,以及缺乏高質量的標準化數據集。

OCR研究人員曾試圖自己創建訓練數據集。但是,由於自創數據集的字符數非常有限,因此在對所有字符範圍進行識別時,模型性能很差。

為此,NIJL-CODH為研究人員進行訓練和評估提供了一個大而全的古草體數據集,解決了這個問題。日本國立文學研究所(NIJL)創建並發布了一個古草體數據集,該數據集由人文開放數據中心(CODH)策劃,目前資料庫已經具有4000多個字符類和一百萬個字符圖像。

古草體識別具有挑戰性的原因有以下幾個:

理解上下文。由於某些字符與上下文字符相連,在分類時應該考慮多個字符而不是單獨考慮每個字符。詞彙表中的字符總數非常大。具體來說,NIJL-CODH數據集包含超過4300個字符,事實上遠遠不止。此外,數據集遵循長尾分布,數據集中很多字符僅出現幾次甚至一次。基於變體假名(Hentaigana),許多字符可以多種方式書寫。變體假名是一種書寫平假名或日語注音字符的古老方法,其特點是許多字符會映射到同一個現代字符上。古草體文本通常寫在插圖或背景圖上,這些插圖和背景很難與文本分開。因為近代日本最流行的印刷系統是木刻版印刷,其中很多是用整塊木頭來雕刻插圖。這就使得文字布局更為複雜,也不容易用序列表示。近現代日語中很流行一種類似於「草書」的書法形式,這在個人信件和詩歌中很常見。人們可以根據字符的大小和墨水的深淺來決定從哪裡開始閱讀。

使用墨水和畫筆的木版印刷技術

KuroNet模型能快速準確地進行轉錄

KuroNet是一種古草體字體轉錄模型,由Alex Lamb與兩位合作夥伴,來自日本國立信息學研究所人文信息系統ROIS-DS開放數據中心的Tarin Clanuwat和Asanobu Kitamoto共同開發。KuroNet模型能夠通過處理整個文本圖像頁面,以捕獲全局和局部文字依賴關係。

KuroNet將包含整個文本頁面的圖像送入殘餘U-Net架構(FusionNet)處理,以獲得特徵表示。但是,數據集中的字符類總數相對較大,超過4300個,因此,預測每個位置的確切字符需要複雜的計算。

古草體文本刻在一個木版上以進行印刷

為了解決這個問題,研究人員引入了一個近似值,用於初始估計某位置是否包含字符,這樣就只需根據實際情況在包含字符的位置上計算相對複雜的字符分類。

這其實是一種「Teacher Forcing」訓練機制,有助於顯著降低內存使用量和計算量。

研究人員還探究了使用數據增強來提高泛化性能,這在標記數據量有限的情況下對於深度學習而言尤為重要。他們在探索Mixup正則化項的變體,保留原始標籤的同時,沿隨機不同數據的方向進行了少量插值。

許多古書所用的紙張相對較薄,相鄰頁面的內容通常可能會透過紙張,由Mixup生成的圖像看起來有點類似於這種情況。Mixup能有助於使模型忽略相鄰頁面的內容。

有關KuroNet的更多信息,請查看相關論文《KuroNet:用深度學習識別古近代日本古草體字符》,該論文已被收錄於2019年國際文檔分析和識別會議(ICDAR)會刊。

論文連結:

https://arxiv.org/abs/1910.09433

F1分數高於0.9的頁面上的KuroNet轉錄示例。

KuroNet可以轉錄整個古草體文本頁面,平均時間為每頁1.2秒,包括未優化的模型後處理管道。儘管對不同書的識別的性能差異仍然很大,但研究人員發現,KuroNet模型對於17至19世紀的江戶時代的木刻印刷書籍的識別表現很好。但也必須承認,KuroNet對非常規大小和罕見字符的識別上還存在不足。

除此之外,研究人員還利用各種書籍的「留出」(held-out)頁評估了該模型,發現識別最差的書籍是字典和一本烹飪書籍,字典內包含了許多罕見字符,而烹飪書中穿插著許多插圖和非常規的排版方式。

Kaggle古草體識別競賽結果公布

KuroNet在研發階段取得了極好的結果,其相關論文也發表在文檔分析和識別領域的頂級會議上。為了激發對古草體的進一步研究,並發現KuroNet可能存在的缺陷,研究人員希望向更廣泛的社會群體開放這項研究。

最終,經過3個月的比賽,共有293支隊伍,338名參賽者參加Kaggle Kuzushiji 字體識別競賽,2652份代碼被提交,第一名的F1分數高達0.950。

使用相同的設置評估KuroNet,可以發現它的F1得分為0.902,排名第12位——儘管達到了可以接受的水平,但其結果與最優解決方案仍然存在差距。

以下是比賽排行榜前十:

從這次Kaggle比賽中我們可以吸取了一些重要教訓:

一些現有的對象檢測算法,即使在「開箱即用」的情況下,也能很好地完成此任務。例如,Faster R-CNN和Cascade R-CNN,無需修改或使用任何Kuzushiji特定技術即可達到出色結果。令人驚訝的是,即使Kuzushiji與通常的對象檢測任務之間存在很大區別,但仍具有良好的表現。與此同時,其他算法則在未經修改的情況下表現不佳。例如,儘管付出了很大的努力,對象檢測算法YOLO(You Only Look Once)的表現還是很差。其他技術在使用了CenterNet後得到了很好的效果,但是需要花費大量精力針對特定參數進行調整後才能正常工作。其中有幾種算法模型具有領先水平,可同時執行檢測和分類;而那些沒有採用巧妙技術將上下文字符納入其分類管道的算法則無法做到。很少有高分算法使用語言模型或是嘗試將字符視為序列。

未來的研究方向

目前CODH已經在轉錄古草體文本方面取得了實質性進展,但是,對於解鎖歷史文獻知識的整體問題還遠沒有解決。甚至在轉錄古草體方面,仍然存在著巨大的、開放式的挑戰。

其中一個難題是,人們可能想要轉錄許多其他類型的古草體文本,有些是手寫的,還有印刷的(通常使用木刻版)。曾有人發現了一個用古草體字體書寫的石刻路標,並希望將其轉錄。另外,某些頁面具有非典型的或罕見的內容——例如書籍的書名頁。

對於這些特別的數據,尤其是當書寫介質發生變化的情況下,識別工作可能會非常困難。

另外還存在的問題是,所有的技術都只能將古草體文檔轉換為現代日語文本——這意味著雖然可以識別各個字符,但是整體文本仍然具有閱讀難度。

通過與日語為母語的人進行討論,得到一個結論:像這樣轉錄的文本可以被當代日本人所閱讀,但是要理解其含義還是稍有難度。

因此,需要進一步研究將古草體轉換為現代日語詞彙(非字符)和語法。在許多情況下,可以將過時的詞彙換成現代的單詞,然而對於詩歌和優美的散文,要將其用詞之間的細微差別正確地翻譯出來幾乎是不可能的。此外,缺乏(或只有少量)來自古典和現代日語之間完全準確的配對數據也是一個問題。

研究人員表示,這是當今機器學習中最具影響力的應用之一,如要取得進展,則需要具有歷史文獻領域特定專業知識的歷史學家、機器學習應用研究人員和機器學習算法研究人員之間的協作——這需要跨學科的努力。

歷史學家可以幫助確定相關的子問題,並可以直觀地判斷算法指標是否真正發揮作用;應用研究人員可以構建模型來優化各項指標,並確定當前算法的不足之處;而算法研究人員則可以幫助改進算法。

當前機器學習領域中受到廣泛關注和研究的內容是:開發能夠進行多次學習的更優算法,同時能夠更好地適應不斷變化的上下文本語境。

同時,這還需要國際上的協作努力。文檔數據難以獲得是世界各地的古代語言識別的共同問題,只有讓來自各國的研究人員共同參與,我們才有希望取得進展。此外,與土著群體進行交流也很重要。

在世界許多地方,歷史和文學教育的價值被大大低估了。在這個虛假新聞日益增長的世界中,對歷史的深入了解比以往任何時候都更為重要。對歷史文獻學習和理解,可以使學生系統地接觸大量的歷史內容,從而有助於提高對歷史重要性的認識。

這項工作將使學生和公眾能夠通過豐富的插圖和易於理解的書寫風格,原汁原味地閱讀歷史故事。同時研究對象也將在更多類型的文獻之間進行選擇,包括動作,喜劇和冒險小說,從而使研究變得更加有趣和實用。

相關焦點

  • 利用TensorFlow.js和深度學習,輕鬆閱讀古草體文字
    20世紀之後現代日語逐漸普及,「古草體」因不便在現代印刷體系裡使用,逐漸被人們遺忘,導致現在即使保存有數萬份古草體書寫的書籍,能夠閱讀的人也是寥寥。但是對於現代的研究者們而言,就算只閱讀一篇古文資料,也必然會和「古草體」文字「大眼瞪小眼」——遇到「語言障礙」。
  • 引領雲端機器學習時代,AWS正改變我們的未來
    因為就在這一天,全球雲計算行業領導者AWS召開了他們以機器學習(Machine learning, 下文簡稱為ML)為主題的活動。而機器學習,正是如今最主流的AI實現方式之一。 全系列SageMaker新功能,讓機器學習性能起飛 機器學習是什麼?
  • 「網際網路+機器翻譯」時代,繼續學習英語的目的是什麼?
    「網際網路+機器翻譯」時代,我們繼續學習英語的目的是什麼?我們從小學「學」英語的第一天開始,就在「使用」中文學英語,或者說,「學」英語無非就是為了「懂得」英語「中文什麼意思」。可是,我們別忘了,現在是「網際網路+」時代,「網際網路+」時代,有著強大的英譯漢翻譯機器,如「百度翻譯」,如果你僅僅是「想知道」那句英語的「中文是什麼?」,你根本不需要「懂」英語,直接複製粘貼,一切「不懂」的英語通通搞掂。因此,我們還需要用中文學英語嗎?
  • 噹噹發布2020程式設計師新態:左手Python,右手機器學習
    噹噹發布2020程式設計師新態:左手Python,右手機器學習   數據化革新大浪潮下,世界變化日新月異。程式設計師作為時代的主導者,群體動態也折射出時代動向。
  • 機器翻譯時代,英語學習的最大障礙是單詞和語法
    學習外語的時候,這種不同被放大,足以讓普通人看見此不同後果的鮮明對比。下面是出自TIME,時代周刊一片討論精英教育的一句話。不討論其單詞和語法,只用以驗證,深度理解的大腦和理解力簡化以後的大腦,在呈現信息上的差異。1。
  • 李宗瑋:草體、草書兼論草聖張芝
    草書,就是草體的若干等級中的一種。草書不是隨意而寫的,草書帶有一種約定俗成的特定含義,具有嚴格的規定性。因此,草體是種概念,而草書是屬概念。漢末草書的出現是歷史的必然。先秦的草體相當幼稚,潦草的程度也不大。八分書以前的隸書,實際就是篆字的草體。秦漢以後,字越寫越潦草了,為了加以區別,於是藝術的草書出現了。
  • 解鎖全場景閱讀,華為音樂開啟閱讀「聽」時代
    筆者認為,馮唐的成功離不開其豐富的知識積累和廣泛的閱讀,而這點正是當下大多數年輕人所缺少的。針對目前社會快節奏生活導致的閱讀時間少的問題,在4月23日"世界讀書日"這天,華為音樂有聲電臺重磅推出了全新的"聽書"版塊,內含豐富的書籍和各種大咖對書籍的有趣解讀,可以說是為我們提供了一個深度學習和完善自我的新平臺。
  • 機器翻譯時代,英語學習的最大障礙是單詞和語法
    學習外語的時候,這種不同被放大,足以讓普通人看見此不同後果的鮮明對比。下面是出自TIME,時代周刊一片討論精英教育的一句話。不討論其單詞和語法,只用以驗證,深度理解的大腦和理解力簡化以後的大腦,在呈現信息上的差異。1。
  • 網際網路+時代 十大輕鬆賺錢的APP 推薦
    二、小寶招商,是國內首款能夠讓您輕鬆賺錢的眾包平臺,海量知名企業在APP上發布各式招商任務,用戶通過轉發一條廣告、推薦一個客戶信息即可輕鬆獲得金幣獎勵,金幣可以進行提現、參與APP上的各種有獎活動。小寶招商自上線以來就受到百萬用戶的喜愛,為三九集團、匯源、五糧液等國內外知名品牌迅速開拓了市場。同時新用戶首次註冊、邀請好友註冊APP,均會獲得現金獎勵。
  • 施耐德電氣:超越故障監控 AI時代機器實現預測性自主維護
    「我們正處於從機器學習走向機器智能的轉折點。」人工智慧(AI)的加入將會解鎖哪些新技能?為何會成為一個重要的轉折點?   在岱安看來,從傳統的數位化走向人工智慧,意味著由淺入深,有效掌握和分析更為複雜、更多維度的數據;從而由表及裡,理解現象背後的原因,往自動化方向上更進一步。   「施耐德電氣的目標不僅僅是進行監視和提供建議,而是讓機器能夠自己做出關於維護步驟的決定。」他說道。
  • 連續兩年獲全國機器翻譯大賽第一,OPPO AI翻譯解鎖新成就
    機器翻譯作為近幾年爆發的新興技術領域,受到越來越多人的認可。在剛剛過去的2020年全國機器翻譯大會中,有一家企業在翻譯領域取得了非常不錯的成績,成為本次大賽中最亮眼的存在。在此基礎上,OPPO在多語言賽道上進一步引入了業界較先進的多語言混合翻譯方法,在維漢、藏漢、蒙漢這些低資源賽道上使用多任務學習的思想,通過混合不同分詞結果和不同粒度的輸入來訓練模型。以上技術均進一步提升了翻譯結果的準確性,這些探索也落地應用在OPPO在線翻譯引擎中。
  • 2018機器閱讀理解技術競賽開始報名 百度提供中文閱讀理解數據集
    3月1日,由百度公司、中國中文信息學會(CIPS)、中國計算機學會(CCF)聯手舉辦的「2018機器閱讀理解技術競賽」正式開啟報名通道。本次競賽,百度將提供面向真實應用場景迄今為止規模最大的中文閱讀理解數據集DuReader。
  • 機器學習時代的體驗設計(上):對創造人類行為學習系統的設計師和...
    我們定義了一種不同的體驗設計,即人類行為學習系統用戶體驗。這是一個新的嘗試,因為:它創造了新的用戶體驗類型。它重新定義了人與機器之間的關係。它要求設計師和數據科學家之間緊密合作。接下來將會具體闡述這些內容的含義。新型用戶體驗如今,許多數字服務的設計不僅依賴於數據操作和信息設計,還依賴於用戶學習系統。
  • 《王國兩位君主》幕府時代怎麼解鎖 幕府時代解鎖指南
    導 讀 王國兩位君主又被稱為雙王,這個雙王裡面有個幕府時代的模式可以解鎖,不過遊戲沒有提示該怎麼解鎖,那麼王國兩位君主幕府時代怎麼解鎖
  • 機器學習時代的體驗設計(下):對創造人類行為學習系統的設計師和...
    例如,亞馬遜將Echo定義為一臺「隨著時間的推移不斷學習和增加更多功能」的設備,這個描述突出了我們需要為學習人類行為的用戶體驗系統進行設計的必要性。機器學習的設計。(註:此處的解釋與上一篇文章中提到的機器學習時代用戶體驗的設計法則內容相呼應)在設計這類數據產品時,設計師需要考慮各種情況,不光要考慮產品對人有用的情況,同時也要考慮到那些令人失望、尷尬、煩惱或停止工作等情況。「離線體驗(offboarding experience)」的設計可能與「在線體驗(onboarding experience)」一樣重要。
  • 【趣學習】古滇·星旅客天文科學館,解鎖「星」驚喜!
    漫天星舞,愛滿2020古滇星光節即將閃耀開啟大型無人機天幕光影秀、雪亮新年大型燈光秀、古滇星光跨年音樂節、古滇·星旅客天文科學館、博塑·八千集戶外營地、古滇朵拉萌寵樂園,科技和夢幻相碰撞,為你製造一場流光溢彩的星光節~星空、宇宙對於每個人來說都是神秘而美好的存在仰望星空時我們常常陷入遐想浩瀚星海到底有多美?
  • 讓孩子輕鬆識字,愛上閱讀!你找對方法了嗎?
    而且,新改版的語文教材中,也把閱讀教育提升到了和識字、寫字、學筆畫同樣重要的地位: 1.提出「閱讀教育」,引導學生快樂閱讀,快樂識字。 新教材中,語文學習越來越重視孩子的閱讀表達,通過讀故事、演故事、看故事等方式,提升閱讀能力。
  • 機器學習時代的哈希算法,將如何更高效地索引數據
    但在去年 12 月,Jeff Dean 與 MIT 等研究者將索引視為模型,探索了深度學習模型學習的索引優於傳統索引結構的條件。本文首先將介紹什麼是索引以及哈希算法,並描述在機器學習與深度學習時代中,如何將索引視為模型學習比哈希算法更高效的表徵。
  • 【博聞強識】智永「草體蘭亭」,極為少見
    歡迎關注微信公眾號「龍靈書道」免費學習海量書法視頻 明拓寶鴨齋蘭亭之智永草書本,現藏故宮博物院。外封題「蘭亭八十刻 智永」。上署「蘭亭詩敘 沙門智永書」,下款「紹興丙辰七月程邁模勒於南陵郡齋」。是較為少見的「草體蘭亭」。
  • 想入門機器學習?機器之心為你準備了一份中文資源合集
    機器之心整理參與:機器之心編輯部機器學習日益廣為人知,越來越多的計算機科學家和工程師投身其中。不幸的是,理論、算法、應用、論文、書籍、視頻等信息如此之多,很容易讓初學者迷失其中,不清楚如何才能提升技能。本文作者依據自身經驗給出了一套快速上手的可行方法及學習資源的分類匯總,機器之心在其基礎上做了增益,希望對讀者有所幫助。