人工智慧,助考古學者識別古文字體

2021-01-09 電子發燒友
打開APP
人工智慧,助考古學者識別古文字體

工程師周亮 發表於 2018-07-12 10:35:00

這個 AI 認識中世紀手寫拉丁文

「以後青銅銘文也交給 AI 來識別好了!」

AI 識別文字已經不算是什麼難事,但是如果字體是手寫,而且還是古文呢?

這似乎聽起來具有相當的難度!

梵蒂岡秘密檔案館(Vatican Secret Archives)可謂全球最偉大的歷史藏品之一,但其珍藏的許多文件從未轉錄。一個名為 Codice Ratio 項目,利用人工智慧與光學字符識別(簡稱 OCR)軟體的組合重現這些被忽視的文本,並將其重新呈現在世人面前。

這座恢宏的建築坐落在梵蒂岡城牆之內,毗鄰使徒圖書館、位於西斯廷大教堂北側,擁有著可追溯於1200年之前的總長達53英裡的書架。除了將Martin Luther逐出教會的《教皇詔書》之外,其中還包括蘇格蘭瑪麗女王被處決之前發給教皇西克斯五世的函件。在規模與範圍方面,其中的收藏幾乎著稱無與倫比。

然而,梵蒂岡秘密檔案館對現代學者卻沒多大現實意義。因為在這長達53英裡的書架當中,只有極少數書頁經過掃描以提供在線版本,這當中的一小部分轉錄為計算機文本以供內容搜索。如果我們打算閱讀其它任何內容,則必須申請特殊的訪問權限,一路前往羅馬,並親自動手翻開這些古籍。

傳統 OCR 技術只適用於經過嚴格排版的文字,而對於字母之間缺少間隔空間(即髒分割)的手寫卷宗形式則無法識別。對此, Codice Ratio 項目利用拼圖分割法將單詞理解為一種單筆筆劃,軟體只需要知曉哪些組塊代表真實的字母,而哪些只是連筆造成的假象即可。該軟體的手寫字母判斷準確率已經高達96%。如果成功,這項技術還將被用於處理世界各地其它歷史檔案庫當中數不勝數的其它記錄文件。

利用拼圖分割法讓 OCR 識別連體字

由於傳統OCR技術是把單詞分割成一個個字母來識別的,所以對於這類連體字,OCR無法識別字母。有人想出了一個方案,直接讓OCR去識別一個個的單詞,但是,如何讓OCR掌握成千上萬的拉丁文單詞呢?大概需要一個排的中世紀拉丁文專家來辨認不同單詞的圖形。

除了請專家辨認單詞外,還有更簡單的方法幫助OCR識別手寫字母,只要找實習生就可以搞定了。

我們知道,無論中文還是英文,連體字中粗的部分是筆畫,細的部分是筆尖移動造成的虛線,並不是筆畫的一部分。根據這個原則,In Codice Ratio的專家們發明了新的方法——拼圖分割法。拼圖分割法改變了傳統OCR把單詞分成字母的傳統方式,而是是把連在一起的單詞按照筆畫分隔開,在此之後,該軟體會進一步進行字母繪製,並最終生成以下一系列拼圖碎片:

這些拼圖碎片本身作用不大,但該軟體能夠將其通過多種方式組合起來以生成可能的字母。具體來講,軟體只需要知曉哪些組塊代表真實的字母,而哪些只是連筆造成的假象即可。

為了教會軟體這項能力,研究人員們選擇了不同尋常的導師——高中生。該團隊在義大利的24所學校當中招募了一批高中生用於建立項目的記憶庫。學生們在登錄相關網站後,會看到如下圖所示的三分屏幕界面:

之後,就要讓識別系統判斷對錯:識別出的字母,哪些是真正的字母,哪些是虛線的誤判。

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 用古文、篆、隸三種不同字體刻寫的《正始石經》
    從《三體石經》所刻碑文名字的字體大小,筆畫寫法和書法風格來看,極不相似。王國維《魏石經殘石考》云:「品字式者古文、篆、隸三體似出一手,直下式者則三體似由三人分別書之,而書品字式古文與書直下式古文者亦非一手。不獨書人不同,即文字亦不畫一。」
  • 你大概沒想到,AI居然能識別失傳的古文字
    作為一種基礎工具的人工智慧,往往能夠在意想不到地方發生效用。比如說今天為大家介紹的藉助人工智慧技術,自動識別西夏文——一個純粹中國的人文社科領域。但各國學者努力下,西夏文的基礎文字識別已經完成,現階段的工作重點是依據文字列表,去識讀大量西夏文文獻的具體內容,揭開西夏以及當時中原、西域各國的歷史迷霧。但在這個過程裡,研究人員認讀西夏文必須通過手工翻閱查找,耗費時間異常辛苦不說,由於西夏文是一種相似度極高的文字,人工識別還可能存在很大的錯誤率。所以就有學者提出,利用計算機來自動識別西夏文。
  • 電腦程式助破譯古文
    以色列特拉維夫本-古裡安大學研究員伊泰·巴優素福說,就好比司法機構運用指紋識別程序辨別人的身份,歷史學家和禮儀專家可以利用這一古文識別程序辨別古文中的文字、詞句,從而省去大量伏案查找資料的工作時間。巴優素福說.識別程序在處理古文電子成像時,會辨別字跡的深重,後將其按像素分類,從而將文字與背景區分開來,隨後辨別字、詞、句。
  • 人工智慧終可「識別人心」
    [23]對人工智慧充滿樂觀的人不少,如2015年《紐約時報》(New York Times)科技版記者約翰·馬爾科夫(John Markoff)的報導《人工智慧的學習能力匹敵人類》,就代表了這種典型的觀點。深度學習似乎真的已經解決了「感知」問題:它具有照片自動分類(圖像識別+分類)、圖像描述生成(圖像識別+理解)等能力。
  • 圖像識別與人工智慧圖像識別和機器視覺有什麼區別
    人工智慧領域發展到現在,ai與人工智慧、圖像識別領域、計算機視覺領域等近年來越來越多的整合和融合。首先,人工智慧在生活工作中將普遍應用;其次,人工智慧在不同的工作場景都有其應用,從金融到醫療,從服務到工廠,應用無處不在;最後,人工智慧正在與自動駕駛技術等聯繫在一起。
  • 古文字考釋與人工智慧
    圖一圖二「人工智慧+」已經跟很多行業發生關係。據人工智慧專家介紹,凡是邊界清楚的問題,最適宜用人工智慧來解決。因此,像古文字考釋這種道理上只允許存在一種正確結論的學問,利用人工智慧技術來輔佐研究,自然再適合不過。
  • 「清華簡」證實:古文《尚書》確係「偽書」
    西漢時期,相傳魯恭王在拆除孔子故宅一段牆壁時,發現了另一部《尚書》,是用先秦六國時的字體書寫的,人們稱之為古文《尚書》。古文《尚書》經過孔子後人孔安國的整理,篇目比今文《尚書》多16篇。  然而,在西晉永嘉年間的戰亂中,今、古文《尚書》全都散失了。東晉初年,豫章內史梅賾給朝廷獻上了一部《尚書》。這部《尚書》共有58篇,包括今文《尚書》33篇、古文《尚書》25篇。
  • 輕鬆識別圖片中的文本,英文字體也可以
    上一篇文章,小丁給大家介紹了識別圖片中文字的操作。然後,評論區有很多小夥伴就問我,除了中文,可以識別英文嗎?小丁在這裡回答大家,是可以的!迅捷ocr文字識別軟體也提供了識別外文的功能,小丁就依大家的需求,再寫下本篇操作步驟來給大家看看。
  • 淺析人工智慧在心理學研究中的應用前景
    日本學者塔卡西(Hideyuki Takagi)等人將交互進化計算應用於對精神分裂症患者的心理測量和評估中,輔助驗證「精神分裂症患者所感受到的情緒表達的動態範圍比健康人所感知到的範圍更窄」這一假設,該研究是IEC運用於心理測量領域的開創性研究之一。在此之前,精神病學家和心理治療師認為精神分裂症患者在情感表達方面存在問題,但是由於缺乏定量方法衡量他們的情感表達能力,所以無法以此作為診斷依據。
  • 人工智慧屬於什麼專業_人工智慧專業就業前景如何_人工智慧專業...
    什麼是人工智慧專業   人工智慧,即AI(Artificial Intelligence),是一門包含計算機、控制論、資訊理論、神經生理學、心理學、語言學等綜合學科。人工智慧是從計算機應用系統角度出發,研究如何製造出人造的智能機器或智能系統,來模擬人類智能活動的能力,以及延生人類智能科學。
  • 電腦閱卷時代,到底哪種字體更討老師青睞?這些寫法助你提分
    電腦閱卷時代,到底哪種字體更討老師青睞?這些寫法助你提分。現在很多正式考試都在電腦上評分,例如,我們當中也有大學入學考試、英語四六級、我們的職業證明書等,這些考試很重要,計算機評分也公平地保證這些考試,更加嚴密安全,最大限度的考試公平性和保密性,但是,在電腦評分的過程中,中學生的字體會變大,學生的字體會影響老師的評分結果,學生應該寫什麼樣的字體?
  • 微信居然能翻譯文言文,我們還要學古文嗎
    人工智慧AI 時代,機器翻譯有了飛速發展。很多翻譯機,翻譯軟體,翻譯APP,甚至微信公眾號都能替人翻譯,方便了人們交往,旅遊,貿易等各項往來。那時在人工智慧沒有那麼熱門的時候,事實上已經有電腦翻譯可以幫助人們實現貨物貿易和情感交流。當中很多人和外國人聊天都聊出了愛情。甚至不懂外文也無所謂。
  • 深圳市「鵬城學者」特聘教授沈琳琳蒞臨金華一中,開講麗澤講壇第三十五講!
    沈教授以大家所熟知的Alpha Go和李在石的圍棋比賽導入,使同學們對人工智慧迅速產生了興趣。緊接著,他將人的活動與計算機科學活動相聯繫,深入淺出,幫助同學們理解各類人工智慧技術。機器學習如同人的「思考」,涵蓋人臉識別、醫學圖像分析等技術的計算機視覺如同人的「看」,涵蓋語音識別理解、說話人識別等技術的語音處理如同人的「聽」,涵蓋文本挖掘、訊息理解等技術的自然語言理解如同人類「讀」
  • 應用人工智慧有助心理學發展
    關鍵詞:人工智慧;心理學;交叉研究 作者簡介:   心理學同人工智慧聯繫緊密,自1956年人工智慧的概念提出以來,心理學家同人工智慧研究者進行了很多合作研究。日本學者塔卡西(Hideyuki Takagi)等人將交互進化計算應用於對精神分裂症患者的心理測量和評估中,輔助驗證「精神分裂症患者所感受到的情緒表達的動態範圍比健康人所感知到的範圍更窄」這一假設,該研究是IEC運用於心理測量領域的開創性研究之一。在此之前,精神病學家和心理治療師認為精神分裂症患者在情感表達方面存在問題,但是由於缺乏定量方法衡量他們的情感表達能力,所以無法以此作為診斷依據。
  • 中國最偉大的人工智慧女性科學家們,請為她們點讚
    2020 年 3 月 8 日,在這個特殊的節日裡,為了宣傳女性學者在人工智慧領域做出的亮麗成果,並鼓舞更多的年輕女性獻身人工智慧領域研究,為國家的發展做出貢獻,清華大學 - 中國工程院知識智能聯合研究中心、清華大學人工智慧研究院與北京智源人工智慧研究院隆重發布人工智慧全球女性榜單(Women in AI),旨在通過 AMiner 學術數據在全球範圍內遴選人工智慧學科最有影響力
  • 2020年的人工智慧改變了什麼?對你的生活有什麼改變和影響?
    2020年是非常普通的一年,卻又非常不平凡,生活中,人工智慧替代了外賣小哥,公交司機,在病情滿街的現在,是人工智慧承擔了人患病的風險,醫學上,人人關注的新冠,從數字信息的更新到疫苗的研發,在人工大數據的圍牆之下,阻止了大爆發的感染,。
  • 已過甲子之年的人工智慧:現有成績和待解難題一樣多
    導讀:對於人工智慧子項目之一的語音識別來說,下一個前沿是從識別走向理解,真正的人工智慧仍然還在遙遠的地平線上。  日前,美國一家公司宣稱專業速記員在記錄對話時,轉錄詞錯率為5.1%,而該公司最新研發的語音識別系統詞錯率已達到5.5%,超越之前的歷史最佳水平,樹立了新的裡程碑。
  • 別鬧,人工智慧還不是萬能的
    機器學習的基礎是人類收集的數據,當人類將越來越多的控制權交給運算法則時,若不加以全面的考慮,人工智慧也會像它的製造者一樣充滿偏見。「以貌取人」是不是AI?據英國《每日郵報》(Daily Mail)報導,幾位中國學者近日對外宣布,人工智慧已經在面部識別上發展到新階段:即可以通過照片推斷出女性的性格。
  • 人工智慧外語教學意味著什麼?
    本文轉自【大眾網】;清睿教育(口語100)在中國推動人工智慧外語教學已經9年了,人工智慧外語教學到底意味著什麼?清睿教育對於人工智慧外語教學又意味著什麼?外語學科可以說是中國學生普遍投入產出最差的一個學科,多年的學習投入卻難以應用,聽不懂、說不出、記不住、沒興趣。英語學習不能僅僅學知識和考察知識掌握,而是必須面向應用,考察應用能力。