編者按:杭州佛學院經過兩年的梵語公開課教學,取得了矚目的成績,成功培養了一批具有較好梵文功底的學員。其中,劉松柏學員的「梵文天城體印刷字符拉丁轉寫計算機識別程序」申請國家發明專利,並於2020年4月21日獲得國家知識產權局正式授權。
從十九世紀末開始,印度的文學宗教成為世界學術研究中的重要課題。歷史遺留下來的文獻有:用阿帕伯朗沙語(Apabhra a)寫的奧秘詩歌、一部古典泰米爾語著作、尼泊爾的佛教尼瓦爾語(Newari)文獻及尚處於開始階段、屬於新興佛教的新印度文學資料、在尼泊爾保存的佛教經文和在斯裡蘭卡及東南亞流傳下來的上座部巴利文經文。
研究人員又在中亞、克什米爾、西藏和阿富汗發現了一些被認為丟失了的梵文著作、有的已十分殘破。在這些出土文獻中,從所使用的文字可以看出年代的差別。新疆出土的文獻使用的是早期的婆羅米字,尼泊爾出土的文獻使用的是十一世紀之後的婆羅米字。
在世界各地的研究單位中,對這些文獻的研究有兩個相同的步驟:
1. 對文字的識別。用拉丁字母和印度現行的天城體文字對古文字進行轉寫和出版。
2. 對語言的識別。把基本連寫的文字按詞和句斷開,對文獻內容進行解釋。
研究工作非常艱難,最長的研究項目歷時67年。現在印度和歐美國家已經開始嘗試發揮計算機在梵文學習和研究工作中的作用,以提高效率和準確性。
梵文學習和研究在歐美國家一直為學術界所重視。19世紀末的西歐各國尤其是德國,從比較語言學的角度對梵文進行了大量研究,為今天的梵文研究打下了堅實基礎。
進入計算機時代,1985年美國NASA國家宇航局研究中心的Rick Briggs研究員在《人工智慧》雜誌上發表論文,指出梵文是一種能夠作為人工智慧中語義表達的自然語言。
近年來學習梵文的熱潮重新席捲了德國等地。英國《每日郵報》(2015年5月8日)報導:在德國,有14所頂尖的大學教授梵文,八月份為期一個月的暑期課程每年都會收到來自世界各地的申請,其中不乏學員為了進行計算語言開發來學習梵文的語法結構。
利用現在計算機技術帶來的便利,可以促進我們對梵文文獻的學習利用,加速佛經的梵漢對比研究。
作為梵語佛典計算機識別研究,一方面需要實現對佛典文本的數位化和字符自動化識別,可以節省大量的識別轉寫人力工作,所得的數位化成果還可供進一步建成可檢索的佛典資料庫,大大方便相關研究;
另外一方面還需要進行梵語文本的自動分詞,乃至最終實現自動翻譯,加快梵文佛典的現代漢語翻譯進程,這是梵語研究過程中極為耗時的過程,它的加快可以大大方便對梵文佛典原文的理解和開展佛教文本的梵漢對比研究。
由於梵文對於計算機研究的重要意義,歐美各國已經緊密開展了相關研究。目前最新的進展,德國自由大學Oliver Hellwig博士2011年基於其博士研究成果成立了梵文計算機文字識別軟體公司,在梵文相關文字識別方面處於世界領先地位。
在計算機語法分析方面,法國國家信息與自動化研究所(INRIA)的Gérard Huet早在1996年就開始了該領域的研究,通過與印度海德拉巴大學Amba Kulkarni等學者合作,現在已經建立起在線語法分析系統,能夠進行不同層次語法分析,是該領域的傑出代表。
此外國際梵語研究界和計算機科學界一直在進行活躍的跨學科合作,每年都有相關學術會召開,如國際梵文計算語言學論壇International Sanskrit Computational Linguistics Symposium等。
這些研究展示了梵文計算機研究的光輝前景和獨特價值,激勵著中國梵文學者儘快開展該研究,大力發展這一重要研究領域。
杭州佛學院經過兩年的梵語公開課教學,取得了矚目的成績,成功培養了一批具有較好梵文功底的學員。其中,劉松柏學員率先進行了梵文計算機文字識別的研究,並得到杭州佛學院的支持。
為了有計劃建立杭州佛學院梵文計算機研究基礎,杭州佛學院2017年4月由梵文教研室李煒老師牽頭建立了「中國杭州梵文計算機文字識別與語法分析研究」課題。其中文字識別、語法分析研究工作分別由梵文班學員劉松柏、萬爽負責,取得了較好的研究結果。
在前期研究中,劉松柏研發了「梵文天城體印刷字符拉丁轉寫計算機識別程序」,實現了清晰梵文圖像文字識別及拉丁自動轉寫,此方法2016年12月7日申請了國家發明專利,並於2020年4月21日獲得國家知識產權局正式授權。
該方法借鑑了漢字中田字格、九宮格的編碼方法,採用比較簡潔的算法進行梵文字符的編碼識別,主要分為三個步驟:
(1)對包含梵文天城體印刷字符的字符圖片進行掃描,基於字符塊間垂直最大空白空間進行梵文天城體印刷字符塊分割,得到若干梵文天城體印刷字符塊;
(2)對得到的梵文天城體印刷字符塊進行識別,得到梵文天城體印刷字符塊對應的特徵向量;
(3)將得到的特徵向量與標準拉丁字符的特徵向量進行對比,根據對比結果,將識別的梵文天城體印刷字符塊轉為拉丁字符。
該方法實現了從梵文天城體無噪聲印刷字符圖像到對應拉丁字符的直接轉換,且準確度高。所用的圖像識別算法方便易行,提供的技術方案易於實現。
該項研究對梵文字符識別作了有益的探索,為進一步構建梵文文本庫引入深度學習等算法實現梵文古文本的識別奠定了基礎。
編輯 | 禪風網
來源 | 杭州佛學院