古文字考釋與人工智慧

2021-01-09 光明日報

圖一

圖二

「人工智慧+」已經跟很多行業發生關係。據人工智慧專家介紹,凡是邊界清楚的問題,最適宜用人工智慧來解決。因此,像古文字考釋這種道理上只允許存在一種正確結論的學問,利用人工智慧技術來輔佐研究,自然再適合不過。事實上,古文字行業大概在30多年前,已有學者在探索利用計算機幫助綴合那些破碎的甲骨片子。最近看到「AI驅動的甲骨綴合」報導,是古文字學家和計算機專家合作,利用人工智慧技術綴合了一批甲骨碎片,似乎相當準確。而諸如圖像捕捉與提取、字形識別與轉換、數據聚合與分類等與人工智慧有關的工作,也都有學者在努力研究,並都有喜人突破。其目的都是希望靠計算機來解決人工做起來十分煩瑣且不容易準確的工作。

這裡舉幾個自己以往考釋古文字的例子,來說明人工釋讀古文字的很多關鍵點今後是完全有可能利用人工智慧技術去幫助解決的。

第一,古文字中有些字,形體非常接近,卻是不同的兩個字。

如甲骨文、金文中的「並」和「替」,差別只在它們所從的兩個「立」,一是左右並排(並),一是高低錯落(替)。楚文字中的「之」和「出」,差別只在最底下一筆,一作平畫(之),一作上彎形(出)。歷史上,在學者正確分辨出來之前,「替」字都被誤釋成「並」;而楚國印章中的「出」,也多被誤釋為「之」,致使一些重要商業史料被湮沒。20世紀30年代,在洛陽金村出土的一批青銅方壺上,都有記錄容量和重量的銘刻。在容量「四鬥」之後,有「[~符號~]([~符號~])客」二字,過去多有誤釋,目前最流行的釋法就是釋為官名「[~符號~](司)客」。我多年前曾在一次演講中指出,「客」前一字,跟「[~符號~]」字是有區別的。其所從的[~符號~],不但比「司」字所從的[~符號~]少一畫,連首筆的斜度,也就是筆勢,二者都是不同的。這個字實際上就是「以」字。釋作「以」,不但字形上解釋起來毫無障礙,文意也極為通暢。「以客」要讀作「已格」,就是已經校量過了的意思。「以」讀「已」,在古書中本是很常見的,而「客」與「格」的通假,早在西周銅器銘文中就已出現過了。近年新出的好幾件記容銅器上,都發現「客」讀作「格」(度量)的例子。而三晉記容銅器銘刻中,也曾出現過「已[~符號~](校)」這樣的話。所以金村方壺銘文中這兩個字的正確釋讀,一定是「以(已)客(格)」,而不能是其他。這種字形上的細微差別,往往是誤導學者釋讀的一個重要原因。

第二,即使字都不難認識,但因某些特殊情況的存在,也會導致人眼的疏忽,進而導致錯誤的釋讀。

過去我曾講過一個反書的例子:徐國青銅器上曾出現過「魚臘」(臘音昔,幹肉),這是古代禮書上常見的連舉名物,但因「魚」字在銘文中是反寫的(與銘文鑄造有關),結果導致各種各樣的誤釋,致使我們喪失一次古代禮制方面的「二重證據」機會。這裡再舉一例:《古璽彙編》2238號是一枚三晉陽文小方印(圖一),舊以為其上只有三個字,定為私印。我在2006年審讀一篇博士學位論文時曾指出,此印實際上是五個字,前兩個字的下部,都含有合文符號「=」(兩個字合在一起佔一個字的地位,稱為合文)。只是因為印面地位狹窄,加上所有文字都並排橫列,所以看起來非常隱晦,以致一般研究的人都會疏忽放過。正確的釋讀應該是「曲邑勻邑守」,是一方很特殊的官印。過了11年,2017年,陝西收藏家公布了一方新發現的類似三晉官印,印文是「曲邑武陰守」,其上「曲邑」二字也同樣作合文並有合文符號(《戎壹軒藏三晉古璽》),證實了我之前的看法(圖二)。

第三,窮盡資料,並儘可能地縮小考釋範圍,是準確考釋古文字的一個重要途徑。

在三晉璽印所見的姓氏中,有一個怪字作[~符號~],它既作為單字姓氏出現,又出現在複姓中(這裡用俗稱,實際是氏)。過去曾有學者釋為「佗」,字形上雖然也馬馬虎虎可以通過,但實際上解決不了跟已知古代姓氏的對應問題。也就是說,這樣的考釋最終還是無法落實。後來我在檢閱舊材料時發現,這個怪字在複姓中,不但出現在後一個字的位置上,如「大~」;也出現在前一個字的位置上,如「~中」。這樣一來,釋讀的可能範圍便大大縮小了。於是我檢查了所有已知複姓,最終知道此字實際上就是古文字裡很常見的當「叔」字用的「弔」,只是它的寫法在三晉變異了。「大叔」氏、「叔中」氏和「叔」氏,不但見於傳世文獻(即太叔、叔仲),也見於漢代私印。後來我又在魏國兵器上發現同樣寫法的「弔梁」氏,那自然就讓我們馬上想起孔子的老爸名紇字叔梁。晉有叔梁氏,是見於古姓氏書記載的。

以上幾個古文字考釋的例子,如利用人工智慧技術,大約涉及:(1)手寫漢字字形的精準圖像識別,含反書、合文、重文等特殊情形;(2)語料庫的建設,含通假標識與斷句等;(3)古代歷史與制度的相關資料庫建設。假使通過計算機讀圖並與各種相關的「庫」建立起有效的勾連與篩選,也就是通過人工智慧技術達到較為精準有效的數據處理,那麼古文字考釋的速度與成效自然會大大提高。雖說這些恐怕還都屬於比較低端的人工智慧,未來一定還會有更高級的諸如機器自我學習提升以及人機嫁接互動等技術,但這已是我們當下可以憧憬和努力的方向了。

(作者:吳振武,系吉林大學考古學院教授、博士生導師)

相關焦點

  • 符籙與古文字的釋讀
    雖然對符籙本身的解讀已有學者作過不少工作,但就古文字的考釋而言,符籙至今仍是一片未開墾的處女地。這不僅因為符籙本身就保有許多古文字,而且,通過符籙可使我們進一步了解和釋讀古文字。作為一種符號語言,符籙與古文字關係密切,據筆者研究,符籙的符號語彙在其創始之初雖有一部分取象於某種自然物,或某些青銅紋飾,但更多的是直接來自先秦的古文字,包括某些篆書、鳥書。
  • 會議日程|中國古文字研究會第二十三屆年會日程
    中國古文字研究會第二十三屆年會 > 蔡哲茂:說卜辭中的「寇」與商王朝對異族的統治政策(網) 14:30-14:45 葉正渤:甲骨文中的商代晚期曆法 14:45-15:00 劉桓:甲骨文考釋四篇
  • 奇異石碑 神秘文字 揭秘古文字釋讀技巧
    吉羅夫特南部的古城遺址,被認為刻有古文字的石碑就是在這裡被發現的。    考古學家姆吉扎德認為,這塊石碑上刻著的,是一種未被釋讀的古文字。    2 中國>    甲骨文破譯靠傳承    事實上,古文字的發現往往隨著考古發現漸入我們的視野。而隨著古文字的解讀,一段塵封的歷史也由此揭開。甲骨文就是古文字破譯史上的著名案例。    1899年,國子監祭酒(國家教育的最高行政長官)王懿榮發現了甲骨文。
  • 甲骨文排譜系聯成果明年出爐 四川古文字研究成果或迎井噴
    近日,中央宣傳部、教育部、國家語委、文化和旅遊部等八部門聯合發布「古文字與中華文明傳承發展工程」總體規劃,全面系統開展甲骨文、金文、簡帛文字等古文字研究,力爭經過5-10年努力,產出一批具有深遠影響的成果,提升中華文化價值引領力。  早在2019年11月,在四川省委宣傳部指導推動下,四川大學古文字與先秦史研究中心成立揭牌。
  • AI助力考古:MIT聯手谷歌,利用神經網絡破譯失傳古文字
    人工智慧技術正在被用來破譯失傳已久的古文字。近日,麻省理工學院和谷歌人工智慧實驗室的研究人員提出了一種自動破譯失傳文字的神經網絡算法。這一算法首次實現了古希臘邁錫尼文明時期「線形文字B」的自動翻譯,準確地把 67.3% 的線形文字B同源詞翻譯成了希臘語。下一步,人工智慧和機器學習技術可能會被用來解密至今仍未被破譯的古文字。
  • 用古文字資料研究《周易》,探索《周易》起源
    郭沫若在《兩周金文辭大系考釋》中說,「末二字殆中之族徽」。1950年,殷墟四盤磨出土一片卜骨,「橫行刻三行小字,文句不合卜辭通例」,實際上也是三組數字。1956年,長安張家坡發現兩片卜骨,每片也各有兩組數字。唐蘭先生根據這些卜骨和銅器,共找出十三個類似的奇字,寫了《在甲骨金文中所見的一種已經遺失的中國古代文字》一文。
  • 原來你是這樣的古文字
    古文字,如果顧名思義的話,很多人都會把凡是不認識的古代文字通通歸為古文字範疇。而其實,古文字是有一個學術界定範疇的。有的觀點將難以識讀的小篆及先秦文字歸屬到古文字範疇;也有的觀點則認為,先秦時期的甲骨文和金文屬於古文字,也有說法認為,小篆雖與後世通行的漢字差別很大,但由於在音、義兩方面都已有系統性的解說(許慎《說文解字》),所以仍屬於已識字範疇。 其實,古文字的概念在漢代就已經產生了。從那時起,人們開始探尋與小篆相異的、尚未識別的先秦文字。
  • 古文字「天書」不再艱澀難懂 華東師大發布智能文字識別系統
    「文鏡萬象」是教育部人文社會科學重點研究基地華東師範大學中國文字研究與應用中心基於20餘年中國文字數位化建設成果,跨學科研究打造的智能文字識別系統,由劉志基、臧克和兩位教授領銜的專家團隊攻關而成,識別的對象包括以出土文獻文字為主的從殷商到現代的各時段漢字、表意系統的少數民族文字以及域外各類古文字。
  • 「強基計劃」助力古文字學專業人才培養
    古文字學是事關文化傳承的「絕學」和冷門學科。「強基計劃」將古文字學專業列入招生和培養範圍,是在改革創新古文字學高層次人才培養方面邁出了堅實的一步,是對選拔培養知識結構合理、創新能力突出、有志於奉獻古文字學研究的後備優秀人才的一次有益探索。
  • 中國古文字學的繁榮發展 從「絕學」到「顯學」
    對於有五千年文明史的中國來說,古文字的研究有著特別重要的意義。在歷史上,釋讀古文字可以追溯到漢代,宋代以後已經成為一種學問,但一直被視作從屬於經學的「小學」。到了近代,古文字學逐漸獨立,但仍只有少數學者從事研究,因而有「絕學」之稱。只是在新中國成立以後,這一學科才得到空前發展,研究隊伍逐步擴大,成為介於考古學、歷史學和語言文字學之間的一個學術領域。
  • 中央宣傳部、教育部、國家語委等八部門聯合啟動實施「古文字與...
    為深入貫徹落實賀信精神,大力推進中華優秀傳統文化傳承發展,近日,中央宣傳部、教育部、國家語委、文化和旅遊部、科技部、國家文物局、中國社會科學院、河南省人民政府聯合發布「古文字與中華文明傳承發展工程」總體規劃,啟動實施該工程。
  • 吉林大學林沄教授獲聘「古文字與中華文明傳承發展工程」專家委員...
    吉林大學林沄教授獲聘「古文字與中華文明傳承發展工程」專家委員會顧問吳振武教授獲聘專家委員會委員、發布日期:2021-01-07     作者:社會科學處     編輯:王松林     點擊: 【消息來源:社會科學處】近日,在北京召開的「古文字工程部際聯席會議擴大會暨專家委員會成立會
  • 古文字釋讀屢有爭議...
    為何古文字釋讀屢有爭議?大河報·大河客戶端記者採訪了多位專家為您解析。「辛追」二字的由來這篇名為《馬王堆漢墓帛書,遲到的解讀和顛覆》的文章中寫道:「近日,復旦大學出土文獻與古文字研究中心通過對更清晰的文物相片的研究發現,馬王堆漢墓一號墓墓主的名字並非辛追。
  • 「古文字通才」率先認出西周甲骨文
    其一生治學浩瀚、著作等身,在古文字學、考古學、青銅器研究、中國古代史、學術史等領域成績斐然,被譽為中國20世紀「百科全書式的學者」。    清華大學於當日下午發布訃告稱:「李學勤先生的去世,是清華大學的重大損失,也是中國學術、文化、教育事業的重大損失!我們沉痛悼念並深切緬懷李學勤先生!」據清華方面透露,李學勤先生遺體告別儀式將於2月28日在北京八寶山殯儀館東禮堂舉行。
  • 四川考生用甲骨文寫高考作文 將請古文字專家翻譯
    網上發帖爆猛料   17日晚上8點36分,「國學數典」論壇網站上出現一篇名為《高考閱卷花絮:四川驚現甲骨文作文》的帖子,發帖者名為「dzjimagine」,好似一位在現場閱卷的老師,發帖稱當日在語文組發現了「閱卷以來的最勁爆花絮」——一篇用古文字書寫的作文《熟悉》。
  • 溪窯筆記——本溪發現戰國陰陽魚太極圖玉符牌考釋
    最終考釋玉牌小篆的漢字為「在昔嗣,國旌卻」。玉牌還不小,長有13.8釐米、寬4.15釐米、厚0.7釐米,是典型的陝西碧綠透光的藍田玉。玉牌「在」字的篆書寫法最早出現在秦朝李斯的《嶧山碑》,此後一直沿用至今。其本意是「存在」、「生存」,引申為「居於」、「處於」等義。「昔」字的篆書寫法亙古未見,與之相似的寫法最早出現在西周的善鼎。這是用山、水和日來表示時間概念的象形文字。
  • 大一學生用甲骨文、金文等古文字寫賀卡(圖)
    《古代漢語》作業不簡單  大一學生用古文字寫賀卡  本報訊(通訊員廖婧)武漢大學文學院要求漢語言文學專業123名大一學生,用甲骨文、金文等古文字給父母、親朋或教師撰寫賀卡。昨日,教《古代漢語》的王統尚老師看了學生交來的賀卡後,連呼「有文氣、才氣、靈氣」。  王統尚介紹,識寫古文字是《古代漢語》課程的重要內容之一。