多彩貴州網訊(本網記者 楊豔)5月26上午,在2018中國國際大數據產業博覽會上,中國科學技術信息研究所發布了在網絡環境下大數據時代新型《漢語主題詞表》。
新型《漢語主題詞表》(簡稱《漢表》),是支持漢語信息處理的語義工具,是以概念詞彙為知識節點,以等同關係、等級關係和相關關係為語義關聯,構建成的超大型知識庫系統,編織成的多維度的知識網絡。例如,《漢表》通過三個知識維度來解讀「航空母艦」這個詞彙概念,首先是等同關係,解釋也叫作「航母」,將同義詞聚攏成概念知識節點;第二是等級關係,提示它的上位詞是「水面戰鬥艦艇」,下位詞包括「常規動力航母」、「反潛航母」、「攻擊航母」、「核動力航母」、「護航航母」、「輕型航母」、「超級航母」等,《漢表》將這些知識節點,連接成樹形結構;第三是相關關係,將知識節點進行橫向關聯,顯示與「艦載飛機」相關。通過這三種關係,將概念詞彙關聯在一起,形成了《漢表》龐大的知識網絡。通過《漢表》的微觀知識結構,可以將大數據結構化、語義化、規範化。
建立的《漢表》服務系統,支持中文文獻文本語義處理;通過專業詞庫,支持對專業文獻的文本分詞;通過同義詞歸併,聚焦專業知識節點;通過主題分析,批量揭示文獻信息涵蓋的知識內容與分類類型,將海量信息進行序化;提供在線概念檢索和輔助標引服務,通過可視化技術,展示各類概念關係,為網絡時代大數據的語義化、結構化、數據共享與開放提供了重要支撐;既可以運用於資源組織與知識關聯,也可以支撐知識展示與數據服務,成為實現信息檢索、知識發現、語義推理的智能引擎;通過機器標註、語義關聯為雲計算、雲儲存提供了信息描述的標準化模型;通過主題標引、學科分類、知識聚類功能,成為物聯網與虛擬實境的精準知識組織系統,必將為智慧社會的到來做出貢獻。
回顧歷史,1974年8月,在周恩來總理的布置下,設立了國家重點科技攻關項目「漢字信息處理系統工程」,簡稱「748工程」。「748工程」分為精密中文編輯排版系統、中文情報檢索系統和中文通信系統三個子項目。1975年,《漢語主題詞表》作為該項工程的配套項目,開始了其編纂工作, 500多單位1000多專業人員歷時5年完成,於1980年6月正式公開出版,1985年獲得國家科學技術進步二等獎。1991年,中國科學技術信息研究所又對自然科學部分進行維護更新,出版自然科學增訂本。《漢表》為我國大規模計算機信息存儲與檢索奠定了基礎,促進了我國中文文本信息處理工作的開展。
伴隨著現代信息社會、數字時代到來,為了適應網絡環境下海量文本大數據形式化、結構化、語義化處理的需要,中國科學技術信息研究所從2009年開始,牽頭組織國內20家專業機構的數百名專家,分領域、分階段修訂和重新構建了新型《漢語主題詞表》。整體工程分四大部分,分別是《漢語主題詞表》工程技術卷、自然科學卷、生命科學卷和社會科學卷。目前已經完成兩大部分的編制工作,即工程技術卷和自然科學卷的編制工作,覆蓋31個學科領域,術語詞彙達50萬條,已經在國家工程技術數字圖書館中,提供科技信息的組織和檢索服務。同時,在擴展提供500萬條基礎詞庫科技術語服務的基礎上,通過漢語主題詞表服務系統,全方位展示《漢表》的知識服務功能。
相關負責人表示,新型《漢表》的修訂和重新編制出版,在體系結構、詞彙術語、詞間關係等方面都得到改進和創新,隨著大數據時代的到來,《漢表》必將發揮其強大的國家信息基礎建設支撐作用。