網絡大數據時代下重新編制 新型《漢語主題詞表》發布

2020-11-22 多彩貴州網

  多彩貴州網訊(本網記者 楊豔)5月26上午,在2018中國國際大數據產業博覽會上,中國科學技術信息研究所發布了在網絡環境下大數據時代新型《漢語主題詞表》。

  新型《漢語主題詞表》(簡稱《漢表》),是支持漢語信息處理的語義工具,是以概念詞彙為知識節點,以等同關係、等級關係和相關關係為語義關聯,構建成的超大型知識庫系統,編織成的多維度的知識網絡。例如,《漢表》通過三個知識維度來解讀「航空母艦」這個詞彙概念,首先是等同關係,解釋也叫作「航母」,將同義詞聚攏成概念知識節點;第二是等級關係,提示它的上位詞是「水面戰鬥艦艇」,下位詞包括「常規動力航母」、「反潛航母」、「攻擊航母」、「核動力航母」、「護航航母」、「輕型航母」、「超級航母」等,《漢表》將這些知識節點,連接成樹形結構;第三是相關關係,將知識節點進行橫向關聯,顯示與「艦載飛機」相關。通過這三種關係,將概念詞彙關聯在一起,形成了《漢表》龐大的知識網絡。通過《漢表》的微觀知識結構,可以將大數據結構化、語義化、規範化。

  建立的《漢表》服務系統,支持中文文獻文本語義處理;通過專業詞庫,支持對專業文獻的文本分詞;通過同義詞歸併,聚焦專業知識節點;通過主題分析,批量揭示文獻信息涵蓋的知識內容與分類類型,將海量信息進行序化;提供在線概念檢索和輔助標引服務,通過可視化技術,展示各類概念關係,為網絡時代大數據的語義化、結構化、數據共享與開放提供了重要支撐;既可以運用於資源組織與知識關聯,也可以支撐知識展示與數據服務,成為實現信息檢索、知識發現、語義推理的智能引擎;通過機器標註、語義關聯為雲計算、雲儲存提供了信息描述的標準化模型;通過主題標引、學科分類、知識聚類功能,成為物聯網與虛擬實境的精準知識組織系統,必將為智慧社會的到來做出貢獻。

  回顧歷史,1974年8月,在周恩來總理的布置下,設立了國家重點科技攻關項目「漢字信息處理系統工程」,簡稱「748工程」。「748工程」分為精密中文編輯排版系統、中文情報檢索系統和中文通信系統三個子項目。1975年,《漢語主題詞表》作為該項工程的配套項目,開始了其編纂工作, 500多單位1000多專業人員歷時5年完成,於1980年6月正式公開出版,1985年獲得國家科學技術進步二等獎。1991年,中國科學技術信息研究所又對自然科學部分進行維護更新,出版自然科學增訂本。《漢表》為我國大規模計算機信息存儲與檢索奠定了基礎,促進了我國中文文本信息處理工作的開展。

  伴隨著現代信息社會、數字時代到來,為了適應網絡環境下海量文本大數據形式化、結構化、語義化處理的需要,中國科學技術信息研究所從2009年開始,牽頭組織國內20家專業機構的數百名專家,分領域、分階段修訂和重新構建了新型《漢語主題詞表》。整體工程分四大部分,分別是《漢語主題詞表》工程技術卷、自然科學卷、生命科學卷和社會科學卷。目前已經完成兩大部分的編制工作,即工程技術卷和自然科學卷的編制工作,覆蓋31個學科領域,術語詞彙達50萬條,已經在國家工程技術數字圖書館中,提供科技信息的組織和檢索服務。同時,在擴展提供500萬條基礎詞庫科技術語服務的基礎上,通過漢語主題詞表服務系統,全方位展示《漢表》的知識服務功能。

  相關負責人表示,新型《漢表》的修訂和重新編制出版,在體系結構、詞彙術語、詞間關係等方面都得到改進和創新,隨著大數據時代的到來,《漢表》必將發揮其強大的國家信息基礎建設支撐作用。

相關焦點

  • 《新華字典》收錄網絡潮詞 網絡語言為漢語增添活力
    如「點讚」體現出社交空間的線上拓展,「曬」字細緻入微刻畫出時代情緒,「拼購」反映了新型電商消費方式的流行。   不少人稱「《新華字典》與時俱進,變得更接地氣了」。「我喜歡在作文裡用『點讚』『賣萌』這些比較新的詞,但家長會覺得不嚴謹,往往會要求改成『表揚』『可愛』等,雖然意思差不多,但讀起來不夠生動活潑。現在《新華字典》收錄了,我們用這些熱詞就有依據了。」有不少小學生非常支持。
  • 李國傑院士:大數據時代需要新「元素周期表」—資訊—科學網
    這股熱潮的主要驅動力來自網絡服務公司,各地政府投資大數據的主要目的則是增加GDP,但其實發展大數據的意義不僅僅體現在經濟上。」日前,在清華大學舉行的大數據時代高端論壇上,中國工程院院士李國傑表示,發展大數據技術的另一個重要意義是促進社會公平正義,促進國家治理的現代化。「大數據的挖掘分析還能促進科學研究,尤其是基礎科學研究的發展。面對大數據浪潮,我們的科學研究也需要作出一定的調整。」
  • 大數據時代下信息隱私與定位發展的矛盾
    同時也有人說,大數據時代下每個人都是透明的,你的每一項動作都會有相應的數據記載,包括我們的分享記錄、通話記錄、查找記錄、交易記錄等等,是生活的方方面面,生活如同窺視鏡下,得不到自我隱私的保護。由此,值得人們思考:大數據時代下隱私與定位發展之間的矛盾如何權衡;如何發揮法律在其中的效力發揮。首先,是關於大數據時代所帶來的定位發展。
  • 生態環境部印發新版《建設項目環境影響報告表》內容、格式及編制...
    gt;內容、格式及編制技術指南的通知》,這是新形勢下生態環境系統落實「放管服」要求,優化營商環境,深化建設項目環評改革,服務中小企業的重要舉措。  新版《建設項目環境影響報告表》與舊版相比,在內容、格式和編制技術要求上進行了較大調整,主要體現在以下三方面。一是分類管理,將報告表分為汙染影響類和生態影響類兩種格式,根據兩類項目不同環境影響特點設置有針對性的編制內容和格式,並配套相應的編制技術指南,突出不同類型評價關注重點。
  • 漢語拼音60年:開啟「語同音」時代,從掃盲工具到文化橋梁
    2.從掃盲工具到文化橋梁「漢語拼音方案的主要用途是給漢字注音和拼寫普通話,以幫助識字、統一讀音和教學普通話,目的在於便利廣大人民學習和使用漢字,以促進漢語的進一步統一,並非用來代替漢字。」1958年2月3日,吳玉章在《關於當前文字改革工作和漢語拼音方案的報告》中,清楚說明了漢語拼音的兩大職能——注音和拼寫。
  • 大數據時代的教師專業成長
    一些教師直接照搬線下課堂,盡力保持與平日課表一樣,與學校課堂同步,未能在大數據驅動下重構教學邏輯,違背了在線教育以學習者為中心的原則。 筆者無意於測評和重新界定在線教學的功效,只是希望本文能夠為大數據時代教師專業成長提供一些思考與借鑑。
  • 大數據時代:十大最熱門的大數據技術 - 大數據_CIO時代網 - CIO...
    隨著大數據分析市場快速滲透到各行各業,哪些大數據技術是剛需?哪些技術有極大的潛在價值?根據弗雷斯特研究公司發布的指數,這裡給出最熱的十個大數據技術。   1、預測分析   預測分析是一種統計或數據挖掘解決方案,包含可在結構化和非結構化數據中使用以確定未來結果的算法和技術。
  • 時空大數據的未來:遙感衛星的商業化時代〡水木資本原創
    北鬥專注的是衛星導航系統,SpaceX的衛星則在商業通信領域重點探索;但其實還有一類聚焦於對地觀測的衛星,它們從太空俯視地球,通過遙感技術持續搜集並監測地球表面指定區域的氣象、森林、海洋、環保、國土等各種情況,提供了穿越時空的大數據。
  • 大數據和新經濟時代背景下,新經濟統計學的機遇與挑戰
    本次活動採用線上形式,數十位行業大咖、專家學者雲集雲端,縱論行業大勢,發表真知灼見。次日,本次論壇的部分專家學者再次通過網絡對大數據和新經濟時代背景下,新經濟統計學面臨的機遇與挑戰進行了深入探討,對於中國新經濟統計領域的知識體系如何完善與實踐應用指明了方向,非常及時且富有意義。
  • 多表合一 開啟智慧生活
    定期「咚咚咚」上門查表的敲門聲,門上貼著的水費、電費、燃氣費的繳費通知單,是以往每個城市家庭都曾有過的經歷。如今,越來越多的家庭只要動動手指,就能通過手機完成線上繳費。在「網際網路+」時代,藉助「多表合一」,供水、供電、供氣和供熱等傳統民生行業也迎來了新的局面。
  • 獨家解讀重大疾病發生率表 關注保險業大數據
    和訊保險消息 中國保監會今日發布〔2013〕81號文,公布了《中國人身保險業重大疾病經驗發生率表(2006-2010)》。  作為中國人身保險業的第一套重大疾病經驗發生率表,它在該套重疾表的編制過程中,採用了高達7500萬條的樣本保單量,為我們提供了非常寶貴的高質量「保險大數據」,很多真正本土化的國民健康數據,對社會公眾極具參考價值。
  • 央視紀錄片大數據時代_央視紀錄片大數據時代觀後感 - CSDN
    第一集《數據時代》《大數據時代》27個精彩故事之1:《大數據重新定義中國足球》;》27個精彩故事之6:《大數據探油》;《大數據時代》27個精彩故事之7:《每天一億多條數據如何重新定義汽車設計》;《大數據時代》
  • 《非馮諾依曼網絡計算體系》高端理論專著隆重預發布
    早在2012年,沈寓實博士就與高漢中先生聯合撰寫了《雲時代的信息技術:資源豐盛條件下的計算機和網絡新世界》一書,站在計算、存儲和網絡三大基礎性IT資源已經豐盛的角度,從計算、通信以及網際網路架構的起點,重新構思並布局新型網絡和計算體系,提出了"大一統網際網路和雲端信息中樞"的概念。
  • 《中國成語大會》冠軍唐蕊:網絡時代更要感受漢語之美[圖]
    追問這段奇妙的旅程,不難發現,唐蕊之所以能有今天的成績,與其從小就接受漢語文化的薰陶息息相關。而對於當下網絡時代的提筆忘字、用錯成語的尷尬,唐蕊以為主觀上其實是大家對母語少了一份熱愛與堅持,「只有多寫多讀,才能感受到漢字漢語的魅力」。  7月8日,新法制報記者專訪唐蕊,帶您了解一個「在綻放的年紀做了件美麗事兒」的女孩。
  • 2016.12:基於網絡搜索數據的霧霾經濟與CPI相關性研究(董倩)
    二、文獻綜述   隨著大數據時代的來臨,對大數據的統計分析逐漸成為研究的熱點,網絡搜索數據便是研究領域之一。自2008年以來,國內外利用網絡搜索數據對宏觀經濟走勢的分析和預測已經取得一定的研究成果,但尚未形成系統的研究體系。
  • 國家基因庫生命大數據平臺發布原始2019新型冠狀病毒組裝數據
    2020.01.23 11:01【國家基因庫生命大數據平臺發布原始2019新型冠狀病毒組裝數據】2019年12月,湖北省武漢市突現一種由新型冠狀病毒引起的病毒性肺炎。華大基因與中國科學院微生物研究所、山東大學通力合作,依託華大智造超高通量測序儀DNBSEQ-T7,快速完成基因組測序,於2020年1月3日完成該新型冠狀病毒數據組裝,並第一時間上傳至國家基因庫生命大數據平臺(CNGBdb)。在進一步確認對末端序列的完成和相關倫理審批合規後,於2020年1月22日正式釋放。
  • 表意文字與表音文字之爭:漢語是落後的語言?(語文的演變10)
    在此時代,已無幸運之道。」,「漢字也是中國勞苦大眾身上的一個結核,病菌都潛在裡面,倘不首先除去它,結果只能自己死。」只是幾十年間,國家陷於戰火,無論是漢字的簡化還是徹底廢除,都難以實行。1935年時民國政府教育部還曾發布的《第一批簡體字表》,意欲推動漢字簡化,卻也無疾而終。直到新中國成立後的1964年5月,中國文改會發表了《簡化字總表》。
  • 2021寧夏事業單位考試備考之言語理解:「高頻詞找主題詞」
    【導讀】寧夏華圖事業單位考試網同步寧夏華圖發布:2021寧夏事業單位考試備考之言語理解:「高頻詞找主題詞」,詳細信息請閱讀下文!         2021年事業單位考試備考資料:2021寧夏事業單位考試備考之言語理解:「高頻詞找主題詞」由寧夏華圖教育整理髮布,更多備考資料可訪問寧夏華圖 事業單位考試備考資料頁獲取。
  • 上海市建設項目環境影響報告表編制技術指南
    〈本市環境影響評價制度改革實施意見〉的通知》(滬府規〔2019〕24號)精神,我局制定了《上海市建設項目環境影響報告表編制技術指南》,作為本市建設項目環境影響報告表編制、技術評估和審查的依據,自2020年6月15日起施行,請各單位遵照執行。
  • 新版《建設項目環境影響報告表》內容、格式及編制技術指南
    【能源人都在看,點擊右上角加'關注'】北極星環保網訊:日前,生態環境部發布關於印發《建設項目環境影響報告表》內容、格式及編制技術指南的通知。全文如下:關於印發《建設項目環境影響報告表》內容、格式及編制技術指南的通知各省、自治區、直轄市生態環境廳(局),新疆生產建設兵團生態環境局:為深化建設項目環境影響評價「放管服」改革,優化和規範環境影響報告表編制,提高環境影響評價制度有效性,我部修訂了《建設項目環境影響報告表》內容及格式。