今天給大家推薦一個語義分析系統: NLPIR
NLPIR能夠全方位多角度對文本進行處理,包括:網絡抓取、正文提取、中英文分詞、詞性標註、實體抽取、詞頻統計、關鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴展、繁簡編碼轉換、自動注音、文本聚類等。
官網地址:http://ictclas.nlpir.org/
系統下載地址:http://ictclas.nlpir.org/newsdownloads?DocId=389
系統創始人張華平百科簡介:
張華平,北京理工大學計算機語言信息處理研究所副所長,兼任網絡搜索與挖掘實驗室主任,博士,副研究員,漢語分詞系統ICTCLAS的創始人,研究生導師,"百星計劃"首批入選者,錢偉長中文信息處理科學技術獎一等獎獲得者(2010年);同時擔任首都師大兼職碩導,遼寧師大客座教授,中國計算機學會高級會員,北京市重點產業智慧財產權聯盟專家,北京市科委評審專家,中關村管委會技術評審專家,先後獲得計算所所長特別獎,中科院院長獎。主要研究領域為:自然語言處理、信息檢索、網絡信息內容安全,先後主持了國家863、242等相關的課題15項,研製的天璣輿情系統已經廣泛地應用於中國證監會、銀監會、廣電、工信部等 單位,已經成為實際的業務系統。
在線演示地址:http://ictclas.nlpir.org/nlpir/
系統支持Chrome、Firefox、IE(9+)、UC、360(極速模式)等主流瀏覽器。
一、文本獲取方式
1、在線演示系統裡可以直接在網頁URL裡粘貼任何網站的連結,點擊抓取,則可以抓取到該URL網頁的正文,然後點擊分析,則可以對該篇文章經行分析。
2、也可以通過複製粘貼的方式輸入需要分析的文本
二、系統主要功能
1、分詞標註
漢語詞性標記集(共計99個,22個一類,66個二類,11個三類)
用戶可自定義詞語
2、實體抽取
NLPIR實體抽取系統能夠智能識別文本中出現的人名、地名、機構名、媒體、作者及文章的主題關鍵詞,這是對語言規律的深入理解和科學預測,其所提煉出的詞語不需要在詞典庫中事先存在。
3、詞頻統計
演示平臺只展示了名詞、動詞、形容詞三種開放詞類的Top 10結果。
4、文本分類
NLPIR採用深度神經網絡對分類體系進行了綜合訓練。演示平臺目前訓練的類別只是新聞的政治、經濟、軍事等。系統內置的算法支持類別自定義訓練,該算法對常規文本的分類準確率較高,綜合開放測試的F值接近86%。NLPIR深度文本分類,可以用於新聞分類、簡歷分類、郵件分類、辦公文檔分類、區域分類等諸多方面。此外還可以實現文本過濾,能夠從大量文本中快速識別和過濾出符合特殊要求的信息,可應用於品牌報導監測、垃圾信息屏蔽、敏感信息審查等領域。
5、情感分析
NLPIR情感分析提供兩種模式:全文的情感判別(左圖)與指定對象的情感判別(右圖)。情感分析主要採用了兩種技術:
1.情感詞的自動識別與權重自動計算,利用共現關係,採用Bootstrapping的策略,反覆迭代,生成新的情感詞及權重。
2.情感判別的深度神經網絡:基於深度神經網絡對情感詞進行擴展計算,綜合為最終的結果。
6、關鍵詞提取
7、詞義關聯擴展
POS-CBOW方法綜合了詞性、詞的分布特點,採用word2vector改進模型,對5GB的微博語料進行訓練,自動提取出了語義關聯關係。如果訓練文本調整為專業領域的生語料,該模型同樣可以產生專業領域的本體關聯關係。
8、文本涉及地址地圖可視化展示
9、摘要提取
NLPIR自動文本摘要中間件能夠實現文本內容的精簡提煉,從長篇文章中自動提取關鍵句和關鍵段落,構成摘要內容,方便用戶快速瀏覽文本內容,提高工作效率。自動摘要中間件不僅可以針對一篇文檔生成連貫流暢的摘要,還能夠將具有相同主題的多篇文檔去除冗餘,並生成一篇簡明扼要的摘要。用戶可以自由設定摘要的長度、百分比等參數。其處理速度達到每秒鐘20篇。