【工具】語義分析系統---- NLPIR

2021-02-14 丁爸情報分析師的工具箱

今天給大家推薦一個語義分析系統： NLPIR

NLPIR能夠全方位多角度對文本進行處理，包括：網絡抓取、正文提取、中英文分詞、詞性標註、實體抽取、詞頻統計、關鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴展、繁簡編碼轉換、自動注音、文本聚類等。

官網地址：http://ictclas.nlpir.org/

系統下載地址：http://ictclas.nlpir.org/newsdownloads?DocId=389

系統創始人張華平百科簡介：

張華平，北京理工大學計算機語言信息處理研究所副所長，兼任網絡搜索與挖掘實驗室主任，博士，副研究員，漢語分詞系統ICTCLAS的創始人，研究生導師，"百星計劃"首批入選者，錢偉長中文信息處理科學技術獎一等獎獲得者(2010年);同時擔任首都師大兼職碩導，遼寧師大客座教授，中國計算機學會高級會員，北京市重點產業智慧財產權聯盟專家，北京市科委評審專家，中關村管委會技術評審專家，先後獲得計算所所長特別獎，中科院院長獎。主要研究領域為:自然語言處理、信息檢索、網絡信息內容安全，先後主持了國家863、242等相關的課題15項，研製的天璣輿情系統已經廣泛地應用於中國證監會、銀監會、廣電、工信部等單位，已經成為實際的業務系統。

在線演示地址：http://ictclas.nlpir.org/nlpir/

系統支持Chrome、Firefox、IE(9+)、UC、360(極速模式)等主流瀏覽器。

一、文本獲取方式

1、在線演示系統裡可以直接在網頁URL裡粘貼任何網站的連結，點擊抓取，則可以抓取到該URL網頁的正文，然後點擊分析，則可以對該篇文章經行分析。

2、也可以通過複製粘貼的方式輸入需要分析的文本

二、系統主要功能

1、分詞標註

漢語詞性標記集（共計99個，22個一類，66個二類，11個三類）

用戶可自定義詞語

2、實體抽取

NLPIR實體抽取系統能夠智能識別文本中出現的人名、地名、機構名、媒體、作者及文章的主題關鍵詞，這是對語言規律的深入理解和科學預測，其所提煉出的詞語不需要在詞典庫中事先存在。

3、詞頻統計

演示平臺只展示了名詞、動詞、形容詞三種開放詞類的Top 10結果。

4、文本分類

NLPIR採用深度神經網絡對分類體系進行了綜合訓練。演示平臺目前訓練的類別只是新聞的政治、經濟、軍事等。系統內置的算法支持類別自定義訓練，該算法對常規文本的分類準確率較高，綜合開放測試的F值接近86%。NLPIR深度文本分類，可以用於新聞分類、簡歷分類、郵件分類、辦公文檔分類、區域分類等諸多方面。此外還可以實現文本過濾，能夠從大量文本中快速識別和過濾出符合特殊要求的信息，可應用於品牌報導監測、垃圾信息屏蔽、敏感信息審查等領域。

5、情感分析

NLPIR情感分析提供兩種模式：全文的情感判別（左圖）與指定對象的情感判別（右圖）。情感分析主要採用了兩種技術：
1.情感詞的自動識別與權重自動計算，利用共現關係，採用Bootstrapping的策略，反覆迭代，生成新的情感詞及權重。
2.情感判別的深度神經網絡：基於深度神經網絡對情感詞進行擴展計算，綜合為最終的結果。

6、關鍵詞提取

7、詞義關聯擴展

POS-CBOW方法綜合了詞性、詞的分布特點，採用word2vector改進模型，對5GB的微博語料進行訓練，自動提取出了語義關聯關係。如果訓練文本調整為專業領域的生語料，該模型同樣可以產生專業領域的本體關聯關係。

8、文本涉及地址地圖可視化展示

9、摘要提取

NLPIR自動文本摘要中間件能夠實現文本內容的精簡提煉，從長篇文章中自動提取關鍵句和關鍵段落，構成摘要內容，方便用戶快速瀏覽文本內容，提高工作效率。自動摘要中間件不僅可以針對一篇文檔生成連貫流暢的摘要，還能夠將具有相同主題的多篇文檔去除冗餘，並生成一篇簡明扼要的摘要。用戶可以自由設定摘要的長度、百分比等參數。其處理速度達到每秒鐘20篇。

相關焦點

【工具】語義分析工具匯總

在目前的智能分析、大數據分析中語義分析的應用越來越廣泛了。
【分析方法】語義分析

情報分析師工作循環，在我們搜集好數據後需對搜集到數據進行分析，這裡介紹其中一種分析方法語義分析。語義分析是編譯過程的一個邏輯階段，語義分析的任務是對結構上正確的源程序進行上下文有關性質的審查，進行類型審查。語義分析是審查源程序有無語義錯誤，為代碼生成階段收集類型信息。
一大波做數據分析可以免費擼的網際網路工具推薦

所以我們就可以利用百度指數去看搜索及被提及量的趨勢，甚至還能看到一些相關性分析、用戶畫像等信息。例如我們嘗試搜索一下之前比較熱門的「共享單車」：【全國企業信用信息公示系統】輸入企業名字後可以查到註冊資金、地址、法人、經營範圍、投資人信息、企業變更等情況；還可查詢企業有無違法紀錄行為，經營異常名錄和」黑名單」等【全國法院失信被執行人名單信息公布與查詢】查詢失信被執行人名單信息、失信黑名單
史上最全的大數據分析和新媒體製作工具

「人和動物的區別是人類會使用工具」，這句話對於生活在信息爆炸時代的人尤為適用。這篇文章整理了部分當代職場人必備的新媒體工具和大數據分析與製作工具，這些「必備神器」，其中很多工具是親測過，非常強大，希望大家能從中找到對自己有幫助的工具。
今日Paper | 多人姿勢估計;對話框語義分析;無監督語義分析;自然...

還有一種是將自然語言直接轉換為計算機可以理解並且執行的語言，本文就是解決這個問題創新點：面向任務的對話框系統的分層語義表示，它可以對組合查詢和嵌套查詢建模。提出了一個語義解析的層次化注釋方案，它允許組合查詢的表示，並且可以被標準的選區解析模型高效準確地解析。而且還發布了一個由44k個帶注釋的查詢1組成的數據集。
【技術】語義分析技術與知識工程

語義分析的理論和方法是從語言學、數學、計算機學等多個學科綜合發展而來。其基本思想是基於「還原論」，即分解的思想，就是將句子、段落乃至篇章分解為詞，假定基本概念和意義是由詞聯繫在一起。以詞義作為研究對象的是詞彙語義學，詞彙語義中語義分析方法主要有兩類：構造性和區分性的分析方法，它們中的典型代表分別是義素分析（也稱語義成分分析）和語義場理論。
NLP、KG相關軟體、工具、資源匯總

ltp（https://github.com/HIT-SCIR/ltp）：由哈工大團隊開源，其提供了一系列中文自然語言處理工具，用戶可以使用這些工具對於中文文本進行分詞、詞性標註、句法分析等等工作功能包括：中文分詞、詞性標註、命名實體識別、依存句法分析、語義依存分析、新詞發現、關鍵詞短語提取、自動摘要、文本分類聚類、拼音簡繁轉換等jieba（https://github.com/fxsjy
最全的中文語言處理數據集、平臺和工具!

資源整理了文本分類、實體識別&詞性標註、搜索匹配、推薦系統、指代消歧、百科數據、預訓練詞向量or模型、中文完形填空等大量數據集，中文數據集平臺和NLP工具等。action-viewnews-itemid-145 情感/觀點/評論傾向性分析
篇章語義分析:讓機器讀懂文章

篇章語義分析（Discourse Analysis）是指在篇章層面上，將語言從表層的沒有結構的文字序列轉換為深層的有結構的機內表示，刻畫篇章中的各部分內容的語義信息，並識別不同部分之間存在的語義關聯，進而融合篇章內部信息和外部背景知識，更好的理解原文語義。
NLP: 基於文本語義的智能問答系統

1-1-3 生成式對話系統基於自然語言理解生成式對話策略：即通過機器學習算法構建深層語義模型，結合句詞分析等統計規律提取特徵，讓模型從大量的已有對話中學習對話規則，利用訓練好的模型預測結果。：pandas、scikit-learn、jieba3.深度學習框架：tensorflow、pytorch4.開發工具：pycharm、visual studio code5.其它工具：ElasticSearch搜尋引擎、向量檢索引擎Faiss/Milvus1-2-2 檢索式相關技術介紹1、分詞算法傳統算法：HMM隱馬爾可夫模型、
語言資源高精尖創新中心「中文句法語義分析及其應用」項目系統研發與資源建設研討會順利召開

項目研討會部分與會人員合影2018年5月17日，語言資源高精尖創新中心（以下簡稱「中心」）「句法語義分析及其應用」項目系統研發與資源建設研討會在北京語言大學綜合樓909會議室召開。）意合圖、構式庫、語塊庫等語義資源建設；（3）標註與計算工具平臺；（4）句法語義分析器系統展示這四個方面進行了詳細匯報。
最全中文自然語言處理數據集、平臺和工具整理

資源整理了文本分類、實體識別&詞性標註、搜索匹配、推薦系統、指代消歧、百科數據、預訓練詞向量or模型、中文完形填空等大量數據集，中文數據集平臺和NLP工具等。action-viewnews-itemid-145 情感/觀點/評論傾向性分析
鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社...

雷鋒網 AI 研習社編者按：語義分析（semantic parsing）是人工智慧的一個分支，是自然語言處理技術的幾個核心任務，涉及語言學、計算語言學、機器學習，以及認知語言等多個學科。近年來，隨著人工智慧的發展，語義分析也越發重要。
大學生用得上的47個在線工具,可視化數據,作圖,H5,PPT,文件轉換,Gif…

當面試官問：平時使用哪些工具，哪些渠道？挑一兩種我覺得ok的！網際網路鵝都需要的工具！整理47好用的工具&網站傳說中應用廣泛，不需要了解代碼也可以製作的H5工具。除了網站案例都是可以通過ih5製作這個特點以外，更好的地方在於有詳細的新手教程和直播課程。
哈工大 AAAI 2018 錄用論文解讀:基於轉移的語義依存圖分析 | 分享...

：語義依存是中文語義的深層分析，完善的語義表示體系對語義依存分析有重要作用。在近期雷鋒網 GAIR 大講堂舉辦的線上公開課上，來自哈爾濱工業大學在讀博士生王宇軒分享了一篇他在 AAAI 2018 投中的論文：基於轉移的語義依存圖分析。
新書推薦 | 《英語功能語義分析》與《漢語功能語義分析》

>何偉，北京外國語大學中國外語與教育研究中心副主任、教授、博士生導師,許國璋語言高等研究院院長助理,Journal of World Languages 聯合主編,Functional Linguistics 副主編,《北京科技大學學報》語言學欄目主編,中山大學功能語言學研究所客座教授,上海交通大學馬丁適用語言學研究中心學術委員會委員,香港城市大學兼職教授,中國生態語言學研究會會長,英漢語篇分析專業委員會副會長
MSRA開源學術界最全面語義分析數據集

2019年，微軟亞洲研究院將繼續提升OpenPAI的用戶體驗、核心深度學習能力支持、調度系統的可擴展性以及系統穩定性，並與合作高校進一步以OpenPAI為基礎進行深度學習算法和系統相關的研究，包括自動化機器學習算法、分布式深度學習、自動化網絡壓縮、自動深度神經網絡搜索以及GPU調度算法等。
姬東鴻 | 語義分析若干前沿問題

語義分析若干前沿問題姬東鴻（武漢大學國家網絡安全學院，湖北武漢 430072）摘　要：語義分析是自然語言處理和人工智慧的關鍵技術之一，在很多自然語言處理和AI系統中有廣泛應用雖然這是一種淺層語義表示，但它刻畫了句子的主要語義信息，因此可應用於自然語言處理的很多下遊應用任務，包括對話系統、機器閱讀和機器翻譯等。[26]作為一種語義分析技術，語義角色分析也有助於實現大數據的理解。伴隨著網際網路技術的迅猛發展及用戶規模的爆發式增長，網際網路已經步入了「大數據」時代，大數據已成為我們面臨的常態問題，語義角色分析與大數據在某種程度上互相促進。
淺談網絡語言的語義分析

在網絡語言中，有一種較為狹義的是指人們在網絡背景下以形色各異的符號所組成的語言，而人工智慧在對這樣的語言進行語義分析時，會造成一定程度的跨語義變異等問題。整個網絡環境是充滿吸引力的，同時也是虛擬的，因此網絡用語成為了人與人或人機交流過程中不可或缺的傳播媒介，其形式主要體現在詞法句法的表達、語音的分析、漢字手寫等等。
論文推薦| 田江鵬:地圖符號的認知語義分析與動態生成

還有些學者從統籌符號的圖形和語義兩個方面[8-11]，立足符號的深層次語義結構及其認知機理，探索地圖符號的製作和應用模式。這些成果對位置服務背景下的地圖符號化具有重要的借鑑作用，但仍存在不夠系統、認識的理據性不強等弱點，尚不能直接作為位置服務背景下的地圖符號化解決方案。

【工具】語義分析系統---- NLPIR

相關焦點

【工具】語義分析工具匯總

【分析方法】語義分析

一大波做數據分析可以免費擼的網際網路工具推薦

史上最全的大數據分析和新媒體製作工具

今日Paper | 多人姿勢估計;對話框語義分析;無監督語義分析;自然...

【技術】語義分析技術與知識工程

NLP、KG相關軟體、工具、資源匯總

最全的中文語言處理數據集、平臺和工具!

篇章語義分析:讓機器讀懂文章

NLP: 基於文本語義的智能問答系統

語言資源高精尖創新中心「中文句法語義分析及其應用」 項目系統研發與資源建設研討會順利召開

最全中文自然語言處理數據集、平臺和工具整理

鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社...

大學生用得上的47個在線工具,可視化數據,作圖,H5,PPT,文件轉換,Gif…

哈工大 AAAI 2018 錄用論文解讀:基於轉移的語義依存圖分析 | 分享...

新書推薦 | 《英語功能語義分析》與《漢語功能語義分析》

MSRA開源學術界最全面語義分析數據集

姬東鴻 | 語義分析若干前沿問題

淺談網絡語言的語義分析

論文推薦| 田江鵬:地圖符號的認知語義分析與動態生成

語言資源高精尖創新中心「中文句法語義分析及其應用」項目系統研發與資源建設研討會順利召開