Awesome-Chinese-NLP:中文自然語言處理相關資料

2021-02-16 AINLP

推薦Github上一個很棒的中文自然語言處理相關資料的Awesome資源:Awesome-Chinese-NLP ,Github連結地址,點擊文末"閱讀原文"可直達:

https://github.com/crownpku/Awesome-Chinese-NLP

awesome-chinese-nlp

A curated list of resources for NLP (Natural Language Processing) for Chinese

中文自然語言處理相關資料

圖片來自復旦大學邱錫鵬教授

Contents 列表1. Chinese NLP Toolkits 中文NLP工具Toolkits 綜合NLP工具包Popular NLP Toolkits for English/Multi-Language 常用的英文或支持多語言的NLP工具包Chinese Word Segment 中文分詞Information Extraction 信息提取QA & Chatbot 問答和聊天機器人2. Corpus 中文語料3. Organizations 中文NLP學術組織及競賽4. Industry 中文NLP商業服務5. Learning Materials 學習資料



Chinese NLP Toolkits 中文NLP工具Toolkits 綜合NLP工具包

THULAC 中文詞法分析工具包 by 清華 (C++/Java/Python)

NLPIR by 中科院 (Java)

LTP 語言技術平臺 by 哈工大 (C++) pylyp LTP的python封裝

FudanNLP by 復旦 (Java)

BaiduLac by 百度 Baidu's open-source lexical analysis tool for Chinese, including word segmentation, part-of-speech tagging & named entity recognition.

HanLP (Java)

SnowNLP (Python) Python library for processing Chinese text

YaYaNLP (Python) 純python編寫的中文自然語言處理包,取名於「牙牙學語」

小明NLP (Python) 輕量級中文自然語言處理工具

DeepNLP (Python) Deep Learning NLP Pipeline implemented on Tensorflow with pretrained Chinese models.

chinese_nlp (C++ & Python) Chinese Natural Language Processing tools and examples

Chinese-Annotator (Python) Annotator for Chinese Text Corpus 中文文本標註工具

Poplar (Typescript) A web-based annotation tool for natural language processing (NLP)

Popular NLP Toolkits for English/Multi-Language 常用的英文或支持多語言的NLP工具包

CoreNLP by Stanford (Java) A Java suite of core NLP tools.

NLTK (Python) Natural Language Toolkit

spaCy (Python) Industrial-Strength Natural Language Processing

textacy (Python) NLP, before and after spaCy

OpenNLP (Java) A machine learning based toolkit for the processing of natural language text.

gensim (Python) Gensim is a Python library for topic modelling, document indexing and similarity retrieval with large corpora.

Kashgari - Simple and powerful NLP framework, build your state-of-art model in 5 minutes for named entity recognition (NER), part-of-speech tagging (PoS) and text classification tasks. Includes BERT and word2vec embedding.

Chinese Word Segment 中文分詞

Jieba 結巴中文分詞 (Python及大量其它程式語言衍生) 做最好的 Python 中文分詞組件

北大中文分詞工具 (Python) 高準確度中文分詞工具,簡單易用,跟現有開源工具相比大幅提高了分詞的準確率。

kcws 深度學習中文分詞 (Python) BiLSTM+CRF與IDCNN+CRF

ID-CNN-CWS (Python) Iterated Dilated Convolutions for Chinese Word Segmentation

Genius 中文分詞 (Python) Genius是一個開源的python中文分詞組件,採用 CRF(Conditional Random Field)條件隨機場算法。

loso 中文分詞 (Python)

yaha "啞哈"中文分詞 (Python)

ChineseWordSegmentation (Python) Chinese word segmentation algorithm without corpus(無需語料庫的中文分詞)

Information Extraction 信息提取

MITIE (C++) library and tools for information extraction

Duckling (Haskell) Language, engine, and tooling for expressing, testing, and evaluating composable language rules on input strings.

IEPY (Python) IEPY is an open source tool for Information Extraction focused on Relation Extraction.

Snorkel A training data creation and management system focused on information extraction

Neural Relation Extraction implemented with LSTM in TensorFlow

A neural network model for Chinese named entity recognition

Information-Extraction-Chinese Chinese Named Entity Recognition with IDCNN/biLSTM+CRF, and Relation Extraction with biGRU+2ATT 中文實體識別與關係提取

Familia 百度出品的 A Toolkit for Industrial Topic Modeling

Text Classification All kinds of text classificaiton models and more with deep learning. 用知乎問答語聊作為測試數據。

QA & Chatbot 問答和聊天機器人

Rasa NLU (Python) turn natural language into structured data, a Chinese fork at Rasa NLU Chi

Rasa Core (Python) machine learning based dialogue engine for conversational software

Snips NLU (Python) Snips NLU is a Python library that allows to parse sentences written in natural language and extracts structured information.

DeepPavlov (Python) An open source library for building end-to-end dialog systems and training chatbots.

ChatScript Natural Language tool/dialog manager, a rule-based chatbot engine.

Chatterbot (Python) ChatterBot is a machine learning, conversational dialog engine for creating chat bots.

Chatbot (Python) 基於向量匹配的情境式聊天機器人

Tipask (PHP) 一款開放源碼的PHP問答系統,基於Laravel框架開發,容易擴展,具有強大的負載能力和穩定性。

QuestionAnsweringSystem (Java) 一個Java實現的人機問答系統,能夠自動分析問題並給出候選答案。

QA-Snake (Python) 基於多搜尋引擎和深度學習技術的自動問答

使用TensorFlow實現的Sequence to Sequence的聊天機器人模型 (Python)

使用深度學習算法實現的中文閱讀理解問答系統 (Python)

DuReader中文閱讀理解Baseline代碼 (Python)

基於SmartQQ的自動機器人框架 (Python)

QASystemOnMedicalKG (Python) 以疾病為中心的一定規模醫藥領域知識圖譜,並以該知識圖譜完成自動問答與分析服務。



Corpus 中文語料

開放知識圖譜OpenKG.cn

開放中文知識圖譜的schema

大規模中文概念圖譜CN-Probase 公眾號介紹

農業知識圖譜 農業領域的信息檢索,命名實體識別,關係抽取,分類樹構建,數據挖掘

CLDC中文語言資源聯盟

中文 Wikipedia Dump

98年人民日報詞性標註庫@百度盤

搜狗20061127新聞語料(包含分類)@百度盤

UDChinese (for training spaCy POS)

中文word2vec模型

上百種預訓練中文詞向量

Tencent AI Lab Embedding Corpus for Chinese Words and Phrases

Synonyms:中文近義詞工具包 基於維基百科中文和word2vec訓練的近義詞庫,封裝為python包文件。

Chinese_conversation_sentiment A Chinese sentiment dataset may be useful for sentiment analysis.

中文突發事件語料庫 Chinese Emergency Corpus

dgk_lost_conv 中文對白語料 chinese conversation corpus

用於訓練中英文對話系統的語料庫 Datasets for Training Chatbot System

八卦版問答中文語料

中國股市公告信息爬取 通過python腳本從巨潮網絡的伺服器獲取中國股市(sz,sh)的公告(上市公司和監管機構)

tushare財經數據接口 TuShare是一個免費、開源的python財經數據接口包。

保險行業語料庫 [52nlp介紹Blog] OpenData in insurance area for Machine Learning Tasks

最全中華古詩詞資料庫 唐宋兩朝近一萬四千古詩人, 接近5.5萬首唐詩加26萬宋詩. 兩宋時期1564位詞人,21050首詞。

DuReader中文閱讀理解數據

中文語料小數據 包含了中文命名實體識別、中文關係識別、中文閱讀理解等一些小量數據

大規模中文自然語言處理語料 維基百科(wiki2019zh),新聞語料(news2016zh),百科問答(baike2018qa)

中文人名語料庫 中文姓名,姓氏,名字,稱呼,日本人名,翻譯人名,英文人名。

中文敏感詞詞庫 敏感詞過濾的幾種實現+某1w詞敏感詞庫

中文簡稱詞庫 A corpus of Chinese abbreviation, including negative full forms.

中文數據預處理材料 中文分詞詞典和中文停用詞

漢語拆字字典

SentiBridge: 中文實體情感知識庫 刻畫人們如何描述某個實體,包含新聞、旅遊、餐飲,共計30萬對。

OpenCorpus A collection of freely available (Chinese) corpora.

ChineseNlpCorpus 情感/觀點/評論 傾向性分析,中文命名實體識別,推薦系統



Organizations 中文NLP學術組織及競賽

清華大學自然語言處理與人文計算實驗室

北京大學計算語言學教育部重點實驗室

中科院計算所自然語言處理研究組

哈工大智能技術與自然語言處理實驗室

復旦大學自然語言處理組

蘇州大學自然語言處理組

南京大學自然語言處理研究組

東北大學自然語言處理實驗室

廈門大學智能科學與技術系自然語言處理實驗室

鄭州大學自然語言處理實驗室

微軟亞洲研究院自然語言處理

華為諾亞方舟實驗室

CUHK Text Mining Group

PolyU Social Media Mining Group

HKUST Human Language Technology Center

National Taiwan University NLP Lab

中國中文信息學會

NLP Conference Calender Main conferences, journals, workshops and shared tasks in NLP community.

2017 第一屆「訊飛杯」中文機器閱讀理解評測

2017 AI-Challenger 圖像中文描述 用一句話描述給定圖像中的主要信息,挑戰中文語境下的圖像理解問題。

2017 AI-Challenger 英中機器文本翻譯 用大規模的數據,提升英中文本機器翻譯模型的能力。

2017 知乎看山杯機器學習挑戰賽 根據知乎給出的問題及話題標籤的綁定關係的訓練數據,訓練出對未標註數據自動標註的模型。

2018 開放領域的中文問答任務 對於給定的一句中文問題,問答系統從給定知識庫中選擇若干實體或屬性值作為該問題的答案。

2018 微眾銀行智能客服問句匹配大賽 針對中文的真實客服語料,進行問句意圖匹配;給定兩個語句,判定兩者意圖是否相近。



Industry 中文NLP商業服務

百度雲NLP 提供業界領先的自然語言處理技術,提供優質文本處理及理解技術

阿里雲NLP 為各類企業及開發者提供的用於文本分析及挖掘的核心工具

騰訊雲NLP 基於並行計算、分布式爬蟲系統,結合獨特的語義分析技術,一站滿足NLP、轉碼、抽取、數據抓取等需求

訊飛開放平臺 以語音交互為核心的人工智慧開放平臺

搜狗實驗室 分詞和詞性標註

玻森數據 上海玻森數據科技有限公司,專注中文語義分析技術

雲孚科技 NLP工具包、知識圖譜、文本挖掘、對話系統、輿情分析等

智言科技 專注於深度學習和知識圖譜技術突破的人工智慧公司

追一科技 主攻深度學習和自然語言處理



Learning Materials 學習資料

中文Deep Learning Book

Stanford CS224n Natural Language Processing with Deep Learning 2017

Oxford CS DeepNLP 2017

[Course materials for Georgia Tech CS 4650 and 7650, "Natural Language"] (https://github.com/jacobeisenstein/gt-nlp-class)

Speech and Language Processing by Dan Jurafsky and James H. Martin

52nlp 我愛自然語言處理

hankcs 碼農場

文本處理實踐課資料 文本處理實踐課資料,包含文本特徵提取(TF-IDF),文本分類,文本聚類,word2vec訓練詞向量及同義詞詞林中文詞語相似度計算、文檔自動摘要,信息抽取,情感分析與觀點挖掘等實驗。

nlp_tasks Natural Language Processing Tasks and Selected References

Github上閱讀可直達相關連結,推薦Star:

https://github.com/crownpku/Awesome-Chinese-NLP

相關焦點

  • 中文自然語言處理相關資料集合指南
    【導讀】crownpku維護了一個關於中文自然語言處理相關資料索引網站,包含中文NLP工具、中文語料、中文NLP學術組織、中文NLP商業服務等。
  • NLP Chinese Corpus項目:大規模中文自然語言處理語料
    作者徐亮(實在智能算法專家) 創建了一個中文自然語言處理語料庫項目:nlp_chinese_corpus ,初步貢獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料。希望大家一起為該項目貢獻語料,感興趣的同學可以直接關注該項目github地址,和作者直接聯繫,點擊文末"閱讀原文"直達github連結,可下載相關語料:大規模中文自然語言處理語料 Large Scale Chinese Corpus for NLPhttps://github.com/brightmart/nlp_chinese_corpus為中文自然語言處理領域發展貢獻語料
  • 中文NLP福利!大規模中文自然語言處理語料
    新智元推薦來源:AINLP作者:徐亮【新智元導讀】本文介紹一個中文自然語言處理語料庫項目:nlp_chinese_corpus ,初步貢獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料,可直接下載使用。
  • 開源NLP項目推薦:Awesome-Chinese-NLP
    SnowNLP (Python) Python library for processing Chinese textYaYaNLP (Python) 純python編寫的中文自然語言處理包,取名於「牙牙學語」小明NLP (Python) 輕量級中文自然語言處理工具DeepNLP (Python) Deep Learning NLP Pipeline
  • ChineseGLUE:為中文NLP模型定製的自然語言理解基準
    團隊的願景是通過完善中文語言理解基礎設施,促進中文語言模型的發展,能夠作為通用語言模型測評的補充,以更好地服務中文語言理解、任務和產業界。項目地址:https://github.com/chineseGLUE/chineseGLUE為了使自然語言理解技術(NLU)發揮最大作用,NLU 模型必須能夠處理多種任務或數據集。
  • 中文自然語言處理數據集:ChineseNLPCorpus
    點擊上方「MLNLP」,選擇「星標」公眾號重磅乾貨,第一時間送達推薦一個Github項目:ChineseNLPCorpus,該項目收集了一批中文自然語言處理數據集的相關連結,可以用來練手,點擊閱讀原文可以直達該項目連結:https://github.com/InsaneLife/ChineseNLPCorpus以下來自該項目介紹頁中文自然語言處理數據集,平時做做實驗的材料。
  • 國內自然語言處理(NLP)研究組
    /natural-language-computing/www.microsoft.com百度自然語言處理百度自然語言處理 - 理解語言,擁有智能,改變世界nlp.baidu.com阿里巴巴達摩院語言技術實驗室
  • 斯坦福NLP團隊發布最新自然語言處理Python庫
    【導讀】斯坦福NLP團隊,於1月29日發布了新版的自然語言處理Python庫:StandfordNLP,不同於以前java系的CoreNLP,
  • NLP航海圖:自然語言處理相關任務簡介
    作者樂雨泉,湖南大學在讀碩士,研究方向機器學習與自然語言處理,曾在IJCAI、TASLP等會議/期刊發表文章多篇。
  • Python自然語言處理工具NLTK學習導引及相關資料
    NLTK 大概是最知名的Python自然語言處理工具了,全稱"Natural Language Toolkit", 誕生於賓夕法尼亞大學,以研究和教學為目的而生
  • NLP自然語言處理組
    黃書劍 副教授、博士生導師、江蘇省優青主頁:http://nlp.nju.edu.cn/huangsj/        分析理解人類語言是人工智慧的重要問題之一。南京大學自然語言處理課題組從事NLP領域研究工作近40年,國內最早從事該領域研究的科研團體之⼀,先後承擔過該領域的國家科技攻關項目、863項目、國家自然科學基金和江蘇省自然科學基金以及對外合作項目的研製,積累了大量的該領域研究工作所涉及到的理論、技術和經驗。
  • 中文自然語言處理數據集:ChineseNLPCorpus(附連結)
    本文為你推薦中文自然語言處理數據集。推薦一個Github項目:ChineseNLPCorpus,該項目收集了一批中文自然語言處理數據集的相關連結,可以用來練手,點擊閱讀原文可以直達該項目連結:https://github.com/InsaneLife/ChineseNLPCorpus以下來自該項目介紹頁中文自然語言處理數據集,平時做做實驗的材料。歡迎補充提交合併。
  • 自然語言處理NLP快速入門
    【導讀】自然語言處理已經成為人工智慧領域一個重要的分支,它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。
  • 中文語言理解基準測評(chineseGLUE)來了,公開徵集數據集進行中
    很多數據集是非公開的或缺失基準測評的;多數的論文描述的模型是在英文數據集上做的測試和評估,那麼對於中文效果如何?不得而知。再次,語言理解發展到當前階段,預訓練模型極大的促進了自然語言理解。那麼,如果有一個中文任務的基準測試,包含一批大眾能廣泛使用和測評的數據集、適用中文任務的特點、能緊跟當前世界技術的發展, 能緩解當前中文任務的一些問題,並促進相關應用的發展。
  • 帶新手走進自然語言處理,7本NLP專業書
    自然語言處理並不是一般地研究自然語言,而在於研製能有效地實現自然語言通信的計算機系統,特別是其中的軟體系統。因而它是計算機科學的一部分。        自然語言處理(NLP)是計算機科學,人工智慧,語言學關注計算機和人類(自然)語言之間的相互作用的領域。1.
  • 【獨家】自然語言處理(NLP)入門指南
    在線課程•  Dan Jurafsky 和 Chris Manning:自然語言處理[非常棒的視頻介紹系列]https://www.youtube.com/watch?v=nfoudtpBV68&list=PL6397E4B26D00A269 •  斯坦福CS224d:自然語言處理的深度學習[更高級的機器學習算法、深度學習和NLP的神經網絡架構]http://cs224d.stanford.edu/syllabus.html •  Coursera:自然語言處理簡介[由密西根大學提供的NLP
  • 史丹福大學NLP組Python深度學習自然語言處理工具Stanza試用
    幾年前我曾基於斯坦福Java工具包和NLTK寫過一個簡單的中文分詞接口:Python自然語言處理實踐: 在NLTK中使用斯坦福中文分詞器,不過用起來也不是很方便。深度學習自然語言處理時代,史丹福大學自然語言處理組開發了一個純Python版本的深度學習NLP工具包:Stanza - A Python NLP Library for Many Human Languages,前段時間,Stanza v1.0.0 版本正式發布,算是一個裡程碑:
  • NLP入門+實戰必讀:一文教會你最常見的10種自然語言處理技術
    大數據文摘作品編譯:糖竹子、吳雙、錢天培自然語言處理(NLP)是一種藝術與科學的結合,旨在從文本數據中提取信息。從自動翻譯、文本分類到情緒分析,自然語言處理成為所有數據科學家的必備技能之一。在這篇文章中,你將學習到最常見的10個NLP任務,以及相關資源和代碼。為什麼要寫這篇文章?
  • 最全中文自然語言處理數據集、平臺和工具整理
    連結:https://pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw 提取碼:7p3n        網頁搜索結果評價(SogouE)    用戶查詢及相關URL列表    https://www.sogou.com/labs/resource/e.php
  • NLP入門+實戰必讀:一文教會你最常見的10種自然語言處理技術(附代碼)
    大數據文摘作品編譯:糖竹子、吳雙、錢天培自然語言處理(NLP)是一種藝術與科學的結合,旨在從文本數據中提取信息。在它的幫助下,我們從文本中提煉出適用於計算機算法的信息。從自動翻譯、文本分類到情緒分析,自然語言處理成為所有數據科學家的必備技能之一。