中文複合事件的概念與顯式模式
,包括條件事件、因果事件、
順承事件、反轉事件等事件抽取,
並形成事理圖譜。
中文信息抽取工具https://github.com/fighting41love/cocoNLP從中文文本數據中抽取
出結構化的信息,
如時間、手機號、運營商、
郵箱、地址、人名、身份證
圖片識別https://github.com/breezedeus/cnocr識別出圖片中的中文文本label-studio多媒體標註工具https://github.com/heartexlabs/label-studio可對文本、圖片、音頻
和視頻數據進行標註
中文可讀性https://github.com/cdimascio/py-readability-metrics可讀性算法包括Flesch-Kincaid
Grade Level, Gunning Fog,
ARI, Dale Chall, SMOG
Synonymshttps://github.com/huyingxi/Synonyms用於自然語言理解的很多任務:文本對齊,推薦算法,相似度計算,語義偏移,關鍵字提取,概念提取,自動摘要,搜尋引擎等。SpaCy 中文模型https://github.com/howl-anderson/Chinesemodelsfor_SpaCySpaCy 中文模型Scattertext可視化https://github.com/JasonKessler/scattertext能否分析出某個類別的文
本與其他文本的用詞差異;
簡單修改後可支持中文
HarvestText文本挖掘和預處理工具https://github.com/blmoistawinde/HarvestText文本挖掘和預處理工具(文本清洗
、新詞發現、情感分析、
實體識別連結、句法分析等),
無監督或弱監督(種子詞)方法
開源金融大數據https://github.com/PKUJohnson/OpenData股票、基金、期貨、宏觀等金融數據。還有非金融數據,如空氣品質、高考錄取分、院線票房等非金融數據中日韓分詞https://github.com/jeongukjae/python-mecab中日韓分詞工具漢字數字(中文數字)-阿拉伯數字轉換工具https://github.com/Wall-ee/chinese2digits最好的漢字數字(中文數字)
阿拉伯數字轉換工具。