中文文本分析相關資源匯總

2021-03-02 大鄧和他的Python

jieba分詞https://github.com/fxsjy/jieba中文分詞庫中文複雜事件的概念與顯式模式https://github.com/thunderhit/eventextraction

中文複合事件的概念與顯式模式

，包括條件事件、因果事件、

順承事件、反轉事件等事件抽取，

並形成事理圖譜。

中文信息抽取工具https://github.com/fighting41love/cocoNLP

從中文文本數據中抽取

出結構化的信息，

如時間、手機號、運營商、

郵箱、地址、人名、身份證

圖片識別https://github.com/breezedeus/cnocr識別出圖片中的中文文本label-studio多媒體標註工具https://github.com/heartexlabs/label-studio

可對文本、圖片、音頻

和視頻數據進行標註

中文可讀性https://github.com/cdimascio/py-readability-metrics

可讀性算法包括Flesch-Kincaid

Grade Level, Gunning Fog,

ARI, Dale Chall, SMOG

Synonymshttps://github.com/huyingxi/Synonyms用於自然語言理解的很多任務：文本對齊，推薦算法，相似度計算，語義偏移，關鍵字提取，概念提取，自動摘要，搜尋引擎等。SpaCy 中文模型https://github.com/howl-anderson/Chinesemodelsfor_SpaCySpaCy 中文模型Scattertext可視化https://github.com/JasonKessler/scattertext

能否分析出某個類別的文

本與其他文本的用詞差異；

簡單修改後可支持中文

HarvestText文本挖掘和預處理工具https://github.com/blmoistawinde/HarvestText

文本挖掘和預處理工具（文本清洗

、新詞發現、情感分析、

實體識別連結、句法分析等），

無監督或弱監督（種子詞）方法

開源金融大數據https://github.com/PKUJohnson/OpenData股票、基金、期貨、宏觀等金融數據。還有非金融數據，如空氣品質、高考錄取分、院線票房等非金融數據中日韓分詞https://github.com/jeongukjae/python-mecab中日韓分詞工具漢字數字(中文數字)-阿拉伯數字轉換工具https://github.com/Wall-ee/chinese2digits

最好的漢字數字(中文數字)

阿拉伯數字轉換工具。

相關焦點

NLP、KG相關軟體、工具、資源匯總

這裡收集了NLP、KG領域目前常用的軟體、工具和一些資源，方便大家按照需求選用。ltp（https://github.com/HIT-SCIR/ltp）：由哈工大團隊開源，其提供了一系列中文自然語言處理工具，用戶可以使用這些工具對於中文文本進行分詞、詞性標註、句法分析等等工作
python的中文文本挖掘庫snownlp進行購物評論文本情感分析實例

，用R語言做的，發現R語言對文本處理特別不友好，沒有很多強大的庫，特別是針對中文文本的，加上那時候還沒有學機器學習算法。現在研一，機器學習算法學完以後，又想起來要繼續學習文本挖掘了。所以前半個月開始了用Python進行文本挖掘的學習，很多人都推薦我從《python自然語言處理》這本書入門，學習了半個月以後，可能本科畢業設計的時候有些基礎了，再看這個感覺沒太多進步，並且這裡通篇將nltk庫進行英文文本挖掘的，英文文本挖掘跟中文是有很大差別的，或者說學完英文文本挖掘，再做中文的，也是完全懵逼的。
基於CNN的中文文本分類算法(可應用於垃圾文本過濾、情感分析等場景)

，其應用包括垃圾郵件檢測、情感分析等。1.1神經網絡基礎知識如果你對深度學習或RNN、CNN等神經網絡並不太熟悉，請先移步至這裡http://www.wildml.com/尋找相關文章進行精讀，這個博主寫的每一篇文章都很好，由淺至深，非常適合入門。
怎樣構建中文文本標註工具?(附工具、代碼、論文等資源)

序列標註問題如中文分詞、命名實體識別，分類問題如關係識別、情感分析、意圖分析等，均需要標註數據進行模型訓練。在深度學習大行其道的今天，基於深度學習的 NLP 模型更是數據饑渴。最前沿的 NLP 技術往往首先針對英文語料。
文本對抗攻擊基礎、前沿及相關資源

我們欣喜地看到，目前有越來越多的NLP研究者開始探索文本對抗攻擊這一方向，以2020年ACL為例，粗略統計有超過10篇相關論文，其中最佳論文Beyond Accuracy: Behavioral Testing of NLP Models with CheckList[23]中大部分測試方法其實和文本對抗攻擊有異曲同工之妙。
資源 | 百萬級字符:清華大學提出中文自然文本數據集CTW

近日，清華大學與騰訊共同推出了中文自然文本數據集（Chinese Text in the Wild，CTW）——一個超大的街景圖片中文文本數據集，為訓練先進的深度學習模型奠定了基礎。目前，該數據集包含 32,285 張圖像和 1,018,402 個中文字符，規模遠超此前的同類數據集。研究人員表示，未來還將在此數據集之上推出基於業內最先進模型的評測基準。
如何計算出文本數據的相似矩陣?

2020年上半年中小學教師資格考試推遲', '上萬個公司都在用的機器學習服務SageMaker，AWS宣布要在中國推出了']中文語料準備現在有texts，希望將其變成文檔詞頻矩陣，已知有scikit-learn機器學習庫可以將英文語料轉化為文檔詞頻矩陣。
R從網頁抓取到文本分析全教程:影評的獲取與分析

>個人公眾號：阿虎定量筆記隨著技術進步，定量分析方法，不再僅僅通過問卷、二手資料庫等方式收集數據，不再僅僅通過數理統計、回歸分析等手段分析數據。 ### 準備工作# 設置工作目錄setwd('D:/The Wandering Earth')# 加載所需程序包library('rvest')library('stringr')library('jiebaRD')library('jiebaR')library('plyr')library('rJava')library('tm
(48小時限時秒推) Stanford計算文本分析(計算機數據科學相關)課題RA內推!!!!!

研究課題涉及中國的創新創業環境的歷史演變，需要對網上媒體資料進行收集 (web crawling)，例如把網上報紙和social media 的文本數據爬蟲，以及使用計算機方法例如sentiment analysis，machine learning 和 natural language processing 進行文本分析（computational text analysis
文本情感分析:讓機器讀懂人類情感

MIT 的Minsky （人工智慧之父）早在 1985年在「The Society of Mind」中指出「問題不在於智能機器能否擁有任何情感，而在於機器實現智能時怎麼能夠沒有情感？」。賦予機器情感分析能力引起了社會的廣泛關注，研究領域也開展了很多相關的研究工作。科幻電影《她》中人工智慧系統和主人公談戀愛的故事，激發了人們對機器具有人類情感的無限想像。那麼，機器是怎樣理解人類情感呢？通
構想:中文文本標註工具

序列標註問題如中文分詞、命名實體識別，分類問題如關係識別、情感分析、意圖分析等，均需要標註數據進行模型訓練。深度學習大行其道的今天，基於深度學習的 NLP 模型更是數據饑渴。最前沿的 NLP 技術往往首先針對英文語料。英文 NLP 的生態很好，針對不同有意思的問題都有不少大規模語料公開供大家研究，如斯坦福的 SQuAD 閱讀理解語料。
文本挖掘:避孕藥主題情感分析

這裡有個小插曲：上次分享的是主題分析，筆者最近又重新梳理了下LDA，發現tm包中文分詞形成詞頻矩陣很不理想，這會導致LDA無法應用，因此，後續筆者會自己寫個腳本將詞頻矩陣實現，這樣會方便LDA，會方便聚類分析，以及預測分析。言回正傳，情感分析就是表達發言人對一個主題的看法，有好有壞，或者中立。
讀完本文你就了解什麼是文本分析

通過就抽象的相關特徵達成共識，我們可以記錄並分析人類活動，例如製造業，服務業或農業。從通信行為中提取文本數據特徵的過程遵循相同的過程，但有一個主要區別：由於原始文本可以直接通過記錄的語言與我們交談，因此文本首先不需要進行處理或抽象化待分析。但是，我在這裡的論點是，特徵抽象的過程是將文本視為數據而不是直接將其視為文本的方法的獨特之處。
Awesome-Chinese-NLP:中文自然語言處理相關資料

推薦Github上一個很棒的中文自然語言處理相關資料的Awesome資源：Awesome-Chinese-NLP ，Github連結地址，點擊文末
文本函數和正則表達式, 文本分析事無巨細

下面主要引薦主要的文本函數和正則表達式，用來分析和處理文本文件，而這也成為社科研究中的新趨勢。歡迎到社群交流文本分析在實證研究中的應用。文本縮寫到n位用文本3替換掉出現在文本1中的文本2部分用文本3替換掉出現在文本1中的文本2部分，條件是文本2作為單獨的文字
資源 | Python中文分詞工具大合集

這篇文章事實上整合了之前文章的相關介紹，同時添加一些其他的Python中文分詞相關資源，甚至非Python的中文分詞工具，僅供參考。特點支持三種分詞模式：精確模式，試圖將句子最精確地切開，適合文本分析；全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義；搜尋引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，適合用於搜尋引擎分詞。
數據呈現丨中文文本可視化:用 Python 輕鬆製作詞雲

隨著大數據資源不斷被挖掘，以及機器學習的方法在實踐中的持續應用，對傳統結構化數據的分析處理已經不能滿足人們對社會、經濟、商業領域的研究需求。非結構化數據，例如文本、語音、圖像等又是一塊極具開發價值的數據金礦，亟待人們的挖掘，對非結構化數據的分析處理已經逐漸成為學界新的前沿探索方向。
文本分析20年

對政策文本的系統分析有助於我們獲得這些基本認知。事實上，如果教育政策研究脫離具體的政策文本來談教育政策，會使研究者因不能把握政策發展的脈絡，而把政策看作是一個孤立的事件，使其對政策的理解變得生硬和簡單。梳理相關政策文本的發展脈絡，應成為所有政策研究的基礎工作。
大數據分析資料精選

與統計學、數據分析、數據挖掘、商業智能、數據開發、數據展現等相關的經典資料匯總，均搬運自網際網路上各數據愛好者對外分享公布，數據哥在此僅匯總整理作為學習
「詞頻」分析研究現狀、方法、工具與資源

今天這篇文章主要介紹詞頻分析研究現狀、方法及工具，並整理和匯總相關軟體和資源供大家學習與研究之用。主要目的是對歷年國家社科基金立項進行詞頻統計可以分析出自己學科領域立項項目特點，更有針對性擬出選題，從標題出發打好國家社科基金申請的第一站。詞頻分析(Word Frequency Analysis)是對文獻正文中重要詞彙出現的次數進行統計與分析，是文本挖掘的重要手段。

中文文本分析相關資源匯總

相關焦點

NLP、KG相關軟體、工具、資源匯總

python的中文文本挖掘庫snownlp進行購物評論文本情感分析實例

基於CNN的中文文本分類算法(可應用於垃圾文本過濾、情感分析等場景)

怎樣構建中文文本標註工具?(附工具、代碼、論文等資源)

文本對抗攻擊基礎、前沿及相關資源

資源 | 百萬級字符:清華大學提出中文自然文本數據集CTW

如何計算出文本數據的相似矩陣?

R從網頁抓取到文本分析全教程:影評的獲取與分析

(48小時限時秒推) Stanford計算文本分析(計算機數據科學相關)課題RA內推!!!!!

文本情感分析:讓機器讀懂人類情感

構想:中文文本標註工具

文本挖掘:避孕藥主題情感分析

讀完本文你就了解什麼是文本分析

Awesome-Chinese-NLP:中文自然語言處理相關資料

文本函數和正則表達式, 文本分析事無巨細

資源 | Python中文分詞工具大合集

數據呈現丨中文文本可視化:用 Python 輕鬆製作詞雲

文本分析20年

大數據分析資料精選

「詞頻」分析研究現狀、方法、工具與資源