CNN與RNN中文文本分類-基於TensorFlow 實現

2021-02-20 機器學習研究組訂閱

摘要:本文是基於TensorFlow在中文數據集上的簡化實現,使用了字符級CNN和RNN對中文文本進行分類,達到了較好的效果。

CNN做句子分類的論文可以參看:

Convolutional Neural Networks for Sentence Classification

還可以去讀dennybritz大牛的博客:

Implementing a CNN for Text Classification in TensorFlow

以及字符級CNN的論文:

Character-level Convolutional Networks for Text Classification

如今,TensorFlow大版本已經升級到了1.3,對很多的網絡層實現了更高層次的封裝和實現,甚至還整合了如Keras這樣優秀的一些高層次框架,使得其易用性大大提升。相比早起的底層代碼,如今的實現更加簡潔和優雅。

本文是基於TensorFlow在中文數據集上的簡化實現,使用了字符級CNN和RNN對中文文本進行分類,達到了較好的效果。

本文採用了清華NLP組提供的THUCNews新聞文本分類數據集的一個子集(原始的數據集大約74萬篇文檔,訓練起來需要花較長的時間)。數據集請自行到THUCTC:一個高效的中文文本分類工具包下載,請遵循數據提供方的開源協議。(下載地址:http://thuctc.thunlp.org/)

本次訓練使用了其中的10個分類,每個分類6500條數據。

類別如下:

體育, 財經, 房產, 家居, 教育, 科技, 時尚, 時政, 遊戲, 娛樂

數據集劃分如下:

訓練集: 5000*10

驗證集: 500*10

測試集: 1000*10

從原數據集生成子集的過程請參看helper下的兩個腳本。其中,copy_data.sh用於從每個分類拷貝6500個文件,cnews_group.py用於將多個文件整合到一個文件中。

執行該文件後,得到三個數據文件:

cnews.train.txt: 訓練集(50000條)

cnews.val.txt: 驗證集(5000條)

cnews.test.txt: 測試集(10000條)

data/cnews_loader.py為數據的預處理文件。

read_file(): 讀取文件數據;

build_vocab(): 構建詞彙表,使用字符級的表示,這一函數會將詞彙表存儲下來,避免每一次重複處理;

read_vocab(): 讀取上一步存儲的詞彙表,轉換為 {詞:id} 表示;

read_category(): 將分類目錄固定,轉換為 {類別: id}表示;

to_words(): 將一條由id表示的數據重新轉換為文字;

preocess_file(): 將數據集從文字轉換為固定長度的id序列表示;

batch_iter(): 為神經網絡的訓練準備經過shuffle的批次的數據。

經過數據預處理,數據的格式如下:

配置項


CNN可配置的參數如下所示,在cnn_model.py中。

具體參看cnn_model.py的實現。

大致結構如下:

運行 python run_cnn.py train,可以開始訓練。

若之前進行過訓練,請把tensorboard/textcnn刪除,避免TensorBoard多次訓練結果重疊。

在驗證集上的最佳效果為94.12%,且只經過了3輪迭代就已經停止。

準確率和誤差如圖所示:

運行 python run_cnn.py test 在測試集上進行測試。

在測試集上的準確率達到了96.04%,且各類的precision, recall和f1-score都超過了0.9。

從混淆矩陣也可以看出分類效果非常優秀。

配置項

RNN可配置的參數如下所示,在rnn_model.py中。

具體參看 rnn_model.py 的實現。

大致結構如下:

這部分的代碼與 run_cnn.py極為相似,只需要將模型和部分目錄稍微修改。

運行 python run_rnn.py train,可以開始訓練。

若之前進行過訓練,請把tensorboard/textrnn刪除,避免TensorBoard多次訓練結果重疊。

在驗證集上的最佳效果為91.42%,經過了8輪迭代停止,速度相比CNN慢很多。

準確率和誤差如圖所示:

運行 python run_rnn.py test 在測試集上進行測試。

在測試集上的準確率達到了94.22%,且各類的precision, recall和f1-score,除了家居這一類別,都超過了0.9。

從混淆矩陣可以看出分類效果非常優秀。

對比兩個模型,可見RNN除了在家居分類的表現不是很理想,其他幾個類別較CNN差別不大。

還可以通過進一步的調節參數,來達到更好的效果。

為方便預測,repo 中 predict.py 提供了 CNN 模型的預測方法。

來源 | Github

作者 | Gaussic

原文連結:https://github.com/gaussic/text-classification-cnn-rnn

想要了解更多資訊,請掃描下方二維碼,關注機器學習研究會

                                          

轉自:  七月在線實驗室

相關焦點

  • 教程 | 用TensorFlow Estimator實現文本分類
    讀者無需閱讀所有之前的內容,如果想重溫某些概念,可以查看以下連結:第一部分重點討論了預建評估器(https://developers.googleblog.com/2017/09/introducing-tensorflow-datasets.html)第二部分討論了特徵列(https://developers.googleblog.com/2017/11/introducing-tensorflow-feature-columns.html
  • Tensorflow教程-雙向的LSTM文本分類
    原始碼:https://github.com/PrivateThink/tensorflow_tutorial/blob/master/15.py在Tensorflow教程-循環神經網絡文本分類中,講述了利用單向的LSTM進行文本分類,單向的神經網絡只能根據前面的信息推出後面的信息,但是只看前面的詞是遠遠不夠的,舉個簡單的例子:我今天生病了,我想___一天。
  • TensorFlow中RNN實現的正確打開方式
    可以用下面的代碼驗證一下(注意,以下代碼都基於TensorFlow最新的1.2版本):import tensorflow as tfimport numpy as npcell = tf.nn.rnn_cell.BasicRNNCell(num_units=128) # state_size = 128print
  • TensorFlow 課程 3.1 - RNNs 文本分類
    今天介紹使用 Recurrent Neural Networks (RNNs) 進行文本分類系列 part 1。這個系列包含三個部分,它們由淺入深,逐步介紹更多的概念以考慮更多的優化。因此,對於文本分類來說,我們關注的是最後一個 time step 的輸出,代表對整個序列的 "編碼"。Part 1 考慮最簡單的處理方式,它的核心概念如下:使用一層 RNNs, 包括三種 cell 類型:tf.contrib.rnn.
  • tf2+cnn+中文文本分類優化系列(2)
    1 前言接著上次的tf2+cnn+中文文本分類優化系列(1),本次進行優化:使用多個卷積核進行特徵抽取。
  • 基於Text-CNN模型的中文文本分類實戰
    數據處理流程文本分類模型,可以大體上分為基於傳統機器學習的文本分類模型,基於深度學習的文本分類模型,目前基於深度學習模型的文本分類模型已經成為了主流,下面基於CNN的文本分類模型。深度學習框架有很多優秀的框架,我一般使用比較流行的tensorflow計算框架,該框架的使用者比較多,可以查閱的學習資料非常多,Github上的開原始碼也比較多,非常有利於我們學習。
  • Tensorflow實戰系列:手把手教你使用LSTM進行文本分類(附完整代碼)
    本教程旨在手把手教大家使用Tensorflow構建LSTM進行文本分類。教程使用了偽造的文本數據進行情感分類,有正面情感數據和負面情感數據。並且教程代碼包含了配置信息,將數據處理為LSTM的輸入格式,以及定義和訓練相關代碼,因此希望在日常項目中使用Tensorflow的朋友可以參考這篇教程。
  • 基礎級tf2.0+cnn 中文文本分類實踐練習
    1 前言今天講述基礎級別的中文文本分類實踐練習。數據集是復旦大學開源的文本數據集,label種類為20,該數據集有點久遠,感興趣可網上搜到。
  • 可能是史上最全的Tensorflow學習資源匯總
    三、Tensorflow項目資源:1)一個實現實現Alex Graves論文的隨機手寫生成的案例:https://github.com/hardmaru/write-rnn-tensorflow2)基於Tensorflow的生成對抗文本到圖像合成:https://github.com/zsdonghao
  • GitHub趨勢榜第一:TensorFlow+PyTorch深度學習資源大匯總
    感知器TensorFlow 1:https://github.com/rasbt/deeplearning-models/blob/master/tensorflow1_ipynb/basic-ml/perceptron.ipynbPyTorch:https://github.com/rasbt/
  • 基於CNN的中文文本分類算法(可應用於垃圾文本過濾、情感分析等場景)
    本文將參考Denny Britz的WILDML教程 IMPLEMENTING A CNN FOR TEXT CLASSIFICATION IN TENSORFLOW http://www.wildml.com/2015/12/implementing-a-cnn-for-text-classification-in-tensorflow/來設計一個簡單的
  • TensorFlow 實現流行的機器學習算法的教程匯集
    一種用於 MNIST 分類任務的多層感知實現: https://github.com/tflearn/tflearn/blob/master/examples/images/dnn.py卷積網絡。使用 RNN(在像素的序列上)分類圖像: https://github.com/tflearn/tflearn/blob/master/examples/images/rnn_pixels.pyHighway Network。
  • TensorFlow開發者證書 中文手冊
    >使用二分類搭建模型識別文本片段使用多分類搭建模型識別文本片段在你的模型中使用詞向量在模型中使用LSTMs對文本進行分類,以進行二進位或多類分類模型中增加RNN和GRU層在模型中使用RNNS,LSTMs,GRU和CNNs處理文本在現有的文本上訓練LSTMs,以生成新的文本(例如歌曲和詩歌)
  • 手把手教你如何用TensorFlow實現基於DNN的文本分類
    至於算法和函數內部的實現機制,可以等了解整個流程之後,在實踐中進行更深入的學習和掌握。那麼問題來了,既然作為初學者不需要掌握算法細節,但實現模型的過程中又必須用到相關算法,怎麼辦呢?答案是藉助於網際網路上已經實現好的函數庫,例如 TensorFlow。在本文中,我們將利用 TensorFlow 實現一個基於深度神經網絡(DNN)的文本分類模型,希望對各位初學者有所幫助。
  • 一文看懂CNN、RNN等7種範例(TensorFlow教程)
    使用 TensorFlow 生成文本的教程是我最喜歡的教程之一,因為它用很少的幾行代碼就完成了一些了不起的事情:在字符基礎上生成合理的文本:使用 TensorFlow 生產文本使用 TensorFlow 生產文本教程:https://www.tensorflow.org/tutorials/sequences
  • 手把手教你用 TensorFlow 實現文本分類(上)
    利用空閒時間,想用神經網絡做一個文本分類的應用, 目的是從頭到尾完成一次機器學習的應用,學習模型的優化方法,同時學會使用主流的深度學習框架(這裡選擇tensorflow)。文章分為兩部分,本文僅實現流程,用簡單的softmax回歸對文本進行分類,後面一篇文章再從流程的各個方面對模型進行優化,達到比較好的效果。
  • Char RNN原理介紹以及文本生成實踐
    Char-RNN模型是從字符的維度上,讓機器生成文本,即通過已經觀測到的字符出發,預測下一個字符出現的概率,也就是序列數據的推測。現在網上介紹的用深度學習寫歌、寫詩、寫小說的大多都是基於這個方法。在基本的RNN單元中,只有一個隱藏狀態,對於長距離的記憶效果很差(序列開始的信息在後期保留很少),而且存在梯度消失的問題,因此誕生了許多變體,如LSTM、GRU等。
  • 基於TensorFlow的深度學習實戰
    為了將環境建在 ~/tensorflow 目錄下, 執行:$ virtualenv --system-site-packages ~/tensorflow接下來激活virtualenv:$ source ~/tensorflow/bin/activate #  with bash $ source ~/tensorflow/bin/activate.csh
  • TensorFlow練手 | 使用循環神經網絡(RNN)實現影評情感分類
    以下介紹實現過程。劃分的方式為輪盤賭法,在numpy中可以使用cumsum和searchsorted來簡潔地實現輪盤賭法。代碼中裝飾器的作用為劃分命名空間以及保證張量運算只被定義一次):# -*- coding: utf-8 -*-# @Time : 18-3-14 下午2:57# @Author : AaronJny# @Email : Aaron__7@163.comimport tensorflow