專欄| NLP概述和文本自動分類算法詳解

2020-11-22 搜狐網

原標題:專欄 | NLP概述和文本自動分類算法詳解

機器之心專欄

作者:達觀數據

自然語言處理一直是人工智慧領域的重要話題,更是 18 年的熱度話題,為了在海量文本中及時準確地獲得有效信息,文本分類技術獲得廣泛關注,也給大家帶來了更多應用和想像的空間。本文根據達觀數據聯合創始人張健的直播內容《NLP 概述及文本自動分類算法詳解》整理而成。

一、 NLP 概述

1.文本挖掘任務類型的劃分

文本挖掘任務大致分為四個類型:類別到序列、序列到類別、同步的(每個輸入位置都要產生輸出)序列到序列、異步的序列到序列。

同步的序列到序列的例子包括中文分詞,命名實體識別和詞性標註。一部的序列到序列包括機器翻譯和自動摘要。序列到類別的例子包括文本分類和情感分析。類別(對象)到序列的例子包括文本生成和形象描述。

2.文本挖掘系統整體方案

達觀數據一直專注於文本語義,文本挖掘系統整體方案包含了 NLP 處理的各個環節,從處理的文本粒度上來分,可以分為篇章級應用、短串級應用和詞彙級應用。

篇章級應用有六個方面,已經有成熟的產品支持企業在不同方面的文本挖掘需求:

  • 垃圾評論:精準識別廣告、不文明用語及低質量文本。
  • 黃反識別:準確定位文本中所含涉黃、涉政及反動內容。
  • 標籤提取:提取文本中的核心詞語生成標籤。
  • 文章分類:依據預設分類體系對文本進行自動歸類。
  • 情感分析:準確分析用戶透過文本表達出的情感傾向。
  • 文章主題模型:抽取出文章的隱含主題。

為了實現這些頂層應用,達觀數據掌握從詞語短串分析個層面的分析技術,開發了包括中文分詞、專名識別、語義分析和詞串分析等模塊。

達觀數據文本挖掘架構圖

3.序列標註應用:中文分詞

同步的序列到序列,其實就是序列標註問題,應該說是自然語言處理中最常見的問題。序列標註的應用包括中文分詞、命名實體識別和詞性標註等。序列標註問題的輸入是一個觀測序列,輸出的是一個標記序列或狀態序列。

舉中文分詞為例,處理「結合成分子」的觀測序列,輸出「結合/成/分子」的分詞標記序列。針對中文分詞的這個應用,有多種處理方法,包括基於詞典的方法、隱馬爾可夫模型(HMM)、最大熵模型、條件隨機場(CRF)、深度學習模型(雙向 LSTM 等)和一些無監督學習的方法(基於凝聚度與自由度)。

4.序列標註應用:NER

命名實體識別:Named Entity Recognition,簡稱 NER,又稱作「專名識別」,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。通常包括實體邊界識別和確定實體類別。

對與命名實體識別,採取不同的標記方式,常見的標籤方式包括 IO、BIO、BMEWO 和 BMEWO+。其中一些標籤含義是:

  • B:begin
  • I:一個詞的後續成分
  • M:中間
  • E:結束
  • W:單個詞作為實體

大部分情況下,標籤體系越複雜準確度也越高,但相應的訓練時間也會增加。因此需要根據實際情況選擇合適的標籤體系。通常我們實際應用過程中,最難解決的還是標註問題。所以在做命名實體識別時,要考慮人工成本問題。

5.英文處理

在 NLP 領域,中文和英文的處理在大的方面都是相通的,不過在細節方面會有所差別。其中一個方面,就是中文需要解決分詞的問題,而英文天然的就沒有這個煩惱;另外一個方面,英文處理會面臨詞形還原和詞根提取的問題,英文中會有時態變換(made==>make),單複數變換(cats==>cat),詞根提取(arabic==>arab)。

在處理上面的問題過程中,不得不提到的一個工具是 WordNet。WordNet 是一個由普林斯頓大學認識科學實驗室在心理學教授喬治•A•米勒的指導下建立和維護的英語字典。在 WordNet 中,名詞、動詞、形容詞和副詞各自被組織成一個同義詞的網絡,每個同義詞集合都代表一個基本的語義概念,並且這些集合之間也由各種關係連接。我們可以通過 WordNet 來獲取同義詞和上位詞。

6.詞嵌入

在處理文本過程中,我們需要將文本轉化成數字可表示的方式。詞向量要做的事就是將語言數學化表示。詞向量有兩種實現方式:One-hot 表示,即通過向量中的一維 0/1 值來表示某個詞;詞嵌入,將詞轉變為固定維數的向量。

word2vec 是使用淺層和雙層神經網絡產生生詞向量的模型,產生的詞嵌入實際上是語言模型的一個副產品,網絡以詞表現,並且需猜測相鄰位置的輸入詞。word2vec 中詞向量的訓練方式有兩種,cbow(continuous bags of word)和 skip-gram。cbow 和 skip-gram 的區別在於,cbow 是通過輸入單詞的上下文(周圍的詞的向量和)來預測中間的單詞,而 skip-gram 是輸入中間的單詞來預測它周圍的詞。

7.文檔建模

要使計算機能夠高效地處理真實文本,就必須找到一種理想的形式化表示方法,這個過程就是文檔建模。文檔建模一方面要能夠真實地反映文檔的內容,另一方面又要對不同文檔具有區分能力。文檔建模比較通用的方法包括布爾模型、向量空間模型(VSM)和概率模型。其中最為廣泛使用的是向量空間模型。

二、文本分類的關鍵技術與重要方法

1.利用機器學習進行模型訓練

文本分類的流程包括訓練、文本語義、文本特徵處理、訓練模型、模型評估和輸出模型等幾個主要環節。其中介紹一下一些主要的概念。

  • 文檔建模:概率模型,布爾模型,VSM;
  • 文本語義:分詞,命名實體識別,詞性標註等;
  • 文本特徵處理:特徵降維,包括使用評估函數(TF-IDF,互信息方法,期望交叉熵,QEMI,統計量方法,遺傳算法等);特徵向量權值計算;
  • 樣本分類訓練:樸素貝葉斯分類器,SVM,神經網絡算法,決策樹,Ensemble 算法等;
  • 模型評估:召回率,正確率,F-測度值;

2.向量空間模型

向量空間模型是常用來處理文本挖掘的文檔建模方法。VSM 概念非常直觀——把對文本內容的處理簡化為向量空間中的向量運算,並且它以空間上的相似度表達語義的相似度,直觀易懂。

當文檔被表示為文檔空間的向量時,就可以通過計算向量之間的相似性來度量文檔間的相似性。它的一些實現方式包括:

1)N-gram 模型:基於一定的語料庫,可以利用 N-Gram 來預計或者評估一個句子是否合理;

2)TF-IDF 模型:若某個詞在一篇文檔中出現頻率 TF 高,卻在其他文章中很少出現,則認為此詞具有很好的類別區分能力;

3)Paragraph Vector 模型:其實是 word vector 的一種擴展。Gensim 中的 Doc2Vec 以及 Facebook 開源的 Fasttext 工具也是採取了這麼一種思路,它們將文本的詞向量進行相加/求平均的結果作為 Paragraph Vector。

3.文本特徵提取算法

目前大多數中文文本分類系統都採用詞作為特徵項,作為特徵項的詞稱作特徵詞。這些特徵詞作為文檔的中間表示形式,用來實現文檔與文檔、文檔與用戶目標之間的相似度計算。如果把所有的詞都作為特徵項,那麼特徵向量的維數將過於巨大。有效的特徵提取算法,不僅能降低運算複雜度,還能提高分類的效率和精度。

文本特徵提取的算法包含下面三個方面:

1)從原始特徵中挑選出一些最具代表文本信息的特徵,例如詞頻、TF-IDF 方法;

2)基於數學方法找出對分類信息共現比較大的特徵,主要例子包括互信息法、信息增益、期望交叉熵和統計量方法;

3)以特徵量分析多元統計分布,例如主成分分析(PCA)。

4.文本權重計算方法

特徵權重用于衡量某個特徵項在文檔表示中的重要程度或區分能力的強弱。選擇合適的權重計算方法,對文本分類系統的分類效果能有較大的提升作用。

特徵權重的計算方法包括:

1)TF-IDF;

2)詞性;

3)標題;

4)位置;

5)句法結構;

6)專業詞庫;

7)信息熵;

8)文檔、詞語長度;

9)詞語間關聯;

10)詞語直徑;

11)詞語分布偏差。

其中提幾點,詞語直徑是指詞語在文本中首次出現的位置和末次出現的位置之間的距離。詞語分布偏差所考慮的是詞語在文章中的統計分布。在整篇文章中分布均勻的詞語通常是重要的詞彙。

5.分類器設計

由於文本分類本身是一個分類問題,所以一般的模式分類方法都可以用於文本分類應用中。

常用分類算法的思路包括下面四種:

1)樸素貝葉斯分類器:利用特徵項和類別的聯合概率來估計文本的類別概率;

2)支持向量機分類器:在向量空間中找到一個決策平面,這個平面能夠最好的切割兩個分類的數據點,主要用於解決二分類問題;

3)KNN 方法:在訓練集中找到離它最近的 k 個臨近文本,並根據這些文本的分類來給測試文檔分類;

4)決策樹方法:將文本處理過程看作是一個等級分層且分解完成的複雜任務。

6.分類算法融合

聚合多個分類器,提高分類準確率稱為 Ensemble 方法。

利用不同分類器的優勢,取長補短,最後綜合多個分類器的結果。Ensemble 可設定目標函數 (組合多個分類器),通過訓練得到多個分類器的組合參數 (並非簡單的累加或者多數)。

我們這裡提到的 ensemble 可能跟通常說的 ensemble learning 有區別。主要應該是指 stacking。Stacking 是指訓練一個模型用於組合其他各個模型。即首先我們先訓練多個不同的模型,然後再以之前訓練的各個模型的輸出為輸入來訓練一個模型,以得到一個最終的輸出。在處理 ensemble 方法的時候,需要注意幾個點。基礎模型之間的相關性要儘可能的小,並且它們的性能表現不能差距太大。

多個模型分類結果如果差別不大,那麼疊加效果也不明顯;或者如果單個模型的效果距離其他模型比較差,也是會對整體效果拖後腿。

三、文本分類在深度學習中的應用

1.CNN 文本分類

採取 CNN 方法進行文本分類,相比傳統方法會在一些方面有優勢。

基於詞袋模型的文本分類方法,沒有考慮到詞的順序。

基於卷積神經網絡(CNN)來做文本分類,可以利用到詞的順序包含的信息。如圖展示了比較基礎的一個用 CNN 進行文本分類的網絡結構。CNN 模型把原始文本作為輸入,不需要太多的人工特徵。CNN 模型的一個實現,共分四層:

  • 第一層是詞向量層,doc 中的每個詞,都將其映射到詞向量空間,假設詞向量為 k 維,則 n 個詞映射後,相當於生成一張 n*k 維的圖像;
  • 第二層是卷積層,多個濾波器作用於詞向量層,不同濾波器生成不同的 feature map;
  • 第三層是 pooling 層,取每個 feature map 的最大值,這樣操作可以處理變長文檔,因為第三層輸出只依賴於濾波器的個數;
  • 第四層是一個全連接的 softmax 層,輸出是每個類目的概率,中間一般加個 dropout,防止過擬合。

有關 CNN 的方法一般都圍繞這個基礎模型進行,再加上不同層的創新。

比如第一個模型在輸入層換成 RNN,去獲得文本通過 rnn 處理之後的輸出作為卷積層的輸入。比如說第二個是在 pooling 層使用了動態 kmax pooling,來解決樣本集合文本長度變化較大的問題。比如說第三種是極深網絡,在卷積層做多層卷積,以獲得長距離的依賴信息。CNN 能夠提取不同長度範圍的特徵,網絡的層數越多,意味著能夠提取到不同範圍的特徵越豐富。不過 cnn 層數太多會有梯度彌散、梯度爆炸或者退化等一系列問題。

為了解決這些問題,極深網絡就通過 shortcut 連接。殘差網絡其實是由多種路徑組合的一個網絡,殘差網絡其實是很多並行子網絡的組合,有些點評評書殘差網絡就說它其實相當於一個 Ensembling。

2.RNN 與 LSTM 文本分類

CNN 有個問題是卷積時候是固定 filter_size,就是無法建模更長的序列信息,雖然這個可以通過多次卷積獲得不同範圍的特徵,不過要付出增加網絡深度的代價。

Rnn 的出現是解決變長序列信息建模的問題,它會將每一步中產生的信息都傳遞到下一步中。

首先我們在輸入層之上,套上一層雙向 LSTM 層,LSTM 是 RNN 的改進模型,相比 RNN,能夠更有效地處理句子中單詞間的長距離影響;而雙向 LSTM 就是在隱層同時有一個正向 LSTM 和反向 LSTM,正向 LSTM 捕獲了上文的特徵信息,而反向 LSTM 捕獲了下文的特徵信息,這樣相對單向 LSTM 來說能夠捕獲更多的特徵信息,所以通常情況下雙向 LSTM 表現比單向 LSTM 或者單向 RNN 要好。

如何從物理意義上來理解求平均呢?這其實可以理解為在這一層,兩個句子中每個單詞都對最終分類結果進行投票,因為每個 BLSTM 的輸出可以理解為這個輸入單詞看到了所有上文和所有下文(包含兩個句子)後作出的兩者是否語義相同的判斷,而通過 Mean Pooling 層投出自己寶貴的一票。

3.Attention Model 與 seq2seq

注意力模型 Attention Model 是傳統自編碼器的一個升級版本。傳統 RNN 的 Encoder-Decoder 模型,它的缺點是不管無論之前的 context 有多長,包含多少信息量,最終都要被壓縮成固定的 vector,而且各個維度維度收到每個輸入維度的影響都是一致的。為了解決這個問題,它的 idea 其實是賦予不同位置的 context 不同的權重,越大的權重表示對應位置的 context 更加重要。

現實中,舉一個翻譯問題:jack ma dances very well 翻譯成中文是馬雲跳舞很好。其中,馬雲應該是和 jack ma 關聯的。

Attention Model 是當前的研究熱點,它廣泛地可應用於文本生成、機器翻譯和語言模型等方面。

4.Hierarchical Attention Network

下面介紹層次化注意力網絡。

詞編碼層是首先把詞轉化成詞向量,然後用雙向的 GRU 層, 可以將正向和反向的上下文信息結合起來,獲得隱藏層輸出。第二層是 word attention 層。attention 機制的目的是要把一個句子中,對句子的含義最重要,貢獻最大的詞語找出來。

為了衡量單詞的重要性, 我們用 u_it 和一個隨機初始化的上下文向量 u_w 的相似度來表示,然後經過 softmax 操作獲得了一個歸一化的 attention 權重矩陣 a_it,代表句子 i 中第 t 個詞的權重。結合詞的權重,句子向量 s_i 看作組成這些句子的詞向量的加權求和。

第三層是句子編碼層,也是通過雙向 GRU 層, 可以將正向和反向的上下文信息結合起來,獲得隱藏層輸出。

到了第四層是句子的注意力層,同詞的注意力層差不多,也是提出了一個句子級別的上下文向量 u_s, 來衡量句子在文中的重要性。輸出也是結合句子的權重,全文的向量表示看做是句子向量的加權求和。

到了最後,有了全文的向量表示,我們就直接通過全連接 softmax 來進行分類。

四、案例介紹

1.新聞分類

新聞分類是最常見的一種分類。其處理方法包括:

1)定製行業專業語料,定期更新語料知識庫,構建行業垂直語義模型。

2)計算 term 權重,考慮到位置特徵,網頁特徵,以及結合離線統計結果獲取到核心的關鍵詞。

3)使用主題模型進行語義擴展

4)監督與半監督方式的文本分類

2.垃圾廣告黃反識別

垃圾廣告過濾作為文本分類的一個場景有其特殊之處,那就是它作為一種防攻擊手段,會經常面臨攻擊用戶採取許多變換手段來繞過檢查。

處理這些變換手段有多重方法:

  • 一是對變形詞進行識別還原,包括要處理間雜特殊符號,同音、簡繁變換,和偏旁拆分、形近變換。
  • 二是通過語言模型識別幹擾文本,如果識別出文本是段不通順的「胡言亂語」,那麼他很可能是一段用於規避關鍵字審查的垃圾文本。
  • 三是通過計算主題和評論的相關度匹配來鑑別。
  • 四是基於多種表達特徵的分類器模型識別來提高分類的泛化能力。

3.情感分析

情感分析的處理辦法包括:

1)基於詞典的情感分析,主要是線設置情感詞典,然後基於規則匹配(情感詞對應的權重進行加權)來識別樣本是否是正負面。

2)基於機器學習的情感分析,主要是採取詞袋模型作為基礎特徵,並且將複雜的情感處理規則命中的結果作為一維或者多維特徵,以一種更為「柔性」的方法融合到情感分析中,擴充我們的詞袋模型。

3)使用 dnn 模型來進行文本分類,解決傳統詞袋模型難以處理長距離依賴的缺點。

4.NLP 其他應用

NLP 在達觀的其他一些應用包括:

1)標籤抽取;

2)觀點挖掘;

3)應用於推薦系統;

4)應用於搜尋引擎。

標籤抽取有多種方式:基於聚類的方法實現。此外,現在一些深度學習的算法,通過有監督的手段實現標籤抽取功能。

就觀點挖掘而言,舉例:床很破,睡得不好。我抽取的觀點是「床破」,其中涉及到語法句法分析,將有關聯成本提取出來。

搜索及推薦,使用到 NLP 的地方也很多,如搜尋引擎處理用戶查詢的糾錯,就用到信道噪聲模型實行糾錯處理。

最後,給喜愛 NLP 的朋友推薦一個賽事活動,也是達觀數據主辦的「達觀杯」文本智能處理挑戰賽,此次比賽以文本自動分類為賽題,如果對上文講到的算法有想練習或者想深入實踐,可拿比賽來練習充實一下,目前賽事已有近 1400 人參賽。點擊閱讀原文可了解比賽詳情,本周四 7 月 26 日晚還為大家準備了深度學習與文本智能處理的分享直播,感興趣可掃碼入群了解詳情。

返回搜狐,查看更多

責任編輯:

相關焦點

  • 基於Bert和通用句子編碼的Spark-NLP文本分類
    文本分類是現代自然語言處理的主要任務之一,它是為句子或文檔指定一個合適的類別的任務。類別取決於所選的數據集,並且可以從主題開始。每一個文本分類問題都遵循相似的步驟,並用不同的算法來解決。更不用說經典和流行的機器學習分類器,如隨機森林或Logistic回歸,有150多個深度學習框架提出了各種文本分類問題。
  • 使用PyTorch建立你的第一個文本分類模型
    概述學習如何使用PyTorch執行文本分類理解解決文本分類時所涉及的要點學習使用包填充(Pack Padding)特性介紹我總是使用最先進的架構來在一些比賽提交模型結果。得益於PyTorch、Keras和TensorFlow等深度學習框架,實現最先進的體系結構變得非常容易。
  • NLP之文本分類:「Tf-Idf、Word2Vec和BERT」三種模型比較
    ,我將使用NLP和Python來解釋3種不同的文本多分類策略:老式的詞袋法(tf-ldf),著名的詞嵌入法(Word2Vec)和最先進的語言模型(BERT)。NLP(自然語言處理)是人工智慧的一個領域,它研究計算機和人類語言之間的交互作用,特別是如何通過計算機編程來處理和分析大量的自然語言數據。NLP常用於文本數據的分類。
  • 深度學習概述:NLP vs CNN
    最初的人工智慧和深度學習算法比較簡單,就像我們所知的簡單感知器模型和單層神經網絡一樣。隨著時間的推移和更加專注的研究,我們已經擁有了具有多層結構的複雜神經網絡。一些公司在他們的軟體和服務中使用了LSTMs、GANs、變分自編碼器等算法。本文在以下部分列出了人工智慧領域當前最熱門的技術以及正在研究這些熱門技術的公司。
  • 人工智慧與自然語言處理概述:AI三大階段、NLP關鍵應用領域
    人工智慧概述AI 指代「人工智慧」,是讓機器能夠像人類一樣完成智能任務的技術。AI 使用智能完成自動化任務。「人工智慧」包含兩個關鍵點:自動化智能人工智慧的目標推理自動學習&調度機器學習自然語言處理計算機視覺機器人通用智能人工智慧三大階段階段 1——機器學習:智能系統使用一系列算法從經驗中進行學習。階段 2——機器智能:機器使用的一系列從經驗中進行學習的高級算法,例如深度神經網絡。
  • NLP 新手必看!這是一份覆蓋全面的基於 PyTorch 和 keras 的 NLP...
    最近,小編在 github 上發現了一份基於 PyTorch 和 keras 的 NLP 學習教程。這份教程內容相當豐富,內容涵蓋神經網絡機器翻譯、問答匹配、電影評價分類、新聞分類等多個領域。項目的 GitHub 地址為:https://github.com/lyeoni/nlp-tutorial。
  • 實踐入門NLP:基於深度學習的自然語言處理
    【課程概述 】本課程將首先介紹自然語言處理的發展現狀與挑戰,同時,講解深度學習和自然語言處理的結合應用。除了基本算法外,本課程還配備實踐環節,從一些典型的方向:機器翻譯、文本分類、問答等。【講師介紹】新加坡南洋理工大學 玖強博士精通算法,軟硬兼修,目前主要研究方向是計算機視覺和自然語言處理結合,例如,圖像/視頻理解, 圖像/視頻自動描述生成,人機對話
  • NLP中的預處理:使用python進行文本歸一化
    我們在有關詞幹的文章中討論了文本歸一化。 但是,詞幹並不是文本歸一化中最重要(甚至使用)的任務。 我們還進行了其他一些歸一化技術的研究,例如Tokenization,Sentencizing和Lemmatization。 但是,還有其他一些用於執行此重要預處理步驟的小方法,將在本文中進行討論。
  • 文本分類六十年
    這些文獻中已經提出了許許多多的算法模型、基準數據集一集評測指標,因此需要一個對這個領域進行全面而且跟進趨勢的調查。這裡我們介紹基於機器學習和深度學習的文本分類,主要內容來自北航、伊利諾伊大學等學者聯合發表論文 A Survey on Text Classification: From Shallow to Deep Learning。
  • NLP入門+實戰必讀:一文教會你最常見的10種自然語言處理技術
    在它的幫助下,我們從文本中提煉出適用於計算機算法的信息。從自動翻譯、文本分類到情緒分析,自然語言處理成為所有數據科學家的必備技能之一。在這篇文章中,你將學習到最常見的10個NLP任務,以及相關資源和代碼。為什麼要寫這篇文章?
  • 從語言學到深度學習NLP,一文概述自然語言處理
    本文從兩篇論文出發先簡要介紹了自然語言處理的基本分類和基本概念,再向讀者展示了深度學習中的 NLP。這兩篇論文都是很好的綜述性入門論文,希望詳細了解自然語言處理的讀者可以進一步閱讀這兩篇論文。NLP 的研究任務如自動摘要、指代消解(Co-Reference Resolution)、語篇分析、機器翻譯、語素切分(Morphological Segmentation)、命名實體識別、光學字符識別和詞性標註等。自動摘要即對一組文本的詳細信息以一種特定的格式生成一個摘要。指代消解指的是用句子或更大的一組文本確定哪些詞指代的是相同對象。
  • 從人臉識別到文本分析,50+超實用的 API 推薦清單
    目前提供四種語義服務:實體和概念提取、情緒分析和文本分類。該 API 支持 8 種語言。2.ImageQ NLPhttp://www.imageq.cn/yyfx涵蓋長文本類、單句類以及詞法類三個層面的語義分析,可實現諸如詞性分析、實體識別、詞性比例、詞雲畫像、分類辨析、自動摘要、重點知識聯想、關係抽取、情感判別、依存句法以及詞語相似評分等功能。
  • NeuralNLP-NeuralClassifier:騰訊開源深度學習文本分類工具
    NeuralNLP是騰訊廣告(Tencent Marketing Solution,TMS)(https://e.qq.com/)數據算法團隊搭建的一個基於PyTorch的深度學習NLP公共實驗平臺,主要涵蓋文本分類、序列標註、語義匹配、BERT微調和文本生成等,目前已經廣泛應用於騰訊廣告業務文本相關的需求場景中,如廣告定向、相關性計算、LookAlike、動態創意、點擊率/轉化率預估等
  • 入門NLP 項目前,你必須掌握哪些理論知識?
    在本文中,我想概述一下我在學習 NLP 技術時研究過的一些問題。句子分割2. 文本歸一化和分詞3. 詞性標註(POS)4. 命名實體識別在大多數應用中,並不需要執行以上所有的預處理步驟。是否需要進行命名實體識別取決於應用的具體業務需求,而詞性標註工作則通常由現代工具自動完成,從而改進歸一化和分詞步驟的某些部分。
  • 達觀數據乾貨分享:深度解析文本分類與標籤的應用價值和原理
    信息過載時代,文本分類和文本標籤是我們整合閱讀文本信息的常用手段。本文系統介紹文本分類和文本標籤的技術原理和應用價值,並結合項目案例談談兩者的使用技巧。一、分類和標籤的共性與差異圖書管理員在給圖書分類時,會根據書的內容、形式、體裁等信息,按照《中國圖書館圖書分類法》進行分類。
  • NLP 與 NLU:從語言理解到語言處理
    NLP的最終目的是通過機器讀取、解讀、理解和感知人類語言,將某些任務用機器來代替人類來處理,包括在線聊天機器人,文本摘要生成器,自動生成的關鍵字選項卡,以及分析文本情緒的工具。NLP的作用NLP在廣義上來說可以指廣泛的工具,例如語音識別、自然語言識別和自然語言生成。
  • 【NLP】NLP文本風格遷移,秒變金庸風
    NewBeeNLP公眾號原創出品  公眾號專欄作者@山竹小果風格遷移是自然語言生成領域一個非常火的主題,對於文本風格遷移,先舉個例子:Input:謝謝Output(金庸):多謝之至Input:再見Output(金庸):別過!
  • 用深度學習(CNN RNN Attention)解決大規模文本分類問題 - 綜述和...
    近來在同時做一個應用深度學習解決淘寶商品的類目預測問題的項目,恰好碩士畢業時論文題目便是文本分類問題,趁此機會總結下文本分類領域特別是應用深度學習解決文本分類的相關的思路、做法和部分實踐的經驗。之所以進行分詞,是因為很多研究表明特徵粒度為詞粒度遠好於字粒度,其實很好理解,因為大部分分類算法不考慮詞序信息,基於字粒度顯然損失了過多「n-gram」信息。具體到中文分詞,不同於英文有天然的空格間隔,需要設計複雜的分詞算法。傳統算法主要有基於字符串匹配的正向/逆向/雙向最大匹配;基於理解的句法和語義分析消歧;基於統計的互信息/CRF方法。
  • 基於人民網新聞標題的短文本自動分類研究
    摘要: 自動文本分類技術將人類從繁瑣的手工分類中解放出來,使分類任務變的更為高效,為進一步的數據挖掘和分析奠定基礎。對於新聞來說,簡短的新聞標題是新聞內容的高度總結,針對短文本的分類研究一直是自動文本分類技術的研究熱點。
  • 樸素貝葉斯與文本分類
    樸素貝葉斯 (Naive Bayesian algorithm) 是一種基於概率統計的分類方法,主要用到了貝葉斯定理和特徵條件獨立性假設。樸素貝葉斯具有悠久的歷史,其算法邏輯比較簡單,有健壯的性能,通常可以用於文本分類、信用評估等方面。