技術乾貨 | 如何做好文本關鍵詞提取?從三種算法說起

2020-12-17 達觀數據DataGrand

在自然語言處理領域,處理海量的文本文件最關鍵的是要把用戶最關心的問題提取出來。而無論是對於長文本還是短文本,往往可以通過幾個關鍵詞窺探整個文本的主題思想。與此同時,不管是基於文本的推薦還是基於文本的搜索,對於文本關鍵詞的依賴也很大,關鍵詞提取的準確程度直接關係到推薦系統或者搜索系統的最終效果。因此,關鍵詞提取在文本挖掘領域是一個很重要的部分。

關於文本的關鍵詞提取方法分為有監督、半監督和無監督三種:

1

有監督的關鍵詞抽取算法

它是建關鍵詞抽取算法看作是二分類問題,判斷文檔中的詞或者短語是或者不是關鍵詞。既然是分類問題,就需要提供已經標註好的訓練預料,利用訓練語料訓練關鍵詞提取模型,根據模型對需要抽取關鍵詞的文檔進行關鍵詞抽取

2

半監督的關鍵詞提取算法

只需要少量的訓練數據,利用這些訓練數據構建關鍵詞抽取模型,然後使用模型對新的文本進行關鍵詞提取,對於這些關鍵詞進行人工過濾,將過濾得到的關鍵詞加入訓練集,重新訓練模型。

3

無監督的方法

不需要人工標註的語料,利用某些方法發現文本中比較重要的詞作為關鍵詞,進行關鍵詞抽取。

有監督的文本關鍵詞提取算法需要高昂的人工成本,因此現有的文本關鍵詞提取主要採用適用性較強的無監督關鍵詞抽取。其文本關鍵詞抽取流程如下:

圖 1 無監督文本關鍵詞抽取流程圖

無監督關鍵詞抽取算法可以分為三大類,基於統計特徵的關鍵詞抽取、基於詞圖模型的關鍵詞抽取和基於主題模型的關鍵詞抽取。

NO.1

文本關鍵詞提取算法

基於統計特徵的關鍵詞提取算法

基于于統計特徵的關鍵詞抽取算法的思想是利用文檔中詞語的統計信息抽取文檔的關鍵詞。通常將文本經過預處理得到候選詞語的集合,然後採用特徵值量化的方式從候選集合中得到關鍵詞。基於統計特徵的關鍵詞抽取方法的關鍵是採用什麼樣的特徵值量化指標的方式,目前常用的有三類:

1

基於詞權重的特徵量化

基於詞權重的特徵量化主要包括詞性、詞頻、逆向文檔頻率、相對詞頻、詞長等。

2

基於詞的文檔位置的特徵量化

這種特徵量化方式是根據文章不同位置的句子對文檔的重要性不同的假設來進行的。通常,文章的前N個詞、後N個詞、段首、段尾、標題、引言等位置的詞具有代表性,這些詞作為關鍵詞可以表達整個的主題。

3

基於詞的關聯信息的特徵量化

詞的關聯信息是指詞與詞、詞與文檔的關聯程度信息,包括互信息、hits值、貢獻度、依存度、TF-IDF值等。

下面介紹幾種常用的特徵值量化指標。

詞性

詞性時通過分詞、語法分析後得到的結果。現有的關鍵詞中,絕大多數關鍵詞為名詞或者動名詞。一般情況下,名詞與其他詞性相比更能表達一篇文章的主要思想。但是,詞性作為特徵量化的指標,一般與其他指標結合使用。

詞頻

詞頻表示一個詞在文本中出現的頻率。一般我們認為,如果一個詞在文本中出現的越是頻繁,那麼這個詞就越有可能作為文章的核心詞。詞頻簡單地統計了詞在文本中出現的次數,但是,只依靠詞頻所得到的關鍵詞有很大的不確定性,對於長度比較長的文本,這個方法會有很大的噪音。

位置信息

一般情況下,詞出現的位置對於詞來說有著很大的價值。例如,標題、摘要本身就是作者概括出的文章的中心思想,因此出現在這些地方的詞具有一定的代表性,更可能成為關鍵詞。但是,因為每個作者的習慣不同,寫作方式不同,關鍵句子的位置也會有所不同,所以這也是一種很寬泛的得到關鍵詞的方法,一般情況下不會單獨使用。

互信息

互信息是資訊理論中概念,是變量之間相互依賴的度量。互信息並不局限於實值隨機變量,它更加一般且決定著聯合分布 p(X,Y) 和分解的邊緣分布的乘積 p(X)p(Y) 的相似程度。互信息的計算公式如下:

其中,p(x,y)是X和Y的聯合概率分布函數,p(x)和p(y)分別為X和Y的邊緣概率分布函數。

當使用互信息作為關鍵詞提取的特徵量化時,應用文本的正文和標題構造PAT樹,然後計算字符串左右的互信息。

詞跨度

詞跨度是指一個詞或者短語字文中首次出現和末次出現之間的距離,詞跨度越大說明這個詞對文本越重要,可以反映文本的主題。一個詞的跨度計算公式如下:

其中,表示詞i在文本中最後出現的位置, 表示詞 i 在文本中第一次出現的位置,sum表示文本中詞的總數。

詞跨度被作為提取關鍵詞的方法是因為在現實中,文本中總是有很多噪聲(指不是關鍵詞的那些詞),使用詞跨度可以減少這些噪聲。

TF-IDF值

一個詞的TF是指這個詞在文檔中出現的頻率,假設一個詞w在文本中出現了m次,而文本中詞的總數為n,那麼。一個詞的IDF是根據語料庫得出的,表示這個詞在整個語料庫中出現的頻率。假設整個語料庫中,包含詞w的文本一共有M篇,語料庫中的文本一共有N篇,則

由此可得詞w的TF-IDF值為:

TF-IDF的優點是實現簡單,相對容易理解。但是,TFIDF算法提取關鍵詞的缺點也很明顯,嚴重依賴語料庫,需要選取質量較高且和所處理文本相符的語料庫進行訓練。另外,對於IDF來說,它本身是一種試圖抑制噪聲的加權,本身傾向於文本中頻率小的詞,這使得TF-IDF算法的精度不高。TF-IDF算法還有一個缺點就是不能反應詞的位置信息,在對關鍵詞進行提取的時候,詞的位置信息,例如文本的標題、文本的首句和尾句等含有較重要的信息,應該賦予較高的權重。

基於統計特徵的關鍵詞提取算法通過上面的一些特徵量化指標將關鍵詞進行排序,獲取TopK個詞作為關鍵詞。

基於統計特徵的關鍵詞的重點在於特徵量化指標的計算,不同的量化指標得到的記過也不盡相同。同時,不同的量化指標作為也有其各自的優缺點,在實際應用中,通常是採用不同的量化指標相結合的方式得到Topk個詞作為關鍵詞。

NO.2

文本關鍵詞提取算法

基於詞圖模型的關鍵詞抽取算法

基於詞圖模型的關鍵詞抽取首先要構建文檔的語言網絡圖,然後對語言進行網絡圖分析,在這個圖上尋找具有重要作用的詞或者短語,這些短語就是文檔的關鍵詞。語言網絡圖中節點基本上都是詞,根據詞的連結方式不同,語言網絡的主要形式分為四種:共現網絡圖、語法網絡圖、語義網絡圖和其他網絡圖。

在語言網絡圖的構建過程中,都是以預處理過後的詞作為節點,詞與詞之間的關係作為邊。語言網絡圖中,邊與邊之間的權重一般用詞之間的關聯度來表示。在使用語言網絡圖獲得關鍵詞的時候,需要評估各個節點的重要性,然後根據重要性將節點進行排序,選取TopK個節點所代表的詞作為關鍵詞。節點的重要性計算方法有以下幾種方法。

1

綜合特徵法

綜合特徵法也叫社會網絡中心性分析方法,這種方法的核心思想是節點中重要性等於節點的顯著性,以不破壞網絡的整體性為基礎。此方法就是從網絡的局部屬性和全局屬性角度去定量分析網絡結構的拓撲性質,常用的定量計算方法如下。

節點的度是指與該節點直接向量的節點數目,表示的是節點的局部影響力,對於非加權網絡,節點的度為:對於加權網絡,節點的度又稱為節點的強度,計算公式為:

接近性

節點的接近性是指節點到其他節點的最短路徑之和的倒數,表示的是信息傳播的緊密程度,其計算公式為:

特徵向量

特徵向量的思想是節點的中心化測試值由周圍所有連接的節點決定,即一個節點的中心化指標應該等於其相鄰節點的中心化指標之線性疊加,表示的是通過與具有高度值的相鄰節點所獲得的間接影響力。特徵向量的計算公式如下:

集聚係數

節點的集聚係數是它的相鄰的節點之間的連接數與他們所有可能存在來連結的數量的比值,用來描述圖的頂點之間階級成團的程度的係數,計算公式如下:

平均最短路徑

節點的平局最短路徑也叫緊密中心性,是節點的所有最短路徑之和的平均值,表示的是一個節點傳播信息時對其他節點的依賴程度。如果一個節點離其他節點越近,那麼他傳播信息的時候也就越不需要依賴其他人。一個節點到網絡中各點的距離都很短,那麼這個點就不會受制於其他節點。計算公式如下:

因為每個算法的側重方向的不同,在實際的問題中所選取的定量分析方法也會不一樣。同時,對於關鍵詞提取來說,也可以和上一節所提出的統計法得到的詞的權重,例如詞性等相結合構建詞搭配網絡,然後利用上述方法得到關鍵詞。

2

系統科學法

系統科學法進行中心性分析的思想是節點重要性等於這個節點被刪除後對於整個語言網絡圖的破壞程度。重要的節點被刪除後會對網絡的呃連通性等產生變化。如果我們在網絡圖中刪除某一個節點,圖的某些指定特性產生了改變,可以根據特性改變的大小獲得節點的重要性,從而對節點進行篩選。

3

隨機遊走法

隨機遊走算法時網絡圖中一個非常著名的算法,它從給定圖和出發點,隨機地選擇鄰居節點移動到鄰居節點上,然後再把現在的節點作為出發點,迭代上述過程。

隨機遊走算法一個很出名的應用是大名鼎鼎的PageRank算法,PageRank算法是整個google搜索的核心算法,是一種通過網頁之間的超連結來計算網頁重要性的技術,其關鍵的思想是重要性傳遞。在關鍵詞提取領域, Mihalcea 等人所提出的TextRank算法就是在文本關鍵詞提取領域借鑑了這種思想。

PageRank算法將整個網際網路看作一張有向圖,網頁是圖中的節點,而網頁之間的連結就是圖中的邊。根據重要性傳遞的思想,如果一個大型網站A含有一個超連結指向了網頁B,那麼網頁B的重要性排名會根據A的重要性來提升。網頁重要性的傳遞思想如下圖所示:

圖 2 PageRank簡單描述(來自PageRank論文)

在PageRank算法中,最主要的是對於初始網頁重要性(PR值)的計算,因為對於上圖中的網頁A的重要性我們是無法預知的。但是,在原始論文中給出了一種迭代方法求出這個重要性,論文中指出,冪法求矩陣特徵值與矩陣的初始值無關。那麼,就可以為每個網頁隨機給一個初始值,然後迭代得到收斂值,並且收斂值與初始值無關。

PageRank求網頁i的PR值計算如下:

其中,d為阻尼係數,通常為0.85。是指向網頁 i 的網頁集合。是指網頁j中的連結指向的集合,是指集合中元素的個數。

TextRank在構建圖的時候將節點由網頁改成了句子,並為節點之間的邊引入了權值,其中權值表示兩個句子的相似程度。其計算公式如下:

公式中的為圖中節點和的邊的權重。其他符號與PageRank公式相同。

TextRank算法除了做文本關鍵詞提取,還可以做文本摘要提取,效果不錯。但是TextRank的計算複雜度很高,應用不廣。

NO.3

文本關鍵詞提取算法

基於主題模型的關鍵詞抽取

基於主題關鍵詞提取算法主要利用的是主題模型中關於主題的分布的性質進行關鍵詞提取。算法步驟如下:

1

獲取候選關鍵詞

從文章中獲取候選關鍵詞。即將文本分詞,也可以再根據詞性選取候選關鍵詞。

2

語料學習

根據大規模預料學習得到主題模型。

3

計算文章主題分部

根據得到的隱含主題模型,計算文章的主題分布和候選關鍵詞分布。

4

排序

計算文檔和候選關鍵詞的主題相似度並排序,選取前n個詞作為關鍵詞。

算法的關鍵在於主題模型的構建。主題模型是一種文檔生成模型,對於一篇文章,我們的構思思路是先確定幾個主題,然後根據主題想好描述主題的詞彙,將詞彙按照語法規則組成句子,段落,最後生成一篇文章。

主題模型也是基於這個思想,它認為文檔是一些主題的混合分布,主題又是詞語的概率分布,pLSA模型就是第一個根據這個想法構建的模型。同樣地,我們反過來想,我們找到了文檔的主題,然後主題中有代表性的詞就能表示這篇文檔的核心意思,就是文檔的關鍵詞。

pLSA模型認為,一篇文檔中的每一個詞都是通過一定概率選取某個主題,然後再按照一定的概率從主題中選取得到這個詞語,這個詞語的計算公式為:

一些貝葉斯學派的研究者對於pLSA模型進行了改進,他們認為,文章對應主題的概率以及主題對應詞語的概率不是一定的,也服從一定的概率,於是就有了現階段常用的主題模型--LDA主題模型。

LDA是D.M.Blei在2003年提出的。LDA採用了詞袋模型的方法簡化了問題的複雜性。在LDA模型中,每一篇文檔是一些主題的構成的概率分布,而每一個主題又是很多單詞構成的一個概率分布。同時,無論是主題構成的概率分布還是單詞構成的概率分布也不是一定的,這些分布也服從Dirichlet 先驗分布。

文檔的生成模型可以用如下圖模型表示:

其中為先驗分布的超參數,為第k個主題下的所有單詞的分布,為文檔的主題分布,w為文檔的詞,z為w所對應的主題。

圖 3 Blei在論文中的圖模型

DA挖掘了文本的深層語義即文本的主題,用文本的主題來表示文本的也從一定程度上降低了文本向量的維度,很多人用這種方式對文本做分類,取得了不錯的效果。具體LDA的算法在請參考《一文詳解LDA主題模型》。

LDA關鍵詞提取算法利用文檔的隱含語義信息來提取關鍵詞,但是主題模型提取的關鍵詞比較寬泛,不能很好的反應文檔主題。另外,對於LDA模型的時間複雜度較高,需要大量的實踐訓練。

NO.4

文本關鍵詞提取算法

應用

現階段,文本的關鍵詞提取在基於文本的搜索、推薦以及數據挖掘領域有著很廣泛的應用。同時在實際應用中,因為應用環境的複雜性,對於不同類型的文本,例如長文本和短文本,用同一種文本關鍵詞提取方法得到的效果並相同。因此,在實際應用中針對不同的條件環境所採用的算法會有所不同,沒有某一類算法在所有的環境下都有很好的效果。

相對於上文中所提到的算法,一些組合算法在工程上被大量應用以彌補單算法的不足,例如將TF-IDF算法與TextRank算法相結合,或者綜合TF-IDF與詞性得到關鍵詞等。同時,工程上對於文本的預處理以及文本分詞的準確性也有很大的依賴。對於文本的錯別字,變形詞等信息,需要在預處理階段予以解決,分詞算法的選擇,未登錄詞以及歧義詞的識別在一定程度上對於關鍵詞突提取會又很大的影響。

關鍵詞提取是一個看似簡單,在實際應用中卻十分棘手的任務,從現有的算法的基礎上進行工程優化,達觀數據在這方面做了很大的努力並且取得了不錯的效果。

NO.5

文本關鍵詞提取算法

總結

本文介紹了三種常用的無監督的關鍵詞提取算法,並介紹了其優缺點。關鍵詞提取在文本挖掘領域具有很廣闊的應用,現有的方法也存在一定的問題,我們依然會在關鍵詞提取的問題上繼續努力研究,也歡迎大家積極交流。

參考文獻

[1] TextRank算法提取關鍵詞和摘要http://xiaosheng.me/2017/04/08/article49/

[2] Page L, Brin S, Motwani R,et al. The PageRank citation ranking: Bringing order to the web[R]. StanfordInfoLab, 1999.

[3] 劉知遠. 基於文檔主題結構的關鍵詞抽取方法研究[D]. 北京: 清華大學, 2011.

[4] tf-idf,https://zh.wikipedia.org/zh-hans/Tf-idf

[5] 一文詳解機器領域的LDA主題模型 https://zhuanlan.zhihu.com/p/31470216

[6] Blei D M, Ng A Y, Jordan MI. Latent dirichlet allocation[J]. Journal of machine Learning research, 2003,3(Jan): 993-1022.

[7] 趙京勝, 朱巧明, 周國棟, 等. 自動關鍵詞抽取研究綜述[J]. 軟體學報, 2017,28(9): 2431-2449.

A

BOUT

作者簡介

韓偉:達觀數據數據挖掘工程師,負責達觀數據文本方面的挖掘與應用。主要參與達觀數據標籤提取與文本分類系統的構建與實現,對深度學習,NLP數據挖掘領域有濃厚興趣。

相關閱讀

技術乾貨 | 一文詳解LDA主題模型技術乾貨 | fastText原理及實踐技術乾貨|集成學習算法(Ensemble Method)淺析技術乾貨 | XGBoost原理解析技術乾貨 | 一文詳解高斯混合模型原理

相關焦點

  • 基於關鍵詞的文本內容過濾算法
    三、網頁文本過濾關鍵技術的研究 由於中文和英文的區別,中文文本與英文文本的表示方法有所不同。英文文本中詞與詞 中間都由空格或標點符號隔開,因而詞與詞之間的界限很明顯,可以很容易的獲取關鍵詞,而中文文本中詞與詞則無明顯的界限,這就影響了關鍵詞的獲取和匹配, 因此,本文將對中文信息過濾過程中的關鍵技術進行重點討論。
  • nlp關鍵詞提取 - CSDN
    最近在研究關鍵詞的提取算法,看到一篇關於關鍵詞提取算法的總結,比較全面了,在這裡分享給大家,希望能夠幫助同學們~(ps:作者同意轉發,如果想了解更多,請閱讀全文)目錄一、關鍵詞提取概述二、TF-IDF關鍵詞提取算法及實現三、TextRank關鍵詞提取算法實現
  • NLP入門篇:關鍵詞提取
    一、關鍵詞提取概述(一)用途NLP(自然語言處理)的基本流程(二)基本思路原始思路:關鍵字分配,即事先給定關鍵詞庫,從文檔中抽取最重要的詞作為關鍵詞。優點是速度快,缺點是很難應對快速出現的各種新關鍵詞。主流思路:根據某種準則,從文檔中抽取最重要的詞作為關鍵詞。可以分為兩類:有監督關鍵詞提取方法和無監督關鍵詞提取方法。1.
  • 基於關鍵詞的文本內容過濾算法的研究與應用
    摘要:本文對目前文本過濾技術進行了調研,並在此基礎上利用空間向量模型作為用戶需求模板,使用餘弦距離計算文本相似度,採用K-means算法進行文本聚類分析效果優化,提出了基於關鍵詞的文本內容過濾模型,能夠為人民網用戶個性化推薦新聞、廣告、文章等信息,縮簡訊息檢索時間,最大程度為用戶提供其感興趣的內容
  • 搜尋引擎自動提取關鍵詞技術《TF-IDF與餘弦相似性的應用》
    搜尋引擎自動提取關鍵詞技術《TF-IDF與餘弦相似性的應用》這個標題看上去好像很複雜,其實我要談的是一個很簡單的問題。
  • 京東智能內容創作算法的演進與實踐:基於關鍵詞自動生成摘要
    來源 | 京東智聯雲開發者導讀:京東商城背後的 AI 技術能力揭秘: 基於關鍵詞自動生成摘要過去幾十年間,人類的計算能力獲得了巨大提升;隨著數據不斷積累,算法日益先進,我們已經步入了人工智慧時代。確實,人工智慧概念很難理解,技術更是了不起,背後的數據和算法非常龐大複雜。
  • 技術乾貨 | 如何選擇上班路線最省時間?從A/B測試數學原理說起
    2廣告創意優化(Ad creative optimization)在線廣告提出了許多適合機器學習技術應用的挑戰,其中之一就是如何選擇廣告的形式和內容。但要小心,該算法不會考慮效果數據的統計意義。因此可能發生這樣的情況:個別賭博機的獎勵峰值導致後續的所有局遊戲都錯誤地選擇了這個賭博機(陳運文 達觀數據)。
  • 基於OpenCV的表格文本內容提取
    ,第一時間送達小夥伴們可能會覺得從圖像中提取文本是一件很麻煩的事情,尤其是需要提取大量文本時。PyTesseract是一種光學字符識別(OCR),該庫提了供文本圖像。PyTesseract確實有一定的效果,用PyTesseract來檢測短文本時,結果相當不錯。但是,當我們用它來檢測表格中的文本時,算法執行失敗。
  • 2020最新文本檢測算法TextFuseNet
    該算法用三個層次的特徵來表示文本,字符、單詞和全局級別,然後引入一種新的文本融合技術融合這些特徵,來幫助實現魯棒的任意文本檢測。另外提出了一個弱監督學習機制,可以生成字符級別的標註,在缺乏字符級注釋的數據集情況下也可以進行訓練。
  • 文本分類的14種算法
    公眾號:datayx之前介紹了14種文本分類中的常用算法,包括8種傳統算法:k臨近、決策樹、多層感知器、樸素貝葉斯(包括伯努利貝葉斯、高斯貝葉斯和多項式貝葉斯)、邏輯回歸和支持向量機;4種集成學習算法:隨機森林、AdaBoost、lightGBM和xgBoost;2種深度學習算法:前饋神經網絡和LSTM。
  • 基於文本智能技術的AI產品設計實踐
    那麼,該如何找到AI賦能的場景,讓算法專家、行業專家和應用開發專家三種角色的合作使人工智慧落地呢?當對流程進行拆分以後,就可以進行AI技術的評估。比如:票據類型分類,能不能通過OCR技術。當對進行各項金額計算時,能否通過文本關鍵信息提取技術把金額自動提取出來,進行匯總計算。填寫報銷申請表時,能否根據數據接口的方式自動傳達財務部門的審核系統中。
  • SEO學習:如何優化長尾關鍵詞達到快速排名(乾貨分享)
    目錄( 2066 字)01.為什麼要優化長尾關鍵詞02.如何挖掘長尾詞(乾貨乾貨)03.如何布局長尾詞最後的話01為什麼要優化長尾關鍵詞長尾關鍵詞對很多對很多SEO新人朋友而言是十臉懵逼的02如何挖掘長尾詞(乾貨乾貨)1.找同行(基本都是高質量的老司機)打開百度以SEO優化為例,輸入SEO優化。把前 2 頁自然排名的同行網站記錄下來,巴郎這裡只演示 3 個。
  • 達觀數據乾貨分享:深度解析文本分類與標籤的應用價值和原理
    信息過載時代,文本分類和文本標籤是我們整合閱讀文本信息的常用手段。本文系統介紹文本分類和文本標籤的技術原理和應用價值,並結合項目案例談談兩者的使用技巧。一、分類和標籤的共性與差異圖書管理員在給圖書分類時,會根據書的內容、形式、體裁等信息,按照《中國圖書館圖書分類法》進行分類。
  • 網頁敏感關鍵詞匹配技術研究
    高效、準確的關鍵詞匹配算法能提升這些系統的性能,提高審核人員的效率。本文提出了一種網頁敏感關鍵詞匹配的技術,通過對待檢測文本預處理,減少敏感詞庫的負擔,採用Trie存儲檢索敏感詞,最大限度地減少無謂的字符串比較,最後通過管理人員的反饋信息及時更新敏感詞庫使得過濾更加高效。
  • NLP入門乾貨 | 文本預處理技術詳解
    在對文本做分析時,我們一大半的時間都會花在文本預處理上,而中文和英文的預處理流程稍有不同。本文就對中、英文的常用的文本預處技術做一個總結。文章內容主要按下圖流程講解:首先,中文文本沒有像英文用空格來分開不同單詞的,因此不能直接像英文一樣用簡單的空格或標點符號來完成分詞。所以我們一般需要用分詞算法來完成分詞,具體操作在後面會講到。當然,英文文本的預處理也有自己特殊的地方比如拼寫問題。很多時候,對英文預處理要包括拼寫檢查,比如「Helo World」這樣的錯誤,我們不能在分析的時候再去糾錯。
  • 使用TextRank算法為文本生成關鍵字和摘要
    【數盟倡導「數據創造價值」,致力於打造最卓越的數據科學交流平臺,為企業、個人提供最卓越的服務】TextRank算法基於PageRank,用於為文本生成關鍵字和摘要
  • 「深度學習」從專利文本中提取化學反應——ChEMU數據集
    ——前言——當代人工智慧技術發展飛速,各行各業都在應用其中的機器學習、深度學習算法對感興趣的目標進行預測。在有機合成、藥物合成領域,機器學習與深度學習算法被用來預測一個有機反應的產物或反應物,甚至用來預測一個藥物分子的逆合成路線。
  • 基於Python 的自動文本提取:抽象法和生成法的比較
    它描述了我們(一個RaRe 孵化計劃中由三名學生組成的團隊)是如何在該領域中對現有算法和Python工具進行了實驗。我們將現有的 提取方法(Extractive)(如LexRank,LSA,Luhn和Gensim現有的TextRank摘要模塊)與含有51個文章摘要對的Opinosis數據集進行比較。
  • 百度算法調整,關鍵詞大幅波動,怎麼辦?
    3、數據分析針對TOP50,近期上漲與下跌網站,進行有針對性的數據分析,你會清晰的掌握算法調整的偏好,比如:①統計各站外鏈總量:主域名數量、受信任域名佔比、各站錨文本連結TOP10數據、一定周期內,連結增長情況。
  • 5分鐘掌握TF-IDF關鍵詞提取
    【先鋒導讀】拿到了文本數據後,怎樣才能找到其中最有價值的關鍵詞呢?又該如何構建文本特徵呢?TF-IDF方法的效果還是不錯的,下面就來揭曉其算法本質。在文本分析中經常會涉及到打標籤和特徵提取,TF-IDF是經常用到的套路了。