TF-IDF算法原理公式以及對SEO優化的重要性

2021-01-07 心意SEO博客

從事SEO行業時間比較長的人應該聽說過TF-IDF算法,TF-IDF算法屬於搜尋引擎中的核心部分。TF-IDF算法是增加相關詞的覆蓋率,以及高優布局關鍵詞密度,從而在百度谷歌等搜尋引擎內容質量這一項上的排名加分,獲取超高分值。最近在碼迷網有幾篇TF-IDF算法原理及公式本文將深入為大家解析,有興趣請往下深度閱讀。

一、什麼是TF-IDF

先來看百度百科對TF-IDF的解釋:

「TF-IDF是一種統計方法,用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF加權的各種形式常被搜尋引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。」

文章連結:https://baike.baidu.com/item/tf-idf

大家看了定義之後跟我一樣是懵的吧,為了便於大家理解,作者再舉一個簡單易懂的慄子。

假如說我們在百度上搜索「水果」這個詞,百度爬蟲抓取的網站內容有下面5個,你覺得哪個內容排名第一?

內容1: 水果有水果,水果,水果,水果,水果內容2: 水果有蘋果,桃子,西瓜,菠蘿,梨子內容3: 蔬菜都很好吃,我最愛吃茄子了內容4: 蘋果,梨子都是很好吃的水果內容5:好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃相信很多人心裏面有了答案,大家憑直覺,內容2 跟 內容5 應該排名靠前,內容5很可能是第1,內容2是排名第2。

最終的排名順序為52413,至於為什麼呢?核心詞為「水果」,5和2裡都有「水果」和「蘋果」兩個關鍵詞且5裡有出現兩次「水果」,4比2少了一個蘋果關鍵詞,1裡面包括有「水果」這個關鍵詞但有堆砌行為,3和核心詞沒有相關性。

其實按照TF-IDF算法也能得出這個結論,那麼TF-IDF是怎麼做的,請大家跟上我的步伐。

二、TF-IDF算法的計算步驟

第1步:計算逆文檔頻率

我們先統計各個詞語被包含的文章數。比如「水果」被4篇文章(內容1、2、4、5)引用,4就是「水果」的逆文檔頻率。

分詞後,各個單詞的逆文檔頻率如下:

水果=4、蘋果=3、好吃=2、菠蘿=2、西瓜=2、梨子=2,桃子=1、獼猴桃=1、蔬菜=1,茄子=1

PS: IDF= log(語料庫中的文件總數 / 包含詞語 t 的文件數目),為了便於理解,這裡做了精簡。

按照我們的直覺,如果一篇文章把逆文檔頻率最高的前面的詞都包含了,說明這篇文章內容更貼合用戶意圖,更受到搜尋引擎喜歡。回到例子,」水果、蘋果」是本例中重要性最高的2個詞,如果內容中包含「水果、蘋果」,那麼這篇內容質量就越好。

所以把包含「水果、蘋果」的內容拿出來,就是比較靠譜的內容了:

內容2: 水果有蘋果,桃子,西瓜,菠蘿,梨子內容4: 蘋果,梨子都是很好吃的水果內容5: 好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃第2步:計算詞頻(TF)

我們把內容1、內容3砍掉了,剩下的內容2、內容4、內容5怎麼排序。我們想一下,一個詞語在內容中出現的次數越高,也說明這個詞語對這篇文章更重要。回到本例,「水果」是我們的核心詞,那麼因為內容5中出現「水果」兩次,內容2、內容4次數是1,那麼內容5勝出。最後的排序結果如下

內容5: 好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃 (第一名)內容2: 水果有蘋果,桃子,西瓜,菠蘿,梨子(第二名)內容4: 蘋果,梨子都是很好吃的水果(第三名)內容1: 水果有水果,水果,水果,水果,水果(相關度不夠,被剔除)內容3: 蔬菜都很好吃,我最愛吃茄子了( 相關度不夠,被剔除 )以上是砍了又砍的TF-IDF算法簡化解讀版,真實的TFIDF算法比這個要正規複雜很多,這裡只是讓大家get到重點,碼迷的目的就達到了。

三、TF-IDF對SEO的重要性

TF-IDF對SEO非常非常非常重要,重要的事情說三遍!

我們可以看到,TFIDF算法,不僅可以衡量關鍵詞對頁面的重要性,更能衡量文章的廣度相關性。對於百度、360、google來說,TFIDF算法的出現屏蔽了一大批用關鍵詞密度來獲取排名的SEO小白,同時提升了搜索質量啊,真是一箭雙鵰。

百度百科裡面說了:「除了TF-IDF以外,網際網路上的搜尋引擎還會使用基於連結分析的評級方法,以確定文件在搜尋結果中出現的順序。」。意思是什麼?你排名可以由下面的公式決定。文章得分=TFIDF得分+連結得分,百度搜尋引擎在用TFIDF!!

那麼有人站出來問了,人家只是在百度百科裡面說,百度也沒有說用TFIDF算法啊,有本事亮出實錘來。

好吧~咱往下接著看。

1、百度在用TFIDF算法

百度專利中使用TFIDF的實錘,請查看百度專利文檔《CN102737018A-基於非線性統一權值對檢索結果進行排序的方法及裝置-公開》。搜索算法來去匆匆,百度算法更新迭代也非常快,但是TFIDF算法有點不同,它是目前最核心的搜索算法之一。

2、GOOGLE也用TFIDF算法

google承認在搜索中使用的TFIDF算法:原文連結:https://www.searchenginejournal.com/google-tf-idf/304361/

3、TFIDF得分比重極高

如果搜尋引擎確定使用TF-IDF對網頁內容作為評判質量的因子,那麼這個比重有多大?碼迷知道,現在的搜尋引擎一般用如下的算法計算網站頁面得分:score(頁面得分) = TFIDF分 * x + 連結分 * y + 用戶體驗分 * z(其中x+y+z=100%;);

大約在2G左右的谷歌搜索資料中,碼迷做了人工智慧訓練,預測TFIDF分值大約佔百度40%左右的權重,谷歌更是達到了50%。

連結分,通過快排朋友透露,權重大約佔百度20%左右,谷歌尚不清楚。

用戶體驗得分(可以通過刷快排提高)的比率,百度在40%左右,Google則沒有找到相關快排技術文檔。

所以說,在中國做SEO:排名得分=40%的內容質量(TFIDF)+40%的用戶體驗分(快排)+20%的連結分(域名+外鏈),TFIDF重要程度不言而喻。

相關焦點

  • TF-IDF原理與實踐
    所以,需要一個重要性調整係數,衡量一個詞是不是常見詞。如果某個詞比較少見,但是它在這篇文章中多次出現,那麼它很可能就反映了這篇文章的特性,正是我們所需要的關鍵詞。用統計學語言表達,就是在詞頻的基礎上,要對每個詞分配一個"重要性"權重。最常見的詞("的"、"是"、"在")給予最小的權重,較常見的詞給予較小的權重,較少見的詞給予較大的權重。
  • 機器學習之TF-IDF統計算法介紹與代碼實現(篇五)
    字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF加權的各種形式常被搜尋引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。通俗理解TF-IDF就是:TF刻畫了詞語t對某篇文檔的重要性,IDF刻畫了詞語t對整個文檔集的重要性。
  • SEO算法之TF-IDF算法
    TF-IDF(詞頻-逆文檔頻率)算法是一種統計方法,用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。該算法在數據挖掘、文本處理和信息檢索等領域得到了廣泛的應用,如從一篇文章中找到它的關鍵詞。
  • NLP入門(二)探究TF-IDF的原理
    字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。  在NLP中,TF-IDF的計算公式如下:                tfidf = tf*idf,其中,tf是詞頻(Term Frequency),idf為逆向文件頻率(Inverse Document Frequency)。
  • TF-IDF簡介
    tf-idf,英語的全稱叫做 term frequency-inverse document frequency,它是文本挖掘領域的基本技術之一
  • 【TF-IDF】傳統方法TF-IDF解決短文本相似度問題
    (self.get_score(i, query)) return score_list其中,documents_list 表示需要輸入的文本列表,內部每個文本需要事先分好詞;documents_number表示文本總個數;tf 用於存儲每個文本中每個詞的詞頻;idf用於存儲每個詞彙的逆文檔頻率;init函數是類初始化函數,用於求解文本集合中的tf和idf變量;get_score
  • 什麼是TF-IDF?作用是什麼?如何使用TF-IDF進行SEO?
    谷歌長期以來一直將其用於信息檢索以及其他指標。搜尋引擎也看到了它的潛力,搜尋引擎開始使用此指標而不是關鍵字密度來評估內容優化,因為它有助於降低功能詞的影響。但是,今天我不會談論TF-IDF的這個特殊功能。因為,Google的約翰·穆勒最近強調,這種針對TF-IDF的優化策略在今天毫無用處。相反,我想向大家演示一下TF-IDF如何幫助優化主題的頁面。
  • 自然語言處理 | TF-IDF原理及示例解析
    對於在某一特定文件裡的詞語 ti 來說,它的重要性可表示為:以上式子中 ni,j 是該詞 ti 在文件 dj 中的出現次數,而分母則是在文件 dj 中所有字詞的出現次數之和。逆向文件頻率 (inversedocument frequency, IDF) 是一個詞語普遍重要性的度量。
  • 5分鐘掌握TF-IDF關鍵詞提取
    當進行詞頻統計的時候,發現這篇文章中,『中國』,『蜜蜂』,『養殖』這三個詞出現的次數是一樣的,例如都是10次,那這個時候如果判斷其各自的重要性呢?這一篇文章應該講述的是都跟蜜蜂和養殖相關的技術,所以這倆詞應當是重點了。而中國這個詞,既可以說中國的蜜蜂,還可以說中國的籃球,中國的大熊貓,能派上用場的地方簡直太多了,並不專門針對某一個主題,所以在這篇文章的類別劃分中它應當不是那麼重要的。
  • tf-idf practice
    =[] for i in range(np.size(docword,0)): tf1=docword[i,:]/row_sum[i] tf.append(tf1) tf=np.array(tf) return tf def buildIDFMatrix(docword) : column_sum=docword.sum
  • FM+FTRL算法原理以及工程化實現
    前言上一篇文章講了LR+FTRL算法原理以及工程化實現。在實際的項目開發中,常常使用的是LR+組合特徵+FTRL的方式進行建模。這種方式需要人工組合特徵,非常考驗經驗,而且存在線下組合的有效特徵線上不一定有效、當前有效的特徵未來也不一定有效,所以逐漸被其它的可以自動組合特徵的模型取代。業界常用的兩種組合特徵的方式是:FM系列以及Tree系列。
  • 【算法】TF-IDF算法及應用
    這個問題涉及到數據挖掘、文本處理、信息檢索等很多計算機前沿領域,但是出乎意料的是,有一個非常簡單的經典算法,可以給出令人相當滿意的結果。它簡單到都不需要高等數學,普通人只用10分鐘就可以理解,這就是我今天想要介紹的TF-IDF(https://en.wikipedia.org/wiki/Tf%E2%80%93idf )算法。讓我們從一個實例開始講起。
  • 文本挖掘預處理之TF-IDF
    這裡就對TF-IDF的原理做一個總結。1.在上一節中,我們講到幾乎所有文本都會出現的"to"其詞頻雖然高,但是重要性卻應該比詞頻低的"China"和「Travel」要低。我們的IDF就是來幫助我們來反應這個詞的重要性的,進而修正僅僅用詞頻表示的詞特徵值。概括來講, IDF反應了一個詞在所有文本中出現的頻率,如果一個詞在很多的文本中出現,那麼它的IDF值應該低,比如上文中的「to」。
  • NLP之詞袋模型和TF-IDF模型
    字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF加權的各種形式常被搜尋引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。TF-IDF的主要思想是,如果某個詞或短語在一篇文章中出現的頻率TF(Term Frequency,詞頻),詞頻高,並且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類。
  • 網站title是一個seo優化成功的重要細節
    首先、title在搜尋引擎優化中的真正意義是什麼。在搜尋引擎眼中,能夠影響網站排名的原因中,網站的title在其中扮演著一個非常重要的角色,而且在影響網站排名中的原因中會佔了10%到20%。因此一個好的title可以使得網站在搜尋引擎中的表現非常不錯。
  • 服務詳解:關鍵詞優化seo優化_關鍵詞首頁優化
    專注於SEO關鍵詞排名優化,品牌網站建設,營銷型網站建設,App、小程序開發,搜尋引擎seo優化,競價託管sem,品牌口碑建設與代運營等服務。企業通過引進前BAT產品經理不斷豐富產品線優化技術實力,力爭為企業提供更優,更全,更精的網絡營銷服務。關鍵詞優化seo優化_關鍵詞首頁優化而seo自然快照的優化也逐漸趨於權威性和累積性。
  • NLP03:基於TF-IDF和LogisticRegression的文本分類
    1.TF-IDF算法步驟1.1 計算詞頻考慮到文章有長短之分,為了便於不同文章的比較,進行"詞頻"標準化。缺點是有時候用詞頻來衡量文章中的一個詞的重要性不夠全面,有時候重要的詞出現的可能不夠多,而且這種計算無法體現位置信息,無法體現詞在上下文的重要性。如果要體現詞的上下文結構,那麼你可能需要使用word2vec算法來支持。2.
  • 利用TF-IDF解釋「SEO診斷」排名現象
    (速途網專欄 作者:虛子雨)TF-IDF算法已經被很多專業的SEO工作者所熟知,它是一種用於資訊檢索與資訊探勘的常用加權技術,運用到網頁分析中就是對於網頁中的相關關鍵詞進行加權,分析眾多網頁中某個特定關鍵詞的相關網頁關鍵詞權值,並在最後的排序算法中給予科學的依據。
  • 公司網站seo優化教程
    公司企業站,通過相關seo教程,對網站進行seo優化,核心點在於重點頁面的相關性建設,豐富性建設,權威性建設。還有一個點,即用戶行為的正向影響,也就是自然用戶的大量點擊,或者利用軟體模仿正常用戶點擊。seo很多時候比拼的是格局,比拼的是資源以及執行力。本公司網站seo優化教程內容源自網絡,有部分借鑑意義,僅供參考。
  • 網站優化排名TF-IDF百度算法啄木鳥建站為你分享奧秘之處
    1、百度百科很多人向我們反映百度給自己的產品有很好的排名,是百度人工幹預對自己的產品比較喜歡,我們都是公認的百度百科有權威性,到底是怎麼的樣,是不是百度喜歡自己的產品的呢,其實不然,我個人感覺這個不是主要的因素,百度的終止是向用戶提供有價值的產品,為啥有很多的百度百科沒有排名的呢,這裡就是百度採用了TF-IDF算法,我們在做網站優化的時候,要多了解百度的算法,網站優化其實就是一場遊戲