從事SEO行業時間比較長的人應該聽說過TF-IDF算法,TF-IDF算法屬於搜尋引擎中的核心部分。TF-IDF算法是增加相關詞的覆蓋率,以及高優布局關鍵詞密度,從而在百度谷歌等搜尋引擎內容質量這一項上的排名加分,獲取超高分值。最近在碼迷網有幾篇TF-IDF算法原理及公式本文將深入為大家解析,有興趣請往下深度閱讀。
一、什麼是TF-IDF
先來看百度百科對TF-IDF的解釋:
「TF-IDF是一種統計方法,用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF加權的各種形式常被搜尋引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。」
文章連結:https://baike.baidu.com/item/tf-idf
大家看了定義之後跟我一樣是懵的吧,為了便於大家理解,作者再舉一個簡單易懂的慄子。
假如說我們在百度上搜索「水果」這個詞,百度爬蟲抓取的網站內容有下面5個,你覺得哪個內容排名第一?
內容1: 水果有水果,水果,水果,水果,水果內容2: 水果有蘋果,桃子,西瓜,菠蘿,梨子內容3: 蔬菜都很好吃,我最愛吃茄子了內容4: 蘋果,梨子都是很好吃的水果內容5:好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃相信很多人心裏面有了答案,大家憑直覺,內容2 跟 內容5 應該排名靠前,內容5很可能是第1,內容2是排名第2。
最終的排名順序為52413,至於為什麼呢?核心詞為「水果」,5和2裡都有「水果」和「蘋果」兩個關鍵詞且5裡有出現兩次「水果」,4比2少了一個蘋果關鍵詞,1裡面包括有「水果」這個關鍵詞但有堆砌行為,3和核心詞沒有相關性。
其實按照TF-IDF算法也能得出這個結論,那麼TF-IDF是怎麼做的,請大家跟上我的步伐。
二、TF-IDF算法的計算步驟
第1步:計算逆文檔頻率
我們先統計各個詞語被包含的文章數。比如「水果」被4篇文章(內容1、2、4、5)引用,4就是「水果」的逆文檔頻率。
分詞後,各個單詞的逆文檔頻率如下:
水果=4、蘋果=3、好吃=2、菠蘿=2、西瓜=2、梨子=2,桃子=1、獼猴桃=1、蔬菜=1,茄子=1
PS: IDF= log(語料庫中的文件總數 / 包含詞語 t 的文件數目),為了便於理解,這裡做了精簡。
按照我們的直覺,如果一篇文章把逆文檔頻率最高的前面的詞都包含了,說明這篇文章內容更貼合用戶意圖,更受到搜尋引擎喜歡。回到例子,」水果、蘋果」是本例中重要性最高的2個詞,如果內容中包含「水果、蘋果」,那麼這篇內容質量就越好。
所以把包含「水果、蘋果」的內容拿出來,就是比較靠譜的內容了:
內容2: 水果有蘋果,桃子,西瓜,菠蘿,梨子內容4: 蘋果,梨子都是很好吃的水果內容5: 好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃第2步:計算詞頻(TF)
我們把內容1、內容3砍掉了,剩下的內容2、內容4、內容5怎麼排序。我們想一下,一個詞語在內容中出現的次數越高,也說明這個詞語對這篇文章更重要。回到本例,「水果」是我們的核心詞,那麼因為內容5中出現「水果」兩次,內容2、內容4次數是1,那麼內容5勝出。最後的排序結果如下
內容5: 好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃 (第一名)內容2: 水果有蘋果,桃子,西瓜,菠蘿,梨子(第二名)內容4: 蘋果,梨子都是很好吃的水果(第三名)內容1: 水果有水果,水果,水果,水果,水果(相關度不夠,被剔除)內容3: 蔬菜都很好吃,我最愛吃茄子了( 相關度不夠,被剔除 )以上是砍了又砍的TF-IDF算法簡化解讀版,真實的TFIDF算法比這個要正規複雜很多,這裡只是讓大家get到重點,碼迷的目的就達到了。
三、TF-IDF對SEO的重要性
TF-IDF對SEO非常非常非常重要,重要的事情說三遍!
我們可以看到,TFIDF算法,不僅可以衡量關鍵詞對頁面的重要性,更能衡量文章的廣度相關性。對於百度、360、google來說,TFIDF算法的出現屏蔽了一大批用關鍵詞密度來獲取排名的SEO小白,同時提升了搜索質量啊,真是一箭雙鵰。
百度百科裡面說了:「除了TF-IDF以外,網際網路上的搜尋引擎還會使用基於連結分析的評級方法,以確定文件在搜尋結果中出現的順序。」。意思是什麼?你排名可以由下面的公式決定。文章得分=TFIDF得分+連結得分,百度搜尋引擎在用TFIDF!!
那麼有人站出來問了,人家只是在百度百科裡面說,百度也沒有說用TFIDF算法啊,有本事亮出實錘來。
好吧~咱往下接著看。
1、百度在用TFIDF算法
百度專利中使用TFIDF的實錘,請查看百度專利文檔《CN102737018A-基於非線性統一權值對檢索結果進行排序的方法及裝置-公開》。搜索算法來去匆匆,百度算法更新迭代也非常快,但是TFIDF算法有點不同,它是目前最核心的搜索算法之一。
2、GOOGLE也用TFIDF算法
google承認在搜索中使用的TFIDF算法:原文連結:https://www.searchenginejournal.com/google-tf-idf/304361/
3、TFIDF得分比重極高
如果搜尋引擎確定使用TF-IDF對網頁內容作為評判質量的因子,那麼這個比重有多大?碼迷知道,現在的搜尋引擎一般用如下的算法計算網站頁面得分:score(頁面得分) = TFIDF分 * x + 連結分 * y + 用戶體驗分 * z(其中x+y+z=100%;);
大約在2G左右的谷歌搜索資料中,碼迷做了人工智慧訓練,預測TFIDF分值大約佔百度40%左右的權重,谷歌更是達到了50%。
連結分,通過快排朋友透露,權重大約佔百度20%左右,谷歌尚不清楚。
用戶體驗得分(可以通過刷快排提高)的比率,百度在40%左右,Google則沒有找到相關快排技術文檔。
所以說,在中國做SEO:排名得分=40%的內容質量(TFIDF)+40%的用戶體驗分(快排)+20%的連結分(域名+外鏈),TFIDF重要程度不言而喻。