【關於 TF-idf】 那些你不知道的事

2021-03-02 關於NLP那些你不知道的事

作者:楊夕

項目地址:https://github.com/km1994/NLP-Interview-Notes

個人論文讀書筆記:https://github.com/km1994/nlp_paper_study

【註:手機閱讀可能圖片打不開!!!】



一、one-hot 篇1.1 為什麼有 one-hot ?

由於計算機無法識別 文本語言,所以需要將文本數位化,one-hot 方法最早的一種將 文本數位化的方法。

1.2 one-hot 是什麼?

用一個很長的向量來表示一個詞,向量長度為詞典的大小N,每個向量只有一個維度為1,其餘維度全部為0,為1的位置表示該詞語在詞典的位置。

1.3 one-hot 有什麼特點?1.4 one-hot 存在哪些問題?

維度災難:容易受維數災難的困擾,每個詞語的維度就是語料庫字典的長度;

離散、稀疏問題:因為 one-Hot 中,句子向量,如果詞出現則為1,沒出現則為0,但是由於維度遠大於句子長度,所以句子中的1遠小於0的個數;

維度鴻溝問題:詞語的編碼往往是隨機的,導致不能很好地刻畫詞與詞之間的相似性。

二、TF-IDF 篇2.1 什麼是 TF-IDF?

TF-IDF 是一種統計方法,用以評估句子中的某一個詞(字)對於整個文檔的重要程度。

2.2 TF-IDF 如何評估詞的重要程度?2.3 TF-IDF 的思想是什麼?

如果某個單詞在一篇文章中出現的頻率TF高,並且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類;

2.4 TF-IDF 的計算公式是什麼?

2.5 TF-IDF 怎麼描述?

某一特定句子內的高詞語頻率,以及該詞語在整個文檔集合中的低文檔頻率,可以產生出高權重的TF-IDF。因此,TF-IDF傾向於過濾掉常見的詞語,保留重要的詞語。

2.6 TF-IDF 的優點是什麼?2.7 TF-IDF 的缺點是什麼?

其簡單結構並沒有考慮詞語的語義信息,無法處理一詞多義與一義多詞的情況。

2.8 TF-IDF 的應用?參考資料

神經網路語言模型(NNLM)的理解

NLP 面試題(一)和答案,附


相關焦點

  • tf-idf practice
    =[] for i in range(np.size(docword,0)): tf1=docword[i,:]/row_sum[i] tf.append(tf1) tf=np.array(tf) return tf def buildIDFMatrix(docword) : column_sum=docword.sum
  • 【TF-IDF】傳統方法TF-IDF解決短文本相似度問題
    (self.get_score(i, query)) return score_list其中,documents_list 表示需要輸入的文本列表,內部每個文本需要事先分好詞;documents_number表示文本總個數;tf 用於存儲每個文本中每個詞的詞頻;idf用於存儲每個詞彙的逆文檔頻率;init函數是類初始化函數,用於求解文本集合中的tf和idf變量;get_score
  • TF-IDF簡介
    tf-idf,英語的全稱叫做 term frequency-inverse document frequency,它是文本挖掘領域的基本技術之一
  • TF-IDF原理與實踐
    知道了"詞頻"(TF)和"逆文檔頻率"(IDF)以後,將這兩個值相乘,就得到了一個詞的TF-IDF值。某個詞對文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的幾個詞,就是這篇文章的關鍵詞。下面就是這個算法的細節。第一步,計算詞頻。
  • NLP入門(二)探究TF-IDF的原理
    在NLP中,TF-IDF的計算公式如下:                tfidf = tf*idf,其中,tf是詞頻(Term Frequency),idf為逆向文件頻率(Inverse Document Frequency)。
  • 5分鐘掌握TF-IDF關鍵詞提取
    這樣就可以給出一個合理的定義了,如果一個詞在整個語料庫中(可以當作是在所有文章中)出現的次數都很高(這篇文章有它,另一篇還有這個詞),那麼這個詞的重要程度就不高,因為它更像一個通用詞。如果另一個詞在整體的語料庫中的詞頻很低,但是在這一篇文章中卻大量出現,就有理由認為它在這篇文章中就很重要了。例如蜜蜂這個詞,在籃球,大熊貓相關的文章中基本不可能出現,在這裡卻大量出現了。
  • 機器學習之TF-IDF統計算法介紹與代碼實現(篇五)
    公式解釋 分子|D|:語料庫中的文件總數 分母:包含詞語的文件數目(即文件數目)如果該詞語不在語料庫中計算逆文檔頻率idf1defcomputeIDF( wordDictList ): 2# 用一個字典對象保存idf結果,每個詞作為key,初始值為0 3 idfDict = dict.fromkeys(wordDictList[0], 0) 4 N = len(wordDictList
  • 自然語言處理 | TF-IDF原理及示例解析
    反之如果一個詞在大量網頁中出現,我們看到它仍然不很清楚要找什麼內容,因此它的權重應該小。我愛北京天安門",]# 該類會將文本中的詞語轉換為詞頻矩陣,矩陣元素a[i][j] 表示j詞在i類文本下的詞頻vectorizer = CountVectorizer()# 該類會統計每個詞語的tf-idf
  • 文本挖掘預處理之TF-IDF
    個短文本做了詞頻統計:corpus=["I come to China to travel","This is a car polupar in China",    "I love tea and Apple ",    "The work is to write some papers in science"]    不考慮停用詞
  • TF-IDF算法原理公式以及對SEO優化的重要性
    文章連結:https://baike.baidu.com/item/tf-idf大家看了定義之後跟我一樣是懵的吧,為了便於大家理解,作者再舉一個簡單易懂的慄子。假如說我們在百度上搜索「水果」這個詞,百度爬蟲抓取的網站內容有下面5個,你覺得哪個內容排名第一?
  • 詞袋模型和TF-IDF
    我知道你們很多人也這麼做!所以,我在這裡用這個例子。你可以看到關於這部電影的一些對比評論,以及電影的長度和節奏。從文本創建向量你能想出一些我們可以在一開始就把一個句子向量化的技巧嗎?基本要求是:它不應該導致稀疏矩陣,因為稀疏矩陣會導致高計算成本詞嵌入是一種利用向量表示文本的技術。
  • NLP之詞袋模型和TF-IDF模型
    在Scikit-Learn中實現了TF-IDF算法,實例化TfidfTransformer即可:>>> from sklearn.feature_extraction.text import TfidfTransformer>>> transformer = TfidfTransformer(smooth_idf=False
  • 【關於 NLP】 那些你不知道的事
    經典會議論文研讀篇¡ 理論學習篇¨ 經典論文研讀篇¨ 【關於 transformer 】 那些的你不知道的事¨ 【關於 預訓練模型】 那些的你不知道的事¨ 【關於 信息抽取】 那些的你不知道的事¡ 【關於 實體關係聯合抽取】 那些的你不知道的事¡ 【關於 命名實體識別】那些你不知道的事:¡
  • 關於耶穌,你不知道的那些事
    你或多或少聽過耶穌的名字,多少也知道關於耶穌的一些事情。今天,就和你聊聊關於耶穌,你不知道的那些事。首先,說說耶穌的出生。耶穌,公元元年出生在以色列國的一個小城市伯利恆。當時以色列在羅馬帝國的統治之下,屬於羅馬的一個行省。
  • 屈臣氏那些你不知道的事(二):那些關於換購和會員價的事
    屈臣氏那些你不知道的事(二):那些關於換購和會員價的事讀者朋友們,大家好;今天小編繼續來跟大家說說屈臣氏那些你不知道的事情。但是這些產品並非是壞貨,它們都是完整的好貨,並且大多數的保質期都很長,所以關於質量問題,小夥伴們都不需要擔心,你可以放心的換購或者買會員價的產品。關於換購和會員價呢,它們會比你平常買到的產品價格要便宜很多,甚至你能拿到3-4折的優惠。比如說,冬天到了,你想買一盒保溼的面膜,在你進行換購的時候,你就會享受到換購價的優惠。
  • 用詞向量計算句向量距離——NLP你怎麼就那麼難
    好吧,我來幫你回憶一下:有人說了,哎,這個我知道,求詞向量平均嘛!沒錯,但是還不夠。先驗知識告訴我們:句子中的每個詞在句子中的權重是不一樣的你說使用 tf-idf權重?有人忘記tf-idf了?tf:在本篇文章中的詞頻 term frequencyidf:在多少篇文章中出現過的倒數 inversed document frequencytf-idf:tf乘以idf
  • 關於益禾堂你不知道的那些事……
    關於益禾堂你不知道的那些事…… 備註: 不喜歡喝太甜的,點微糖或者無糖 每個人的口味不同,攻略僅供參考
  • 關於導盲犬,那些你不知道的事
    關於導盲犬 你不知道的事 關於導盲犬,這些事情你未必知道。 當你在公共場合時,你會反感帶著導盲犬的盲人出現嗎? 關於導盲犬,這些事情你未必知道。 關於導盲犬,這些事情你需要知道。
  • 【算法】TF-IDF算法及應用
    它簡單到都不需要高等數學,普通人只用10分鐘就可以理解,這就是我今天想要介紹的TF-IDF(https://en.wikipedia.org/wiki/Tf%E2%80%93idf )算法。讓我們從一個實例開始講起。假定現在有一篇長文《中國的蜜蜂養殖》,我們準備用計算機提取它的關鍵詞。一個容易想到的思路,就是找到出現次數最多的詞。