3.3 CBOW與SkipGram的比較 數據比較少的時候,SkipGram效果比較好。 因為通過SkipGram的訓練方式,我們能從較少的數據集中構造出更多的訓練樣本,CBOW是對中心詞構造一條樣本,SkipGram是對中心詞可以構造多條訓練樣本。出現次數較少的單詞在語料庫中較多的時候,SkipGram效果比較好。 因為CBOW的映射層起到Smoothing的作用,模型會預測更經常出現的單詞。3.4 Word Embedding by Matrix Factorization
矩陣分解也是可以學習詞向量的。假如我們有三個句子組成的語料庫:I enjoy flying. I like NLP. I like deep learning. 我們可以統計出單詞的共現矩陣(Co-occurrence Matrix),將共現矩陣行(列)作為詞向量。例如:假設統計窗口大小為,「I like」出現在第,句話中,一共出現次,所以「I like」=。對稱的窗口指的是,「like I」也是次。將共現矩陣行(列)作為詞向量表示後,可以知道「like」、「enjoy」都是在「I」附近且統計數目大約相等,因此它們意思相近。
3.6 Glove和Word2Vec、 LSA對比有什麼區別?(Word2Vec vs Glove vs LSA)(1)Glove vs LSALSA(Latent Semantic Analysis)可以基於co-occurance matrix構建詞向量,實質上是基於全局語料採用SVD進行矩陣分解,然而SVD計算複雜度高;Glove可看作是對LSA一種優化的高效矩陣分解算法,採用Adagrad對最小平方損失進行優化;(2)Word2Vec vs GloveWord2Vec是局部語料庫訓練的,其特徵提取是基於滑窗的;而Glove的滑窗是為了構建co-occurance matrix,是基於全局語料的,可見Glove需要事先統計共現概率;因此,Word2Vec可以進行在線學習,Glove則需要統計固定語料信息。Word2Vec是無監督學習,同樣由於不需要人工標註;Glove通常被認為是無監督學習,但實際上Glove還是有label的,即共現次數。Word2Vec損失函數實質上是帶權重的交叉熵,權重固定;Glove的損失函數是最小平方損失函數,權重可以做映射變換。總體來看,Glove可以被看作是更換了目標函數和權重函數的全局Word2Vec。3.7 Gaussian Embedding
BERT使用Transformer的Encoder結構作為自己的組件。BERT訓練的時候,隨機把語料庫中15%的單詞做Mask操作。對於15%的單詞做Mask操作分為三種情況:80%的單詞直接用[Mask]替換、10%的單詞直接替換成另一個新的單詞、10%的單詞保持不變,用這種方式訓練的語言模型叫做MLM(Masked Language Model)。其實BERT的目標函數的核心思想來自於圖像領域的DAE。
訓練的時間更長,訓練的Batch更大,訓練的數據更多。NSP任務被移除,因為很多研究者表明NSP任務在BERT中起到的作用不大,ALBERT中也指出NSP任務在BERT中作用不大。在BERT裡面,Mask Token是在數據預處理過程中進行的,所以不管數據循環訓練多少次,Mask Token是不變的。在訓練RoBERTa時,針對每個訓練數據是重新隨機的選取Mask Token。4.3.5 MASS
4.3.6 XLNet(1)What are the problems of BERT?Training and Testing discrepancy。BERT模型在訓練的時候,訓練數據是隨機Mask掉一些單詞,但是在測試或預測的時候輸入的數據是沒有Mask操作,這會導致訓練數據和測試數據不一致的問題。Independent assumption of predicted tokens。比如,BERT模型需要預測句子「今天是[MASK]講[MASK]」中被Mask的單詞。BERT首先根據上下文「今天、是、講」來預測出「周日」,再根據上下文「今天、是、講」預測出「CV」,但是「周日」和「CV」是有一定關係的,BERT模型並沒有考慮預測單詞之間的關係。(2)Two Objectives: Autoregressive vs AutoencodingAR:Autoregressive Language ModelingAE:Autoencoding Language Modeling
本文是Microstrong在觀看李文哲在B站上講解的直播課程《Distributed Representation: From Static Embedding to Contextualized Embedding》的筆記。視頻地址:https://www.bilibili.com/video/BV1EK411p7Nd?p=1 。
什麼情況下詞袋模型比詞嵌入更具優勢,值得大家學習和收藏!作者 | Edward Ma編譯 | 專知翻譯 | Mandy3 basic approaches in Bag of Words which are better than Word Embeddings現如今大家都在討論詞(或字符、句子、文檔)嵌入技術,詞袋模型還有使用的價值嗎?
,由詞組成的句子就可以在其基礎上表示為向量,該向量的維數仍然是字典的長度,如果出現了相同的詞,那麼就在該詞的維度上添加數值。[1,0,1,1,1,0,0,1,1,1]這就是基本的詞袋模型(bag of words model),每個句子都被表示成了一個向量,它所具備的特徵就簡單的依賴於詞出現的頻率,詞的頻率越高,對應的數值就越大,代表了該詞的重要程度。
雷鋒網(公眾號:雷鋒網) AI 科技評論按:這篇文章來自自然語言處理以及機器學習專家、Huggingface 的技術負責人 Thomas Wolf,介紹了文本嵌入的重點知識和最新趨勢。雷鋒網 AI 科技評論編譯如下。詞嵌入和句子嵌入已成為所有基於深度學習的自然語言處理(NLP)系統的重要組成部分。它們在定長的密集向量中編碼單詞和句子,以大幅度提高文本數據的處理性能。
Unsupervised Learning: Word Embedding本文介紹NLP中詞嵌入(Word Embedding)相關的基本知識,基於降維思想提供了count-based和prediction-based兩種方法,並介紹了該思想在機器問答、機器翻譯、圖像分類、文檔嵌入等方面的應用Introduction詞嵌入(word