深入淺出Word2Vec原理解析

2021-02-13 Microstrong

本文概覽：

1. 背景知識

Word2Vec是語言模型中的一種，它是從大量文本預料中以無監督方式學習語義知識的模型，被廣泛地應用於自然語言處理中。

Word2Vec是用來生成詞向量的工具，而詞向量與語言模型有著密切的關係。因此，我們先來了解一些語言模型方面的知識。

1.1 統計語言模型

統計語言模型是用來計算一個句子的概率的概率模型，它通常基於一個語料庫來構建。那什麼叫做一個句子的概率呢？假設

其中的條件概率

看起來好像很簡單，是吧？但是，具體實現起來還是有點麻煩。例如，先來看看模型參數的個數。剛才是考慮一個給定的長度為T的句子，就需要計算T個參數。不防假設語料庫對應詞典

此外，這些參數如何計算呢？常見的方法有n-gram模型、決策樹、最大熵模型、最大熵馬爾可夫模型、條件隨機場、神經網絡等方法。本文只討論n-gram模型和神經網絡兩種方法。

1.2 N-gram模型

考慮

根據大數定理，當語料庫足夠大時，

其中，

從公式（1）可以看出：一個詞出現的概率與它前面的所有詞都相關。如果假定一個詞出現的概率只與它前面固定數目的詞相關呢？這就是n-gram模型的基本思想，它做了一個

於是，公式（2）就變成了

以

這樣簡化，不僅使得單個參數的統計變得更容易（統計時需要匹配的詞串更短），也使得參數的總數變少了。

那麼，n-gram中的參數

表1：模型參數數量與n的關係

在計算複雜度方面，表1給出了n-gram模型中模型參數數量隨著

在模型效果方面，理論上是

另外，n-gram模型中還有一個叫做平滑化的重要環節。回到公式（3），考慮兩個問題：

顯然不能，但這是一個無法迴避的問題，哪怕你的預料庫有多麼大。平滑化技術就是用來處理這個問題的，這裡不展開討論。

總結起來，n-gram模型是這樣一種模型，其主要工作是在語料中統計各種詞串出現的次數以及平滑化處理。概率值計算好之後就存儲起來，下次需要計算一個句子的概率時，只需找到相關的概率參數，將它們連乘起來就好了。

然而，在機器學習領域有一種通用的解決問題的方法：對所考慮的問題建模後先為其構造一個目標函數，然後對這個目標函數進行優化，從而求得一組最優的參數，最後利用這組最優參數對應的模型來進行預測。

對於統計語言模型而言，利用最大似然，可把目標函數設為：

其中，

當然，實際應用中常採用最大對數似然，即把目標函數設為

然後對這個函數進行最大化。

從公式（4）可見，概率

其中

很顯然，對於這樣一種方法，最關鍵的地方就在於函數

1.3 神經概率語言模型

本小節介紹 Bengio 等人於2003年在論文《A Neural Probabilistic Language Model》中提出的一種神經概率語言模型。該論文首次提出用神經網絡來解決語言模型的問題，雖然在當時並沒有得到太多的重視，卻為後來深度學習在解決語言模型問題甚至很多別的nlp問題時奠定了堅實的基礎，後人站在Yoshua Bengio的肩膀上，做出了更多的成就。包括Word2Vec的作者Tomas Mikolov在NNLM的基礎上提出了RNNLM和後來的Word2Vec。文中也較早地提出將word表示一個低秩的向量，而不是One-Hot。word embedding作為一個language model的副產品，在後面的研究中起到了關鍵作用，為研究者提供了更加寬廣的思路。值得注意的是Word2Vec的概念也是在該論文中提出的。

什麼是詞向量呢？簡單來說就是，對詞典

既然是神經概率語言模型，其中當然要用到神經網絡了。下圖給出了神經網絡的結構示意圖。模型一共三層，第一層是映射層，將

經過上面步驟的計算得到的

其中

這裡，需要注意的是需要提前初始化一個word embedding矩陣，每一行表示一個單詞的向量。詞向量也是訓練參數，在每次訓練中進行更新。這裡可以看出詞向量是語言模型的一個副產物，因為語言模型本身的工作是為了估計給定的一句話有多像人類的話，但從後來的研究發現，語言模型成了一個非常好的工具。

Softmax是一個非常低效的處理方式，需要先計算每個單詞的概率，並且還要計算指數，指數在計算機中都是用級數來近似的，計算複雜度很高，最後再做歸一化處理。此後很多研究都針對這個問題進行了優化，比如層級softmax、softmax tree。

當然NNLM的效果在現在看來並不算什麼，但對於後面的相關研究具有非常重要的意義。論文中的Future Work提到了用RNN來代替MLP作為模型可能會取得更好的效果，在後面Tomas Mikolov的博士論文中得到了驗證，也就是後來的RNNLM。

與n-gram模型相比，神經概率語言模型有什麼優勢呢？主要有以下兩點：

舉例來說，如果某個（英語）語料中

A dog is running in the room
A cat is running in the room
The cat is running in a room
A dog is walking in a bedroom
The dog was walking in the room

基於詞向量的模型自帶平滑化功能（由公式（5）可知，

最後，我們回過頭來想想，詞向量在整個神經概率語言模型中扮演了什麼角色呢？訓練時，它是用來幫助構造目標函數的輔助參數，訓練完成後，它也好像只是語言模型的一個副產品。但這個副產品可不能小覷，下一節將對其作進一步闡述。

2. 詞向量

自然語言處理相關任務中要將自然語言交給機器學習中的算法來處理，通常需要將語言數學化，因為機器不是人，機器只認數學符號。向量是人把自然界的東西抽象出來交給機器處理的東西，基本上可以說向量是人對機器輸入的主要方式了。

詞向量就是用來將語言中的詞進行數學化的一種方式，顧名思義，詞向量就是把一個詞表示成一個向量。我們都知道詞在送到神經網絡訓練之前需要將其編碼成數值變量，常見的編碼方式有兩種：One-Hot Representation 和 Distributed Representation。

2.1 One-Hot Representation

一種最簡單的詞向量方式是One-Hot編碼，就是用一個很長的向量來表示一個詞，向量的長度為詞典的大小，向量中只有一個

舉個例子：I like writing code，那麼轉換成獨熱編碼就是:

詞One-Hot 編碼I1 0 0 0like0 1 0 0writing0 0 1 0code0 0 0 1

這種One Hot編碼如果採用稀疏方式存儲，會是非常的簡潔：也就是給每個詞分配一個數字 ID 。比如上面的例子中，code記為

但這種詞表示有三個缺點：

（1）容易受維數災難的困擾，尤其是將其用於 Deep Learning的一些算法時；

當你的詞彙量達到千萬甚至上億級別的時候,你會遇到一個更加嚴重的問題,維度爆炸了.這裡舉例使用的是

（ 2 ）詞彙鴻溝，不能很好地刻畫詞與詞之間的相似性；

任意兩個詞之間都是孤立的，從這兩個向量中看不出兩個詞是否有關係。比如說，I、like之間的關係和like、writing之間的關係,通過

（3）強稀疏性；

當維度過度增長的時候,你會發現0特別多,這樣造成的後果就是整個向量中有用的信息特別少,幾乎就沒法做計算。

由於One-hot編碼存在以上種種問題，所以研究者就會尋求發展，用另外的方式表示，就是Distributed Representation。

2.2 Distributed Representation

Distributed Representation最早是Hinton於1986年提出的，可以克服One-Hot Representation的上述缺點。其基本想法是：通過訓練將某種語言中的每一個詞映射成一個固定長度的短向量（當然這裡的「短」是相對於One-Hot Representation的「長」而言的），所有這些向量構成一個詞向量空間，而每一個向量則可視為該空間中的一個點，在這個空間上引入「距離」，就可以根據詞之間的距離來判斷它們之間的語法、語義上的相似性了。Word2Vec中採用的就是這種Distributed Representation 的詞向量。

為什麼叫做 Distributed Representation？很多人問到這個問題。一個簡單的解釋是這樣的：對於One-Hot Representation，向量中只有一個非零分量，非常集中（有點孤注一擲的感覺）；而對於Distributed Representation，向量中有大量非零分量，相對分散（有點風險平攤的感覺），把詞的信息分布到各個分量中去了。這一點，跟並行計算裡的分布式並行很像。

如何獲取詞向量呢？有很多不同模型可以用來估計詞向量，包括有名的LSA（Latent Semantic Analysis）和LDA（Latent Dirichlet Allocation）。此外，利用神經網絡算法也是一種常用的方法，上一節介紹的神經概率語言模型就是一個很好的實例。當然，在那個模型中，目標是生成語言模型，詞向量只是一個副產品。事實上，大部分情況下，詞向量和語言模型都是捆綁在一起的，訓練完成後兩者同時得到。在用神經網絡訓練語言模型方面，最經典的論文就是Bengio於2003年發表的《A Neural Probabilistic Language Model》，其後有一系列相關的研究工作，其中也包括谷歌Tomas Mikolov團隊的Word2Vec。

3. Word2Vec的網絡結構

Word2Vec是輕量級的神經網絡，其模型僅僅包括輸入層、隱藏層和輸出層，模型框架根據輸入輸出的不同，主要包括CBOW和Skip-gram模型。 CBOW的方式是在知道詞

3.1 CBOW3.1.1 Simple CBOW Model

為了更好的了解模型深處的原理，我們先從Simple CBOW model（僅輸入一個詞，輸出一個詞）框架說起。

如上圖所示：

input layer輸入的X是單詞的one-hot representation（考慮一個詞表

了解了Simple CBOW model的模型框架之後，我們來學習一下其目標函數。

輸出層通過softmax歸一化，

3.1.2 CBOW Multi-Word Context Model

了解了Simple CBOW model之後，擴展到CBOW就很容易了，只是把單個輸入換成多個輸入罷了（劃紅線部分）。

對比可以發現，和simple CBOW不同之處在於，輸入由

3.2 Skip-gram Model

有了CBOW的介紹，對於Skip-gram model 的理解應該會更快一些。

如上圖所示，Skip-gram model是通過輸入一個詞去預測多個詞的概率。輸入層到隱藏層的原理和simple CBOW一樣，不同的是隱藏層到輸出層，損失函數變成了

一般神經網絡語言模型在預測的時候，輸出的是預測目標詞的概率，也就是說我每一次預測都要基於全部的數據集進行計算，這無疑會帶來很大的時間開銷。不同於其他神經網絡，Word2Vec提出兩種加快訓練速度的方式，一種是Hierarchical softmax，另一種是Negative Sampling。

4. 基於Hierarchical Softmax的模型

基於層次Softmax的模型主要包括輸入層、投影層（隱藏層）和輸出層，非常的類似神經網絡結構。對於Word2Vec中基於層次Softmax的CBOW模型，我們需要最終優化的目標函數是 :

其中

4.1 基於Hierarchical Softmax的CBOW4.1.1 CBOW模型網絡結構

下圖給出了基於層次Softmax的CBOW的整體結構，首先它包括輸入層、投影層和輸出層：

投影層：指的是直接對

為了便於下面的介紹和公式的推導，這裡需要預先定義一些變量：

既然已經引入了那麼多符號，我們通過一個簡單的例子把它們落到實處吧，我們考慮單詞w="足球"的情形。下圖中紅色線路就是我們的單詞走過的路徑，整個路徑上的

下面我們需要開始考慮如何構建條件概率函數

既然是二分類，那麼我們可以定義一個為正類，一個為負類。我們的"足球"的哈夫曼編碼為

簡而言之就是，將一個結點進行分類時，分到左邊就是負類，分到右邊就是正類。

在進行二分類的時候，這裡選擇了Sigmoid函數。那麼，一個結點被分為正類的概率就是：

被分為負類的概率就是

對於從根節點出發到達「足球」這個葉子節點所經歷的4次二分類，將每次分類的概率寫出來就是：

但是，我們要求的是

至此，通過w="足球"的小例子，Hierarchical Softmax的基本思想就已經介紹完了。小結一下：對於詞典中的任意一個單詞

條件概率

其中：

或者寫成整體表達式：

將公式(8)帶入公式(6)中，得到:

為了梯度推導方便起見，將上式中雙重求和符號下的內容簡記為

至此，已經推導出了CBOW模型的目標函數公式(9)，接下來就是討論如何優化它，即如何將這個函數最大化。Word2Vec裡面採用的是隨機梯度上升法。而梯度類算法的關鍵是給出相應的梯度計算公式，進行反向傳播。

4.1.3 參數更新

首先考慮

於是，

接下來考慮

到了這裡，我們已經求出來了

4.2 基於Hierarchical Softmax的Skip-gram

本小節介紹Word2Vec中的另一個模型-Skip-gram模型，由於推導過程與CBOW大同小異，因此會沿用上小節引入的記號。

4.2.1 Skip-gram模型網絡結構

下圖給出了Skip-gram模型的網絡結構，同CBOW模型的網絡結構一樣，它也包括三層：輸入層、投影層和輸出層。下面以樣本

投影層：這是個恆等投影，把

對於Skip-gram模型，已知的是當前詞

上式中

其中：

將公式（10）依次代回，可得對數似然函數公式（7）的具體表達式：

同樣，為了梯度推導方便，將三重求和符號裡的內容簡記為

至此，已經推導出了Skip-gram模型的目標函數（公式11），接下來同樣利用隨機梯度上升法對其進行優化。而梯度類算法的關鍵是給出相應的梯度計算公式，進行反向傳播。

4.2.3 參數更新

首先考慮

於是，

同理,根據對稱性,可以很容易得到

我們也可以得到關於

5. 基於Negative Sampling的模型

本節將介紹基於Negative Sampling的CBOW和Skip-gram模型。Negative Sampling（簡稱為NEG）是Tomas Mikolov等人在論文《Distributed Representations of Words and Phrases and their Compositionality》中提出的，它是NCE（Noise Contrastive Estimation）的一個簡化版，目的是用來提高訓練速度並改善所得詞向量的質量。與Hierarchical Softmax相比，NEG不再使用複雜的Huffman樹，而是利用相對簡單的隨機負採樣，能大幅度提高性能，因而可作為Hierarchical Softmax的一種替代。

NCE 的細節有點複雜，其本質是利用已知的概率密度函數來估計未知的概率密度函數。簡單來說，假設未知的概率密度函數為X，已知的概率密度為Y，如果得到了X和Y的關係，那麼X也就可以求出來了。具體可以參考論文《 Noise-contrastive estimation of unnormalized statistical models, with applications to natural image statistics》。

5.1 負採樣算法簡單介紹

顧名思義，在基於Negative Sampling的CBOW和Skip-gram模型中，負採樣是個很重要的環節，對於一個給定的詞

詞典

下面，先用一段通俗的描述來幫助讀者理解帶權採樣的機理。設詞典

這裡

接下來再談談Word2Vec中的具體做法。記

圖：

將內部剖分結點

有了這個映射，採樣就簡單了：每次生成一個

值得一提的是，Word2Vec源碼中為詞典

此外，代碼中取

5.2 基於Negative Sampling的CBOW

上面已經介紹完了負採樣算法，下面開始推導出基於Negative Sampling的CBOW的目標函數。首先我們先選好一個關於

上式表示詞

對於一個給定的正樣本

其中:

這裡

為什麼要最大化

其中，

可以作為最終的整體優化目標。當然，這裡為了求導方便，對

同樣，為了求導方便,我們還是取

接下來，利用隨機梯度上升法求梯度。首先考慮

那麼

同時根據對稱性，可以得到

那麼

5.3 基於Ngative Sampling的Skip-gram

本小節介紹基於Negative Sampling的Skip-gram模型。它和上一小節介紹的CBOW模型所用的思想是一樣的，因此，這裡我們直接從目標函數出發，且沿用之前的記號。

對於一個給定的樣本

其中：

或者寫成整體表達式：

這裡

就可以作為整體優化的目標。同樣，我們取

為了梯度推導的方便，我們依舊將三重求和符號下的內容提取出來，記為

接下來，利用隨機梯度上升法求梯度。首先考慮

然後得到

同理根據對稱性,得到：

然後得到

6. 關於Word2Vec若干問題的思考

（1）Word2Vec兩個算法模型的原理是什麼，網絡結構怎麼畫？

（2）網絡輸入輸出是什麼？隱藏層的激活函數是什麼？輸出層的激活函數是什麼？

（3）目標函數/損失函數是什麼？

（4）Word2Vec如何獲取詞向量？

（5）推導一下Word2Vec參數如何更新？

（6）Word2Vec的兩個模型哪個效果好哪個速度快？為什麼？

（7）Word2Vec加速訓練的方法有哪些？

（8）介紹下Negative Sampling，對詞頻低的和詞頻高的單詞有什麼影響？為什麼？

（9）Word2Vec和隱狄利克雷模型(LDA)有什麼區別與聯繫？

以上問題可以通過本文和參考文章找到答案，這裡不再詳細解答。

（10）介紹下Hierarchical Softmax的計算過程，怎麼把 Huffman 放到網絡中的？參數是如何更新的？對詞頻低的和詞頻高的單詞有什麼影響？為什麼？

Hierarchical Softmax利用了Huffman樹依據詞頻建樹，詞頻大的節點離根節點較近，詞頻低的節點離根節點較遠，距離遠參數數量就多，在訓練的過程中，低頻詞的路徑上的參數能夠得到更多的訓練，所以效果會更好。

（11）Word2Vec有哪些參數，有沒有什麼調參的建議？

Skip-Gram 的速度比CBOW慢一點，小數據集中對低頻次的效果更好；Sub-Sampling Frequent Words可以同時提高算法的速度和精度，Sample 建議取值為

（12）Word2Vec有哪些局限性？

Word2Vec作為一個簡單易用的算法，其也包含了很多局限性：

Word2Vec只考慮到上下文信息，而忽略的全局信息；Word2Vec只考慮了上下文的共現性，而忽略的了彼此之間的順序性；7. Word2Vec在工業界的應用

Word2Vec主要原理是根據上下文來預測單詞，一個詞的意義往往可以從其前後的句子中抽取出來。

而用戶的行為也是一種相似的時間序列，可以通過上下文進行推斷。當用戶瀏覽並與內容進行交互時，我們可以從用戶前後的交互過程中判斷行為的抽象特徵，這就使得我們可以把詞向量模型應用到推薦、廣告領域當中。

7.1 NLP領域Word2Vec學習到的詞向量代表了詞的語義，可以用來做分類、聚類、也可以做詞的相似度計算。把Word2Vec生成的向量直接作為深度神經網絡的輸入，可以做sentiment analysis等工作。7.2 圖嵌入

基於Word2Vec這一類的Graph Embedding方法有很多，具體可以參考論文：DeepWalk（是引入Word2Vec思想比較經典的圖嵌入算法），node2vec，struc2vec 等等。

7.3 推薦領域

Airbnb在論文《Real-time Personalization using Embeddings for Search Ranking at Airbnb》中提出將用戶的瀏覽行為組成List，通過Word2Vec方法學習item的向量，其點擊率提升了21%，且帶動了99%的預定轉化率。該論文主要是在Skip-gram 模型的基礎上做了改進。

Yahoo在論文《E-commerce in Your Inbox: Product Recommendations at Scale》中提出Yahoo郵箱從發送到用戶的購物憑證中抽取商品並組成List，通過Word2Vec學習並為用戶推薦潛在的商品；

7.4 廣告領域

Yahoo在論文《Scalable Semantic Matching of Queries to Ads in Sponsored Search Advertising》中提出將用戶的搜索查詢和廣告組成List，並為其學習特徵向量，以便對於給定的搜索查詢可以匹配適合的廣告。

8. Reference

【1】Rong X. word2vec parameter learning explained[J]. arXiv preprint arXiv:1411.2738, 2014.
【2】【Paper】Word2Vec：詞嵌入的一枚銀彈，地址：https://mp.weixin.qq.com/s/7dsjfcOfm9uPheJrmB0Ghw
【3】Word2Vec詳解-公式推導以及代碼 - link-web的文章 - 知乎 https://zhuanlan.zhihu.com/p/86445394
【4】The Illustrated Word2vec，Jay Alammar，地址：https://jalammar.github.io/illustrated-word2vec/
【5】圖解word2vec（原文翻譯），地址：https://mp.weixin.qq.com/s/Yq_-1eS9UuiUBhNNAIxC-Q
【6】word2vec 相比之前的 Word Embedding 方法好在什麼地方？ - 知乎 https://www.zhihu.com/question/53011711
【7】[NLP] 秒懂詞向量Word2vec的本質 - 穆文的文章 - 知乎 https://zhuanlan.zhihu.com/p/26306795
【8】http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/
【9】word2vec模型深度解析 - TianMin的文章 - 知乎 https://zhuanlan.zhihu.com/p/85998950
【10】 A Neural Probabilistic Language Model - 張俊的文章 - 知乎 https://zhuanlan.zhihu.com/p/21240807
【11】word2vec有什麼應用？ - 知乎 https://www.zhihu.com/question/25269336

最後除引用文獻外也推薦一些看過的資料：
【1】《深度學習word2vec學習筆記》，北流浪子。
【2】《Word2Vec中的數學》，peghoty。
【3】《Deep Learning實戰之Word2Vec》，網易有道。

本文主要參考了peghoty的《Word2Vec中的數學》，寫的非常棒，強烈推薦大家學習。此外，我把自己學習Word2Vec時，收集到的優質資料已經整理好了，公眾號後臺回復【Word2Vec】領取。

深入淺出Word2Vec原理解析

相關焦點

【Word2Vec】深入淺出Word2Vec原理解析

word2vec模型深度解析

Doc2vec原理解析及代碼實踐

【算法】word2vec與doc2vec模型

【NLP】doc2vec原理及實踐

白話Word2Vec

文本深度表示模型—word2vec&doc2vec詞向量模型

文本深度表示模型——word2vec&doc2vec詞向量模型

深入理解word2vec

萬物皆Embedding,從經典的word2vec到深度學習基本操作item2vec

圖解word2vec

word2vec——高效word特徵求取

詞向量詳解:從word2vec、glove、ELMo到BERT

大白話講解word2vec到底在做些什麼

圖解 Word2Vec

NLP中的詞向量對比:word2vec/glove/fastText/elmo/GPT/bert

使用Python可視化Word2vec的結果

用word2vec解讀延禧攻略人物關係

Word Embedding Papers | 經典再讀之Word2Vec

Word2Vec 與 GloVe 技術淺析與對比