圖解Word2vec

2021-02-13 機器學習AI算法工程

向AI轉型的程式設計師都關注了這個號👇👇👇

機器學習AI算法工程公眾號：datayx

嵌入（embedding）是機器學習中最迷人的想法之一。如果你曾經使用Siri、Google Assistant、Alexa、Google翻譯，甚至智慧型手機鍵盤進行下一詞預測，那麼你很有可能從這個已經成為自然語言處理模型核心的想法中受益。

在過去的幾十年中，嵌入技術用於神經網絡模型已有相當大的發展。尤其是最近，其發展包括導致BERT和GPT2等尖端模型的語境化嵌入。

BERT：

https://jalammar.github.io/illustrated-bert/

Word2vec是一種有效創建詞嵌入的方法，它自2013年以來就一直存在。但除了作為詞嵌入的方法之外，它的一些概念已經被證明可以有效地創建推薦引擎和理解時序數據。在商業的、非語言的任務中。像Airbnb、阿里巴巴、Spotify這樣的公司都從NLP領域中提取靈感並用於產品中，從而為新型推薦引擎提供支持。

在這篇文章中，我們將討論嵌入的概念，以及使用word2vec生成嵌入的機制。讓我們從一個例子開始，熟悉使用向量來表示事物。你是否知道你的個性可以僅被五個數字的列表（向量）表示？

個性嵌入：你是什麼樣的人？

如何用0到100的範圍來表示你是多麼內向/外向（其中0是最內向的，100是最外向的）？你有沒有做過像MBTI那樣的人格測試，或者五大人格特質測試？如果你還沒有，這些測試會問你一系列的問題，然後在很多維度給你打分，內向/外向就是其中之一。

五大人格特質測試測試結果示例。它可以真正告訴你很多關於你自己的事情，並且在學術、人格和職業成功方面都具有預測能力。此處可以找到測試結果。

假設我的內向/外向得分為38/100。我們可以用這種方式繪圖：

當你只知道這一條信息的時候，你覺得你有多了解這個人？了解不多。人很複雜，讓我們添加另一測試的得分作為新維度。

我們可以將兩個維度表示為圖形上的一個點，或者作為從原點到該點的向量。我們擁有很棒的工具來處理即將上場的向量們。

我已經隱藏了我們正在繪製的人格特徵，這樣你會漸漸習慣於在不知道每個維度代表什麼的情況下，從一個人格的向量表示中獲得價值信息。

我們現在可以說這個向量部分地代表了我的人格。當你想要將另外兩個人與我進行比較時，這種表示法就有用了。假設我被公共汽車撞了，我需要被性格相似的人替換，那在下圖中，兩個人中哪一個更像我？

1號替身在性格上與我更相似。指向相同方向的向量（長度也起作用）具有更高的餘弦相似度。

再一次，兩個維度還不足以捕獲有關不同人群的足夠信息。心理學已經研究出了五個主要人格特徵（以及大量的子特徵），所以讓我們使用所有五個維度進行比較：

餘弦相似度適用於任意數量的維度。這些得分比上次的得分要更好，因為它們是根據被比較事物的更高維度算出的。

在本節的最後，我希望提出兩個中心思想：
1.我們可以將人和事物表示為代數向量（這對機器來說很棒！）。
2.我們可以很容易地計算出相似的向量之間的相互關係。

詞嵌入

通過上文的理解，我們繼續看看訓練好的詞向量實例（也被稱為詞嵌入）並探索它們的一些有趣屬性。

這是一個單詞「king」的詞嵌入（在維基百科上訓練的GloVe向量）：

這是一個包含50個數字的列表。通過觀察數值我們看不出什麼，但是讓我們稍微給它可視化，以便比較其它詞向量。我們把所有這些數字放在一行：

我們將忽略數字並僅查看顏色以指示單元格的值。現在讓我們將「king」與其它單詞進行比較：

看看「Man」和「Woman」彼此之間是如何比它們任一一個單詞與「King」相比更相似的？這暗示你一些事情。這些向量圖示很好的展現了這些單詞的信息/含義/關聯。

這是另一個示例列表（通過垂直掃描列來查找具有相似顏色的列）：

有幾個要點需要指出：

1.所有這些不同的單詞都有一條直的紅色列。它們在這個維度上是相似的（雖然我們不知道每個維度是什麼）

2.你可以看到「woman」和「girl」在很多地方是相似的，「man」和「boy」也是一樣

3.「boy」和「girl」也有彼此相似的地方，但這些地方卻與「woman」或「man」不同。這些是否可以總結出一個模糊的「youth」概念？可能吧。

4.除了最後一個單詞，所有單詞都是代表人。我添加了一個對象「water」來顯示類別之間的差異。你可以看到藍色列一直向下並在「water」的詞嵌入之前停下了。

5.「king」和「queen」彼此之間相似，但它們與其它單詞都不同。這些是否可以總結出一個模糊的「royalty」概念？

類比

展現嵌入奇妙屬性的著名例子是類比。我們可以添加、減去詞嵌入並得到有趣的結果。一個著名例子是公式：「king」-「man」+「woman」：

在python中使用Gensim庫，我們可以添加和減去詞向量，它會找到與結果向量最相似的單詞。該圖像顯示了最相似的單詞列表，每個單詞都具有餘弦相似性。

我們可以像之前一樣可視化這個類比：

由「king-man + woman」生成的向量並不完全等同於「queen」，但「queen」是我們在此集合中包含的400,000個字嵌入中最接近它的單詞。

現在我們已經看過訓練好的詞嵌入，接下來讓我們更多地了解訓練過程。但在我們開始使用word2vec之前，我們需要看一下詞嵌入的父概念：神經語言模型。

語言模型

如果要舉自然語言處理最典型的例子，那應該就是智慧型手機輸入法中的下一單詞預測功能。這是個被數十億人每天使用上百次的功能。

下一單詞預測是一個可以通過語言模型實現的任務。語言模型會通過單詞列表(比如說兩個詞)去嘗試預測可能緊隨其後的單詞。

在上面這個手機截屏中，我們可以認為該模型接收到兩個綠色單詞(thou shalt)並推薦了一組單詞(「not」就是其中最有可能被選用的一個)：

但事實上，該模型不會只輸出一個單詞。實際上，它對所有它知道的單詞(模型的詞庫，可能有幾千到幾百萬個單詞)的按可能性打分，輸入法程序會選出其中分數最高的推薦給用戶。

自然語言模型的輸出就是模型所知單詞的概率評分，我們通常把概率按百分比表示，但是實際上，40%這樣的分數在輸出向量組是表示為0.4

自然語言模型(請參考Bengio 2003)在完成訓練後，會按如下中所示法人三步完成預測：

第一步與我們最相關，因為我們討論的就是Embedding。模型在經過訓練之後會生成一個映射單詞表所有單詞的矩陣。在進行預測的時候，我們的算法就是在這個映射矩陣中查詢輸入的單詞，然後計算出預測值:

現在讓我們將重點放到模型訓練上，來學習一下如何構建這個映射矩陣。

語言模型訓練

相較於大多數其他機器學習模型，語言模型有一個很大有優勢，那就是我們有豐富的文本來訓練語言模型。所有我們的書籍、文章、維基百科、及各種類型的文本內容都可用。相比之下，許多其他機器學習的模型開發就需要手工設計數據或者專門採集數據。

我們通過找常出現在每個單詞附近的詞，就能獲得它們的映射關係。機制如下：

1.先是獲取大量文本數據(例如所有維基百科內容)

2. 然後我們建立一個可以沿文本滑動的窗(例如一個窗裡包含三個單詞)

3. 利用這樣的滑動窗就能為訓練模型生成大量樣本數據。

當這個窗口沿著文本滑動時，我們就能(真實地)生成一套用於模型訓練的數據集。為了明確理解這個過程，我們看下滑動窗是如何處理這個短語的:

在一開始的時候，窗口鎖定在句子的前三個單詞上:

這時我們就生產了數據集中的第一個樣本，它會被用在我們後續的語言模型訓練中。

接著，我們將窗口滑動到下一個位置並生產第二個樣本:

這時第二個樣本也生成了。

不用多久，我們就能得到一個較大的數據集，從數據集中我們能看到在不同的單詞組後面會出現的單詞:

在實際應用中，模型往往在我們滑動窗口時就被訓練的。但是我覺得將生成數據集和訓練模型分為兩個階段會顯得更清晰易懂一些。除了使用神經網絡建模之外，大家還常用一項名為N-gams的技術進行模型訓練。

如果想了解現實產品從使用N-gams模型到使用神經模型的轉變，可以看一下Swiftkey (我最喜歡的安卓輸入法)在2015年的發表一篇博客，文中介紹了他們的自然語言模型及該模型與早期N-gams模型的對比。我很喜這個例子，因為這個它能告訴你如何在營銷宣講中把Embedding的算法屬性解釋清楚。

顧及兩頭

根據前面的信息進行填空:

綠框中的詞語是輸入詞，粉框則是可能的輸出結果

這裡粉框顏色深度呈現不同，是因為滑動窗給訓練集產生了4個獨立的樣本:

重新審視訓練過程

現在我們已經從現有的文本中獲得了Skipgram模型的訓練數據集，接下來讓我們看看如何使用它來訓練一個能預測相鄰詞彙的自然語言模型。

從數據集中的第一個樣本開始。我們將特徵輸入到未經訓練的模型，讓它預測一個可能的相鄰單詞。

該模型會執行三個步驟並輸入預測向量(對應於單詞表中每個單詞的概率)。因為模型未經訓練，該階段的預測肯定是錯誤的。但是沒關係，我們知道應該猜出的是哪個單詞——這個詞就是我訓練集數據中的輸出標籤:

目標單詞概率為1，其他所有單詞概率為0，這樣數值組成的向量就是「目標向量」。

模型的偏差有多少？將兩個向量相減，就能得到偏差向量:

現在這一誤差向量可以被用於更新模型了，所以在下一輪預測中，如果用not作為輸入，我們更有可能得到thou作為輸出了。

這其實就是訓練的第一步了。我們接下來繼續對數據集內下一份樣本進行同樣的操作，直到我們遍歷所有的樣本。這就是一輪（epoch）了。我們再多做幾輪（epoch），得到訓練過的模型，於是就可以從中提取嵌入矩陣來用於其他應用了。

以上確實有助於我們理解整個流程，但這依然不是word2vec真正訓練的方法。我們錯過了一些關鍵的想法。

負例採樣

回想一下這個神經語言模型計算預測值的三個步驟：

從計算的角度來看，第三步非常昂貴 - 尤其是當我們將需要在數據集中為每個訓練樣本都做一遍（很容易就多達數千萬次）。我們需要尋找一些提高表現的方法。

一種方法是將目標分為兩個步驟：

1.生成高質量的詞嵌入（不要擔心下一個單詞預測）。

2.使用這些高質量的嵌入來訓練語言模型（進行下一個單詞預測）。

在本文中我們將專注於第1步（因為這篇文章專注於嵌入）。要使用高性能模型生成高質量嵌入，我們可以改變一下預測相鄰單詞這一任務：

將其切換到一個提取輸入與輸出單詞的模型，並輸出一個表明它們是否是鄰居的分數（0表示「不是鄰居」，1表示「鄰居」）。

這個簡單的變換將我們需要的模型從神經網絡改為邏輯回歸模型——因此它變得更簡單，計算速度更快。

這個開關要求我們切換數據集的結構——標籤值現在是一個值為0或1的新列。它們將全部為1，因為我們添加的所有單詞都是鄰居。

現在的計算速度可謂是神速啦——在幾分鐘內就能處理數百萬個例子。但是我們還需要解決一個漏洞。如果所有的例子都是鄰居（目標：1），我們這個」天才模型「可能會被訓練得永遠返回1——準確性是百分百了，但它什麼東西都學不到，只會產生垃圾嵌入結果。

為了解決這個問題，我們需要在數據集中引入負樣本 - 不是鄰居的單詞樣本。我們的模型需要為這些樣本返回0。模型必須努力解決這個挑戰——而且依然必須保持高速。

對於我們數據集中的每個樣本，我們添加了負面示例。它們具有相同的輸入字詞，標籤為0。

但是我們作為輸出詞填寫什麼呢？我們從詞彙表中隨機抽取單詞

這個想法的靈感來自噪聲對比估計。我們將實際信號（相鄰單詞的正例）與噪聲（隨機選擇的不是鄰居的單詞）進行對比。這導致了計算和統計效率的巨大折衷。

噪聲對比估計

http://proceedings.mlr.press/v9/gutmann10a/gutmann10a.pdf

基於負例採樣的Skipgram（SGNS）

我們現在已經介紹了word2vec中的兩個（一對）核心思想：負例採樣，以及skipgram。

Word2vec訓練流程

現在我們已經了解了skipgram和負例採樣的兩個中心思想，可以繼續仔細研究實際的word2vec訓練過程了。

在訓練過程開始之前，我們預先處理我們正在訓練模型的文本。在這一步中，我們確定一下詞典的大小（我們稱之為vocab_size，比如說10,000）以及哪些詞被它包含在內。

在訓練階段的開始，我們創建兩個矩陣——Embedding矩陣和Context矩陣。這兩個矩陣在我們的詞彙表中嵌入了每個單詞（所以vocab_size是他們的維度之一）。第二個維度是我們希望每次嵌入的長度（embedding_size——300是一個常見值，但我們在前文也看過50的例子）。

在訓練過程開始時，我們用隨機值初始化這些矩陣。然後我們開始訓練過程。在每個訓練步驟中，我們採取一個相鄰的例子及其相關的非相鄰例子。我們來看看我們的第一組：

現在我們有四個單詞：輸入單詞not和輸出/上下文單詞: thou（實際鄰居詞），aaron和taco（負面例子）。我們繼續查找它們的嵌入——對於輸入詞，我們查看Embedding矩陣。對於上下文單詞，我們查看Context矩陣（即使兩個矩陣都在我們的詞彙表中嵌入了每個單詞）。

這是「機器學習」的「學習」部分。現在，我們可以利用這個錯誤分數來調整not、thou、aaron和taco的嵌入，使我們下一次做出這一計算時，結果會更接近目標分數。

訓練步驟到此結束。我們從中得到了這一步所使用詞語更好一些的嵌入（not，thou，aaron和taco）。我們現在進行下一步（下一個相鄰樣本及其相關的非相鄰樣本），並再次執行相同的過程。

當我們循環遍歷整個數據集多次時，嵌入會繼續得到改進。然後我們就可以停止訓練過程，丟棄Context矩陣，並使用Embeddings矩陣作為下一項任務的已被訓練好的嵌入。

窗口大小和負樣本數量

word2vec訓練過程中的兩個關鍵超參數是窗口大小和負樣本的數量。

負樣本的數量是訓練訓練過程的另一個因素。原始論文認為5-20個負樣本是比較理想的數量。它還指出，當你擁有足夠大的數據集時，2-5個似乎就已經足夠了。Gensim默認為5個負樣本。

結論

我希望您現在對詞嵌入和word2vec算法有所了解。我也希望現在當你讀到一篇提到「帶有負例採樣的skipgram」（SGNS）的論文（如頂部的推薦系統論文）時，你已經對這些概念有了更好的認識。

原文連結：

https://blog.csdn.net/longxinchen_ml/article/details/89077048

閱讀過本文的人還看了以下文章：

【全套視頻課】最全的目標檢測算法系列講解，通俗易懂！

《美團機器學習實踐》_美團算法團隊.pdf

《深度學習入門：基於Python的理論與實現》高清中文PDF+源碼

python就業班學習視頻，從入門到實戰項目

2019最新《PyTorch自然語言處理》英、中文版PDF+源碼

《21個項目玩轉深度學習：基於TensorFlow的實踐詳解》完整版PDF+附書代碼

《深度學習之pytorch》pdf+附書源碼

PyTorch深度學習快速實戰入門《pytorch-handbook》

【下載】豆瓣評分8.1,《機器學習實戰:基於Scikit-Learn和TensorFlow》

《Python數據分析與挖掘實戰》PDF+完整源碼

汽車行業完整知識圖譜項目實戰視頻(全23課)

李沐大神開源《動手學深度學習》，加州伯克利深度學習（2019春）教材

筆記、代碼清晰易懂！李航《統計學習方法》最新資源全套！

《神經網絡與深度學習》最新2018版中英PDF+源碼

將機器學習模型部署為REST API

FashionAI服裝屬性標籤圖像識別Top1-5方案分享

重要開源！CNN-RNN-CTC 實現手寫漢字識別

yolo3 檢測出圖像中的不規則漢字

同樣是機器學習算法工程師，你的面試為什麼過不了？

前海徵信大數據算法：風險概率預測

【Keras】完整實現『交通標誌』分類、『票據』分類兩個項目，讓你掌握深度學習圖像分類

VGG16遷移學習，實現醫學圖像識別分類工程項目

特徵工程(一)

特徵工程(二) :文本數據的展開、過濾和分塊

特徵工程(三):特徵縮放,從詞袋到 TF-IDF

特徵工程(四): 類別特徵

特徵工程(五): PCA 降維

特徵工程(六): 非線性特徵提取和模型堆疊

特徵工程(七)：圖像特徵提取和深度學習

如何利用全新的決策樹集成級聯結構gcForest做特徵工程並打分？

Machine Learning Yearning 中文翻譯稿

螞蟻金服2018秋招-算法工程師（共四面）通過

全球AI挑戰-場景分類的比賽源碼(多模型融合)

斯坦福CS230官方指南：CNN、RNN及使用技巧速查（列印收藏）

python+flask搭建CNN在線識別手寫中文網站

中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特徵工程

不斷更新資源

深度學習、機器學習、數據分析、python

搜索公眾號添加： datayx

長按圖片，識別二維碼，點關注

機器學習算法資源社群

不斷上傳電子版PDF資料

技術問題求解

QQ群號： 333972581

長按圖片，識別二維碼

海淘美妝

圖解Word2vec

相關焦點

圖解word2vec

Word2vec算法圖解(一)

圖解 Word2Vec

【算法】word2vec與doc2vec模型

深入理解word2vec

自然語言處理——圖解Word2vec

word2vec——高效word特徵求取

白話Word2Vec

圖解 Word2Vec,讀這一篇就夠了

word2vec模型深度解析

使用Python可視化Word2vec的結果

文本深度表示模型—word2vec&doc2vec詞向量模型

文本深度表示模型——word2vec&doc2vec詞向量模型

Word Embedding Papers | 經典再讀之Word2Vec

Word2Vec 與 GloVe 技術淺析與對比

【Word2Vec】深入淺出Word2Vec原理解析

萬物皆Embedding,從經典的word2vec到深度學習基本操作item2vec

Word2vec如何得到詞向量

[NLP] 秒懂詞向量Word2vec的本質

【NLP】從word2vec, ELMo到BERT