深入淺出詞嵌入技術

2021-02-21 AINLP

本文概覽：

本文又名《Distributed Representation: From Static Embedding to Contextualized Embedding》

1. Classical Representation: One-hot Encoding

獨熱編碼是NLP領域最簡單的一種單詞表示法。One-hot Encoding就是一個單詞用長度為

One-hot Encoding有什麼問題呢？假如我想用餘弦相似度計算上圖中「機器學習」與「深度學習」的相似度，或者計算「貪心科技」與「深度學習」的相似度，我們會發現相似度的值都是相同的。也就是說，單詞通過獨熱編碼的方式是不能表示單詞間語義的相似度。 由於這是獨熱編碼最大的問題，因此科學家們開始研究如何對獨熱編碼做改進，改進成一個向量可以表示單詞的語義。如果我們能用一個向量表示單詞的語義，那麼兩個向量的相似度應該可以表示兩個單詞語義的相似度。下圖是我們對獨熱編碼的一個總結。

2. From One-hot to Distributed Representation

由於獨熱編碼非常的稀疏、不能表示單詞間語義的相似度等缺點，我們希望學習下圖中右邊所示的單詞表示方法。這種方法是由稠密向量表示單詞，且向量維度更低，我們把這種方法叫做詞向量。

詞向量需要通過詞向量模型學習來得到。我們需要一批語料當作模型的輸入，然後詞向量模型可以選擇SkipGram模型、Bert模型或者其它模型，最後就可以得到詞的分布式表示向量。

學習詞向量有一個非常重要的理論：分布式假設，即一個單詞的出現，跟它的上下文有關，我們可以根據上下文來預測某個單詞。舉個例子，我們可以根據上文「貪心科技作為國內」和下文「的高端AI教育品牌」，猜測出橫線處應該是「領先」這個詞。後邊兩個橫線，分別從它們的上下文中，可以猜出應填詞為「推出」、「案例」。

3. Static Word Embedding3.1 Word2Vec

比較經典的詞向量模型是Word2Vec，主要包含兩個模型：CBOW和SkipGram模型。CBOW是根據上下文來預測中心單詞；SkipGram通過中心詞來預測上下文的單詞。

3.2 SkipGram in Detail

在SkipGram預測的時候，輸出的是預測目標詞的概率，也就是說我每一次預測都要基於全部的數據集進行計算，這無疑會帶來很大的時間開銷。因此，Word2Vec提出兩種加快訓練速度的方式，一種是Hierarchical softmax，另一種是Negative Sampling。

3.3 CBOW與SkipGram的比較
數據比較少的時候，SkipGram效果比較好。 因為通過SkipGram的訓練方式，我們能從較少的數據集中構造出更多的訓練樣本，CBOW是對中心詞構造一條樣本，SkipGram是對中心詞可以構造多條訓練樣本。出現次數較少的單詞在語料庫中較多的時候，SkipGram效果比較好。 因為CBOW的映射層起到Smoothing的作用，模型會預測更經常出現的單詞。3.4 Word Embedding by Matrix Factorization

矩陣分解也是可以學習詞向量的。假如我們有三個句子組成的語料庫：I enjoy flying. I like NLP. I like deep learning. 我們可以統計出單詞的共現矩陣（Co-occurrence Matrix）

共現矩陣X的維度為：

因為矩陣分解中的共現矩陣中的統計信息是來自於所有的語料庫，因此矩陣分解得到的詞向量是全局的方法（Global Method）。由於CBOW、SkipGram模型每次考慮的是中心詞和它周圍的單詞，因此CBOW、SkipGram模型得到的詞向量是局部的方法（Local Method）。

共現矩陣不足：面臨稀疏性問題、向量維數隨著詞典大小線性增長。3.5 Glove

局部的方法和全局的方法都有自己的優缺點。全局的方法可以從整個語料的角度更宏觀的審視詞的特點；局部的方法是基於局部語料庫訓練的，其特徵提取是基於滑窗的，因此局部的方法可以進行在線學習。基於局部方法論和全局方法論的優缺點，科學家提出了Glove算法。

Glove算法很好地把MF這種全局的方法和SkipGram這種局部的方法整合在了一起。Glove的計算效率很高、效果也很好。

3.6 Glove和Word2Vec、 LSA對比有什麼區別？（Word2Vec vs Glove vs LSA）（1）Glove vs LSALSA（Latent Semantic Analysis）可以基於co-occurance matrix構建詞向量，實質上是基於全局語料採用SVD進行矩陣分解，然而SVD計算複雜度高；Glove可看作是對LSA一種優化的高效矩陣分解算法，採用Adagrad對最小平方損失進行優化；（2）Word2Vec vs GloveWord2Vec是局部語料庫訓練的，其特徵提取是基於滑窗的；而Glove的滑窗是為了構建co-occurance matrix，是基於全局語料的，可見Glove需要事先統計共現概率；因此，Word2Vec可以進行在線學習，Glove則需要統計固定語料信息。Word2Vec是無監督學習，同樣由於不需要人工標註；Glove通常被認為是無監督學習，但實際上Glove還是有label的，即共現次數Glove可以被看作是更換了目標函數和權重函數的全局Word2Vec。3.7 Gaussian Embedding

下圖中例子裡，「AI」在語料庫中出現的次數較多，那上面提到的幾個模型學出的準確率越高。模型對於出現次數較多的詞學出的詞向量更加自信，模型對於出現次數較少的詞學習的詞向量把握不太大。

我們希望找到一種方式來評估模型學到的詞向量的自信度（Confidence）。我們可以想到把每個單詞的詞向量表示成一個分布，比如：

其中，

每個單詞都用高斯分布表示，那怎麼衡量兩個單詞之間的相似度呢？我們可以用KL散度、Wasserstein距離（也叫Earth-Mover（EM）距離，在GAN中非常重要）來度量兩個分布之間的相似度。

3.8 Pointcare Embedding

上面提到的模型是在歐式空間中進行的詞嵌入，但是也存在一些非歐式空間的一些場景，比如計算地球儀中兩個點之間距離。尤其是在物理學和天文學中，有很多非歐式空間的場景，比如一些非歐式空間的數據有層級結構或樹型結構。

3.9 Neural Network Language Model

Neural Network Language Model根據之前的單詞預測最新的一個單詞，這裡沒有中心詞的概念，只通過之前兩三個單詞來預測後面的一個單詞。

4. Contextualized(Dynamic) Word Embedding

上面講了一些靜態的詞向量，就是一個單詞只能學出一個詞向量。在很多的NLP工作裡面，一個單詞可以表示成很多種意思（即一詞多義），如何處理一詞多義、考慮單詞在上下文中的意思，這個問題是近四年來NLP領域最火熱的一個研究方向。就拿Bert模型來說，它是一個很明顯的分水嶺，想把它得到的上下文詞嵌入運用到工業界裡。

4.1 Contextualized Word Embedding簡述

第一個例子中的第一個「apple」指蘋果公司，第二個「apple」指水果蘋果。假如我們用靜態的詞向量，那在整個語料中「apple」只能表示一個意思，不能表示單詞在上下文中的一個區別。

第二個例子中的第一個「back」指後背，第二個「back」指倒車。第三個例子中的第一個「學習」是動詞，第二個「學習」是名詞。單詞的詞性和詞義在上下文中不同，我們希望學到的詞向量也是不一樣的。

4.2 LSTM-based Model4.2.1 CoVe

下圖a)是一個經典的Seq2Seq模型，我們以機器翻譯任務訓練模型的Encoder和Decoder部分。我們可以通過這種方式學習出帶有上下文的詞向量。那麼我們為什麼可以通過這種方式學習到帶有上下文的詞向量呢？

從下圖b)中我們可以知道，由於Encoder和Decoder都是BI-LSTM模型，模型本身含有語句上下文的信息。因此，用靜態詞向量輸入Encoder編碼器就可以得到含有上下文的詞向量。我們把含有上下文的詞向量和靜態的詞向量拼接在一起，就可以解決某些特定的任務。

4.2.2 ELMo

CoVe使用了機器翻譯任務的Loss訓練模型，而ELMo訓練目標就是語言模型，根據上下文預測下一個單詞。通過語言模型從左到右訓練的方式，我們也叫做Autoregressive Model。

要從ELMo得到一個單詞的詞向量，我們可以把靜態詞向量，拼接第一層隱層向量，再拼接第二層隱層向量，最後再拼接第三層隱層向量，就得到了這個單詞的完整的含有上下文的單詞向量。比如，單詞「今天」的詞向量為：

4.3 Transformer-based Model4.3.1 From LSTM-based Model to Transformer-based Model

LSTM的缺點：

梯度消失、梯度爆炸問題，導致模型不能很好的捕獲長期依賴問題。

基於以上問題，所以我們用Transformer來作為模型處理序列數據的基礎組件。

（1）Transformer

Transformer由兩部分組成：Encoder、Decoder。Encoder部分有許多個Encoder Block組成。每個Encoder Block由五部分組成：

（2）Self-Attention

Transformer的核心是Self-Attention，而在Transformer的每個Encoder Block中都是由

4.3.2 GPT

ELMo用LSTM作為基本組件，GPT用Transformer的Decoder作為基本組件。GPT用語言模型訓練。GPT的優點是使用了Transformer結構，解決了LSTM的缺點問題。

GPT存在的問題：由於GPT是從左到右單向訓練語言模型，沒有考慮當前預測單詞右邊的信息，是一種單向的訓練方式。

4.3.3 BERT

BERT使用Transformer的Encoder結構作為自己的組件。BERT訓練的時候，隨機把語料庫中15%的單詞做Mask操作。對於15%的單詞做Mask操作分為三種情況：80%的單詞直接用[Mask]替換、10%的單詞直接替換成另一個新的單詞、10%的單詞保持不變，用這種方式訓練的語言模型叫做MLM（Masked Language Model）。其實BERT的目標函數的核心思想來自於圖像領域的DAE。

4.3.4 RoBERTa

基於BERT有很多的改進，比較直接的改進是RoBERTa。這個模型針對BERT來講沒有太大的區別，更多的還是在訓練的過程中做了一些改進，所以總結起來有四點改進：

訓練的時間更長，訓練的Batch更大，訓練的數據更多。NSP任務被移除，因為很多研究者表明NSP任務在BERT中起到的作用不大，ALBERT中也指出NSP任務在BERT中作用不大。在BERT裡面，Mask Token是在數據預處理過程中進行的，所以不管數據循環訓練多少次，Mask Token是不變的。在訓練RoBERTa時，針對每個訓練數據是重新隨機的選取Mask Token。

4.3.5 MASS

MASS模型既使用了Transformer的Encoder部分，也使用了Transformer的Decoder部分。MASS的訓練過程更像是Translation Machine的過程，它有點類似於上面提到的CoVe模型。MASS主要工作原理是：在Encoder的輸入部分隨機Mask掉一些單詞，然後在Decoder部分預測輸出被Mask掉的單詞。

4.3.6 XLNet（1）What are the problems of BERT?Training and Testing discrepancy。BERT模型在訓練的時候，訓練數據是隨機Mask掉一些單詞，但是在測試或預測的時候輸入的數據是沒有Mask操作，這會導致訓練數據和測試數據不一致的問題。Independent assumption of predicted tokens。比如，BERT模型需要預測句子「今天是[MASK]講[MASK]」中被Mask的單詞。BERT首先根據上下文「今天、是、講」來預測出「周日」，再根據上下文「今天、是、講」預測出「CV」，但是「周日」和「CV」是有一定關係的，BERT模型並沒有考慮預測單詞之間的關係。

（2）Two Objectives: Autoregressive vs AutoencodingAR：Autoregressive Language ModelingAE：Autoencoding Language Modeling

AR語言模型：指的是依據前面（或後面）出現的tokens來預測當前時刻的token，代表有 ELMo， GPT等。

forward:

backward:

AE語言模型：通過上下文信息來預測被mask的token，代表有 BERT , Word2Vec(CBOW) 。

二者有著它們各自的優缺點：

AR 語言模型：

缺點： 它只能利用單向語義而不能同時利用上下文信息。ELMo 通過雙向都做AR模型，然後進行拼接，但從結果來看，效果並不是太好。優點： 對生成模型友好，天然符合生成式任務的生成過程。這也是為什麼GPT能夠編故事的原因。

AE 語言模型：

缺點： 由於訓練中採用了 [MASK] 標記，導致預訓練與微調階段不一致的問題。BERT獨立性假設問題，即沒有對被遮掩（Mask）的 token 之間的關係進行學習。此外對於生成式問題， AE 模型也顯得捉襟見肘。優點： 能夠很好的編碼上下文語義信息（即考慮句子的雙向信息），在自然語言理解相關的下遊任務上表現突出。

所以，AR方式所帶來的自回歸性學習了預測 token 之間的依賴，這是 BERT 所沒有的；而 BERT的AE方式帶來的對深層次雙向信息的學習，卻又是像ELMo還有GPT單向語言模型所沒有的，不管是有沒有替換「[MASK]」。於是，自然就會想，如何將兩者的優點統一起來？ 這時就到了XLNet登場的時間。

（3）XLNet原理

XLNet模型為了獲得上下文信息，對一個句子排列組合出所有可能的順序，這樣就有點類似於雙向語言模型的感覺。

5. Model Compression

上面講了許多詞嵌入的模型，但是有許多模型參數巨大，不能在有限的機器上訓練出來，在工業界落地那就更難了。因此，有一部分學者就在模型壓縮方面做了一些工作，我認為在未來一段時間很多工作都會圍繞模型壓縮來做。模型壓縮有以下幾種方式：

Sparse Priors。這個壓縮方法是從貝葉斯想法過來的。如果你之前了解過在邏輯回歸上使用

5.1 ALBERT（Sparse Matrix Factorization）

ALBERT發現Transformer的第

5.2 TinyBERT（Knowledge Distillation）

TinyBERT有兩個模型如下圖所示，左邊的Teacher(BERT)有

6. Summary

7. Reference

本文是Microstrong在觀看李文哲在B站上講解的直播課程《Distributed Representation: From Static Embedding to Contextualized Embedding》的筆記。視頻地址：https://www.bilibili.com/video/BV1EK411p7Nd?p=1 。

【1】【NLP系列直播2】From Static Embedding to Contextualized Embedding，貪心學院，地址：https://www.bilibili.com/video/BV1EK411p7Nd?p=1
【2】李文哲老師直播課深入淺出詞嵌入技術，地址：https://www.bilibili.com/video/BV1tt4y1C7Cm?from=search&seid=17022969140118519703
【3】nlp中的詞向量對比：word2vec/glove/fastText/elmo/GPT/bert - JayLou婁傑的文章 - 知乎 https://zhuanlan.zhihu.com/p/56382372
【4】XLNet詳解 - Microstrong的文章 - 知乎 https://zhuanlan.zhihu.com/p/110204573
【5】The Illustrated Transformer，地址：https://jalammar.github.io/illustrated-transformer/

推薦閱讀

這個NLP工具，玩得根本停不下來

徵稿啟示| 200元稿費+5000DBC（價值20個小時GPU算力）

文本自動摘要任務的「不完全」心得總結番外篇——submodular函數優化

Node2Vec 論文+代碼筆記

模型壓縮實踐收尾篇——模型蒸餾以及其他一些技巧實踐小結

中文命名實體識別工具（NER）哪家強？

學自然語言處理，其實更應該學好英語

史丹福大學NLP組Python深度學習自然語言處理工具Stanza試用

太贊了！Springer面向公眾開放電子書籍，附65本數學、編程、機器學習、深度學習、數據挖掘、數據科學等書籍連結及打包下載

數學之美中盛讚的 Michael Collins 教授，他的NLP課程要不要收藏？

自動作詩機&藏頭詩生成器：五言、七言、絕句、律詩全了

這門史丹福大學自然語言處理經典入門課，我放到B站了

關於AINLP

AINLP 是一個有趣有AI的自然語言處理社區，專注於 AI、NLP、機器學習、深度學習、推薦算法等相關技術的分享，主題包括文本摘要、智能問答、聊天機器人、機器翻譯、自動生成、知識圖譜、預訓練模型、推薦系統、計算廣告、招聘信息、求職經驗分享等，歡迎關注！加技術交流群請添加AINLPer(id：ainlper)，備註工作/研究方向+加群目的。

閱讀至此了，點個在看吧👇

深入淺出詞嵌入技術

相關焦點

前沿綜述:細數2018年最好的詞嵌入和句嵌入技術

從語言學角度看詞嵌入模型

從詞嵌入到含義嵌入:概覽含義向量表示方法

揭開多語言詞嵌入模型的神秘面紗

詞嵌入和矩陣分解的統一

圖計算黑科技:打開中文詞嵌入訓練實踐新模式

R語言自然語言處理:文本向量化——詞嵌入(Word Embedding)

【乾貨】NLP中「詞袋」模型和詞嵌入模型的比較(附代碼)

使用Python代碼的4種句嵌入技術

當前最好的詞句嵌入技術概覽:從無監督學習轉向監督、多任務學習

詞嵌入的經典方法,六篇論文遍歷Word2vec的另類應用

Word Embedding List|ACL 2020 詞嵌入長文匯總及分類

深度 | 當前最好的詞句嵌入技術概覽:從無監督學習轉向監督、多任務學習

翻譯專家:外語詞直接嵌入中文使中文失去純潔性

業界| 詞嵌入所不能解決的自然語言理解:會話人工智慧的方向在哪?

Word2Vec與Glove:詞嵌入方法的動機和直覺

「周末AI課堂」理解詞嵌入(理論篇)

ACL 2020|詞嵌入性別偏見難以避免?「雙硬去偏」新方法來了!

文本嵌入的經典模型與最新進展

無監督學習之詞嵌入(word embedding)