深入淺出詞嵌入技術

2021-02-21 AINLP

本文概覽:

本文又名《Distributed Representation: From Static Embedding to Contextualized Embedding》

1. Classical Representation: One-hot Encoding

獨熱編碼是NLP領域最簡單的一種單詞表示法。One-hot Encoding就是一個單詞用長度為

One-hot Encoding有什麼問題呢?假如我想用餘弦相似度計算上圖中「機器學習」與「深度學習」的相似度,或者計算「貪心科技」與「深度學習」的相似度,我們會發現相似度的值都是相同的。也就是說,單詞通過獨熱編碼的方式是不能表示單詞間語義的相似度。 由於這是獨熱編碼最大的問題,因此科學家們開始研究如何對獨熱編碼做改進,改進成一個向量可以表示單詞的語義。如果我們能用一個向量表示單詞的語義,那麼兩個向量的相似度應該可以表示兩個單詞語義的相似度。下圖是我們對獨熱編碼的一個總結。

2. From One-hot to Distributed Representation

由於獨熱編碼非常的稀疏、不能表示單詞間語義的相似度等缺點,我們希望學習下圖中右邊所示的單詞表示方法。這種方法是由稠密向量表示單詞,且向量維度更低,我們把這種方法叫做詞向量。

詞向量需要通過詞向量模型學習來得到。我們需要一批語料當作模型的輸入,然後詞向量模型可以選擇SkipGram模型、Bert模型或者其它模型,最後就可以得到詞的分布式表示向量。

學習詞向量有一個非常重要的理論:分布式假設,即一個單詞的出現,跟它的上下文有關,我們可以根據上下文來預測某個單詞。舉個例子,我們可以根據上文「貪心科技作為國內」和下文「的高端AI教育品牌」,猜測出橫線處應該是「領先」這個詞。後邊兩個橫線,分別從它們的上下文中,可以猜出應填詞為「推出」、「案例」。

3. Static Word Embedding3.1 Word2Vec

比較經典的詞向量模型是Word2Vec,主要包含兩個模型:CBOW和SkipGram模型。CBOW是根據上下文來預測中心單詞;SkipGram通過中心詞來預測上下文的單詞。

3.2 SkipGram in Detail

在SkipGram預測的時候,輸出的是預測目標詞的概率,也就是說我每一次預測都要基於全部的數據集進行計算,這無疑會帶來很大的時間開銷。因此,Word2Vec提出兩種加快訓練速度的方式,一種是Hierarchical softmax,另一種是Negative Sampling。

3.3 CBOW與SkipGram的比較
數據比較少的時候,SkipGram效果比較好。 因為通過SkipGram的訓練方式,我們能從較少的數據集中構造出更多的訓練樣本,CBOW是對中心詞構造一條樣本,SkipGram是對中心詞可以構造多條訓練樣本。出現次數較少的單詞在語料庫中較多的時候,SkipGram效果比較好。 因為CBOW的映射層起到Smoothing的作用,模型會預測更經常出現的單詞。3.4 Word Embedding by Matrix Factorization

矩陣分解也是可以學習詞向量的。假如我們有三個句子組成的語料庫:I enjoy flying. I like NLP. I like deep learning. 我們可以統計出單詞的共現矩陣(Co-occurrence Matrix)

共現矩陣X的維度為:

因為矩陣分解中的共現矩陣中的統計信息是來自於所有的語料庫,因此矩陣分解得到的詞向量是全局的方法(Global Method)。由於CBOW、SkipGram模型每次考慮的是中心詞和它周圍的單詞,因此CBOW、SkipGram模型得到的詞向量是局部的方法(Local Method)。

共現矩陣不足:面臨稀疏性問題、向量維數隨著詞典大小線性增長。3.5 Glove

局部的方法和全局的方法都有自己的優缺點。全局的方法可以從整個語料的角度更宏觀的審視詞的特點;局部的方法是基於局部語料庫訓練的,其特徵提取是基於滑窗的,因此局部的方法可以進行在線學習。基於局部方法論和全局方法論的優缺點,科學家提出了Glove算法。

Glove算法很好地把MF這種全局的方法和SkipGram這種局部的方法整合在了一起。Glove的計算效率很高、效果也很好。

3.6 Glove和Word2Vec、 LSA對比有什麼區別?(Word2Vec vs Glove vs LSA)(1)Glove vs LSALSA(Latent Semantic Analysis)可以基於co-occurance matrix構建詞向量,實質上是基於全局語料採用SVD進行矩陣分解,然而SVD計算複雜度高;Glove可看作是對LSA一種優化的高效矩陣分解算法,採用Adagrad對最小平方損失進行優化;(2)Word2Vec vs GloveWord2Vec是局部語料庫訓練的,其特徵提取是基於滑窗的;而Glove的滑窗是為了構建co-occurance matrix,是基於全局語料的,可見Glove需要事先統計共現概率;因此,Word2Vec可以進行在線學習,Glove則需要統計固定語料信息。Word2Vec是無監督學習,同樣由於不需要人工標註;Glove通常被認為是無監督學習,但實際上Glove還是有label的,即共現次數Glove可以被看作是更換了目標函數和權重函數的全局Word2Vec。3.7 Gaussian Embedding

下圖中例子裡,「AI」在語料庫中出現的次數較多,那上面提到的幾個模型學出的準確率越高。模型對於出現次數較多的詞學出的詞向量更加自信,模型對於出現次數較少的詞學習的詞向量把握不太大。

我們希望找到一種方式來評估模型學到的詞向量的自信度(Confidence)。我們可以想到把每個單詞的詞向量表示成一個分布,比如:

其中,

每個單詞都用高斯分布表示,那怎麼衡量兩個單詞之間的相似度呢?我們可以用KL散度、Wasserstein距離(也叫Earth-Mover(EM)距離,在GAN中非常重要)來度量兩個分布之間的相似度。

3.8 Pointcare Embedding

上面提到的模型是在歐式空間中進行的詞嵌入,但是也存在一些非歐式空間的一些場景,比如計算地球儀中兩個點之間距離。尤其是在物理學和天文學中,有很多非歐式空間的場景,比如一些非歐式空間的數據有層級結構或樹型結構。

3.9 Neural Network Language Model

Neural Network Language Model根據之前的單詞預測最新的一個單詞,這裡沒有中心詞的概念,只通過之前兩三個單詞來預測後面的一個單詞。

4. Contextualized(Dynamic) Word Embedding

上面講了一些靜態的詞向量,就是一個單詞只能學出一個詞向量。在很多的NLP工作裡面,一個單詞可以表示成很多種意思(即一詞多義),如何處理一詞多義、考慮單詞在上下文中的意思,這個問題是近四年來NLP領域最火熱的一個研究方向。就拿Bert模型來說,它是一個很明顯的分水嶺,想把它得到的上下文詞嵌入運用到工業界裡。

4.1 Contextualized Word Embedding簡述

第一個例子中的第一個「apple」指蘋果公司,第二個「apple」指水果蘋果。假如我們用靜態的詞向量,那在整個語料中「apple」只能表示一個意思,不能表示單詞在上下文中的一個區別。

第二個例子中的第一個「back」指後背,第二個「back」指倒車。第三個例子中的第一個「學習」是動詞,第二個「學習」是名詞。單詞的詞性和詞義在上下文中不同,我們希望學到的詞向量也是不一樣的。

4.2 LSTM-based Model4.2.1 CoVe

下圖a)是一個經典的Seq2Seq模型,我們以機器翻譯任務訓練模型的Encoder和Decoder部分。我們可以通過這種方式學習出帶有上下文的詞向量。那麼我們為什麼可以通過這種方式學習到帶有上下文的詞向量呢?

從下圖b)中我們可以知道,由於Encoder和Decoder都是BI-LSTM模型,模型本身含有語句上下文的信息。因此,用靜態詞向量輸入Encoder編碼器就可以得到含有上下文的詞向量。我們把含有上下文的詞向量和靜態的詞向量拼接在一起,就可以解決某些特定的任務。

4.2.2 ELMo

CoVe使用了機器翻譯任務的Loss訓練模型,而ELMo訓練目標就是語言模型,根據上下文預測下一個單詞。通過語言模型從左到右訓練的方式,我們也叫做Autoregressive Model。

要從ELMo得到一個單詞的詞向量,我們可以把靜態詞向量,拼接第一層隱層向量,再拼接第二層隱層向量,最後再拼接第三層隱層向量,就得到了這個單詞的完整的含有上下文的單詞向量。比如,單詞「今天」的詞向量為:

4.3 Transformer-based Model4.3.1 From LSTM-based Model to Transformer-based Model

LSTM的缺點:

梯度消失、梯度爆炸問題,導致模型不能很好的捕獲長期依賴問題。

基於以上問題,所以我們用Transformer來作為模型處理序列數據的基礎組件。

(1)Transformer

Transformer由兩部分組成:Encoder、Decoder。Encoder部分有許多個Encoder Block組成。每個Encoder Block由五部分組成:

(2)Self-Attention

Transformer的核心是Self-Attention,而在Transformer的每個Encoder Block中都是由

4.3.2 GPT

ELMo用LSTM作為基本組件,GPT用Transformer的Decoder作為基本組件。GPT用語言模型訓練。GPT的優點是使用了Transformer結構,解決了LSTM的缺點問題。

GPT存在的問題:由於GPT是從左到右單向訓練語言模型,沒有考慮當前預測單詞右邊的信息,是一種單向的訓練方式。

4.3.3 BERT

BERT使用Transformer的Encoder結構作為自己的組件。BERT訓練的時候,隨機把語料庫中15%的單詞做Mask操作。對於15%的單詞做Mask操作分為三種情況:80%的單詞直接用[Mask]替換、10%的單詞直接替換成另一個新的單詞、10%的單詞保持不變,用這種方式訓練的語言模型叫做MLM(Masked Language Model)。其實BERT的目標函數的核心思想來自於圖像領域的DAE。

4.3.4 RoBERTa

基於BERT有很多的改進,比較直接的改進是RoBERTa。這個模型針對BERT來講沒有太大的區別,更多的還是在訓練的過程中做了一些改進,所以總結起來有四點改進:

訓練的時間更長,訓練的Batch更大,訓練的數據更多。NSP任務被移除,因為很多研究者表明NSP任務在BERT中起到的作用不大,ALBERT中也指出NSP任務在BERT中作用不大。在BERT裡面,Mask Token是在數據預處理過程中進行的,所以不管數據循環訓練多少次,Mask Token是不變的。在訓練RoBERTa時,針對每個訓練數據是重新隨機的選取Mask Token。

4.3.5 MASS

MASS模型既使用了Transformer的Encoder部分,也使用了Transformer的Decoder部分。MASS的訓練過程更像是Translation Machine的過程,它有點類似於上面提到的CoVe模型。MASS主要工作原理是:在Encoder的輸入部分隨機Mask掉一些單詞,然後在Decoder部分預測輸出被Mask掉的單詞。

4.3.6 XLNet(1)What are the problems of BERT?Training and Testing discrepancy。BERT模型在訓練的時候,訓練數據是隨機Mask掉一些單詞,但是在測試或預測的時候輸入的數據是沒有Mask操作,這會導致訓練數據和測試數據不一致的問題。Independent assumption of predicted tokens。比如,BERT模型需要預測句子「今天是[MASK]講[MASK]」中被Mask的單詞。BERT首先根據上下文「今天、是、講」來預測出「周日」,再根據上下文「今天、是、講」預測出「CV」,但是「周日」和「CV」是有一定關係的,BERT模型並沒有考慮預測單詞之間的關係。

(2)Two Objectives: Autoregressive vs AutoencodingAR:Autoregressive Language ModelingAE:Autoencoding Language Modeling

AR語言模型:指的是依據前面(或後面)出現的tokens來預測當前時刻的token,代表有 ELMo, GPT等。

forward:

backward:

AE語言模型:通過上下文信息來預測被mask的token,代表有 BERT , Word2Vec(CBOW) 。

二者有著它們各自的優缺點:

AR 語言模型:

缺點: 它只能利用單向語義而不能同時利用上下文信息。ELMo 通過雙向都做AR模型,然後進行拼接,但從結果來看,效果並不是太好。優點: 對生成模型友好,天然符合生成式任務的生成過程。這也是為什麼GPT能夠編故事的原因。

AE 語言模型:

缺點: 由於訓練中採用了 [MASK] 標記,導致預訓練與微調階段不一致的問題。BERT獨立性假設問題,即沒有對被遮掩(Mask)的 token 之間的關係進行學習。此外對於生成式問題, AE 模型也顯得捉襟見肘。優點: 能夠很好的編碼上下文語義信息(即考慮句子的雙向信息), 在自然語言理解相關的下遊任務上表現突出。

所以,AR方式所帶來的自回歸性學習了預測 token 之間的依賴,這是 BERT 所沒有的;而 BERT的AE方式帶來的對深層次雙向信息的學習,卻又是像ELMo還有GPT單向語言模型所沒有的,不管是有沒有替換 「[MASK]」。於是,自然就會想,如何將兩者的優點統一起來? 這時就到了XLNet登場的時間。

(3)XLNet原理

XLNet模型為了獲得上下文信息,對一個句子排列組合出所有可能的順序,這樣就有點類似於雙向語言模型的感覺。

5. Model Compression

上面講了許多詞嵌入的模型,但是有許多模型參數巨大,不能在有限的機器上訓練出來,在工業界落地那就更難了。因此,有一部分學者就在模型壓縮方面做了一些工作,我認為在未來一段時間很多工作都會圍繞模型壓縮來做。模型壓縮有以下幾種方式:

Sparse Priors。這個壓縮方法是從貝葉斯想法過來的。如果你之前了解過在邏輯回歸上使用

5.1 ALBERT(Sparse Matrix Factorization)

ALBERT發現Transformer的第

5.2 TinyBERT(Knowledge Distillation)

TinyBERT有兩個模型如下圖所示,左邊的Teacher(BERT)有

6. Summary

7. Reference

本文是Microstrong在觀看李文哲在B站上講解的直播課程《Distributed Representation: From Static Embedding to Contextualized Embedding》的筆記。視頻地址:https://www.bilibili.com/video/BV1EK411p7Nd?p=1 。

【1】【NLP系列直播2】From Static Embedding to Contextualized Embedding,貪心學院,地址:https://www.bilibili.com/video/BV1EK411p7Nd?p=1
【2】李文哲老師直播課深入淺出詞嵌入技術,地址:https://www.bilibili.com/video/BV1tt4y1C7Cm?from=search&seid=17022969140118519703
【3】nlp中的詞向量對比:word2vec/glove/fastText/elmo/GPT/bert - JayLou婁傑的文章 - 知乎 https://zhuanlan.zhihu.com/p/56382372
【4】XLNet詳解 - Microstrong的文章 - 知乎 https://zhuanlan.zhihu.com/p/110204573
【5】The Illustrated Transformer,地址:https://jalammar.github.io/illustrated-transformer/

推薦閱讀

這個NLP工具,玩得根本停不下來

徵稿啟示| 200元稿費+5000DBC(價值20個小時GPU算力)

文本自動摘要任務的「不完全」心得總結番外篇——submodular函數優化

Node2Vec 論文+代碼筆記

模型壓縮實踐收尾篇——模型蒸餾以及其他一些技巧實踐小結

中文命名實體識別工具(NER)哪家強?

學自然語言處理,其實更應該學好英語

史丹福大學NLP組Python深度學習自然語言處理工具Stanza試用

太贊了!Springer面向公眾開放電子書籍,附65本數學、編程、機器學習、深度學習、數據挖掘、數據科學等書籍連結及打包下載

數學之美中盛讚的 Michael Collins 教授,他的NLP課程要不要收藏?

自動作詩機&藏頭詩生成器:五言、七言、絕句、律詩全了

這門史丹福大學自然語言處理經典入門課,我放到B站了

關於AINLP

AINLP 是一個有趣有AI的自然語言處理社區,專注於 AI、NLP、機器學習、深度學習、推薦算法等相關技術的分享,主題包括文本摘要、智能問答、聊天機器人、機器翻譯、自動生成、知識圖譜、預訓練模型、推薦系統、計算廣告、招聘信息、求職經驗分享等,歡迎關注!加技術交流群請添加AINLPer(id:ainlper),備註工作/研究方向+加群目的。

閱讀至此了,點個在看吧👇

相關焦點

  • 前沿綜述:細數2018年最好的詞嵌入和句嵌入技術
    它們使用固定長度的稠密向量對詞和句子進行編碼,從而大幅提升通過神經網絡處理文本數據的能力。對通用嵌入的追尋是個大趨勢:在大型語料庫上預先訓練好的嵌入模型,可以應用到多種下遊任務模型中(情感分析,分類,翻譯...),通過合併一些在較大的數據集上學習的常用詞/句子表示,預訓練的嵌入可以自然地提高其性能。這是一種遷移學習。
  • 從語言學角度看詞嵌入模型
    多詞義處理形態敏感嵌入這些技術在學習詞嵌入的時候,將詞的形態進行了考慮。Fasttext就是這種技術的一個典型代表。它將一個單詞表示成了n-grams(n元模子)字符的匯總。而且,既然fasttext將單詞表示為n元字符(n-gram)的組合,因此它就能為那些語料庫中從來沒有出現過的詞提供嵌入。在一些領域如生命科學領域,由於詞彙表非常有限(長尾現象),語料中大部分的單詞都歸入到未知類別中,該技術就顯得尤其有用。Morphfitting提供了另外一個技術選項用來將詞的形態輸入到詞嵌入模型中。
  • 從詞嵌入到含義嵌入:概覽含義向量表示方法
    詞嵌入方法在眾多自然語言處理任務中得到了廣泛的應用。然而,詞嵌入方法將多義詞合併為單一表示,因此並不精確。
  • 揭開多語言詞嵌入模型的神秘面紗
    現有的特定語言的自然語言處理(NLP)技術無法應對這一挑戰,因為支持每種語言相當於從頭重新解決這個問題並建立起全新的應用。接下來,本文將介紹通過多語言嵌入方法幫助 Facebook 擴展到更多語言的新技術,幫助人工智慧驅動的產品更快適用於新的語言,最終為用戶提供更好的使用 Facebook 的體驗。
  • 詞嵌入和矩陣分解的統一
    在學術界和工業界,由於帶有上下文的嵌入模型對內存和硬體的要求極高,預先訓練詞嵌入的使用仍然十分普遍。SGNS and Matrix FactorizationYou shall know a word by the company it keeps.
  • 圖計算黑科技:打開中文詞嵌入訓練實踐新模式
    如何在無需過多考慮語義相似度的前提下解決中文詞形學表示學習的問題是本文討論的重點話題。在統計學習模型中,使用詞嵌入(Word Embedding)完成自然語言處理任務,是NLP領域裡的一項關鍵技術。常見的詞嵌入(又稱為文本表徵)訓練方法及主要特點如下圖所示。
  • R語言自然語言處理:文本向量化——詞嵌入(Word Embedding)
    如果單詞特別多,但是每個詞出現的次數又不一定很多的時候,我們得到一個巨大的稀疏矩陣。這樣存儲效率很低;2. 這個模型對單詞出現的順序沒有任何記錄,因此「勇士打敗雷霆」和「雷霆打敗勇士」這兩個短語,在BOW模型中認為意思是完全一樣的。為此,科學家提出了詞嵌入模型。
  • 【乾貨】NLP中「詞袋」模型和詞嵌入模型的比較(附代碼)
    什麼情況下詞袋模型比詞嵌入更具優勢,值得大家學習和收藏!作者 | Edward Ma編譯 | 專知翻譯 | Mandy3 basic approaches in Bag of Words which are better than Word Embeddings現如今大家都在討論詞(或字符、句子、文檔)嵌入技術,詞袋模型還有使用的價值嗎?
  • 使用Python代碼的4種句嵌入技術
    >Universal Sentence Encoder最初的嵌入技術只處理單詞,即給定一組單詞,而該技術就是把集合中的每個單詞生成一個嵌入。這個詞關聯問題讓詞嵌入技術得以開發和發展,與傳統的熱編碼相比,詞嵌入技術轉換的不僅是單詞,還能識別出該詞的語義和語法以構建該信息的向量。
  • 當前最好的詞句嵌入技術概覽:從無監督學習轉向監督、多任務學習
    本文是一篇對於當今最先進的通用詞/句嵌入技術的簡介,包括對比基線: FastText、詞袋模型(Bag-of-Words);以及最先進的模型:ELMo、Skip-Thoughts、Quick-Thoughts、InferSent、MILA 研究組和微軟研究院提出的通用句子表徵,以及谷歌的通用句子編碼器。
  • 詞嵌入的經典方法,六篇論文遍歷Word2vec的另類應用
    1、word2vec 簡介什麼是 word2vec:Word2Vec 是一個過程(技術),在這個過程中,將文本作為神經網絡的訓練數據,這個神經網絡的輸出向量被稱作嵌入,這些嵌入(向量)在訓練後會包含單詞的語義信息。
  • Word Embedding List|ACL 2020 詞嵌入長文匯總及分類
    以下匯總並嘗試按主題分類了 37 篇與 word embedding 有關的長文,讓我們一起看看今年詞嵌入的研究又有哪些新進展。關於作者:張正,坐標巴黎,上班NLP,下班詞嵌入。縱向分類一千個人眼裡有一千個分類方法。
  • 深度 | 當前最好的詞句嵌入技術概覽:從無監督學習轉向監督、多任務學習
    近期的通用詞/句嵌入的趨勢:在本文中,作者將介紹上圖中用黑體表示的模型。因此,本文是一篇對於當今最先進的通用詞/句嵌入技術的簡介,詳細討論了以下模型:讓我們從詞嵌入開始娓娓道來。最近的詞嵌入研究進展在過去的五年中,人們提出了大量可行的詞嵌入方法。目前最常用的模型是 word2vec 和 GloVe,它們都是基於分布假設(在相同的上下文中出現的單詞往往具有相似的含義)的無監督學習方法。
  • 翻譯專家:外語詞直接嵌入中文使中文失去純潔性
    翻譯專家:外語詞直接嵌入中文使中文失去純潔性   最近,中文出版物中直接嵌入外語詞的現象又在增多,對此,該怎麼看?全國政協委員、中國翻譯協會副會長、外語中文譯寫部際聯席會議專家委員會首席專家黃友義說,這種現象不符合國際慣例,可以通過兩種方法將這些外語詞「化」為中文使用。  現在,許多外語詞直接嵌入中文,使得中文失去了純潔性。黃友義說,國際慣例對外語詞都是「化用」的,而不是直接嵌入。
  • 業界| 詞嵌入所不能解決的自然語言理解:會話人工智慧的方向在哪?
    不過雖然這些應用背後的技術越來越好,但是還是存在著用戶對其失望的情緒:他們對「智能」的期望並沒有得到滿足。儘管數據驅動的方式在自然語言處理(NLP)中取得了較大的進步,自然語言理解仍然處於艱難的地步。Winograd Schema Challenge 最近提出了一種圖靈測試的改進,他們希望其能用於評價機器是否「智能」。
  • Word2Vec與Glove:詞嵌入方法的動機和直覺
    近年來,詞嵌入方法越來越流行,在各種各樣的NLP任務中得到了廣泛的應用。簡單而言,詞嵌入是通過無監督方式學習單詞的向量表示。本文將首先回顧用向量表示文本的早期模型,並通過分析其缺陷揭示詞嵌入提出的動機,然後介紹Word2Vec和Glove這兩種最流行的詞嵌入方法背後的直覺。用向量來表示文本這一想法由來已久。
  • 「周末AI課堂」理解詞嵌入(理論篇)
    ,由詞組成的句子就可以在其基礎上表示為向量,該向量的維數仍然是字典的長度,如果出現了相同的詞,那麼就在該詞的維度上添加數值。[1,0,1,1,1,0,0,1,1,1]這就是基本的詞袋模型(bag of words model),每個句子都被表示成了一個向量,它所具備的特徵就簡單的依賴於詞出現的頻率,詞的頻率越高,對應的數值就越大,代表了該詞的重要程度。
  • ACL 2020|詞嵌入性別偏見難以避免?「雙硬去偏」新方法來了!
    我們發現語料庫的規律性如詞頻等,會對現有的事後比較去偏算法(post-hoc debiasing algorithms)的性能產生負面影響,於是我們提出在推斷和去除性別子空間之前,根據語料庫的規律性對詞嵌入進行淨化處理。1、詞嵌入中的性別偏見詞嵌入是指用有意義的數字向量表示詞彙表中的單詞,它們能夠捕捉單詞的語義和句法意義以及與其他單詞的關係。
  • 文本嵌入的經典模型與最新進展
    雷鋒網(公眾號:雷鋒網) AI 科技評論按:這篇文章來自自然語言處理以及機器學習專家、Huggingface 的技術負責人 Thomas Wolf,介紹了文本嵌入的重點知識和最新趨勢。雷鋒網 AI 科技評論編譯如下。詞嵌入和句子嵌入已成為所有基於深度學習的自然語言處理(NLP)系統的重要組成部分。它們在定長的密集向量中編碼單詞和句子,以大幅度提高文本數據的處理性能。
  • 無監督學習之詞嵌入(word embedding)
    Unsupervised Learning: Word Embedding本文介紹NLP中詞嵌入(Word Embedding)相關的基本知識,基於降維思想提供了count-based和prediction-based兩種方法,並介紹了該思想在機器問答、機器翻譯、圖像分類、文檔嵌入等方面的應用Introduction詞嵌入(word