選自GitHub
作者:Sepehr Sameni
機器之心編譯
參與:路
詞語和句子嵌入已經成為任何基於深度學習的自然語言處理系統的必備組成部分。它們將詞語和句子編碼成稠密的定長向量,從而大大地提升神經網絡處理文本數據的能力。近日,Separius 在 GitHub 上列舉了一系列關於 NLP 預訓練模型的近期論文和文章,力求全面地概述 NLP 各個方面的最新研究成果,包括詞嵌入、池化方法、編碼器、OOV 處理等。
GitHub 地址:https://github.com/Separius/awesome-sentence-embedding
通用框架
幾乎所有句子嵌入的工作原理都是這樣的:給出某種詞嵌入和可選編碼器(例如 LSTM),句子嵌入獲取語境詞嵌入(contextualized word embedding)並定義某種池化(比如簡單的 last pooling),然後基於此選擇直接使用池化方法執行監督分類任務(如 infersent),或者生成目標序列(如 skip-thought)。這樣通常我們就有了很多你從未聽說過的句子嵌入,你可以對任意詞嵌入做平均池化,這就是句子嵌入!
詞嵌入
這部分 Separius 介紹了 19 篇相關論文,包括 GloVe、word2vec、fastText 等預訓練模型:
OOV 處理
A La Carte Embedding: Cheap but Effective Induction of Semantic Feature Vectors:基於 GloVe-like 嵌入的近期結果構建 OOV 表徵,依賴於使用預訓練詞向量和線性回歸可高效學習的線性變換。Mimicking Word Embeddings using Subword RNNs:通過學習從拼寫到分布式嵌入的函數,合成地生成 OOV 詞嵌入。
語境詞嵌入
這部分介紹了關於語境詞嵌入的 5 篇論文,包括近期大熱的 BERT。
機器之心介紹過這五篇論文中的其中四篇,參見:
深度 | 通過 NMT 訓練出通用的語境詞向量:NLP 中的預訓練模型?NAACL 2018 | 最佳論文:艾倫人工智慧研究所提出新型深度語境化詞表徵使用 Transformer 與無監督學習,OpenAI 提出可遷移至多種 NLP 任務的通用模型最強 NLP 預訓練模型!谷歌 BERT 橫掃 11 項 NLP 任務記錄
池化方法
{Last, Mean, Max}-PoolingSpecial Token Pooling(如 BERT 和 OpenAI's Transformer)A Simple but Tough-to-Beat Baseline for Sentence Embeddings:選擇一種在無監督語料庫上常用的詞嵌入計算方法,使用詞向量的加權平均值來表徵句子,並且使用 PCA/SVD 進行修改。這種通用的方法有更深刻和強大的理論動機,它依賴於一個生成模型,該生成模型使用了一個語篇向量上的隨機遊走生成文本。Unsupervised Sentence Representations as Word Information Series: Revisiting TF–IDF:提出了一種將句子建模為詞嵌入的加權序列的無監督方法,該方法從無標註文本中學習無監督句子表徵。Concatenated Power Mean Word Embeddings as Universal Cross-Lingual Sentence Representations:將平均詞嵌入的概念泛化至冪平均詞嵌入。A Compressed Sensing View of Unsupervised Text Embeddings, Bag-of-n-Grams, and LSTMs:從壓縮感知理論的角度看結合多個詞向量的表徵。
編碼器
這部分介紹了 25 篇論文,包括 Quick-Thought、InferSent、SkipThought 等預訓練模型。
評估
這部分主要介紹詞嵌入、句子嵌入的評估和基準:
The Natural Language Decathlon: Multitask Learning as Question AnsweringSentEval: An Evaluation Toolkit for Universal Sentence RepresentationsGLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language UnderstandingExploring Semantic Properties of Sentence EmbeddingsFine-grained Analysis of Sentence Embeddings Using Auxiliary Prediction TasksHow to evaluate word embeddings? On importance of data efficiency and simple supervised tasksA Corpus for Multilingual Document Classification in Eight LanguagesOlive Oil Is Made of Olives, Baby Oil Is Made for Babies: Interpreting Noun Compounds Using Paraphrases in a Neural ModelCommunity Evaluation and Exchange of Word Vectors at wordvectors.orgEvaluation of sentence embeddings in downstream and linguistic probing tasks
向量圖
Improving Vector Space Word Representations Using Multilingual Correlation:提出了基於典型相關分析(CCA)結合多語言 evidence 和單語生成向量的方法。A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings:提出一種新的無監督自訓練方法,該方法採用更好的初始化來引導優化過程,這種方法對於不同的語言對而言尤其強大。Unsupervised Machine Translation Using Monolingual Corpora Only:提出將機器翻譯任務轉換成無監督式任務。在機器翻譯任務中,所需的唯一數據是兩種語言中每種語言的任意語料庫,而作者發現如何學習兩種語言之間共同潛在空間(latent space)。參見:無需雙語語料庫的無監督式機器翻譯
此外,Separius 還介紹了一些相關的文章和未發布代碼或預訓練模型的論文。
本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。