谷歌翻譯核心技術 Seq2Seq

2021-02-24 GitBook社區

本文來自作者：鄧侃在 GitChat 上的分享
點擊文末「閱讀原文」這場 Chat 看看大家與作者交流了哪些問題

前言

本文主要介紹的是 sequence to sequence ，這個技術主要是用來做文本理解、機器閱讀方面的事情。

在去年，人工智慧在應用領域裡有三個大的標誌性的突破：

首先，大家都知道的 AlphaGo 與韓國著名棋手李世乭的人機圍棋大戰，突然之間打破了世界對人工智慧的認知發生了180度大逆轉，先前人們覺得人工智慧不太靠譜，還是一個不切實際的概念，現在覺得人工智慧無所不能，搞不好20年之後人工智慧要統治人類了。大家覺得它20年之後能統治我們嗎？我是有點懷疑，但是很多人覺得這很恐怖。

第二個，特斯拉上的 Tesla Autopilot 輔助導航系統，雖然它號稱是輔助，但實際上已經屬於無人駕駛系統了，因為確實有很多人上車之後不扶方向盤了。這件事情標誌著說無人駕駛這個技術基本上可以商業化，所以在2017年的時候，無人駕駛這個行業火得一塌糊塗。

百度開源，為什麼？因為這個無人駕駛這個領域的競爭比賽已經進入下半場了，上半場的任務是搶奪領先地位，而下半場的任務就是把競爭對手幹掉，所以百度一開源，很多競爭企業都沒了，這就是百度的基本戰略設想。

第三個，Google Translate（谷歌翻譯），自然語言翻譯，中文翻英文，英文翻中文，中文翻法文等功能投入商用了。

為什麼 Google Translate 是突破性進展？

我們今天要講一講為什麼這件事情很重要，因為 Google Translate 用證據證明了一些事情：

第一件事情是「跨語言」，任何自然語言，中文、日文、英文、法文等等，都可以用一種數字向量來表示它的語義。以前大家只是一個猜想，Google Translate 把這個技術做到了商用化，大家覺得這是可行的。

第二件事情則是「可微分」，那麼什麼叫可微分？比如一個詞，腹瀉和肚子疼，字面上沒有一個相同，但大家知道這兩個是同義詞。如果我們把它表示成一個相量的話，把它減掉 0.1，那是不是近義詞，以前是沒有辦法的，說把腹瀉換一個字母，再減1是什麼意思？本來就是沒意思。所以以前的詞彙是離散的不可微分的，我們現在找了一個詞向量，這個詞向量是個數字向量，是可以微分的。

第三件事情「可編輯」，我把好幾個詞的詞向量怎麼編輯在一起，像剪接基因一樣，能夠搞出一個文章摘要、中心思想、關鍵詞，所以詞向量還是可編輯的。在這之前大家一直覺得這是一個學術上的研究課題，能不能成，還不確定。

但是 Google Translate 上線之後，業界基本上已經沒有異議了，說這事基本可行了。這就是說，它學術上為什麼說有大突破，這個意義就在於說它證明了跨自然語言的可微分的可編輯的語言的表示的一種新方法。

Google Translate 這個東西其實不僅僅是翻譯軟體那麼簡單，它是一個通用的對自然語言的一種新的處理方法。

在醫療領域，做大量的病例結構化時，除了其他傳統方法，我們也可以用 sequence to sequence 這種技術來對病例做結構化處理。比如說，有什麼病變，發生在什麼位置，病變會有很多性質，位置也會有很多性質，所以詞與詞之間事實上有這種語義的關聯性。

我們用這種技術就完全可以把一個自然語言寫成語句，把它翻譯成結構化的一種表格。Google Translate 用的 sequenceto sequence 並局限於翻譯，它實際上是機器閱讀通用的方法，所以它的意義是非常大的。

Google Translate 整個的機制，谷歌還是蠻有道義感的一個公司，他非常開放的把他內部的一些細節都寫入論文發表出來了，所以大家都可以偷看他到底怎麼做的，這篇論文很出名。這篇論文裡核心的其實就是下面這張圖，如果看懂了這張圖，整個論文就看懂了。

這張圖說了些什麼？假如有一個中文翻譯英文的例子，「知識就是力量」，最終的輸出是「Knowledge is power」，輸入是中文，翻譯成英文，這是它主要的工作目的。

它怎麼做呢？實際上是這麼幾個步驟：

它整個用的技術又稱為「encoder（編碼）」和「decoder（解碼）」，另外一種表示就是「sequence to sequence」，或者概括說是谷歌翻譯的核心技術。

這個地方有幾件事情，我們剛才說為什麼谷歌翻譯的核心技術是個劃時代的？

之前說了三個關鍵詞：一個是「跨自然語言」，第二個是「可微分」，第三個是「可編輯」。上圖這個例子是把中文搞成數字語言，再從數字語言翻譯成英文。

大家可以想一想，中文是不是可以翻譯成數字語言，再從數字語言翻譯成法文呢？當然是可以的。同樣的，也可以把現代的白話中文翻譯成數字語言，再把它翻譯成中國的古漢語文言文。

再給你一段中文的現代文，翻譯成數字的語言，再從數字語言可以搞出來一個中心思想，或者說一段中文把它翻譯成數字語言，再從數字語言搞成結構化的表格。這就是它的強大所在。

要解釋這件事情背後的成因，實際上它有若干個技術的要素，包括怎麼去生成一個詞向量，詞向量是什麼，給你一個字或詞「知識」，你把它翻譯成一個數字向量，這叫詞向量。這個詞向量是產生的，這是第一件事情。這裡面核心的問題是語言模型，用語言模型來生成詞向量，這是咱們本文要講的事情。

這個系列講座我們還要談其他話題，不僅有詞向量，一個句子有很多詞向量，你要把它再編輯，變成一個語義的表示。用什麼東西來做編輯器，在 GoogleTranslate 裡用了 LSTM。Facebook 前段時間發了一個論文，他用 CNN 來編輯。怎麼去編輯語義，這是第二個話題。

第三個話題是 attention，解碼的時候，你要把它翻譯成德文，哪一個德文的詞彙是最恰當詞彙？這個裡面用到一個 attention 機制，sequence to sequence 裡面還有一個概念就是 attention 聚焦。

attention 之後再展開是什麼？現在的 attention 只是從 sequence to sequence 表面字面的意思，沒有先驗的知識。能不能把知識圖譜也融入 attention 裡，也就是說我們會有一些先驗的知識，這是第四個話題，怎麼把符號主義的知識圖譜和連接主義的仿生模型，把這兩個完全獨立的學派搞在一起。

目前為止，業界在做得最好的是 CMU Eric Xing 教授做的一個 student-teacher 模型，那天我跟俊哥討論的時候，俊哥說他有個新方法。他說是在 attention 裡面做一點花樣，我聽完之後茅塞頓開，我把那個東西稱之為孫方法，很了不起的一件事情，超級簡單但是超級有用的東西。我會在這裡面談，先談 student-teachermodel，然後再談孫方法。

最後一個話題是評價函數，在我訓練完之後還是不好、有瑕疵怎麼辦？我們需要一個評價的函數，大家現在通常用的是這個，但這個裡面實際上有很多問題需要研究。整個 sequence to sequence 談完這五個大的技術要素，大家基本就明白了。

但是為什麼大家會覺得聽起來比較困難，主要問題是，現在談的時候總是一下把五個話題全混在一起，大家自然就有點糊塗了。怎麼辦？各個擊破。所以我們做一個系列，本文先講第一個話題：「用語言模型生成詞向量」。

用語言模型生成詞向量

詞向量的生成方法，業界現在最流行的方法是用語言模型（language model）來做的，提到這種方法得提三個人，第一個是徐偉，他是在98年最先提出語言模型怎麼做，然後給了上圖第二個人巨大的啟示。

第二個人就是名列世界深度學習的 top 3， Yoshua Bengio。他寫的一篇論文非常出名，基本奠定了怎麼用語言模型和詞向量的整個方法論，這篇論文發表以後，就出現了一個跨時代的巨大突破。

從工程上來講，現在基本上詞向量怎麼做，大家已經覺得沒什麼爭議了，最終把詞向量這個事情封殺的是谷歌的一位叫 Tomas Mikolov 的工程師，大家都知道詞向量就是他做的。

我們今天主要談談這個機制是怎麼做的，以及業界對這個模型會有什麼質疑。

上圖是 Bengio 那篇著名的論文，大家在學習的時候都讀過很多論文，讓人印象深刻的並不多，但這篇論文會讓你印象非常深刻。論文講了一個非常厲害的想法，整篇論文一口氣讀下來，對我們並沒什麼障礙就讀完了，非常暢快。

如果能看懂上面這張圖，這篇論文基本上就看懂了。論文講的第一件事情是語言模型，這個語言模型很簡單，就是給你一篇文章，由若干個句子構成，每個句子有若干個詞按順序構成。

現在問題是，我怎麼預測下一個詞出現的應該是哪個詞？它的概率是多少？這就是語言模型。

比方說給你這麼一句話，「人工智慧醫生幫助人類醫生提高臨床效率」。假如我先告訴你「人工智慧」，你推測下個可能出現什麼詞？下一個可能會出現很多詞，什麼詞都有可能，也許是「醫生」，也許是「幫助」等。這裡，我先給你一個前面的詞，我想猜一猜後續出現「醫生」的概率是多少？

這個語言模型要怎麼做？其實道理很簡單。舉例說：我先給圖上的句子做分詞：「人工」，「智能」，「醫生」，「幫助」……，分好詞後做計數，統計每次出現「人工」時，後面出現的「智能」的有多少詞？這我們可以統計出來。

所以後面提出一個叫 N-gram 的方法。比如說，一句話前面是「人工」，後面是「智能」，「智能」出現的概率遠遠大於「人工化肥」等其他帶「人工」的詞，那麼我們就認為「人工智慧」可能是一個詞組，這兩個詞是經常在一起的，這種方法就叫 N-gram。

它完全是依靠統計，裡面有沒有透露出「人工」是什麼語義，「智能」是什麼語義，但是它是一個語言模型。現在問題是，Bengio 對語言模型做了兩個地方的改動。

根據上圖公式，第一行首先是最原生態的語言模型，給定一個句子中間前一句的詞，現在要猜測下面一個位置出現這個詞的概率是多少。舉個例子，前一句詞「人工智慧醫生」，現在想猜測「醫生」後面出現「幫助」個詞的概率是多少，這是它原生態的語言模型。如果句子從第一個詞開始一直到你馬上要預測的下一個位置，i 是不斷增長的。

第二行開始，做一點改造，每次給一個定長的窗口 t ，前續詞倒推，如果我把語言模型限定為定長的窗口，那麼會降低一點點精度。這個給定長的窗口 t 一個學術名稱，就是 N-gram，在我們這裡面 N 等 T。

這個事情和 Bengio 的工作沒有任何關係。Bengio 、徐偉等人做了什麼事情？

第一個事情，從第三行起，前續的詞不再是原來的那個 Z 符號，它先把它翻譯成一個數字向量，我用 g 來表示，這是一個100維或者200維的或者256維或者512維的數字向量，從這邊轉換到這邊，變成一個詞向量。

第二件事情，你的條件概率用什麼函數來模擬？在 N-gram 裡面沒什麼，它就是一個統計概率。從從第四行看，在 Bengio 的工作裡，他用了一個很簡單的神經網絡，來模擬條件概率。

所以他做兩件事情，第一件事情，從 N-gram 裡面把原來的詞、符號變成一個數字向量，第二件事情把這個概率用一個神經網絡來模擬。

雖然這看上去很簡單，但確實是很牛的，看上圖，有這麼幾條。

第一條，首先，要去訓練這個神經網絡，訓練詞向量的轉化函數，這時會需要很多參數，要用大量的訓練語料，這些訓練語言模型的訓練語料從哪裡來？非常好找，任何一篇文章都可以作為訓練語料，數量幾乎是無限，這是它的第一個優點。

那麼問題來了，這種訓練是無監督學習還是有監督學習？這個訓練確實不需要標註它是個無監督學習，但是你從它訓練的輸入和輸出看，又是個有監督學習，所以它的界限非常寬，你可以說它是無監督，也可以說它是有監督。

有監督學習是從標籤化訓練數據集中推斷出函數的機器學習任務。

無監督學習是根據類別未知(沒有被標記)的訓練樣本解決模式識別中的各種問題。

第二個優點，它整體是如何訓練的？詞到詞向量轉換得非常準確，前提假設是：

那麼整個函數g 加起來擬合的會非常貼切。但是在開始時候你不知道函數 g 是多少，假定函數g 開始的時候就給它隨便設一個隨機詞（值），但是應該知道它貼合哪個詞（值），這兩個詞（值）中間會有一個距離，這時調詞向量的參數和神經網絡的參數，不停地調，直到調到兩者貼得很近。這就是整個語言模型訓練的過程。

所以只要知道這個神經網絡怎麼訓練的，就沒那麼複雜。好在說它的訓練語料幾乎是無限的，只要你有足夠的計算資源在上面你就可以擺，所以模型非常簡單。這就是 Bengio 講的怎麼用自然語言模型來訓練詞向量。

這篇論文出來之後立刻引起衝動，比如說有人寫了這麼一篇文章，《自然語言（幾乎）重起爐灶》。重起爐灶的意思是說，以前的辦法不好，需要重來。為什麼不是修修補補，而是重來？因為方法論變了。

為什麼是方法論變了呢？回到最開始的一段話，因為找到了一種「跨自然語言的超級語言」，一種「基因語言」，一種「數字語言」，而且它是連續的可微分的可訓練的。

他不僅是說一個一個詞可以算它的詞向量，把一個句子裡面的每一個詞都變成詞向量，整個句子就變成一組詞向量了，而且還可以對這一組詞向量不停的編輯，編輯出它的中心思想，編輯出它的語義語法結構。

這個就是說整個方法論變了，以至於會有人寫一篇論文說我們得重起爐灶吧。事實證明這篇論文裡面所預言的幾件事情，幾年之後全部變成現實了。最出名的證據就是谷歌翻譯，谷歌翻譯基本上證明了跨自然語言、可微分、可編輯，這三個事完全成立。

雖然如此，但是會有人質疑，會是哪些質疑？

第一個質疑，同義詞。

單純從這個語言模型來講，每一個詞對應的當前一個詞向量，單一詞向量你怎麼表示同義詞。

方法一，每一個詞並不一定要對應一個詞向量，它可以對應好幾個詞向量，每一個詞向量對應一個不同的語義。

方法二，先在語料中做搜索，查一查「蘋果」出現在哪些場景，然後我把有歧義的語料給扔掉，在這一堆語料中間，蘋果只是說那個公司。在那一堆語料中間若且唯若，它只是說水果。這樣一來，訓練出來的「蘋果」會有兩個完全不同的詞向量。

方法可以有很多，所以第一個質疑比較容易解決。

第二個質疑，剛才說它的數字語言是一種超級語言，是一種基因語言，代表了它蘊含的語義，這只是個猜想，如何證明？

比如說蘋果翻譯成了一個256維的數字向量，請問你前面8個 bytes 代表什麼語義，現在不知道，它就像基因一樣，給了你一大段核糖核酸，代表了生命中間什麼東西不知道，所以大家去研究那事。

我們現在問題是說，我確實算出來詞向量了，詞向量中間每一個 bytes 是什麼含義，目前為止不知道。Bengio 的論文也沒說到底為什麼是這樣，只是說好像是。

倒是 Tomas Mikolov，他的貢獻主要是他把詞向量的工程細節做得很完美了，但在他的論文裡他提出一個證明，證明詞向量中間的確是蘊含著語義的。

這是他的著名論文，這篇論文現在所有做詞向量基本上都是按這個規矩來做的。這篇論文裡面在它的結論部分有一個旁證，它並不能說這個詞向量前面幾個 bytes 到底是什麼語義，但是它會給你一些證據，說好像這幾個 bytes 真的包含著一些語義的意思。

比如給出兩詞，「雅典」「希臘」，雅典是希臘的首都，對應著，「奧斯陸」「挪威」，奧斯陸是挪威的首都，「雅典」有一個詞向量，「希臘」有一個詞向量，「奧斯陸」也有一個詞向量，「挪威」也有詞向量。我把這兩個詞向量相減，首都的詞向量減掉國家的詞向量，「雅典」的詞向量減去「希臘」的詞向量，差不多等於「奧斯陸」的詞向量減去「挪威」的詞向量，這個很神奇。

TomasMikolov 說了，我通過這麼一個簡單的詞向量的減法實驗，從側面反映了雅典的詞向量和希臘的詞向量中間確實隱含著首都和國家之減的某種關係。同樣的減法的思路，也能表達州與州府的關係。

另外，brother 和 sister 這兩個詞向量相減等於孫子和孫女相減。然後他又說，從形容詞和副詞的關係，也能夠用詞向量表達，不僅僅詞向量可以反映出語義之間的某種，而且還可以反映出某種語法上的關係，很神奇的一件事情，但是這只是一個旁證。

最後還有一個更強的證據，就是前面提到的翻譯。翻譯的難度比做這兩個詞之間有某種語義關係要難得多，從中文翻譯成英文，翻得準不準確，大家一眼就知道。

如果現在大家覺得翻得很準了，從中文翻譯成數字語言，這事聽起來有點靠譜。但翻譯也還是一個旁證，可是比前面那個詞減詞的旁證更強大，更確鑿的證據。

在本場 Chat 中留下你的問題，作者給你解答

「閱讀原文」這場 Chat 看看大家與作者交流了哪些問題

谷歌翻譯核心技術 Seq2Seq

相關焦點

萬能的Seq2Seq:基於Seq2Seq的閱讀理解問答

求解微分方程,用seq2seq就夠了,性能遠超 Mathematica、Matlab

直觀理解並使用Tensorflow實現Seq2Seq模型的注意機制

Seq2Seq之雙向解碼機制 | 附開源實現

SMAC-seq可評估大規模染色質狀態

機器翻譯:谷歌翻譯是如何對幾乎所有語言進行翻譯的?

利用針對血漿無細胞核小體的ChIP-seq鑑定細胞來源的基因表達基序

科學家利用scRNA-Seq繪製人類炎症性皮膚病轉錄圖譜

開發出CiBER-seq新技術,可同時分析細胞中的多達...

RNA-seq中的那些統計學問題(一)為什麼是負二項分布?

Seq2Seq 模型詳解

首次大規模神經機器翻譯架構分析結果出爐,LSTM 優於GRU

谷歌傳奇Jeff Dean給創業者的一小時AI講座 | 86頁PPT+視頻

百分點認知智能實驗室出品:機器翻譯是如何煉成的(下)

谷歌ALBERT模型V2+中文版來了,GitHub熱榜第二

谷歌官方開源tf-seq2seq:一種通用編碼器-解碼器框架

完全圖解RNN、RNN變體、Seq2Seq、Attention機制

谷歌翻譯是如何藉助多項新興AI技術提高翻譯質量的