見人說人話,見鬼說鬼話,現在的機器翻譯怎麼比我還油膩?

2020-12-06 創造一下

人類訓練 AI ，好的沒學會，壞毛病倒是一樣不落地傳授了不少。

睜著眼睛說瞎話、腦內 YY 小黃片什麼的已經不新鮮了，最近，在達特茅斯大學專家的「言傳身教」下，機器又 get 了一項人類的油膩技能——兩面三刀，見人說人話，見鬼說鬼話。

在學藝歐巴馬多年來講話的口型後，研究者用AI為歐巴馬合成了一句話：「川普簡直傻透了」

網友通過機器學習技術讓 AI 學習女明星蓋爾加朵的面部特徵，併合成到了成人片裡的女演員的頭部

比如，未來的某一天，手機提示音響了：「女神發微信說要去洗澡了」。

你打了它一下，「說人話！」

「女神讓你滾…」

當然效果略有誇張。科學家們正在努力讓機器翻譯軟體學會的這個技能，學術上叫做文風轉換。也就是捕捉到人類語言中的細微差別，針對不同受眾，將一個意思用不同的風格和語言進行改寫。

有啥用呢？

如果早有這個神器，一鍵統一所有文風，知名作家們被發現「槍手代寫」的發案率至少減半。

經典重現：改寫聖經的AI

言歸正傳，這項研究中最具啟發價值的並非最終的 AI 模型，而是訓練過程中，科學家們投餵的「飼料」——34 本風格迥異的聖經。

在自然語言處理領域，聖經是再好不過的數據集。原因只有一個，它的傳播實在是太廣了，是被翻譯語言最多的書籍。

據統計，全世界範圍內共有一千八百多種語言的聖經譯本，幾乎所有民族的語言，甚至地區方言都已包羅。光聖經的中文譯本便達近百種，漢語、白話文和少數民族的版本一應俱全。網上甚至還能搜到四川話版的聖經~（猶大你個龜孫兒！）

實際上，像 Google Translate 這樣的翻譯系統都接受過聖經文本的訓練。聖經本身已被劃分成許多篇，每個譯本都有自己的章節編號。許多自然語言處理（NLP）任務的系統都需要這種明確的對應關係，聖經自帶的編號便免去了自動對齊算法的麻煩，但同時也可能引入一些錯誤。

基於聖經這樣具有相同意義的文本，機器就可以直接在法語與德語之間建立聯繫，省去了中介語轉換的麻煩。

但是，碰到毛利語、索馬利亞語等稀有語種時，可供機器學習的文本極其有限。而過於依賴聖經文本訓練的結果，就是在稀有語言之間強行機翻，就會出現奇奇怪怪的句子。

在谷歌翻譯中選擇毛利語→英語；

輸入19個「dog」；Google會把這段話翻譯成：「世界末日時鐘在12點03分我們正在經歷世界上的人物和戲劇性的發展，這表明我們越來越近接近末日和耶穌的回歸」

單純的翻譯尚且存在障礙，想讓機器在翻譯基礎上做出文風上的轉變就更不是件容易事兒了。有時源語言和目標語言的風格搞不好一個陽春白雪，一個下裡巴人都有可能~

文字界的福音：無縫銜接不是夢

在對神經網絡訓練過程中，研究人員選用了數個不同版本的聖經，讓AI產出相應不同的行文風格。選取的譯本包括 1604 年的 KJV（The King James Version）——詹姆斯國王欽定版，這是英文聖經的首個通行版本，具有裡程碑式的意義，還有1901年的ASV（American Standard Version）——美國標準版，這是對KJV的二次修訂版，目標是使其符合現代美國使用的需要。

還有三十一種其他譯本就不一一列舉了，所有資源都來自 Bible Gateway 這個網站，各類風格的聖經段落應有盡有。

整個數據集包含了來自不同聖經版本中超過150萬個源語言與目標語言的獨特配對。有了這麼豐富的訓練數據，再也不怕 AI 絞盡腦汁寫不出好文章了~

給你們瞧瞧 AI 改寫的一個節選~

源語言：BBE（Bible In Basic English）——基本英語版（最簡單的英文譯本，使用單詞在1000個常用詞之內，供移民和兒童閱讀）

目標語言：ASV

輸入（BBE）："Then the Levites took down the ark of the Lord and the chest in which were the gold images, and put them on the great stone: and the men of Beth-shemesh made burned offerings and gave worship that day before the Lord."

利未人將耶和華的約櫃和裝金物的匣子拿下來，放在大磐石上。當日伯示麥人將燔祭和平安祭獻給耶和華。——《舊約 - 撒母耳記上(1 Samuel)》第6章

輸出（ASV）：" Then And the Levites took brought down the ark of the LordJehovah, and the chest in which were the gold golden images, and put them onupon the great stone: and the men of Beth-shemesh made burned offerings burned incense, and gave worship worshipped that day before the Lord Jehovah."

這個節選段落中，除了一些介詞和指代詞的改動，還把 made burned offerings（燔祭）這種生僻的宗教禮儀改成了burned incense 這樣易於理解的詞彙。

從兩個版本對比可以看出，AI的改動並不算大，畢竟改寫的首要原則就是完整保留文本的整體含義。不過研究人員也承認，AI 內部的神經網絡究竟是依照何種原則和特徵做出改寫，真的很難琢磨透。

改寫過程中，AI首先需要完整讀取源語言，並創建一個代表它的相應矢量。接下來，靠這個矢量一次擠一個單詞出來，每個單詞都與上一個風格相仿。這個「擠牙膏」的過程或許只有AI自己才明白個中邏輯，外人根本無法推測。

讀不懂的大部頭？不存在的…

不過看不懂管他呢，反正寫出來就好了，能讓好的文本作品傳播更廣，怎麼都是件好事兒~

我打賭每個人家裡都有那麼幾本永遠停留在第一頁的名著吧…有了AI改寫小助手，再也不用讓它們吃灰了，經典的文本可以通過改寫變得通俗易懂，以方便兒童和非母語人士理解。

同樣，外行人也可以更好理解技術性的文件，媽媽再也不用擔心你讀不懂讓人眼花的論文和各種法律條約了~

除了提升閱讀上的便捷性以外，它能做的還有許多，比如重寫文本來匹配特定作者的風格，或更實際一點，直接讓同一團隊的作者文風保持統一。

假如某天你現實主義作品寫多了突然膩了，靈光一閃想轉意識流，AI改寫小助手就能助你一臂之力，文風無縫連接。（早知道有它，當年就不用在文學理論考試前猛通宵背書了…）

不過，按這個改寫 AI 的套路，《聖經》第一卷《創世記》怕是要這麼改了…

上帝初創天地。第一天，神說要有光——Biu~光來了。接下來的二三四五天裡，分別再次開掛創造了空氣、海洋、星辰、水中生命和飛鳥。第六天，上帝先創造了地上的生靈，又擔心自己苦心經營的一切毀於一旦，便照著自己的形象捏出了人類，派他們去管理這個世界。第七天，累壞了的上帝終於歇著了~哈~你以為這就結束了嗎？故事的後續中，上帝第八天又跑回來了。他對愚蠢的人類不放心，又造了個AI，把前面六天的故事全改寫了一遍。

不信嗎？

那你把上帝全名念一遍，是不是叫Jesus Chr-AI-st？（恍然大悟.jpg）

見人說人話,見鬼說鬼話,現在的機器翻譯怎麼比我還油膩?

相關焦點

臺灣政論節目名嘴「見人說人話見鬼說鬼話」?灣灣媒體這些年到底經歷了什麼

看透不說破的三大生肖女,她們就算看出破綻也不會說出來

人緣好,善交際的四大星座,見人說人話,見鬼說鬼話,十分機靈!

都在說「油膩的中年人」,「油膩」如何用英語表達?

飯局上,老闆當眾誇你,別只會說「不敢當」,聰明人這樣說更討喜

王維、楊絳與機器翻譯的本質

機器翻譯正走入現實生活未來還需要人工翻譯嗎?

B站「不靠譜」翻譯大賽:機器翻譯,還遠不能取代人工翻譯

谷歌機器翻譯取得顛覆性突破到底幾分真假?

我被這鬼話騙了好多年

從演技上說,雪崩更上一層樓

百度機器翻譯現在都能預測你未來幾秒要說的話了!

機器之心獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類

見人說人話,見鬼說鬼話,現在的機器翻譯怎麼比我還油膩?

相關焦點

臺灣政論節目名嘴「見人說人話 見鬼說鬼話」?灣灣媒體這些年到底經歷了什麼

看透不說破的三大生肖女,她們就算看出破綻也不會說出來

人緣好,善交際的四大星座,見人說人話,見鬼說鬼話,十分機靈!

都在說「油膩的中年人」,「油膩」如何用英語表達?

飯局上,老闆當眾誇你,別只會說「不敢當」,聰明人這樣說更討喜

王維、楊絳與機器翻譯的本質

機器翻譯正走入現實生活 未來還需要人工翻譯嗎?

B站「不靠譜」翻譯大賽:機器翻譯,還遠不能取代人工翻譯

谷歌機器翻譯取得顛覆性突破 到底幾分真假?

我被這鬼話騙了好多年

從演技上說,雪崩更上一層樓

百度機器翻譯現在都能預測你未來幾秒要說的話了!

機器之心獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類

臺灣政論節目名嘴「見人說人話見鬼說鬼話」?灣灣媒體這些年到底經歷了什麼

機器翻譯正走入現實生活未來還需要人工翻譯嗎?

谷歌機器翻譯取得顛覆性突破到底幾分真假?