見人說人話,見鬼說鬼話,現在的機器翻譯怎麼比我還油膩?

2020-12-06 創造一下

人類訓練 AI ,好的沒學會,壞毛病倒是一樣不落地傳授了不少。

睜著眼睛說瞎話、腦內 YY 小黃片什麼的已經不新鮮了,最近,在達特茅斯大學專家的「言傳身教」下,機器又 get 了一項人類的油膩技能——兩面三刀,見人說人話,見鬼說鬼話

在學藝歐巴馬多年來講話的口型後,研究者用AI為歐巴馬合成了一句話:「川普簡直傻透了」

網友通過機器學習技術讓 AI 學習女明星蓋爾加朵的面部特徵,併合成到了成人片裡的女演員的頭部

比如,未來的某一天,手機提示音響了:「女神發微信說要去洗澡了」。

你打了它一下,「說人話!」

「女神讓你滾…」

當然效果略有誇張。科學家們正在努力讓機器翻譯軟體學會的這個技能,學術上叫做文風轉換。也就是捕捉到人類語言中的細微差別,針對不同受眾,將一個意思用不同的風格和語言進行改寫。

有啥用呢?

如果早有這個神器,一鍵統一所有文風,知名作家們被發現「槍手代寫」的發案率至少減半。

經典重現:改寫聖經的AI

言歸正傳,這項研究中最具啟發價值的並非最終的 AI 模型,而是訓練過程中,科學家們投餵的「飼料」——34 本風格迥異的聖經。

在自然語言處理領域,聖經是再好不過的數據集。原因只有一個,它的傳播實在是太廣了,是被翻譯語言最多的書籍。

據統計,全世界範圍內共有一千八百多種語言的聖經譯本,幾乎所有民族的語言,甚至地區方言都已包羅。光聖經的中文譯本便達近百種,漢語、白話文和少數民族的版本一應俱全。網上甚至還能搜到四川話版的聖經~(猶大你個龜孫兒!)

實際上,像 Google Translate 這樣的翻譯系統都接受過聖經文本的訓練。聖經本身已被劃分成許多篇,每個譯本都有自己的章節編號。許多自然語言處理(NLP)任務的系統都需要這種明確的對應關係,聖經自帶的編號便免去了自動對齊算法的麻煩,但同時也可能引入一些錯誤。

基於聖經這樣具有相同意義的文本,機器就可以直接在法語與德語之間建立聯繫,省去了中介語轉換的麻煩。

但是,碰到毛利語、索馬利亞語等稀有語種時,可供機器學習的文本極其有限。而過於依賴聖經文本訓練的結果,就是在稀有語言之間強行機翻,就會出現奇奇怪怪的句子

在谷歌翻譯中選擇毛利語→英語;

輸入19個「dog」;Google會把這段話翻譯成:「世界末日時鐘在12點03分我們正在經歷世界上的人物和戲劇性的發展,這表明我們越來越近接近末日和耶穌的回歸」

單純的翻譯尚且存在障礙,想讓機器在翻譯基礎上做出文風上的轉變就更不是件容易事兒了。有時源語言和目標語言的風格搞不好一個陽春白雪,一個下裡巴人都有可能~

文字界的福音:無縫銜接不是夢

在對神經網絡訓練過程中,研究人員選用了數個不同版本的聖經,讓AI產出相應不同的行文風格。選取的譯本包括 1604 年的 KJV(The King James Version)——詹姆斯國王欽定版,這是英文聖經的首個通行版本,具有裡程碑式的意義,還有1901年的ASV(American Standard Version)——美國標準版,這是對KJV的二次修訂版,目標是使其符合現代美國使用的需要。

還有三十一種其他譯本就不一一列舉了,所有資源都來自 Bible Gateway 這個網站,各類風格的聖經段落應有盡有。

整個數據集包含了來自不同聖經版本中超過150萬個源語言與目標語言的獨特配對。有了這麼豐富的訓練數據,再也不怕 AI 絞盡腦汁寫不出好文章了~

給你們瞧瞧 AI 改寫的一個節選~

源語言:BBE(Bible In Basic English)——基本英語版(最簡單的英文譯本,使用單詞在1000個常用詞之內,供移民和兒童閱讀)

目標語言:ASV

輸入(BBE):"Then the Levites took down the ark of the Lord and the chest in which were the gold images, and put them on the great stone: and the men of Beth-shemesh made burned offerings and gave worship that day before the Lord."

利未人將耶和華的約櫃和裝金物的匣子拿下來,放在大磐石上。當日伯示麥人將燔祭和平安祭獻給耶和華。——《舊約 - 撒母耳記上(1 Samuel)》第6章

輸出(ASV):" Then And the Levites took brought down the ark of the LordJehovah, and the chest in which were the gold golden images, and put them onupon the great stone: and the men of Beth-shemesh made burned offerings burned incense, and gave worship worshipped that day before the Lord Jehovah."

這個節選段落中,除了一些介詞和指代詞的改動,還把 made burned offerings(燔祭)這種生僻的宗教禮儀改成了burned incense 這樣易於理解的詞彙

從兩個版本對比可以看出,AI的改動並不算大,畢竟改寫的首要原則就是完整保留文本的整體含義。不過研究人員也承認,AI 內部的神經網絡究竟是依照何種原則和特徵做出改寫,真的很難琢磨透。

改寫過程中,AI首先需要完整讀取源語言,並創建一個代表它的相應矢量。接下來,靠這個矢量一次擠一個單詞出來,每個單詞都與上一個風格相仿。這個「擠牙膏」的過程或許只有AI自己才明白個中邏輯,外人根本無法推測。

讀不懂的大部頭?不存在的…

不過看不懂管他呢,反正寫出來就好了,能讓好的文本作品傳播更廣,怎麼都是件好事兒~

我打賭每個人家裡都有那麼幾本永遠停留在第一頁的名著吧…有了AI改寫小助手,再也不用讓它們吃灰了,經典的文本可以通過改寫變得通俗易懂,以方便兒童和非母語人士理解。

同樣,外行人也可以更好理解技術性的文件,媽媽再也不用擔心你讀不懂讓人眼花的論文和各種法律條約了~

除了提升閱讀上的便捷性以外,它能做的還有許多,比如重寫文本來匹配特定作者的風格,或更實際一點,直接讓同一團隊的作者文風保持統一

假如某天你現實主義作品寫多了突然膩了,靈光一閃想轉意識流,AI改寫小助手就能助你一臂之力,文風無縫連接。(早知道有它,當年就不用在文學理論考試前猛通宵背書了…)

不過,按這個改寫 AI 的套路,《聖經》第一卷《創世記》怕是要這麼改了…

上帝初創天地。第一天,神說要有光——Biu~光來了。接下來的二三四五天裡,分別再次開掛創造了空氣、海洋、星辰、水中生命和飛鳥。第六天,上帝先創造了地上的生靈,又擔心自己苦心經營的一切毀於一旦,便照著自己的形象捏出了人類,派他們去管理這個世界。第七天,累壞了的上帝終於歇著了~哈~你以為這就結束了嗎? 故事的後續中,上帝第八天又跑回來了。他對愚蠢的人類不放心,又造了個AI,把前面六天的故事全改寫了一遍。

不信嗎?

那你把上帝全名念一遍,是不是叫Jesus Chr-AI-st?(恍然大悟.jpg)

相關焦點

  • 臺灣政論節目名嘴「見人說人話 見鬼說鬼話」?灣灣媒體這些年到底經歷了什麼
    有媒體發現,這名叫黃創夏的名嘴,其實是臺灣深藍媒體人,跟大陸關係不錯,更是經常書寫批評民進黨、蔡英文的文章,在大陸還開過一個叫《野武士》的博客。有大陸網友稱其「見人說人話,見鬼說鬼話」,黃創夏的經歷背後其實是臺灣媒體環境的逐漸衰敗。
  • 看透不說破的三大生肖女,她們就算看出破綻也不會說出來
    屬相虎:生活中總是會有身邊的一些人吹噓自己,實際上你幾斤幾兩別人看的清清楚楚,真正有錢的人是不會告訴別人有錢的,聰明的屬相虎女生一般不會說人長短,在聽到別人吹噓時也不會去點破,有時候還故意誇讚一下別人,但是從來不會當眾拆臺,首先他們明白做人的道理,其次就是她們不喜歡多管閒事。
  • 人緣好,善交際的四大星座,見人說人話,見鬼說鬼話,十分機靈!
    並且分析出其心理,懂得照顧弱者,懂得察言觀色,懂得什麼場合說什麼應景的話,非常留心觀察周圍人的生活習慣等,總是能夠在恰當的時候,讓人心裏面覺得十分溫暖,而這些就是說話的藝術。雖然他們說話少,但是卻從來都不說廢話,說話總是說在重點上。
  • 都在說「油膩的中年人」,「油膩」如何用英語表達?
    「中年危機」的英文是 mid-life crisis,維基百科對此作了一個非常精準的定義:我簡單翻譯一下 「油膩」的本質就是一種「中年危機」。「油膩」一詞極其精準地反映了一個中年人在生理上和心理上的「中年化」:縱使生理上顯得不油膩,但心理上不可能不油膩。所以,無論你是林志穎還是郭德綱,都逃離不了「油膩」的命運。
  • 飯局上,老闆當眾誇你,別只會說「不敢當」,聰明人這樣說更討喜
    1、說出感受:「謝謝領導,能得到您的肯定,我非常驚喜,同時也倍感鼓舞。」2、轉移給對方:「自從去年來到咱們公司,是您把我從一個什麼都不懂的小白,一步步帶到了今天。每次我有不懂得,犯了錯,您都悉心、耐心地指導我,才讓我有了今天的成績。作為老闆的您,真心不容易!」
  • 王維、楊絳與機器翻譯的本質
    他認為,翻譯不僅指圍繞英漢、漢英之間的翻譯,也涉及到人類理解能力與機器翻譯之間的關係。 「機器翻譯」的概念最早在1947年,由學者沃倫·韋弗提出,他有一句很有意思的話,今天仍為眾人所熟知: 當我閱讀用俄羅斯語寫的文章時,我會對自己說,「這篇文章實際上是用英語寫的,只不過被編碼成了一些奇怪的符號。
  • 機器翻譯正走入現實生活 未來還需要人工翻譯嗎?
    參考消息網2月21日報導 英國《泰晤士報》網站2月16日刊登了題為《科幻作品中的翻譯機器現在成為現實》的文章,作者為本·麥金太爾,文章摘編如下:本周,我讀了一本250頁的俄文書,儘管我連一個俄語單詞都不會說也看不懂。
  • B站「不靠譜」翻譯大賽:機器翻譯,還遠不能取代人工翻譯
    在國內知名的彈幕視頻網站bilibili上,很多up主上傳了令人啼笑皆非的機器翻譯視頻。 網友們把一些影視劇、動漫或者其他著名場面中的臺詞用谷歌翻譯重新加工。如果只是翻譯一遍的話,可能效果還不理想——它們錯得還不夠精彩。於是,網友們把谷歌翻譯的結果再翻譯成第三種語言,然後再翻譯成第四種語言,最後再用谷歌翻譯回中文。
  • 谷歌機器翻譯取得顛覆性突破 到底幾分真假?
    如果說IBM Model1是機器翻譯的牛頓定律,那麼Seq2Seq就是機器翻譯裡的愛因斯坦相對論,Seq2Seq是谷歌在機器學習頂會NIPS的一篇論文,模型簡單漂亮,為文本生成尤其是機器翻譯打下了良好的模型基礎,所有的NMT(神經機器翻譯)均在此模型上添磚加瓦,這篇也是一樣。
  • 我被這鬼話騙了好多年
    「人類的大腦只開發了10%」,這個鬼話是什麼時候開始流行的呢,具體的來源已經不可考證了,但是有幾位大佬對它的傳播起到了關鍵的作用。首先是美國心理學之父威廉·詹姆斯(William James)他在《人的能量》中寫道:「我們現在僅僅只運用了智力和身體的一小部分」。他說的是人的全部機能,然而,在傳播途中被人傳成了我們的大腦只用了很小的一部分,這頗有一種人在家中坐,鍋從天上來的意思。
  • 從演技上說,雪崩更上一層樓
    這不,《鬥羅大陸》又攜帶它的第136集朝我們走來了,在更新了正片的同時,它也還更了後面的預告片。在第136集的內容中,我們看到了非常多的內容。首先就是主角唐三了,他在不懈努力之下,終於將人面魔蛛給錘爆了!與此同時,唐三體內的魂骨成功和鎧甲合體這樣的唐三看上去就像是一個變異的鎧甲勇士。不知道等小舞復活了之後,能不能認出這副模樣的唐三?另外,不得不提的就是雪清河了。
  • 百度機器翻譯現在都能預測你未來幾秒要說的話了!
    先給大家看一張動圖:上面的中文是人類說的話,下面的英文是百度 AI 給出的實時翻譯。可以看到,沒等說到「莫斯科」的時候,AI 自動翻譯的英語就已經出現了「meet」,也就是漢語句末的「會晤」。難道現在 AI 已經掌握了讀心術?
  • 機器之心獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類
    可以說,百度翻譯是全球首個網際網路神經網絡翻譯系統。機器之心:NMT(基於神經網絡的翻譯系統)效果就真的好於 SMT(基於統計的翻譯系統)嗎?或者說他會在哪個方面會好於 SMT 呢?答:機器翻譯目前是兩大流派,一大流派是統計翻譯模型(SMT),在整個業界已經持續了 20 多年的研究。另一個就是基於神經網絡的翻譯模型(NMT),過去的兩年發展比較迅速。