人類訓練 AI ,好的沒學會,壞毛病倒是一樣不落地傳授了不少。
睜著眼睛說瞎話、腦內 YY 小黃片什麼的已經不新鮮了,最近,在達特茅斯大學專家的「言傳身教」下,機器又 get 了一項人類的油膩技能——兩面三刀,見人說人話,見鬼說鬼話。
在學藝歐巴馬多年來講話的口型後,研究者用AI為歐巴馬合成了一句話:「川普簡直傻透了」
網友通過機器學習技術讓 AI 學習女明星蓋爾加朵的面部特徵,併合成到了成人片裡的女演員的頭部
比如,未來的某一天,手機提示音響了:「女神發微信說要去洗澡了」。
你打了它一下,「說人話!」
「女神讓你滾…」
當然效果略有誇張。科學家們正在努力讓機器翻譯軟體學會的這個技能,學術上叫做文風轉換。也就是捕捉到人類語言中的細微差別,針對不同受眾,將一個意思用不同的風格和語言進行改寫。
有啥用呢?
如果早有這個神器,一鍵統一所有文風,知名作家們被發現「槍手代寫」的發案率至少減半。
經典重現:改寫聖經的AI
言歸正傳,這項研究中最具啟發價值的並非最終的 AI 模型,而是訓練過程中,科學家們投餵的「飼料」——34 本風格迥異的聖經。
在自然語言處理領域,聖經是再好不過的數據集。原因只有一個,它的傳播實在是太廣了,是被翻譯語言最多的書籍。
據統計,全世界範圍內共有一千八百多種語言的聖經譯本,幾乎所有民族的語言,甚至地區方言都已包羅。光聖經的中文譯本便達近百種,漢語、白話文和少數民族的版本一應俱全。網上甚至還能搜到四川話版的聖經~(猶大你個龜孫兒!)
實際上,像 Google Translate 這樣的翻譯系統都接受過聖經文本的訓練。聖經本身已被劃分成許多篇,每個譯本都有自己的章節編號。許多自然語言處理(NLP)任務的系統都需要這種明確的對應關係,聖經自帶的編號便免去了自動對齊算法的麻煩,但同時也可能引入一些錯誤。
基於聖經這樣具有相同意義的文本,機器就可以直接在法語與德語之間建立聯繫,省去了中介語轉換的麻煩。
但是,碰到毛利語、索馬利亞語等稀有語種時,可供機器學習的文本極其有限。而過於依賴聖經文本訓練的結果,就是在稀有語言之間強行機翻,就會出現奇奇怪怪的句子。
在谷歌翻譯中選擇毛利語→英語;
輸入19個「dog」;Google會把這段話翻譯成:「世界末日時鐘在12點03分我們正在經歷世界上的人物和戲劇性的發展,這表明我們越來越近接近末日和耶穌的回歸」
單純的翻譯尚且存在障礙,想讓機器在翻譯基礎上做出文風上的轉變就更不是件容易事兒了。有時源語言和目標語言的風格搞不好一個陽春白雪,一個下裡巴人都有可能~
文字界的福音:無縫銜接不是夢
在對神經網絡訓練過程中,研究人員選用了數個不同版本的聖經,讓AI產出相應不同的行文風格。選取的譯本包括 1604 年的 KJV(The King James Version)——詹姆斯國王欽定版,這是英文聖經的首個通行版本,具有裡程碑式的意義,還有1901年的ASV(American Standard Version)——美國標準版,這是對KJV的二次修訂版,目標是使其符合現代美國使用的需要。
還有三十一種其他譯本就不一一列舉了,所有資源都來自 Bible Gateway 這個網站,各類風格的聖經段落應有盡有。
整個數據集包含了來自不同聖經版本中超過150萬個源語言與目標語言的獨特配對。有了這麼豐富的訓練數據,再也不怕 AI 絞盡腦汁寫不出好文章了~
給你們瞧瞧 AI 改寫的一個節選~
源語言:BBE(Bible In Basic English)——基本英語版(最簡單的英文譯本,使用單詞在1000個常用詞之內,供移民和兒童閱讀)
目標語言:ASV
輸入(BBE):"Then the Levites took down the ark of the Lord and the chest in which were the gold images, and put them on the great stone: and the men of Beth-shemesh made burned offerings and gave worship that day before the Lord."
利未人將耶和華的約櫃和裝金物的匣子拿下來,放在大磐石上。當日伯示麥人將燔祭和平安祭獻給耶和華。——《舊約 - 撒母耳記上(1 Samuel)》第6章
輸出(ASV):" Then And the Levites took brought down the ark of the LordJehovah, and the chest in which were the gold golden images, and put them onupon the great stone: and the men of Beth-shemesh made burned offerings burned incense, and gave worship worshipped that day before the Lord Jehovah."
這個節選段落中,除了一些介詞和指代詞的改動,還把 made burned offerings(燔祭)這種生僻的宗教禮儀改成了burned incense 這樣易於理解的詞彙。
從兩個版本對比可以看出,AI的改動並不算大,畢竟改寫的首要原則就是完整保留文本的整體含義。不過研究人員也承認,AI 內部的神經網絡究竟是依照何種原則和特徵做出改寫,真的很難琢磨透。
改寫過程中,AI首先需要完整讀取源語言,並創建一個代表它的相應矢量。接下來,靠這個矢量一次擠一個單詞出來,每個單詞都與上一個風格相仿。這個「擠牙膏」的過程或許只有AI自己才明白個中邏輯,外人根本無法推測。
讀不懂的大部頭?不存在的…
不過看不懂管他呢,反正寫出來就好了,能讓好的文本作品傳播更廣,怎麼都是件好事兒~
我打賭每個人家裡都有那麼幾本永遠停留在第一頁的名著吧…有了AI改寫小助手,再也不用讓它們吃灰了,經典的文本可以通過改寫變得通俗易懂,以方便兒童和非母語人士理解。
同樣,外行人也可以更好理解技術性的文件,媽媽再也不用擔心你讀不懂讓人眼花的論文和各種法律條約了~
除了提升閱讀上的便捷性以外,它能做的還有許多,比如重寫文本來匹配特定作者的風格,或更實際一點,直接讓同一團隊的作者文風保持統一。
假如某天你現實主義作品寫多了突然膩了,靈光一閃想轉意識流,AI改寫小助手就能助你一臂之力,文風無縫連接。(早知道有它,當年就不用在文學理論考試前猛通宵背書了…)
不過,按這個改寫 AI 的套路,《聖經》第一卷《創世記》怕是要這麼改了…
上帝初創天地。第一天,神說要有光——Biu~光來了。接下來的二三四五天裡,分別再次開掛創造了空氣、海洋、星辰、水中生命和飛鳥。第六天,上帝先創造了地上的生靈,又擔心自己苦心經營的一切毀於一旦,便照著自己的形象捏出了人類,派他們去管理這個世界。第七天,累壞了的上帝終於歇著了~哈~你以為這就結束了嗎? 故事的後續中,上帝第八天又跑回來了。他對愚蠢的人類不放心,又造了個AI,把前面六天的故事全改寫了一遍。
不信嗎?
那你把上帝全名念一遍,是不是叫Jesus Chr-AI-st?(恍然大悟.jpg)