當你興致勃勃地在網際網路上找到自己想要的資料時,面對一堆堆不認識的單詞或符號,會是怎樣一種心情呢?
科技的發展會幫助我們解決這種尷尬。過去十年來,技術使機器翻譯得到了革新,通過人工智慧計算機,機器翻譯的能力越來越強,利用軟體瀏覽各種語言網站的夢想正在實現。眼下,新的研究還在不斷湧現。最近,南加州大學的科學家們利用軍事中的密碼學,把翻譯視為一種「解碼」過程。科學家表示,這種技術不但能翻譯各種語言,甚至能破譯海豚音和「外星人語言」。
發展過程
近十年才有突破
「科學家從上世紀50年代就開始研究機器翻譯,但長期以來這項研究並未取得大的突破。」南加州大學的計算機科學家凱文·奈特說,最早,他和他的同事採用計算機編碼方式,讓機器進行翻譯,但效果很差,電腦完整翻譯一頁內容需要一年時間。
「早期的機器翻譯,比較像字典,計算機僅進行一個字一個字的轉換,加上一些簡單的語法規則。」谷歌翻譯研發經理陳雍昇說,上世紀80年代個人電腦開始普及之後,機器翻譯的技術才開始有了突破,不僅語法處理變得更為複雜完善,統計式的機器翻譯技術也初步被使用。
十年前,機器學習的翻譯方式開始出現,這是一種人工智慧,機器自己可以學習,可以像人學外語一樣,逐漸掌握語言的規則模式。凱文此前的同事,南加州大學的首席科學家弗蘭茲·奧切加盟了谷歌公司,令谷歌翻譯上升到新的高度。現在,在網頁上只要按一個谷歌翻譯鍵,網頁整段文本就會立刻變成需要的文字。
「谷歌翻譯是往計算機內輸入大量的文字文本,包括原語言的文本,以及對應目標語言人工翻譯的文本,」陳雍昇說,這兩種語言文本,稱為「平行語料」,機器會對海量的文本進行學習,查找各種語言模式,通過統計計算得到認為最為準確的翻譯結果。
「這就好像聯合國開會時,機器坐在翻譯員後面看翻譯員怎麼翻譯,一邊看,一邊學習,看了比如一萬遍後,機器就知道該怎麼翻譯了。」凱文說,他們實驗室所做的主要研究也和谷歌翻譯的類似。
翻譯原理
「機器像猴子一樣聰明」
機器在學習過程中也需要老師,此時人類可以告訴機器一些語法規則。比如,英語中介詞放在句子後面,中文卻在前頭,中文說「我在美國工作」,英語則是「我工作在美國」;阿拉伯語更不同,不是「主謂賓」結構,而是「謂主賓」結構,更像是「工作我在美國」。一個人很難掌握好這些規律,但只要往計算機中輸入這些規則後,翻譯機器很快就明白了。
此外,一些詞彙有很多詞義,比如英語中的「bank」,可以指「河岸」,也可以指「銀行」。在這種情況下,機器可以通過對上下文的查看做出判斷,如果上下文中有「船」這個詞,機器就會翻譯成「河岸」,如果有「取款」這個詞,機器就會翻譯成「銀行」。
凱文說,比較難的情況是遇到中文成語。給外國人講一個成語往往得講完一個故事,但是計算機遇到成語第一次可能比較麻煩,之後就不難了。另外一個難處是比較長的詞彙,在一些語言如芬蘭語中,往往有著超過16個字母的詞語,這時,機器就必須對其進行拆分,然後再進行翻譯。「機器像猴子一樣,很聰明。」凱文說。
技術缺陷
「英譯漢好過英譯日」
機器翻譯雖然已經和十年前大不一樣了,但依然存在很多缺陷。
同一個系統的語言比如英語和法語,因規則相近,所以較好翻譯,但不同的語言系統就難了。在凱文等同事的研究中,「英語翻西班牙語很棒,英語翻漢語還行,英語翻日語就很差。」凱文說,「這就像人一樣,我在日本呆了三年,日語還是不行,但學了兩年漢語後,感覺已經可以了。」
陳雍昇表示,機器翻譯依託龐大的平行語料庫,有時會遇到一種語言和另一種語言之間翻譯語料不足的情況。陳雍昇說,還有很多的技術難度需要解決,比如同義詞的判斷,如旅「行」和銀「行」的「行」字意義不同,再如分詞的判斷,如「如果」和「汽水不如果汁好喝」裡的「如果」意思不同,另外,還有同樣內容的文檔進行段、句、詞、字的對齊等,都是機器處理的技術挑戰。
不過,正是因為機器有著自我學習的智慧,隨著計算機技術的進步,機器翻譯會變得越來越好。
新方法
可破解「外星人語言」
就像一個外語學習的人坐在一大堆外語教材和字典之前一樣,機器學習的基礎就是得有大海一樣的文本材料供其學習。但是世界上有4000種語言,大部分語言是不常用的,沒有那麼多的文本,那怎麼辦?
同樣是南加州大學的科學家,凱文的同事蘇吉斯·拉維想到了一個新的辦法。
6月19日至24日在美國俄勒岡舉行的計算機語言學年會上,他提交了一種全新的機器翻譯方法。
這種方法叫做「解碼外語」,之所以叫「解碼」,是因為他們把英語視為一種初始語言,需要翻譯的外語類似一種加密後的高級文字,通過解碼破譯,把外語「破解」,變成英語。
在每種語言中,都會有一些常用詞彙,比如漢語裡的「這個」、「那個」,這些詞彙出現的頻率在各種語言中都是最多的;很多詞彙,各種語言都可以互換,將其視為一種加密的詞語;此外,還有少數詞彙,其他語言中沒有對應,研究者將這三種詞彙列為不同的計算常數,統計比較其出現的頻率,按照一定的算法進行轉換,並通過不斷調整,得出最佳的翻譯結果。「通過這種破譯方法,計算機就可以甩掉所有的文本資料,無需進行學習,也無需背負辭海,只要輕裝上陣,像軍事家一樣,就可以把一種新的語言破譯」。
拉維表示,這種翻譯方法目前只能翻譯一些短句或電影字幕,尚未運用到長句或片段翻譯中,但是,它給機器翻譯打開了一條新的思路,可以運用到任何一種語言中。因為不需要任何既有的文本為基礎,這種翻譯方法今後甚至可以對「外星人語言」或「海豚音」進行破譯。
採寫/本報記者 金煜
■ 翻譯對比
原文:21世紀什麼最寶貴?人才。
參考翻譯:what is the most expensive commodity in 21st century? Talent.
谷歌翻譯:What the 21st century the most valuable?Talent.
愛詞霸翻譯:The 21st century? What is the most important people.
雅虎翻譯:The 21st century what is most precious? Talented person.
必應翻譯:What do 21st century most valuable?Talent.
百度詞典(有道翻譯提供):What is the most precious in the 21st century? Talents.
原文:My love is like a red, red rose,that's newly sprung in June.
參考翻譯:啊,我的愛人像一朵紅紅的玫瑰,在六月裡苞放。
谷歌翻譯:我的愛就像是一個紅色的,紅色的玫瑰,那是在六月份新湧現。
愛詞霸翻譯:我的愛是一樣的一個紅色,紅玫瑰,的新彈在六月。
雅虎翻譯:我的愛是像紅色,紅色rose,that在6月最近被反彈。
必應翻譯:我的愛就像紅色、紅色 rose,that 新開在六月。
百度詞典(有道翻譯提供):我的愛就像鮮豔的紅玫瑰,六月裡迎風初放。
原文:夕暗迫る雲の上,いつも一羽で飛んでいる
參考譯文:暮色蒼茫的雲層上,一隻悲滄的鷹孤獨地翱翔。
谷歌翻譯:在晚上關閉黑暗的運氣,總有一個在恩戴飛的鳥。
必應翻譯:晚上暗拉說,總是在羽毛飛了。