機器翻譯,是利用計算機將一種自然語言(源語言)轉換為另一種自然語言(目標語言)的過程,是AI(人工智慧)的終極目標之一。1954年,美國喬治敦大學研製出世界首個英俄機器翻譯系統。從早期的詞典匹配,到詞典結合語言學專家知識的規則翻譯,再到基於語料庫的統計機器翻譯,機器翻譯的技術研發歷程,可謂曠日持久。然而,計算機系統始終難以理解人類的語言,滿足不了生活工作所需的「聰明」程度。
直到最近十年,隨著AI技術的信息突破,機器翻譯正在離開環境苛刻的實驗室,開始為市場上的普通用戶提供服務。
曾經的機器翻譯,只是一個美好的科幻夢想。
如今,它正在變為具有無限可能性的現實,一步步的向我們走來。
人工智慧時代的百家爭鳴,產品體驗決定一切
隨著國際化的進一步加深,人們對於不同語種間的溝通需求也愈發迫切,傳統的人工翻譯行業,或許要受到一次史無前例的挑戰。Google、Facebook、微軟、騰訊、阿里巴巴、搜狗,都不願錯過這一場人工智慧的歷史進程。各大科技巨頭公司的市場角逐中,產品體驗上的易用性,成為了當下評價機器翻譯產品的最好指標。
2006年,Google宣布上線Google Translate翻譯功能,拉開了最近十年的「人工智慧+機器翻譯」的AI技術舞臺帷幕。2016年Google發布了GNMT-谷歌神經機器翻譯系統,將整個輸入句子視作翻譯的基本單元,大大提升了翻譯效率。在不同的語言對比中,GNMT把PBMT與人工翻譯的鴻溝縮小了58% ~85%,接近了人工翻譯的水平。許多人工翻譯工作者感慨:「作為翻譯,看到這個新聞的時候,我理解了18世紀紡織工人看到蒸汽機時的憂慮與恐懼。」
Google率先拿出了神經機器翻譯的概念,其他科技公司也不甘示弱,從產品和技術上展開了激烈的競爭。9月7日,全球範圍內最具權威的國際評測大賽WMT2017,在丹麥首都哥本哈根舉行。WMT全稱Workshop on Machine Translation,是由來自歐洲和美國的高校、研究機構的研究人員聯合舉辦的業界公認的國際頂級機器翻譯比賽之一。在20多家國際知名機構的激烈競爭中,搜狗提交的中英和英中系統,獲得了WMT2017人工評價指標的雙向第一名。同時,搜狗提交的中譯英系統在20個提交的系統中,獲得八項機器評價指標中的七項第一,並且獲得主要機器指標BLEU(Bilingual Evaluation Understudy)第一名。
隨著深度學習理念的技術開發,包括Google、Facebook、微軟、騰訊、阿里巴巴、搜狗在內的各大巨頭,都在試圖將深度學習理念應用到機器翻譯之中,推出各類產品來探索其應用性。例如搜狗推出的輸入法「中英互譯」功能,將深度神經元網絡翻譯系統與輸入相結合,利用搜索技術跨越信息阻隔,再用神經元翻譯技術打破語言障礙,實現「一邊說中文、一邊出英文」的智能機器同傳翻譯效果。
顯而易見,中國的語音翻譯技術,已經進入了世界最前沿的技術領域。
作為普通用戶,我們能享受到多少AI翻譯的「紅利」?
作為普通用戶,人們更關心的是AI智能翻譯技術,究竟能在實際應用中達到一個怎樣的表現水準。尤其是當用戶運用口語化的聲音表達時,AI能否準確判斷出語音的語義理解,做出準確的停頓思考,最終得到一個合格的翻譯成果。
下面,我們就來做幾項實際的語音翻譯測試。通過和「谷歌翻譯」和「搜狗輸入法」的智能翻譯翻譯結果來做對比,挑戰各種高難度的翻譯語境,驗證人工智慧的機器翻譯水準到底怎麼樣。
1、情感對話。漢語一向博大精深,許多時候我們說話時的文字內容沒有變化,可能僅僅只是前後序列稍加變動,整個語句的語義就大有不同。尤其是在詮釋情感對話時,往往會更激烈、更直接、更不看重縝密的語法排列。對於機器翻譯成英文來說,這無疑是一個相當難理解的挑戰。
原文:曾經我喜歡過一個人,現在我喜歡一個人過
谷歌翻譯:I used to have a person, and now I like a person too
搜狗輸入法翻譯:Once I liked a person, now I like to live alone
機器翻譯世界盃的中英互譯冠軍實力如何?讓谷歌和它PK下就知道了
「喜歡過一個人」和「喜歡一個人過」,有著明顯的語義區別。搜狗輸入法的理解要更準確一些,基本完美的詮釋了前後兩句話中的中文意境。谷歌的翻譯則顯得「機翻」的味道太過嚴重,不符合生活實際。
2、景點地名。當我們身處海外時,經常都會有尋求當地人問路的需要。對於那些不熟悉的景點地名,一個準確直接的英文翻譯,肯定能幫上大忙。
原文:格裡菲斯天文臺怎麼走?
谷歌翻譯:How does the Griffith Observatory go?
搜狗輸入法翻譯:How to get to Griffith Observatory?
格裡菲斯天文臺是洛杉磯的著名景點,中國遊客想要問路前往該處,是比較常見的海外旅遊對話。雙方都理解了中文的語義,但是谷歌的英文翻譯略有不足,而搜狗輸入法的英文翻譯更加準確。
3、詩詞古文典籍。詩詞古文,是中英文翻譯時的一大難點。因為用詞語法時的高度省略化,導致翻譯時難度倍增,許多人工翻譯都顯得力有未逮。我們選用了林則徐的一句著名詩句為例,這句詩詞寓意深遠又朗朗上口,在中國網際網路上擁有很高的人氣。翻譯成英文時,不知道能否準確的還原語義呢?
原文:苟利國家生死以,豈因禍福避趨之
谷歌翻譯:Gou Li country life and death, not because of bad fortune to avoid the trend
搜狗輸入法翻譯:He who would profit the life and death of his country will not avoid it because of misfortune and good fortune
兩種英文翻譯,都有一些問題。相對來說,搜狗輸入法的英文翻譯,稍微還原了林則徐這句詩的本意。而谷歌的翻譯完全是離題萬裡,「Gou Li」的翻譯一出,表明谷歌對於中文語境的本土化理解嚴重不足。
總的來說,人工智慧技術,在機器翻譯領域確實表現出了讓人驚喜的水準。無論是說走就走的出國旅遊,還是跨洋交流的留學辦公,使用語音翻譯軟體來實現「說中文,出英文」的功能效果,基本都能滿足與外國人的日常交流,大大提升彼此的溝通效率。
語音識別與同傳翻譯的組合,讓看起來還很遙遠的人工智慧概念,變得觸手可及。不知不覺中,更加「懂你」的AI技術正在影響著我們生活的每一個角落。