谷歌翻譯的中國基因

2020-12-01 TechWeb

2004年,Google創始人之一Sergey Brin使用市面上的網絡服務來翻譯韓國粉絲髮來的郵件,結果顯示:「生魚片帶著它的願望,用Google搜索綠洋蔥!」這樣的結果,讓Sergey認為Google在這方面可以做的更好。

不久前,Google翻譯發布了iPhone和Android版本,讓用戶能夠隨時使用翻譯服務,更加輕鬆便捷地跨越語言障礙。該手機應用可以識別15種語言的語音輸入,朗讀或全屏顯示23種語言的翻譯結果。對於非拉丁字母語言,例如中文和日文,應用將標註拼音或羅馬字讀音,便於非母語用戶讀出。與Google翻譯的桌面應用相同,移動翻譯也能夠翻譯58種語言書寫的字詞和短語。

移動翻譯設置了一些常用內容的翻譯收藏,即便在沒有網際網路連接的情況下也可讀取,實時翻譯則需通過WiFi或行動網路連入Google雲端獲取結果。這款產品對於很多用戶來說非常方便,如果身在國外,不知道某句話用外語該怎麼說,只需打開程序,把想說的話念給手機,然後點擊「翻譯」,手機就可以把譯文朗讀出來。

基於統計的機器翻譯

Google翻譯產品在全球只有兩個團隊,一個是在Google總部,另一個就在中國上海。「Google翻譯在上海成立,主要因為當初有兩個人喜歡做翻譯,其中一個就是尹俊(Google翻譯產品研發領導,作者注),他可謂是Google上海翻譯團隊的創始人。通過美國翻譯團隊開展合作,上海的翻譯隊伍越來越大,現在已經達到十幾人的規模。目前美國總部的翻譯團隊主要負責後臺的平行語料數據,上海翻譯團隊負責手機、桌面電腦翻譯應用的開發。 Google的創新模式常常是自下而上的,工程師可以在工作中發揮個人興趣,如果做出成績,就有可能凝聚逐漸擴大成一個團隊。」在陳雍昇看來,上海團隊的建立要歸功於Google的創新模式。

現今大部分的商業翻譯系統都是屬於規則法機器翻譯,需要做大量詞彙與語法的工作。Google翻譯則採取基於統計的機器翻譯,這是IBM科學家在1993年提出的理念,具有劃時代的意義。Google現在支持58種語言的互譯,翻譯團隊的成員們掌握的語言遠少於這個數字,這也是統計翻譯的魅力所在。統計翻譯的具體原理是,先往計算機裡輸入大量的文字文本,搭建涵蓋源語言和目標語言的平行語料庫,構建統計翻譯模型。這些模型可以幫助Google在源語言與目標語言中尋找各種相互關係,得出某些特定單詞、短語或文件的最佳翻譯結果。針對某種特定語言,Google翻譯分析的翻譯文檔越多,譯文的質量就越高。據陳雍昇介紹,Google翻譯主要有四個步驟:

首先,系統需要將源語言句子切分為短語,這是一門複雜的學問。英文單詞之間有空格,中文句子則不然。由於統計翻譯系統本身並不具備理解自然語言的能力,在面對「汽水不如果汁好喝」這個句子,「不如」和「如果」都是一種劃分可能;其次,不同語系的組織形式有很大差別,研發人員必須通過對平行語料的分析來處理詞彙的排序問題。分析平行語料是建模過程,翻譯則是利用模型的過程,前者的算法往往比後者複雜;然後,系統需要分辨同一個詞的不同形態,例如過去式和現在分詞,這是一個判斷的過程;最後,將構成目標語言的詞彙合理聯結起來。

Google目前能夠翻譯58種語言,如果按排列組合來算,理論上需對應近3000種平行語料,事實上Google翻譯的語料庫遠沒這麼多,所以很多語言之間的翻譯是經過「橋接」的,這在機器翻譯中是一種常見技巧。打個形象點的比方吧,目前法英互譯的質量肯定比法漢互譯要好,如果遇到法譯漢的需要,翻譯系統可能採取迂迴戰術,先將法語翻譯成英語,再從英語到漢語。比如Google翻譯中關於泰文和希伯來文的平行語料較少,但卻能夠提供這兩種語言的翻譯,據陳雍昇透露,「這種偏僻語系的互譯十之八九是經過橋接的」。

「提高翻譯質量是一個多管齊下的技術。翻譯的質量最主要的還是需要收集平行語料,此外,如果在建模方面可以找到更好的匹配算法或拆分算法,雙管齊下效果更好。」陳雍昇打了個巧妙的比方,「平行語料好比食材,只有材料夠好,廚師的手藝也夠好,而且也有一些調味料的情況下,才能做出美味的菜餚。」

移動翻譯——「20%項目」的產物

Google有個20%項目,允許員工拿出20%的工作時間,用來從事本職工作以外的項目,這樣就能開發出更多種類的產品,移動翻譯可以算作Google「20%項目」的產物。

「最初移動這方面有幾個因素,第一個就是因為大家都說移動是未來,這我相信。第二,發生了一個小故事——有個同事做出了手機網頁版的移動翻譯,並且發布出去,結果那段時間我們的流量呈幾何倍數的瘋漲。」這使陳雍昇意識到移動搜索的市場需求之大。

他開始在上海研發中心遊說,問誰願意做這個項目的義工。朱文章(Google翻譯iPhone主導工程師,作者注)對手機應用很感興趣,就在正活之外進行iPhone版Google翻譯的研發,只用兩天時間就做出了產品雛形。「我們第一個手機翻譯產品的就是這樣誕生的,」談起移動翻譯,陳雍昇的自豪之情溢於言表。

上海團隊、美國團隊對於產品雛形都很滿意,並且為朱文章加撥了人力支持。大概兩三個季度後,由朱文章領導開發的iPhone版Google翻譯正式發布。在超過一周的時間裡,它一直是全球排名第一的免費軟體。

理論上來講,Google能在電腦端能夠多少語種的互譯,也能在手機端提供那麼多。而在實際情況中,移動翻譯提供多少語種的語音翻譯,取決於其支持多少語種的語音識別。語音識別需要龐大的數據來源,才能建立很好的分辨模型,對此Google早有準備。2007年,Google開始提供GOOG-411) 處理語音搜索。雖然GOOG-411並非Google的重要收入來源,但它為研發人員收集了海量數據,使之能夠不斷完善語音識別算法。一年後Google 推出的語音搜索,足以比肩其他公司歷時數年才搭建起來的類似系統。據Google稱,這款語音搜索服務為Google Android和蘋果iPhone等智慧型手機平臺上「更多富有野心的服務提供了基礎」。例如,裝有Froyo軟體的Android用戶可通過語音控制手機的絕大部分功能,而Google推出的iPhone應用也內置了語音識別功能。

Google 2010年10月關閉了這項服務,並在聲明中表示,計劃將相關資源投入到「使下一代Google產品和服務支持多語種語音的技術」中,我們現在看到的語音翻譯即是成果之一。可以預見,語音識別未來將成為Google更多服務的特性。

雖然移動翻譯接收的源語言多數具有口語化的特點,在陳雍昇看來,這對翻譯質量並不會造成太大影響。首先,用戶使用語音翻譯時,對自己要講的內容一般都有明確的認識,所以語句的流暢程度跟桌面翻譯的差異不大。其次,人們使用語音翻譯時的說話方式不同於演講,多數情況下語句簡短,對於語音翻譯來說不難應對。 「二者最大的差異在於用戶體驗方面。電腦鍵盤使用很方便,而手機鍵盤很小,我們必須想辦法方便用戶輸入源語言。此外,語音翻譯的使用環境可能跟辦公室有較大區別,相對於口語中偶爾出現的停頓和重複現象,外界雜音對翻譯質量的影響更大,所以我們得過濾不必要的訊息。」

過濾雜音的任務多由翻譯程序完成,研發人員可以設定一個音量閾值,將低於此值的雜音篩掉。此外,如果語言出現停頓,將其作為句子結束還是「正在考慮、尚未說完」來處理,也是翻譯程序可以決定和控制的。再者,「如果用戶說錯了一兩個字該怎麼處理?讓其重說一遍還是直接修改那一兩個字,這些用戶體驗方面的問題,都可以通過完善翻譯程序來提升。」

陳雍昇表示,「除了之前的語音搜索,Google有很多產品用到語音方面的功能。在用戶使用這些產品的過程中,研發人員會根據用戶反饋不斷完善產品的算法。經過一輪一輪的迭代,產品質量自然而然會有所提高。」 然而,Google目前的文字翻譯系統尚有許多語法錯誤,其語音識別技術能否應付各種各樣的地方口音,用戶們的體會最深刻。(部分採訪內容來源於華財網)

相關焦點

  • 除了葷段子翻譯傳神,中國翻譯軟體到底能和谷歌競爭什麼?
    上周我在虎嗅撰文,文中有兩處提到谷歌翻譯和百度翻譯的對比:一處是說百度領先谷歌一年上線基於NMT神經網絡的翻譯系統,一處是說百度翻譯的功能體驗不如谷歌方便。巧的是幾天之後,3月29日,谷歌翻譯APP就重返中國大陸,引起一片歡騰。致意吳恩達先生的離職此次谷歌優化了中國大陸地區的用(bú)戶(yóng)體(fan)驗(qiáng),有網友一邊感嘆,一邊順帶懷念了谷歌全家。
  • 谷歌翻譯不用翻牆直接用
    近日,谷歌低調啟動了Google翻譯。並在官方博客上寫道:隨著今天的更新,我們希望為中國用戶提供更好的翻譯體驗,幫助人們突破語言障礙,把全世界的人們都聯繫在一起。這就意味著時隔7年穀歌開始正式回歸中國大陸市場!
  • 谷歌同志是位好「翻譯」!
    截至2020年6月,谷歌翻譯共支持109種不同的語言,每天5億多用戶總共貢獻1,500億個字詞的天量翻譯。谷歌翻譯的進化2006年4月28日,谷歌翻譯的統計機器翻譯(Statistical Machine Translation,SMT)服務推出,利用聯合國和歐洲議會的文件和筆錄收集語言數據。
  • 谷歌推波斯語翻譯工具
    谷歌推波斯語翻譯工具更新時間:2009-06-22 10:53:32  核心提要:谷歌推波斯語翻譯工具    搜尋引擎巨頭谷歌公司於昨日(19日)推出波斯語翻譯工具,可將博客、新聞及文本信息等在波斯語與英語間自動轉換;Facebook
  • 谷歌翻譯之外的選擇 體積僅1M的良心翻譯APP
    電子辭典也算是被手機完美取代的電子產品之一了,很多朋友都習慣在手機上安裝一個翻譯APP。要問手機上最好的翻譯APP是什麼?相信很多人的答案都會是谷歌翻譯。不過除了谷歌翻譯,其實我們也可以使用其他翻譯方案互為補充,多個參考總是好的。那麼手機上有什麼能夠比較完美和谷歌翻譯互補的方案?
  • 四大軟體翻譯古詩,谷歌亂了,百度最準,有道翻譯亮了
    目前機器智能翻譯非常方便,但是畢竟比不上人工理解的語境,所以會出現很多的錯漏,往往只能作為翻譯參考輔助。中譯英,最難的應該是古詩文的翻譯,直譯肯定是百分百不行的,意譯也要講究語境和感情是否到位。今天老師用了一句經典的古詩「多情自古空餘恨」來測試了一下市面上的機器翻譯,來看看他們的實力如何吧!一、谷歌翻譯:Passionate since ancient times。
  • 全新改版 谷歌翻譯功能已支持51種語言
    【IT168 軟體頻道】2009年11月26日,谷歌宣布翻譯工具(http://translate.g.cn 或者 http://翻譯.g.cn)全新改版,除了整體產品界面全新上線外,新版還增加了包括實時翻譯、英語語音朗讀功能、拼音顯示功能和根據發音輸入等功能。
  • 谷歌翻譯「安卓機卡頓」,Android is fast
    IT之家4月3日消息 在iPhone、谷歌安卓機興起的那幾年,關於安卓系統、安卓手機卡頓的說法不絕於耳,隨著谷歌安卓系統的不斷進化,智慧型手機的硬體配置急劇提升,安卓「卡頓慢」的說法已經漸漸立不住腳了。並且這對於谷歌翻譯來說更是「不可接受」的。
  • 谷歌翻譯升級:現可根據語境提供基於性別的翻譯
    12月9日消息,據外媒的報導,谷歌翻譯現可根據語境,提供基於性別的翻譯。此前,翻譯軟體在進行翻譯時,往往會在中性詞語的翻譯上存在偏向性誤差,比如,「強壯(strong)」或「醫生(doctor)」這類詞語會偏向男性,而「護士(nurse)」或「美麗(beautiful)」這類詞語則會偏向女性。今年2月,《福布斯》雜誌報導了社交媒體中出現的這類問題,谷歌公司因此被點名。
  • 谷歌/百度翻譯「蘋果/安卓很卡頓」:很好笑!
    【PConline資訊】雖然如今的機器翻譯已經達到了相當高的水準,還有神經網絡、機器學習、人工智慧等高大上技術的加持,但機器畢竟是機器,對於很多語境的理解完全無法和人類相提並論。  比如說手機很卡頓,這是大家耳熟能詳的一個說法,但是在谷歌、百度翻譯那裡,卻完全走了樣。  先來看谷歌:
  • 不用輸入就能翻譯的翻譯器!谷歌翻譯推新功能 拍照即可識別
    谷歌翻譯推新功能 拍照即可識別 2019年07月11日 19:50作者:張萌編輯:李芹文章出處:泡泡網原創   7月11日消息,據外媒phonearena報導,谷歌翻譯APP近期推出了一項新功能,該功能支持通過手機攝像頭拍攝並掃描文本來進行翻譯,在沒有蜂窩數據或Wi-Fi聯網的條件下依舊可以使用。
  • 谷歌AI翻譯系統準確率正在接近人類水平
    據外媒報導,谷歌是全球AI語言翻譯服務的領先者之一,日前,這家公司表示,他們新開發的一項技術將進一步大幅提高其翻譯水準。
  • 重磅| 谷歌大腦養成記:從識別貓到突破性機器翻譯
    他後來對我解釋道,Haruki Murakami 的翻譯非常優美,但顯然是 Murakami 風格的。谷歌翻譯後的日文儘管有點小小的不自然,但是,讀起來感覺更加易懂(transparent)。接著,博文的第二部分從另一個方向(日文到英文)檢查了谷歌翻譯。他把自己翻譯的海明威《吉力馬札羅的雪》的開頭輸入進去,讓谷歌翻譯成英文。結果發現翻譯的準確度難以置信。
  • 在AI科學家、翻譯家眼裡,谷歌翻譯其實沒那麼神?
    對於一個在線服務,要是一句話的翻譯得等個一分鐘,就不具備用戶粘性了。Google 最大的功績在於,用了許多的算法去改進模型,改進 LSTM 系統。深度神經網絡由層層數理計算(即線性代數)組成,每一層的算法結果都會輔助下一層的計算。谷歌採納的一種技巧是在第一層完成的時候才啟動第二層的計算。
  • 外媒稱谷歌翻譯可助用戶「翻牆」瀏覽被封網站
    不少外國網友卻留言稱,通過谷歌翻譯實現「翻牆」確實有效(TechWeb配圖)  9月16日消息,據國外媒體報導,thenextweb網站援引社交新聞網站Reddit上的信息稱,用戶可以通過谷歌翻譯的幫助「翻牆」瀏覽被封的網站。
  • 翻譯誤事!「傳承紅色基因」被美國情報部門認為中國正基因編輯士兵
    "我們情報部門發現中國正在用基因編輯增強軍隊實力,這只是中國企圖控制地球、制定國際秩序準則的一種方法!"(It's trying to make them stronger through gene editing.
  • 百度推出免費在線翻譯 與谷歌再次正面交鋒
    人民網訊(記者辛苑薇)在谷歌在線翻譯服務備受網民追捧之時,昨天,百度對外宣布正式推出免費在線翻譯服務。兩大搜索巨頭再次正面交鋒。    據介紹,百度在線翻譯服務目前提供中英、英中互譯和單詞查詢功能,最多支持1000個漢字的長篇翻譯。
  • 谷歌用神經機器系統把漢語翻譯成英語 錯誤率最高下降85%
    谷歌今天宣布,網絡和移動版的谷歌翻譯現在使用新的神經機器翻譯系統,並用於漢譯英,目前,谷歌翻譯應用每天翻譯約1800萬次谷歌也在發布一篇關於該方法的學術論文。此前谷歌也曾表示在谷歌翻譯中使用神經網絡,但具體用於實時視頻翻譯功能。而今年早些時候,谷歌高級研究員傑夫·迪恩(Jeff Dean)告訴VentureBeat,谷歌正致力於研究將深入學習功能更多地整合到谷歌翻譯中。今天發布的就是這項工作的成果。
  • 為什麼有人說谷歌實時翻譯無線耳機將影響世界?
    但在演示進行到末尾,谷歌悄悄透露,他們將用一副無線耳機改變世界。 為了不被蘋果的Air Pods和他們無線充電的TicTac存儲盒所擊敗,谷歌的耳機支持40種語言實時翻譯。這家公司終於完成了科幻小說和無數的Kickstarters向我們承諾多年但都沒有兌現的任務。這項技術可以從根本上改變我們在全球範圍內的溝通方式。
  • 用谷歌翻譯二十次之後會發生什麼?
    有意思的是,衍生到後來,這波操作進化成了——用谷歌翻譯娘來 「 滾鍵盤 」 。簡單來說,就是把一段原文不斷的翻譯成其他國的語言,最後再滾回中文,在文意上會出現意想不到的結果。儘管谷歌翻譯娘的翻譯有時候會讓人摸不著頭腦,但在大多數的情況下,還是靠譜的。