獨家獻映:工程師面對面之谷歌翻譯探秘

2020-12-11 IT168

  【IT168 特別策劃】一年前開始策劃,歷時一個月緊張拍攝製作,IT168虎年開篇巨製《谷歌工程師面對面》系列視頻節目今日正式推出。作為《軟體大講堂》開播三年的獻禮,本次節目特別獲得谷歌中國公司大力支持,一網打盡谷歌十餘項最熱應用:谷歌搜索、谷歌翻譯、谷歌地圖、谷歌拼音輸入法、谷歌音樂、谷歌瀏覽器、谷歌購物搜索、谷歌手機地圖、iGoogle、谷歌雲計算……15位天才谷歌工程師、項目經理雲集IT168視頻中心,為大家獻上精彩的技術演示,與大家分享技術背後的妙事趣聞。谷歌,不僅僅是搜索!IT168帶您走進真正的谷歌世界!


專題地址:http://focus.it168.com/focus/201001/google/index.html

  谷歌工程師面對面第1期——打通谷歌翻譯七經八脈

  主題:谷歌翻譯
  嘉賓:谷歌軟體工程師 尹俊
  主持:IT168軟體群組主編 參勝利
  播出時間:2010年1月11日
  論壇活動:最雷人的谷歌翻譯大徵集


《谷歌工程師面對面》第1期:打通谷歌翻譯七經八脈(原視頻地址)


尹俊 谷歌翻譯工程師

  嘉賓簡介:

  尹俊,男,谷歌軟體工程師。2005年7月畢業於南京大學計算機科學與技術系,獲得碩士學位。2005年7月至2007年9月,就職於IBM上海全球化軟體實驗室。2007年9月加入谷歌工程部,負責谷歌圖書的網頁引用功能的質量改進,以及針對中日韓語言的本地化完善和多項新功能的開發。2008年4月參與組建谷歌翻譯上海開發團隊,負責谷歌翻譯前端服務系統的重構,以及多項新功能的設計和開發,包括多種文檔格式的翻譯支持、網站翻譯工具、文本語音朗讀等等。

  訪談記錄:

  主持人:親愛的觀眾朋友們大家好,您現在收看的是IT168軟體頻道為您推出的軟體大講堂特別節目,今天是我們籌備已久的Google工程師面對面的第一期,今天我們請來了哪位Google的工程師呢,首先請這位帥哥自我介紹一下好嗎?

  尹俊:帥哥不敢當,我叫尹俊,是Google的工程師,現在在上海工作,我是2007年加入Google的,現在已經兩年多的時間了,我現在的主要項目是做谷歌翻譯。

  主持人:我相信大家通過尹俊身上這個體恤衫已經發現了,這個是他們專門定製的一款Google體恤衫,Google的翻譯其實這幾天也剛剛改版全面上線,那麼在開始個主題之前,我想先給尹俊提一個問題,你知道現在世界上的語言有多少種?

  尹俊:具體的數字我說不上來,但是我曾經看過一個數據,大概有六千多種。

  主持人:差不多,是的,今天早上我也專門去補了補課,搜索一下,其實我們現在全球六十億人兩百多個國家,兩千五百多個民族,那麼現在語言的種類其實具體到多少種,大家學術界也在打架,那麼大概也就五六千種的樣子,那麼五六千種語言大家溝通起來是非常麻煩的事情,這時候就需要我們有一款便捷的工具,那麼這時候呢,谷歌為我們提供這樣一款非常好的工具,它目前支持的語言達到51種,這樣龐大的一個系,那麼我們很多網友也非常關心,那麼Google它的翻譯和我們其他的翻譯軟體的翻譯有什麼樣不同的特色,目前他們在原理上有哪些不同的流派,那麼先給我們從原理級介紹一下。

  尹俊:我可以簡單說一下,現在在機器翻譯界大概有兩個流派,就是您剛才說的流派,一個是基於規則的翻譯,這個可能發展比較早,就是說我有一個語言A到另外一個語言B的話,我可能先要分析兩個語言不同的語法,然後定義從某一個A的結構到B的結構怎麼轉換,所有這些規則寫下來之後,再配合字典詞彙的轉換達到一個翻譯的目的。

  主持人:其實這種方法我感覺像我們在學校學習的過程,記單詞、學語法,然後再根據這些拼出來我們翻譯的一個結果,那麼第二種流派是什麼樣子?

  尹俊:第二種流派就是Google現在所採用的這麼一個翻譯的方法,它是基於統計的方法方式,它主要的過程是說,它會拿一些平行的語料,所謂的平行語料,就是說我有一個文章,它既有A語言的版本也有B語言的版本,然後我們會對這個文章進行分析,知道某些A語言的句子對應某些B語言的句子,然後再進行分析之後,我們可以用統計的方式得到在某一些詞組或者某一些句子在某種情況下可以翻譯成另外一種語言的句子。

  主持人:那麼剛才小尹提到一個詞是「語料」,那麼語料在這裡是怎麼解釋呢,可能有些朋友不太清楚。

  尹俊:所謂「語料」就是語言的材料。

  主持人:可能是一些大量的這種範本?

  尹俊:對大量的範本。

  主持人:就是把它作為一種原材料,然後我們和這種進行對比,哪個能對上,它可能就是這個意思,其實我們知道Google最強項的就是搜索技術,但是翻譯這塊說實話,它的要求的語料,它的搜集肯定是要求非常精準的,我不知道我們谷歌翻譯它的語料搜集都有哪些途徑,都是從哪裡找到這些標準的翻譯結果呢?

  尹俊:其實語料基於統計的翻譯是挺重要的,所以我們儘量要保證語料的準確性和正確性,所以我們舉個簡單的例子來說,最早的一些語料大家可能能想到的就是聯合國的一些官方文件,因為我們知道聯合國有五種官方語言,它任何一個文件發布出來可能都會被翻譯成五種語言,那麼我們這個就是一個非常好的語料,那麼其他的一些語料我們可能從一些可信任的網站或者一些材料來找,基本上是一些可信任的途徑。

  主持人:好的,剛才也說到了一些語料方面搜集的情況,那麼我了解的情況,比方說目前通過聯合國這邊,通過Google商務這邊搜集到大量的素材,那麼從基礎的網頁上面也會搜索到一些最新的翻譯的結果,那麼Google的翻譯項目,我不知道它是一共實施了有多長時間了,發展到現在是一種什麼樣的規模,網友也非常感興趣,能不能先給大家介紹一下團隊方面的情況?

  尹俊:Google的翻譯項目最早是從美國Google的總部開始的,已經有幾年的時間了,然後在去年的時候,中國組織了一個翻譯的團隊,加入了美國這麼一個開發的過程。然後現在基本上團隊分工是說,在美國的這個團隊,因為他們是從最基礎的做起的,所以他們負責整個後臺的搭建,還有一些算法和質量方面的改進,然後因為我們有很多的伺服器,在美國那邊所以他們也負責產品的發布和維護,部署和維護,然後在中國這邊,我們主要負責前臺的用戶體驗的改進,然後還有一部分的跟質量提高相關的一些質量改進,也是後臺的內容,然後還有就是跟美國工程師進行一個聯換的對於產品的維護方面的工作。

  主持人:現在我們中國團隊的人員大概是多少?

  尹俊:大概有七八個人這樣子。

相關焦點

  • 谷歌上海新辦公室:創意者們的樂園
    舒適、開放、自由,硬體設施齊全,既富個性又兼顧人性化,是谷歌辦公室在全球特立獨行的標籤,人們也總是用探秘的心態去讚嘆不同城市的谷歌辦公室。谷歌上海新辦公室不外如此。餐廳提供免費三餐,茶水間無限量供應各種飲料和小食。透過落地窗,黃浦江風光一覽無餘。在設計風格迥異的會議室中,可以隨時隨地來一場「頭腦風暴」。
  • 谷歌翻譯裡程碑:工智能神經網絡翻譯支持103種語言,翻譯字詞超過...
    谷歌確信他們可以利用神經網絡進一步提升翻譯質量。這要求谷歌重新思考谷歌翻譯的算法架構。  今年九月,谷歌發表聲明,基於神經機器翻譯的谷歌翻譯全新上線。(GNMT,Google Neural Machine Translation)。神經機器翻譯是端到端的學習架構,它能從數百萬的實例中學習,提供大幅提升的翻譯效果。
  • Facebook翻譯神器:比谷歌翻譯快9倍
    目前翻譯應用已經成為很多人最常用的工具之一,其中社交用戶是一大群體。為此,Facebook一直在研發更準確、快速的翻譯技術。日前,Facebook方面宣布,開發出了一種基於卷積神經網絡的翻譯技術,其能夠從不同角度捕捉數據,相比於谷歌一直使用的,嚴格按照句子從左到右的順序一個字一個字進行翻譯的循環神經網絡而言,翻譯結果會更加貼近句子本身所要表達的意思和邏輯。據Facebook工程師表示,這種新型的翻譯技術在速度方面可以比谷歌翻譯快9倍之多。
  • 谷歌中國程曦談新版谷歌翻譯:延續谷歌使命
    能夠讓谷歌的工程師實現這句話,依靠的是谷歌堅持的「統計翻譯」的方式和谷歌大量的、並不斷增長的數據。谷歌從2003年開始研發翻譯產品,經過不斷改進和添加功能,現在可以實現實時的翻譯、為網站提供語言翻譯轉換插件、在翻譯同時提供相關搜索結果,等等功能。隨著通過谷歌搜索納入數據量的增加,統計翻譯帶來的翻譯質量理論上也會相應不斷提高。
  • 不再Pixel獨家!谷歌翻譯對耳機開放支持
    在去年的Made by Google大會上,谷歌推出了一款Google Pixel Buds耳機,它最亮眼的功能之一就是與谷歌翻譯功能的整合。不過在過去近一年的時間裡,這款一功能只支持谷歌Pixel Buds耳機。
  • 谷歌翻譯又被懟了,這次是因為得罪了女程式設計師……
    這次是因為谷歌翻譯...歧視女程式設計師...是算法之錯,還是人的過?若是之前,谷歌翻譯犯了這種錯誤,頂多被吐槽翻譯水平渣,但後續使用機器學習進行升級的谷歌翻譯,遇到這類情況,則被上升為了「性別歧視/偏見」,因為在給「程式設計師」這個職業選擇對應的性別指代時,機器被訓練為了優選男性。
  • 谷歌正式推出神經翻譯 翻譯水平遠超過去十年
    用谷歌翻譯常出錯,譬如......完全不懂怎麼會這樣,雖然我大天朝的文字遊戲的確複雜。 谷歌的工程師面臨很大的麻煩,畢竟它需要覆蓋100中語言,相互間排列組合能達到上萬種。Google也一直在研究更準確的翻譯方式,最近Google正式啟用「神經網絡機器翻譯系統」。
  • 谷歌翻譯裡程碑:基於單一模型的 Zero-Shot 系統正式上線
    為了做到這一點,在任意兩種語言之間,谷歌翻譯都要運行多個翻譯系統,這帶來巨大的計算成本。如今,許多領域都正在被神經網絡技術顛覆。谷歌確信他們可以利用神經網絡進一步提升翻譯質量。這要求谷歌重新思考谷歌翻譯的算法架構。今年九月,谷歌發表聲明,基於神經機器翻譯的谷歌翻譯全新上線。(GNMT,Google Neural Machine Translation)。
  • 百度與谷歌角逐在線翻譯市場
    首頁 > 動態 > 關鍵詞 > 百度最新資訊 > 正文 百度與谷歌角逐在線翻譯市場
  • 谷歌翻譯減少性別歧視 「他」也可以是護士
    12月7號消息,谷歌今天宣布從本周開始,谷歌翻譯開始為一些性別中立的詞語提供女性化和男性化的翻譯,減少性別偏見。例如,土耳其語中的「o bir doktor」,現在翻譯為「她是醫生」和「他是醫生」。谷歌翻譯稱一直致力於促進公平,並減少機器學習中的偏見。此前翻譯時,它無意中會表現出一些已經固化的性別偏見。例如:對谷歌翻譯中的「o bir muhendis」翻譯為「他是工程師」,而「o bir hemsire」 被翻譯為「她是一名護士。」現在,谷歌翻譯為一些性別中性詞語分別提供女性和男性的翻譯來解決性別偏見問題。
  • 谷歌 有道 愛詞霸 誰是翻譯多面手
    後來出現了網頁翻譯這樣貼心的功能,因為看不懂頁面而無奈點叉關閉的窘境就很少在小編身上發生了。依小編看來,衡量網頁翻譯的好壞,可以按照使用的人性化、準確度兩個要素來綜合考量。由於小編幾乎每天都要上美國在線(www.aol.com)看新聞,這裡就以它作為翻譯的測試對象。1、谷歌翻譯:經小編測試可以通過兩種方法使用谷歌翻譯。
  • 谷歌翻譯PK百度翻譯,人們缺乏中國網際網路技術的自信
    過去一周刷爆朋友圈的科技新聞,除了三星Galaxy S8之外就數谷歌翻譯App開放中國地區訪問這事兒。谷歌翻譯App不只是支持常規圖文翻譯,還支持語音、文字圖像掃描的實時翻譯。不少媒體報導谷歌翻譯App的炸裂,甚至有媒體用幾個案例去評測得出結論,谷歌翻譯秒殺國內一眾翻譯。還有人則將這一舉動視作是谷歌重返中國市場的信號。
  • 譯文|前谷歌工程師:谷歌優秀產品經理是怎樣煉成的
    在Quora上看到前谷歌工程師Edward Ho對「What makes someone a great product manager at Google?」問題的解答非常精彩。自己動手翻譯了一下,分享給大家。英文好的讀者,可以直接點原文連結。下文將會以原文譯文及本人淺顯的見解穿插的方式呈現。我曾和谷歌那些優秀的產品經理共事,那我就從這段工作經歷來試著回答這個問題吧。我本身並不是產品經理,所以以下僅僅是從一個觀察者的角度給出的答案。筆者認為這個視角很好。
  • 跟谷歌測試工程師的對話
    Alan Faulkner是谷歌的測試工程師,他的工作對象是谷歌的DoubleClick廣告管理系統(Bid Manager),這個系統提供讓廣告代理商和廣告客戶在多個廣告上進行報價競標的功能。Bid Manager是谷歌2010年收購的Invite Media系統的下一代產品。
  • 除了葷段子翻譯傳神,中國翻譯軟體到底能和谷歌競爭什麼?
    上周我在虎嗅撰文,文中有兩處提到谷歌翻譯和百度翻譯的對比:一處是說百度領先谷歌一年上線基於NMT神經網絡的翻譯系統,一處是說百度翻譯的功能體驗不如谷歌方便。巧的是幾天之後,3月29日,谷歌翻譯APP就重返中國大陸,引起一片歡騰。致意吳恩達先生的離職此次谷歌優化了中國大陸地區的用(bú)戶(yóng)體(fan)驗(qiáng),有網友一邊感嘆,一邊順帶懷念了谷歌全家。
  • 拿谷歌翻譯PK百度翻譯,說明人們缺乏對中國網際網路技術的自信
    過去一周刷爆朋友圈的科技新聞,除了三星Galaxy S8之外就數谷歌翻譯App開放中國地區訪問這事兒。谷歌翻譯App不只是支持常規圖文翻譯,還支持語音、文字圖像掃描的實時翻譯。不少媒體報導谷歌翻譯App的炸裂,甚至有媒體用幾個案例去評測得出結論,谷歌翻譯秒殺國內一眾翻譯。還有人則將這一舉動視作是谷歌重返中國市場的信號。
  • 谷歌更新iOS版谷歌翻譯 支持手寫翻譯
    新版「谷歌翻譯」能夠自動識別用戶的手寫文字,然後將其翻譯成指定的語言,目前該功能支持49種不同的語言,其中包括中文、日文和阿拉伯文等。谷歌更新iOS版谷歌翻譯 支持手寫翻譯網易手機訊 9月22日消息,谷歌於日前更新了iOS版「谷歌翻譯」應用,新版「谷歌翻譯」加入了手寫識別及翻譯功能。
  • 谷歌推神經網絡翻譯 中譯英水平匹敵真人
    據澎湃新聞9月29日報導,27日,谷歌推出了新的翻譯系統,聲稱該套翻譯系統基於對人類神經思考的模仿,能夠與真人翻譯競相匹敵。在谷歌發表的題為《規模生產中的神經網絡機器翻譯》(A Neural Network for Machine Translation, at Production Scale)的文章中,宣布將機器學習技術納入網頁和手機APP翻譯中,從前漢譯英的尷尬局面將大為扭轉。
  • 號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜?
    如今,又一個新的挑戰者高調加入進來,直接把矛頭指向堪稱行業技術標杆的谷歌、微軟以及 Facebook。上周,來自德國的 DeepL 翻譯上線,號稱實現了 NMT 技術的新突破,打造出了「世界上最精確、語言組織最自然的機器翻譯系統」;並宣布在自家組織的盲測中,打敗了谷歌翻譯以及微軟與 Facebook 的 NMT 系統,釁意十足。
  • 谷歌的測試工程師需要很酷(COOL)
    測試工程師是谷歌工程生產力(EngProd)的一部分。我們為用戶代言,提供全面的測試解決方案,並在創造成功和可靠的產品和平臺方面發揮關鍵作用。在Google,測試工程師不是點點點,我們是技術工程師,我們的重點是推進產品的卓越性和工程生產力。