【IT168 特別策劃】一年前開始策劃,歷時一個月緊張拍攝製作,IT168虎年開篇巨製《谷歌工程師面對面》系列視頻節目今日正式推出。作為《軟體大講堂》開播三年的獻禮,本次節目特別獲得谷歌中國公司大力支持,一網打盡谷歌十餘項最熱應用:谷歌搜索、谷歌翻譯、谷歌地圖、谷歌拼音輸入法、谷歌音樂、谷歌瀏覽器、谷歌購物搜索、谷歌手機地圖、iGoogle、谷歌雲計算……15位天才谷歌工程師、項目經理雲集IT168視頻中心,為大家獻上精彩的技術演示,與大家分享技術背後的妙事趣聞。谷歌,不僅僅是搜索!IT168帶您走進真正的谷歌世界!
專題地址:http://focus.it168.com/focus/201001/google/index.html
谷歌工程師面對面第1期——打通谷歌翻譯七經八脈
主題:谷歌翻譯
嘉賓:谷歌軟體工程師 尹俊
主持:IT168軟體群組主編 參勝利
播出時間:2010年1月11日
論壇活動:最雷人的谷歌翻譯大徵集
《谷歌工程師面對面》第1期:打通谷歌翻譯七經八脈(原視頻地址)
尹俊 谷歌翻譯工程師
嘉賓簡介:
尹俊,男,谷歌軟體工程師。2005年7月畢業於南京大學計算機科學與技術系,獲得碩士學位。2005年7月至2007年9月,就職於IBM上海全球化軟體實驗室。2007年9月加入谷歌工程部,負責谷歌圖書的網頁引用功能的質量改進,以及針對中日韓語言的本地化完善和多項新功能的開發。2008年4月參與組建谷歌翻譯上海開發團隊,負責谷歌翻譯前端服務系統的重構,以及多項新功能的設計和開發,包括多種文檔格式的翻譯支持、網站翻譯工具、文本語音朗讀等等。
訪談記錄:
主持人:親愛的觀眾朋友們大家好,您現在收看的是IT168軟體頻道為您推出的軟體大講堂特別節目,今天是我們籌備已久的Google工程師面對面的第一期,今天我們請來了哪位Google的工程師呢,首先請這位帥哥自我介紹一下好嗎?
尹俊:帥哥不敢當,我叫尹俊,是Google的工程師,現在在上海工作,我是2007年加入Google的,現在已經兩年多的時間了,我現在的主要項目是做谷歌翻譯。
主持人:我相信大家通過尹俊身上這個體恤衫已經發現了,這個是他們專門定製的一款Google體恤衫,Google的翻譯其實這幾天也剛剛改版全面上線,那麼在開始個主題之前,我想先給尹俊提一個問題,你知道現在世界上的語言有多少種?
尹俊:具體的數字我說不上來,但是我曾經看過一個數據,大概有六千多種。
主持人:差不多,是的,今天早上我也專門去補了補課,搜索一下,其實我們現在全球六十億人兩百多個國家,兩千五百多個民族,那麼現在語言的種類其實具體到多少種,大家學術界也在打架,那麼大概也就五六千種的樣子,那麼五六千種語言大家溝通起來是非常麻煩的事情,這時候就需要我們有一款便捷的工具,那麼這時候呢,谷歌為我們提供這樣一款非常好的工具,它目前支持的語言達到51種,這樣龐大的一個系,那麼我們很多網友也非常關心,那麼Google它的翻譯和我們其他的翻譯軟體的翻譯有什麼樣不同的特色,目前他們在原理上有哪些不同的流派,那麼先給我們從原理級介紹一下。
尹俊:我可以簡單說一下,現在在機器翻譯界大概有兩個流派,就是您剛才說的流派,一個是基於規則的翻譯,這個可能發展比較早,就是說我有一個語言A到另外一個語言B的話,我可能先要分析兩個語言不同的語法,然後定義從某一個A的結構到B的結構怎麼轉換,所有這些規則寫下來之後,再配合字典詞彙的轉換達到一個翻譯的目的。
主持人:其實這種方法我感覺像我們在學校學習的過程,記單詞、學語法,然後再根據這些拼出來我們翻譯的一個結果,那麼第二種流派是什麼樣子?
尹俊:第二種流派就是Google現在所採用的這麼一個翻譯的方法,它是基於統計的方法方式,它主要的過程是說,它會拿一些平行的語料,所謂的平行語料,就是說我有一個文章,它既有A語言的版本也有B語言的版本,然後我們會對這個文章進行分析,知道某些A語言的句子對應某些B語言的句子,然後再進行分析之後,我們可以用統計的方式得到在某一些詞組或者某一些句子在某種情況下可以翻譯成另外一種語言的句子。
主持人:那麼剛才小尹提到一個詞是「語料」,那麼語料在這裡是怎麼解釋呢,可能有些朋友不太清楚。
尹俊:所謂「語料」就是語言的材料。
主持人:可能是一些大量的這種範本?
尹俊:對大量的範本。
主持人:就是把它作為一種原材料,然後我們和這種進行對比,哪個能對上,它可能就是這個意思,其實我們知道Google最強項的就是搜索技術,但是翻譯這塊說實話,它的要求的語料,它的搜集肯定是要求非常精準的,我不知道我們谷歌翻譯它的語料搜集都有哪些途徑,都是從哪裡找到這些標準的翻譯結果呢?
尹俊:其實語料基於統計的翻譯是挺重要的,所以我們儘量要保證語料的準確性和正確性,所以我們舉個簡單的例子來說,最早的一些語料大家可能能想到的就是聯合國的一些官方文件,因為我們知道聯合國有五種官方語言,它任何一個文件發布出來可能都會被翻譯成五種語言,那麼我們這個就是一個非常好的語料,那麼其他的一些語料我們可能從一些可信任的網站或者一些材料來找,基本上是一些可信任的途徑。
主持人:好的,剛才也說到了一些語料方面搜集的情況,那麼我了解的情況,比方說目前通過聯合國這邊,通過Google商務這邊搜集到大量的素材,那麼從基礎的網頁上面也會搜索到一些最新的翻譯的結果,那麼Google的翻譯項目,我不知道它是一共實施了有多長時間了,發展到現在是一種什麼樣的規模,網友也非常感興趣,能不能先給大家介紹一下團隊方面的情況?
尹俊:Google的翻譯項目最早是從美國Google的總部開始的,已經有幾年的時間了,然後在去年的時候,中國組織了一個翻譯的團隊,加入了美國這麼一個開發的過程。然後現在基本上團隊分工是說,在美國的這個團隊,因為他們是從最基礎的做起的,所以他們負責整個後臺的搭建,還有一些算法和質量方面的改進,然後因為我們有很多的伺服器,在美國那邊所以他們也負責產品的發布和維護,部署和維護,然後在中國這邊,我們主要負責前臺的用戶體驗的改進,然後還有一部分的跟質量提高相關的一些質量改進,也是後臺的內容,然後還有就是跟美國工程師進行一個聯換的對於產品的維護方面的工作。
主持人:現在我們中國團隊的人員大概是多少?
尹俊:大概有七八個人這樣子。