作者:王健
北五環外的北京郊區,剛建成的百度科技園成了這裡的新地標。五座辦公大樓,由天橋彼此連接形成環狀,陽光照射下的藍色玻璃幕牆,頗具幾分「未來感」。
作為中國網際網路企業三巨頭之一,百度公司近年來積極布局人工智慧領域。2016年初,中國舉辦國家科學技術獎勵大會,這家公司的機器翻譯項目獲得了國家科技進步二等獎,中國最高級別的科技獎項花落網際網路企業實屬罕見。
「意料之中。」提起獲獎,該項目的負責人王海峰顯得頗為淡定。
↑王海峰獲獎照片。 百度提供圖片
「百度翻譯在科研水平和應用價值兩方面都有很大優勢,在國際上處於領先水平,符合國家科技進步獎的標準。」他說。
2010年,剛剛加入百度的王海峰著手研發機器翻譯。「當時,我預料這個領域的研究一定會有重大突破。一是因為社會對於機器翻譯的需求日益旺盛,更重要的是,百度可以為這項研究提供網際網路大數據和大計算平臺的強大支持,」他說,「項目從起步到上線只用了一年多時間,現在百度翻譯已經可以支持27種語言之間的翻譯,在全球擁有5億用戶,每天響應約1億次的翻譯需求。」
耳聽為虛,眼見為實。王海峰隨手就拿起自己的手機,「來,我演示給你看。」
他一邊說一邊打開百度翻譯APP,輸入了「喜大普奔」四個字,百度翻譯APP一句話的英文譯文,形象、準確地解釋了這個網絡詞彙所表達的意思。
↑ 百度翻譯APP手機界面
王海峰又對著手機錄入語音「請問附近有餐廳嗎?」,然後讓百度翻譯APP的語音翻譯功能分別翻譯成英語、韓語、以及廣東話,也都翻譯得挺不錯。
「還可以自動識別圖片來翻譯。」他一邊說,一邊用手機拍了一張寫著中文的紙,然後選取其中的一句話,手機屏幕上馬上就出現了這句話的翻譯,「點擊這裡,還可以用語音將翻譯結果讀出來。」
「我自己已經是一個機器翻譯的直接受益者,」王海峰說,機器翻譯技術對於生活的改變,已經在逐步深入,「比如前段時間我去葡萄牙出差,我一句葡萄牙語也不會,但是通過手機上的百度翻譯,旅途中基本沒有遇到過語言障礙。」
在研發過程中,王海峰帶領團隊不斷分析用戶的需求。「我們通過對訪問量的監測,發現周末訪問量會上漲,周日尤其多,我們分析可能是很多中小學生在寫作業時會用到我們的產品,」他說,「另外,電子商務領域的應用也很多,比如很多網店通過我們的翻譯軟體把他們的產品簡介翻譯成外語,這會幫他們節省一大筆翻譯的開支。」
↑ 王海峰在自己的辦公室裡。 百度提供圖片
根據王海峰和團隊的設想,百度翻譯還會推出更多中國方言和少數民族語言,來滿足更多用戶的需求。
「開發語言對於我們來說不是難事,我們平均花11天就能上線一種新語言。」他說。
這麼高的效率,豈不是需要建立一個龐大的多語種技術人才團隊?
「其實我們的核心翻譯引擎工程師只有不到十個人,研發過程中並不依賴外語能力,我們開發的大部分語言我們自己一點都不懂。」王海峰說,「這就是機器翻譯的魅力:對於需要翻譯的語言,我們只需要自動挖掘網上存在的雙語數據,然後機器從這些數據中自動進行學習,就能得到用於自動翻譯的模型了。而且,我們的翻譯系統可以通過學習用戶的反饋數據,不斷提升翻譯能力。」
機器,怎麼會有這樣的能力?
王海峰介紹說,百度研發的深度學習與多種主流翻譯模型相融合的在線翻譯系統以及基於「樞軸語言」的技術,處於業內領先水平,在國際上獲得了廣泛認可。基於深度學習的在線翻譯系統藉助計算機模擬的海量神經元來「理解語言,生成譯文」。基於樞軸語言的技術,則使得缺乏網際網路數據的小語種之間通過英文、中文等數據豐富的大語種作為「樞軸」來進行翻譯,從而使得小語種的翻譯成為可能。
成功背後,是多年的積累和失敗的嘗試。王海峰迴憶:「早期,我們用網際網路上大量雙語句對對系統進行訓練,發現結果不盡如人意。 比如一句簡單的英文『how old are you』,最後被翻譯成了』怎麼老是你』,原來網際網路上錯誤的翻譯的信息規模比我們想像的要大,於是我們就開始研究怎樣對網上數據進行過濾和篩選。」
談機器翻譯,當然不能不提到谷歌翻譯。與谷歌翻譯相比,百度翻譯有何獨特性?
「百度翻譯的優勢在於一是技術上融合了深度學習模型和多種主流翻譯模型,並與搜索技術相結合,在口語、詩詞、文言文翻譯、中文相關的翻譯質量等方面有明顯優勢。同時,翻譯的時效性也非常好,我們的翻譯系統對時下的網絡語言的翻譯也很精通。」王海峰迴答。
↑ 百度推出的多語種翻譯機器人「小度」與海外嘉賓互動。
說起來,王海峰與機器翻譯結緣,有20多年了。除了百度技術副總裁的身份,他還曾有另一個頭銜——百度基礎技術首席科學家。1993年,還是哈爾濱工業大學計算機系大四學生的王海峰因為「感覺很神奇」而選擇了智能翻譯作為自己畢業設計的課題,從此就進入了這個領域。
有沒有可能,將來有一天,機器翻譯會取代人工翻譯?
「應該不會,」王海峰肯定地說,「它不僅不會威脅到翻譯人員的生存,反而會給他們帶來工作上的便利,據我所知,很多翻譯人員的手機裡也安裝了我們的產品。機器翻譯和人工翻譯各有優勢,一個機器翻譯系統可以同時掌握幾十種語言的翻譯能力,也可以擅長多個領域的翻譯,這是翻譯人員們所不具備的。但同時,優秀的翻譯人員可以將語言的細微之處翻譯出精妙的美感來,這也是機器翻譯系統無能為力的。所以說二者互補,彼此不能相互替代。」
儘管獲了獎,但王海峰沒有放慢繼續探索和突破的腳步,「曾經的我們與國外先進水平有差距,經過這些年的 不懈努力,趕上了這些差距。如今我們可以自信的說我們已經達到世界領先水平,但這也意味著我們要承擔起引領創新、引領突破的責任。」
也正因如此,對於技術的不斷追求,成為了百度科技園內的一種文化現象。百度翻譯研發團隊的工程師何中軍告訴記者,這裡的技術人員,會像帶手機一樣隨身攜帶筆記本電腦,「有時連上廁所都會帶著」。
「我們搞研發的,一刻離了電腦就會不踏實,因為隨時都有可能冒出一個亟需解決的技術難題。」他說。
在與記者交談的過程中,王海峰偶爾將目光投向窗外,那是一片還在施工中的工地,樓宇骨架已拔地而起,但高高聳立的腳手架與隱隱傳來的轟鳴聲時時提醒著我們:一切都還在繼續……
(圖中未標明圖片均來自網絡。) (作者:王健)