「有木有、我勒個去、神馬都是浮雲」,這些網絡流行語,如何能更準確翻譯?記者以「神馬都是浮雲」為例,百度翻譯為「Everything is nothing」,比較接近原意,而谷歌則翻譯成了「Horses are clouds of God」,基本不知所云。與百度翻譯相比,谷歌翻譯明顯體現出本地化不足的特點。而負責組隊實現百度翻譯技術攻關的則是百度基礎技術首席科學家王海峰。
2011年8月,在北京大學軟體與微電子學院2011級新生開學典禮上,王海峰以新任語言信息工程系主任的身份,給新生們作了題為「網際網路時代的自然語言處理」的學術報告。至此,北大虛位以待2年之久的語言信息工程系的系主任人選終於塵埃落定。
王海峰在計算機領域是一位聲名顯赫的人物。因為研究的突出成就,2010年11月,王海峰當選為「國際計算語言學學會(ACL)副主席,在ACL 近50年的歷史上,他是第一位當選副主席的華人。
「這不僅是國際同行對我本人的認可,也是他們對中國及華人學者在本領域貢獻的認可,另外,這也是對百度這樣的中國企業的認可。」王海峰表示。
王海峰和計算機結緣已經有20餘年的時間。1989年秋,王海峰以優異的成績考入哈爾濱工業大學學習計算機,就正式與計算機打上了交道。
王海峰告訴記者,他的父母都是上個世紀60年代的大學生,父親畢業於清華大學,母親畢業於哈爾濱醫科大學,受家庭、學校及周圍環境的影響,他從小就立志成為一名科學家。
還在哈爾濱工業大學讀本科時,王海峰就已經進入機器翻譯這個充滿挑戰的領域。在上碩士期間,僅用一年就開發出了當時在國家「863」評測獲得第一的漢英機器翻譯系統,並獲得了部級科技進步獎。
1999年初,從哈爾濱工業大學博士畢業時,已經學有所成的王海峰成了很多單位、包括一些重點研究機構爭搶的香餑餑。面對眾多誘人的選擇,王海峰果斷地選擇了當時剛剛成立不久的微軟中國研究院。2010年1月,王海峰加盟百度,開始了自己職業生涯的新篇章。
隨後,百度就組建了王海峰博士領銜的機器翻譯核心研發團隊。由於百度擁有超大規模的雙語語料,作為機器翻譯領域的頂級專家,王海峰非常清楚這些雙語資源在機器翻譯中的價值。於是,對雙語語料的探測、抓取和處理,就成了百度機器翻譯團隊初期的重要工作之一。
王海峰和他的團隊抓取的雙語語料很快也達到了1000萬句的規模。但是很快問題接踵而來:翻譯質量遠比預期要低。例如「how old are you」這麼常用而簡單的英文在網上卻被大量地翻譯為「怎麼老是你」,「好好學習、天天向上」這句大家耳熟能詳的中文,在抓取回來的語料中,大多數都被翻為了「good good study,day day up」。經過1個多月的攻關,王海峰和整個團隊利用新的技術手段將1000萬語料過濾到400萬左右,大量低質語料已經在過濾中被淘汰,機器翻譯的質量得到了大幅提高。
從開始組建團隊,到百度翻譯正式上線,僅用了1年多時間。如今依託於百度在中文網際網路技術上的優勢,百度翻譯對中文網絡語言有著獨特的應對能力。
對王海峰來說,就百度而言,這還只是一個開始。因為除了機器翻譯,王海峰在百度還負責自然語言處理、數據收錄、數據挖掘、機器學習、推薦與個性化、語音技術等支撐著百度各種產品的眾多基礎技術,他也希望自己未來在這些領域的研究和產品開發中能夠有更大的成就。
王海峰
計算機博士,現任百度基礎技術首席科學家,兼任北京大學語言信息工程系主任