首席科學家王海峰:他打造了「百度翻譯」

2021-01-13 中國網

「有木有、我勒個去、神馬都是浮雲」,這些網絡流行語,如何能更準確翻譯?記者以「神馬都是浮雲」為例,百度翻譯為「Everything is nothing」,比較接近原意,而谷歌則翻譯成了「Horses are clouds of God」,基本不知所云。與百度翻譯相比,谷歌翻譯明顯體現出本地化不足的特點。而負責組隊實現百度翻譯技術攻關的則是百度基礎技術首席科學家王海峰。

2011年8月,在北京大學軟體與微電子學院2011級新生開學典禮上,王海峰以新任語言信息工程系主任的身份,給新生們作了題為「網際網路時代的自然語言處理」的學術報告。至此,北大虛位以待2年之久的語言信息工程系的系主任人選終於塵埃落定。

王海峰在計算機領域是一位聲名顯赫的人物。因為研究的突出成就,2010年11月,王海峰當選為「國際計算語言學學會(ACL)副主席,在ACL 近50年的歷史上,他是第一位當選副主席的華人。

「這不僅是國際同行對我本人的認可,也是他們對中國及華人學者在本領域貢獻的認可,另外,這也是對百度這樣的中國企業的認可。」王海峰表示。

王海峰和計算機結緣已經有20餘年的時間。1989年秋,王海峰以優異的成績考入哈爾濱工業大學學習計算機,就正式與計算機打上了交道。

王海峰告訴記者,他的父母都是上個世紀60年代的大學生,父親畢業於清華大學,母親畢業於哈爾濱醫科大學,受家庭、學校及周圍環境的影響,他從小就立志成為一名科學家。

還在哈爾濱工業大學讀本科時,王海峰就已經進入機器翻譯這個充滿挑戰的領域。在上碩士期間,僅用一年就開發出了當時在國家「863」評測獲得第一的漢英機器翻譯系統,並獲得了部級科技進步獎。

1999年初,從哈爾濱工業大學博士畢業時,已經學有所成的王海峰成了很多單位、包括一些重點研究機構爭搶的香餑餑。面對眾多誘人的選擇,王海峰果斷地選擇了當時剛剛成立不久的微軟中國研究院。2010年1月,王海峰加盟百度,開始了自己職業生涯的新篇章。

隨後,百度就組建了王海峰博士領銜的機器翻譯核心研發團隊。由於百度擁有超大規模的雙語語料,作為機器翻譯領域的頂級專家,王海峰非常清楚這些雙語資源在機器翻譯中的價值。於是,對雙語語料的探測、抓取和處理,就成了百度機器翻譯團隊初期的重要工作之一。

王海峰和他的團隊抓取的雙語語料很快也達到了1000萬句的規模。但是很快問題接踵而來:翻譯質量遠比預期要低。例如「how old are you」這麼常用而簡單的英文在網上卻被大量地翻譯為「怎麼老是你」,「好好學習、天天向上」這句大家耳熟能詳的中文,在抓取回來的語料中,大多數都被翻為了「good good study,day day up」。經過1個多月的攻關,王海峰和整個團隊利用新的技術手段將1000萬語料過濾到400萬左右,大量低質語料已經在過濾中被淘汰,機器翻譯的質量得到了大幅提高。

從開始組建團隊,到百度翻譯正式上線,僅用了1年多時間。如今依託於百度在中文網際網路技術上的優勢,百度翻譯對中文網絡語言有著獨特的應對能力。

對王海峰來說,就百度而言,這還只是一個開始。因為除了機器翻譯,王海峰在百度還負責自然語言處理、數據收錄、數據挖掘、機器學習、推薦與個性化、語音技術等支撐著百度各種產品的眾多基礎技術,他也希望自己未來在這些領域的研究和產品開發中能夠有更大的成就。

王海峰

計算機博士,現任百度基礎技術首席科學家,兼任北京大學語言信息工程系主任

相關焦點

  • 知者見於未萌——觀讀《AI已來:讓中國AI走向世界的王海峰》
    2010 年,他被選為 ACL 主席,這也是 ACL 創辦 50 多年來首次有華人當選。2016 年,王海峰又當選了 ACL 會士,成為首位獲此榮譽的中國大陸科學家,也是 ACL 目前最年輕的會士。而王海峰從未缺席的,還有中國 AI 近三十年來的高速發展。王海峰本、碩、博都畢業於哈爾濱工業大學。
  • 百度翻譯背後的女科學家吳華博士訪談錄
    略帶南方口音纖軟的聲調,親切隨性的笑容,讓人感覺容易接近的同時,也不禁疑惑,這樣一個纖纖女子,如何帶領團隊攻克機器翻譯這一公認的世界性難題,打造出廣受用戶喜愛的百度翻譯產品?女科學家和百度翻譯作為百度翻譯技術負責人和團隊的創始人之一,吳華博士在機器翻譯及自然語言處理領域浸潤多年,負責過多項機器翻譯的研究與開發工作,開發了多款自然語言處理(NLP)產品,申請專利20餘件、發表論文30餘篇。豐碩的研究成果得到國際學術界的廣泛認可。
  • 百度NLP十年:基於知識增強的語言技術,實現跨模態一體化理解
    正如大衛·米切爾在他的第三部小說《雲圖》中所說:歷史是一副牌,我們的祖輩那代拿到的是3、4、5,而我們這一代人拿到的是10、J和Q。雖然今天的NLP研究者們仍然在吐槽「NLP太難了」,但毫無疑問,站在前人的肩膀上,我們離摘下皇冠上的明珠又近了一步。王海峰還為我們全面分享了百度近十年來在語言與知識技術上積累的成果。
  • 百度機器翻譯獲國家科技進步獎
    1月8日,2015年度國家科學技術獎勵大會在人民大會堂舉行,百度機器翻譯項目獲頒國家科學技術進步獎二等獎,這是該獎項首次出現網際網路巨頭(BAT)的身影。   機器翻譯一直被公認為人工智慧領域最難的課題之一,百度機器翻譯的突破性成果,使我國掌握了網際網路機器翻譯的核心技術,佔領了技術制高點。
  • 百度翻譯閃耀MIT年度科技大會,吳華現場展示百度WiFi翻譯機
    百度自然語言處理部首席科學家、技術委員會聯席主席吳華博士受邀發表題為「Breaking Barriers with Machine Translation」的報告,介紹了百度機器翻譯的最新技術進展及創新產品。百度是此次機器翻譯領域唯一被邀請出席的企業嗷!
  • 百度翻譯打造「翻譯雞」打破溝通壁壘 榮獲世界級設計大獎
    以AI技術為核心的百度翻譯,厲害在哪?  百度翻譯是一款依託於自然語言處理、圖像識別、智能語音等AI技術優勢,賦能多元場景,打造學習、旅遊、商務等場景的一體化語言助手。  百度翻譯APP多場景應用  創新打造AI詞典,英語學習必備  圍繞英語學習,在業界首推全新第四代詞典-AI詞典,利用AI、大數據為小、初、高、大學,各階段用戶打造學
  • 百度翻譯閃耀MIT年度科技大會 吳華現場展示翻譯機
    百度自然語言處理部首席科學家、技術委員會聯席主席吳華博士受邀發表題為「Breaking Barriers with Machine Translation」的報告,介紹了百度機器翻譯的最新技術進展及創新產品。據悉,百度是此次機器翻譯領域唯一被邀請出席的企業。MIT Technology Review隨後發文詳細報導了這次演講,稱讚百度作為中國網際網路巨頭在提高機器翻譯上取得的重大進展。
  • 百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類
    IDC中國副總裁兼首席分析師武連峰、百度AI技術生態部總經理劉倩、百度人工智慧技術委員會主席何中軍進行主題演講,同時與在場的40多位來自金融、製造、能源等行業企業信息化負責人聚焦機器翻譯的價值、企業應用需求、未來發展趨勢等話題展開深入的互動討論,分享最佳實踐經驗,助力企業更好的提升機器翻譯大規模產業化應用,推動企業智能化升級。會上,武連峰講到,企業具備全球化信息能力非常重要。
  • 百度機器翻譯獲2015年度國家科技進步二等獎(圖)
    2015年度國家科學技術獎勵大會今日在京舉行,百度憑藉機器翻譯項目,獲頒國家科學技術進步獎二等獎。百度機器翻譯項目在大會上被授予國家科技進步獎,成為BAT中首個獲此獎項的企業。機器翻譯是人工智慧領域最難的課題之一。1947年,機器翻譯步入歷史舞臺,50年代機器翻譯研究持續升溫,美國、前蘇聯等國家均出現了研究熱潮。
  • 百度世界2020光鮮登場,百度大腦6.0、飛槳、智能雲勾勒AI藍圖
    如果讓你見到二十年前的自己,和他(她)進行一次對話,你會和他(她)聊點什麼?不用腦補了,這一如同科幻電影般的場景,已經在「百度世界2020」大會上演了。9月15日,百度聯合央視新聞舉辦的「百度世界2020」大會以線上直播的形式召開。
  • 百度CTO王海峰最新演講深度解讀 | CNCC...
    雷鋒網(公眾號:雷鋒網) AI 科技評論按: 10月17日-19日,2019年中國計算機大會(CNCC2019)在蘇州舉辦,本屆大會以「智能+引領社會發展」為主題,1000家機構的代表、8000餘人參展參會。
  • 百度IDL傑出科學家徐偉宣布加盟地平線,與餘凱曾同登《福布斯》榜單
    ,百度深度學習實驗室(IDL)傑出科學家徐偉今天凌晨正式宣布加入地平線機器人,擔任通用AI首席科學家,並將在矽谷建立General AI Lab,打造小而精的團隊專注於通用人工智慧研究。因此,今天我開始了新的旅程,加入地平線機器人(horizon.ai)擔任Chief Scientist of General AI,在矽谷建立General AI Lab,打造一個小而精的團隊專注於通用人工智慧的研究,目標是做出具有人類這樣的學習能力的機器。這會是一個非常長遠的目標。非常歡迎有志於通用人工智慧研究的朋友能加入我們,一起長期地做一件有巨大意義的事。如果感興趣,請直接和我聯繫。
  • 在AI科學家、翻譯家眼裡,谷歌翻譯其實沒那麼神?
    在與 Alapha Go 對弈之後,李世石表示正是機器開發了他對這古老對弈遊戲的新理解。編輯部差不多看懂的時候,當即決定把這一段很好的材料放進文章裡去。但難題來了,新聞是用韓語寫的,更多的細節需要精密翻譯,而編輯部裡面沒有任何一個人懂韓語。於是,編輯們嘗試用 Google 翻譯來識別這則新聞,但網頁上被翻譯出來的英文只有零散的、毫無意義的病句。
  • 日均調用量超100億次 百度大腦正在用語音喚醒一個AI時代
    (百度CTO王海峰博士致辭)百度首席技術官王海峰博士出席論壇並致辭,他表示:「AI技術的進化和產業賦能正向循環,相互促進,AI在應用場景中不斷進化。百度的語音技術基於深度學習和產業應用加速突破,已應用到百度App,百度地圖、小度音箱,百度輸入法等百度產品,更通過AI開放平臺賦能眾多產業夥伴。百度大腦語音能力每天的調用量已經超過100億。」
  • 百度:目前機器翻譯準確率已與人類水平相當
    12月1日,百度大腦開放日舉辦。IDC中國副總裁兼首席分析師武連峰表示,到2021年底,超過70%具有海外業務的中國企業將不同程度的採用機器翻譯,應用場景也將更為豐富。據介紹,百度提出的語義單元驅動的AI同傳模型,翻譯準確率為80%,時間延遲約為3秒,與人類水平相當。此外,百度方面還披露,百度翻譯可支持203語種互譯,現在每天響應超過千億字符的翻譯請求。截至目前,百度大腦開放了273項AI能力,230萬開發者創建了31萬模型。
  • 百度入圍Gartner全球AI翻譯服務代表企業 打造企業智能升級新引擎
    Gartner分析師指出,百度擁有宏偉且領先的(advanced and ambitious)目標。百度翻譯整合了自然語言處理、語音處理、計算機視覺等多項AI能力,向用戶提供語音、圖像、視頻等多模態翻譯服務。
  • 百度AI開發者大會輸入法現場大飆Rap!高難度中英文混合語音識別...
    在7月3日「Baidu Create2019」百度AI開發者大會現場,百度首席技術官王海峰在演講中表示,「百度研發了流式多級的截斷注意力模型(SMLTA),使語音識別的準確率大幅提升並保持了非常高的速度,這是首個基於流式注意力的語音識別線上服務,百度輸入法語音識別的準確率因此相對提升15%以上」。
  • 百度翻譯
    世界很複雜,百度更懂你 百度翻譯於2015年率先在世界上發布了網際網路NMT(神經網絡機器翻譯)系統,大幅提升了翻譯質量。歷經3年多的積累與優化,翻譯質量更優。目前支持全球28種語言、756個翻譯方向,每日響應過億次的翻譯請求,全方位滿足用戶的翻譯需求。
  • AI擊敗人類法律翻譯,前獵豹首席科學家為何跨界法律AI公司?
    「沒想到國內的人工智慧技術水平已經到了如此水平,」他說道。比賽結果出來後,他更放言人類「要從狼嘴裡搶肉」了。   據公司CEO閔可銳介紹,「秘塔 MT」訓練用數據包括兩大類,通用領域高質量翻譯數據和法律領域的數據。
  • 除了葷段子翻譯傳神,中國翻譯軟體到底能和谷歌競爭什麼?
    從百度的搜索、翻譯、度秘到阿里的機器客服、搜狗的輸入法,更多基於後者。二者是並列的關係嗎?新任百度AI技術平臺體系(AIG)負責人王海峰說過一段話:相對於看、聽和行動的能力,語言是人類區別於其他生物最重要的特徵之一。視覺、聽覺和行為不僅是人特有的,動物也會有,甚至比人強,但是語言是人特有的。AlphaGo對於普通人來講是非常震撼的一件事情,我們也認為它是一個挺大的成績。