對話百度王海峰:機器能翻譯,還需要學外語嗎?

2020-12-15 新華網客戶端

  作者:王健

  北五環外的北京郊區,剛建成的百度科技園成了這裡的新地標。五座辦公大樓,由天橋彼此連接形成環狀,陽光照射下的藍色玻璃幕牆,頗具幾分「未來感」。

  作為中國網際網路企業三巨頭之一,百度公司近年來積極布局人工智慧領域。2016年初,中國舉辦國家科學技術獎勵大會,這家公司的機器翻譯項目獲得了國家科技進步二等獎,中國最高級別的科技獎項花落網際網路企業實屬罕見。

  「意料之中。」提起獲獎,該項目的負責人王海峰顯得頗為淡定。

  ↑王海峰獲獎照片。 百度提供圖片

  「百度翻譯在科研水平和應用價值兩方面都有很大優勢,在國際上處於領先水平,符合國家科技進步獎的標準。」他說。

  2010年,剛剛加入百度的王海峰著手研發機器翻譯。「當時,我預料這個領域的研究一定會有重大突破。一是因為社會對於機器翻譯的需求日益旺盛,更重要的是,百度可以為這項研究提供網際網路大數據和大計算平臺的強大支持,」他說,「項目從起步到上線只用了一年多時間,現在百度翻譯已經可以支持27種語言之間的翻譯,在全球擁有5億用戶,每天響應約1億次的翻譯需求。」

  耳聽為虛,眼見為實。王海峰隨手就拿起自己的手機,「來,我演示給你看。」

  他一邊說一邊打開百度翻譯APP,輸入了「喜大普奔」四個字,百度翻譯APP一句話的英文譯文,形象、準確地解釋了這個網絡詞彙所表達的意思。

  ↑ 百度翻譯APP手機界面

  王海峰又對著手機錄入語音「請問附近有餐廳嗎?」,然後讓百度翻譯APP的語音翻譯功能分別翻譯成英語、韓語、以及廣東話,也都翻譯得挺不錯。

  「還可以自動識別圖片來翻譯。」他一邊說,一邊用手機拍了一張寫著中文的紙,然後選取其中的一句話,手機屏幕上馬上就出現了這句話的翻譯,「點擊這裡,還可以用語音將翻譯結果讀出來。」

  「我自己已經是一個機器翻譯的直接受益者,」王海峰說,機器翻譯技術對於生活的改變,已經在逐步深入,「比如前段時間我去葡萄牙出差,我一句葡萄牙語也不會,但是通過手機上的百度翻譯,旅途中基本沒有遇到過語言障礙。」

  在研發過程中,王海峰帶領團隊不斷分析用戶的需求。「我們通過對訪問量的監測,發現周末訪問量會上漲,周日尤其多,我們分析可能是很多中小學生在寫作業時會用到我們的產品,」他說,「另外,電子商務領域的應用也很多,比如很多網店通過我們的翻譯軟體把他們的產品簡介翻譯成外語,這會幫他們節省一大筆翻譯的開支。」

  ↑ 王海峰在自己的辦公室裡。 百度提供圖片

  根據王海峰和團隊的設想,百度翻譯還會推出更多中國方言和少數民族語言,來滿足更多用戶的需求。

  「開發語言對於我們來說不是難事,我們平均花11天就能上線一種新語言。」他說。

  這麼高的效率,豈不是需要建立一個龐大的多語種技術人才團隊?

  「其實我們的核心翻譯引擎工程師只有不到十個人,研發過程中並不依賴外語能力,我們開發的大部分語言我們自己一點都不懂。」王海峰說,「這就是機器翻譯的魅力:對於需要翻譯的語言,我們只需要自動挖掘網上存在的雙語數據,然後機器從這些數據中自動進行學習,就能得到用於自動翻譯的模型了。而且,我們的翻譯系統可以通過學習用戶的反饋數據,不斷提升翻譯能力。」

  機器,怎麼會有這樣的能力?

  王海峰介紹說,百度研發的深度學習與多種主流翻譯模型相融合的在線翻譯系統以及基於「樞軸語言」的技術,處於業內領先水平,在國際上獲得了廣泛認可。基於深度學習的在線翻譯系統藉助計算機模擬的海量神經元來「理解語言,生成譯文」。基於樞軸語言的技術,則使得缺乏網際網路數據的小語種之間通過英文、中文等數據豐富的大語種作為「樞軸」來進行翻譯,從而使得小語種的翻譯成為可能。

  成功背後,是多年的積累和失敗的嘗試。王海峰迴憶:「早期,我們用網際網路上大量雙語句對對系統進行訓練,發現結果不盡如人意。 比如一句簡單的英文『how old are you』,最後被翻譯成了』怎麼老是你』,原來網際網路上錯誤的翻譯的信息規模比我們想像的要大,於是我們就開始研究怎樣對網上數據進行過濾和篩選。」

  談機器翻譯,當然不能不提到谷歌翻譯。與谷歌翻譯相比,百度翻譯有何獨特性?

  「百度翻譯的優勢在於一是技術上融合了深度學習模型和多種主流翻譯模型,並與搜索技術相結合,在口語、詩詞、文言文翻譯、中文相關的翻譯質量等方面有明顯優勢。同時,翻譯的時效性也非常好,我們的翻譯系統對時下的網絡語言的翻譯也很精通。」王海峰迴答。

  ↑ 百度推出的多語種翻譯機器人「小度」與海外嘉賓互動。

  說起來,王海峰與機器翻譯結緣,有20多年了。除了百度技術副總裁的身份,他還曾有另一個頭銜——百度基礎技術首席科學家。1993年,還是哈爾濱工業大學計算機系大四學生的王海峰因為「感覺很神奇」而選擇了智能翻譯作為自己畢業設計的課題,從此就進入了這個領域。

  有沒有可能,將來有一天,機器翻譯會取代人工翻譯?

  「應該不會,」王海峰肯定地說,「它不僅不會威脅到翻譯人員的生存,反而會給他們帶來工作上的便利,據我所知,很多翻譯人員的手機裡也安裝了我們的產品。機器翻譯和人工翻譯各有優勢,一個機器翻譯系統可以同時掌握幾十種語言的翻譯能力,也可以擅長多個領域的翻譯,這是翻譯人員們所不具備的。但同時,優秀的翻譯人員可以將語言的細微之處翻譯出精妙的美感來,這也是機器翻譯系統無能為力的。所以說二者互補,彼此不能相互替代。」

  儘管獲了獎,但王海峰沒有放慢繼續探索和突破的腳步,「曾經的我們與國外先進水平有差距,經過這些年的 不懈努力,趕上了這些差距。如今我們可以自信的說我們已經達到世界領先水平,但這也意味著我們要承擔起引領創新、引領突破的責任。」

  也正因如此,對於技術的不斷追求,成為了百度科技園內的一種文化現象。百度翻譯研發團隊的工程師何中軍告訴記者,這裡的技術人員,會像帶手機一樣隨身攜帶筆記本電腦,「有時連上廁所都會帶著」。

  「我們搞研發的,一刻離了電腦就會不踏實,因為隨時都有可能冒出一個亟需解決的技術難題。」他說。

  在與記者交談的過程中,王海峰偶爾將目光投向窗外,那是一片還在施工中的工地,樓宇骨架已拔地而起,但高高聳立的腳手架與隱隱傳來的轟鳴聲時時提醒著我們:一切都還在繼續……

  (圖中未標明圖片均來自網絡。) (作者:王健)

相關焦點

  • 獨家對話百度副總裁王海峰:NLP 的路還很長
    編者按:近日,機器之心獨家對話百度副總裁王海峰博士,針對時下的 NLP 熱點、百度相關的技術情況及其個人經歷展開討論。此前,我們曾專訪過百度自然語言處理部技術負責人吳華、高級總監吳甜,就百度機器翻譯技術展開過詳細討論。想要進一步了解百度機器翻譯,可移步《獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類》(可點擊文末閱讀原文查看)。因涉及方面較多、篇幅較長,根據專訪情況將內容分為上、下兩篇。
  • 百度副總裁王海峰:機器翻譯實現大規模產業化
    出國旅行途中,依靠手機上的翻譯APP就能與當地人無障礙溝通;海淘購物時,點擊「將網頁翻譯為中文」便可以輕鬆了解商品信息……都說語言是人類交際的重要工具,在全球化的時代背景下,解決語言障礙,並為人們生活帶來各種便利的網際網路機器翻譯會成為下一波產業浪潮嗎?
  • 王海峰:他打造了「百度翻譯」
    「有木有、我勒個去、神馬都是浮雲」,這些網絡流行語,如何能更準確翻譯?記者以「神馬都是浮雲」為例,百度翻譯為「Everything is nothing」,比較接近原意,而谷歌則翻譯成了「Horses are clouds of God」,基本不知所云。與百度翻譯相比,谷歌翻譯明顯體現出本地化不足的特點。而負責組隊實現百度翻譯技術攻關的則是百度基礎技術首席科學家王海峰。
  • 百度王海峰:讓機器人像人一樣思考需要這三種能力
    10月27日,在主題為「機器人重塑未來生活」的百度 The BIG Talk 活動上,百度技術副總裁王海峰博士發表演講,講述了讓機器人像人一樣思考需要的三種能力:1.對語言的理解;2.對知識的掌握;3.對人情感的揣摩。與此
  • 我知道的百度王海峰
    王海峰在本科畢業設計期間就跟著趙鐵軍寫代碼,當時趙鐵軍搞了一套機器翻譯的系統,王海峰幫著做實現,王海峰從小就是寫程序的高手。,而是希望能用新方法做機器翻譯。另一個問題是,雖然解決了 NLP 的參數化問題,但在網絡結構上還需要進一步調整。當時主流的網絡是 BP 網絡,而語言是有上下文的,純粹的 BP 網絡搞不定上下文問題。後來王海峰就琢磨在網絡結構上怎麼變成一個 RNN 加上一個循環層連結回來反映上下文關係,效果還不錯。相關結果他寫在了自己的博士論文裡,這在當時即便放在國際上也屬於比較超前的思想。
  • 百度王海峰領銜百度AI再創佳音 10篇論文被ACL 2019錄取
    在投稿數量大幅增長與嚴苛的評審下,百度能被收錄10篇論文,意味著國際學術界對百度研究成果的認可。  憑藉王海峰對百度AI的前瞻性布局,以及百度在NLP領域多年的積累,百度在ACL 2019拿下優異成績單並不意外。百度AI技術平臺體系的掌舵者王海峰是AI領域的世界級專家,更是自然語言處理領域的領軍者,在國內外學界和工業界享有盛譽。
  • 機器之心獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類
    為此,機器之心專訪百度自然語言處理部技術負責人吳華、高級總監吳甜,就神經網絡機器翻譯系統的優缺點、如何獲得高質量訓練數據及百度翻譯目前進展展開話題。同時也藉此機會了解百度自然語言處理部及其開展的 NLP 技術研發工作。以下為採訪內容整理,以饗讀者。NMT、SMT 的優與缺機器之心:能請您先介紹一下百度 NLP 部門嗎?
  • 百度王海峰:百度大腦3.0讓機器更能理解指令的含義
    【網易智能訊7月4日消息】今天,一年一度的Baidu Create2018百度AI開發者大會在國家會議中心召開,百度全面解讀其人工智慧戰略,並宣布百度大腦再升級,迭代至3.0版本。百度高級副總裁、AI技術平臺體系(AIG)總負責人王海峰在現場也解讀了百度大腦3.0。他表示,百度大腦3.0的核心技術突破,用一句話概括就是,多模態深度語義理解。
  • 百度CTO王海峰:語言與知識技術是AI認知能力的核心
    8月25日,在線上發布會上,百度CTO王海峰首次分享了百度大腦語言與知識產品全景圖。王海峰在演講中表示,語言與知識技術是AI認知能力的核心,以語言和知識為研究對象,讓機器像人一樣掌握知識、理解語言的自然語言處理技術,對於人工智慧發展至關重要。
  • 科學家王海峰:從百度十篇論文入選ACL 2019說起
    碩士時,他主導開發的漢英機器翻譯系統,獲得了國家「863」評測第一名及部級科技進步獎。而1999年的博士論文中,他已經開創性地探索了神經網絡機器翻譯的可能性。而走出校園以後,王海峰依然堅持科學研究。彼時,在談及自己近30年的科學研究之路時,王海峰總結說,這期間有停滯不前的沮喪,有曲高和寡的無奈,但更多的是研究成果為大眾所用的喜悅,以及隨之而來的認可。而這種認可,也體現在他在國際學界的地位上。2013年,他成為了全球影響力最大、最具活力的國際學術組織之一ACL歷史上首任華人主席。
  • 百度CTO王海峰:自然語言處理技術發展飛速 機器翻譯從理想走向現實
    百度首席技術官王海峰出席論壇,並發表題為《自然語言處理前沿》的主題演講,向與會嘉賓介紹了自然語言處理相關研究的發展歷史和趨勢,以及百度在自然語言處理技術和產業應用中取得的成果。王海峰表示,自然語言處理(NLP)是用計算機來模擬、延伸及拓展人類語言能力的理論、技術及方法。
  • 百度王海峰Quora總結百度工程師品質:務實,自驅,負責到底
    王海峰是百度搜索業務的負責人,同時還負責手機百度、百度信息流、百度新聞、百度手機瀏覽器、自然語言處理、知識圖譜、網際網路數據挖掘等業務。他是自然語言處理領域世界上最具影響力的國際學術組織ACL(Association for Computational Linguistics)50多年歷史上唯一出任過主席的華人,也是目前最年輕的ACL fellow,在人工智慧領域有著重要影響力。
  • 百度王海峰Quora集錦:未來NLP領域將會有何進展? | 獵雲網
    其中提到,機器翻譯、語義理解、問答和對話技術將會被廣泛應用,並最終改變人與計算機、人與各種硬體設備、以及人與人之間的溝通方式。這些技術的發展將得益於以下四個領域的發展:大數據、學習機制、知識圖譜、推理和規劃。文章轉自:雷鋒網。原文如下:雷鋒網按:近日吳恩達發文將在4月底離職百度。
  • 百度王海峰獲得首個吳文俊人工智慧傑出貢獻獎
    本屆吳文俊人工智慧獎共對70項人工智慧成果授獎,百度高級副總裁、AI技術平臺體系(AIG)總負責人王海峰榮獲首個吳文俊人工智慧「傑出貢獻獎」。王海峰既是出色的學者,也是工業界的技術領袖。他長期致力於人工智慧技術創新及產業發展,在機器翻譯、自然語言處理、知識圖譜和智能搜索等人工智慧技術領域取得大量領先和開創性成果。
  • 百度機器翻譯獲國家科技進步獎
    1月8日,2015年度國家科學技術獎勵大會在人民大會堂舉行,百度機器翻譯項目獲頒國家科學技術進步獎二等獎,這是該獎項首次出現網際網路巨頭(BAT)的身影。   機器翻譯一直被公認為人工智慧領域最難的課題之一,百度機器翻譯的突破性成果,使我國掌握了網際網路機器翻譯的核心技術,佔領了技術制高點。
  • 百度CTO王海峰榮膺第十三屆光華工程科技獎
    人工智慧已成為新一輪科技革命和產業變革的重要驅動力量,加快發展新一代人工智慧能夠推動我國科技跨越發展、產業優化升級和生產力躍升,從而建設完善的現代化經濟體系,滿足人民日益增長的美好生活的需要。王海峰在人工智慧領域深耕近三十年,致力於技術創新和產業化,尤其在自然語言處理領域成果卓著,是我國在科學研究和產業應用方面均做出重要貢獻的知名專家,在國內外學界和工業界均享有盛譽。
  • 百度機器翻譯實現大規模產業化,哪些行業會獲益?
    這兩家大型跨國公司要想在未來的人工智慧時代站住腳跟,就必須先解決語言問題,而和百度機器翻譯合作,的確是一個絕妙的選項。再比如中移動,筆者猜測,中移動也利用百度的機器翻譯實現了自身企業對國外用戶的服務上。眾所周知,移動通信是一個重客服的行業,客服人員的比重在中移動中佔比也較高,而這些客服一般都不具備外語能力,因此藉助百度機器翻譯則可以大大降低客服的工作困難。
  • 百度王海峰Quora總結百度工程師品質:務實 自驅 負責到底
    王海峰是百度搜索業務的負責人,同時還負責手機百度、百度信息流、百度新聞、百度手機瀏覽器、自然語言處理、知識圖譜、網際網路數據挖掘等業務。他是自然語言處理領域世界上最具影響力的國際學術組織ACL(Association for Computational Linguistics)50多年歷史上唯一出任過主席的華人,也是目前最年輕的ACL fellow,在人工智慧領域有著重要影響力。
  • 翻譯軟體越來越智能,今後還需要花大把時間學外語嗎?
    翻譯軟體在目前的表現並不盡如人意,但如果你是這些翻譯器的常客的話,應該能夠感知到它們的進步。也許不久的將來,機器翻譯就能在很大程度上替代人工。還需要用幾年甚至十幾年的時間去學外語嗎?不同的語言之間,一定有機器所描述的文字解釋不出的差異。
  • 百度王海峰Quora精華整理:未來5-10年,NLP領域將會有什麼進展?
    幾乎在同一時間,百度也宣布進一步深度整合,將包括NLP、KG、IDL、Speech、Big Data等在內的百度核心技術,組成百度AI技術平臺體系(AIG),並任命百度副總裁王海峰為AI技術平臺體系(AIG)總負責人,同時晉升為Estaff成員,轉向百度集團總裁和營運長陸奇匯報。