百度翻譯背後的女科學家——記吳華博士

2020-12-17 環球網

吳華博士印象

初見吳華博士,你會為她溫柔舒雅的風範吸引。略帶南方口音纖軟的聲調,親切隨性的笑容,讓人感覺容易接近的同時,也不禁疑惑,這樣一個纖纖女子,如何帶領團隊攻克機器翻譯這一公認的世界性難題,打造出廣受用戶喜愛的百度翻譯產品?

訪談的話題從吳華博士從事的自然語言處理技術切入,纖纖女子變身女科學家,高端精深的技術術語以溫軟的女聲娓娓道來,百度翻譯的技術藍圖,從技術推動產品到技術與產品完美結合,百度翻譯這款體現百度使命的技術型產品漸漸變得清晰生動,象牙塔裡的機器翻譯技術也漸漸變得熟悉易懂。吳華博士侃侃而談,思路流暢而活躍,眼睛裡閃著睿智的光。

作為百度翻譯技術負責人和團隊的創始人之一,吳華博士在機器翻譯及自然語言處理領域浸潤多年,負責過多項機器翻譯的研究與開發工作,開發了多款自然語言處理(NLP)產品,申請專利20餘件、發表論文30餘篇。豐碩的研究成果得到國際學術界的廣泛認可。2011年吳華受邀擔任NLP領域重要國際會議IJCNLP的機器翻譯領域主席(Area Chair),2012年擔任NLP領域最好的國際學術會議ACL的機器翻譯領域主席。去年,她又被遴選為ACL 2014年的程序主席(Program Chair),在國際會議中,程序主席承擔著最重要的學術職責,也代表著世界級的學術地位和影響力。對技術的深刻理解和宏觀把握,也讓她在百度得到認可,榮任百度主任研究員,自然語言處理部技術負責人。她積累多年的研究經驗,在百度的三年間開花,結果,並且漸成枝葉繁茂之勢。

這三年間,吳華博士負責的百度翻譯項目從無到有,依託百度作為最大中文搜尋引擎所擁有的海量的雙語資源,從開發基本翻譯系統到攻克技術難題,從上線單一的web自動翻譯到布局多語言、多形式、多入口的產品形態,不僅使百度翻譯逐步成長為一款廣受喜愛的網際網路產品,也彰顯了百度技術實力,提升了百度技術影響力。

這一切的背後,是這位女科學家以自己在機器翻譯和自然語言處理領域的深厚積累和對新技術新方法的敏銳感知,制定了綜合利用各種機器翻譯技術和資源的、面向網際網路應用的技術策略。實現這一策略的是依託百度人才成長機制、吳華博士參與組建並精心培養起來的百度翻譯團隊。

當今網際網路用戶的翻譯需求錯綜複雜,有跨語言聊天的需求,有利用翻譯進行跨語言貿易的需求,有利用翻譯產品多語言資源學習外語的需求,有瀏覽外語網頁,獲取更多資訊的需求,不一而足。吳華博士介紹說,與業界同類產品相比,百度翻譯擁有卓越的機器翻譯核心技術、領先的語料挖掘和過濾技術以及高效的海量計算技術。百度翻譯通過高效的數據挖掘技術從網頁庫中自動發現和獲取雙語資源,採用機器學習的方法更有效地平衡雙語語料的覆蓋率和準確率,在此基礎上研發的混合翻譯系統,結合自動聚類,主題模型等先進技術,能夠靈活應對各種翻譯需求,使各個領域的翻譯更加精準。

在解釋複雜的技術策略時,女科學家舉了網際網路上調侃型翻譯的例子,生動有趣。如翻譯「how old are you」時,就會被網際網路中大量存在的調侃型翻譯「怎麼老是你」幹擾,而百度翻譯能夠智能甄別和過濾,並給出正確的翻譯結果。

除了攻克各種技術難題,竭力為用戶提供高質量翻譯結果,吳華博士和百度翻譯團隊想用戶之所想,開發了多種產品形態,涵蓋web在線翻譯、詞典例句查詢、論文輔助寫作、跨語言檢索、移動翻譯APP等,多方位,更便捷地滿足用戶的翻譯需求。Web在線翻譯截止目前為止,已支持7種語言18個方向的翻譯,且翻譯質量業內領先。值得一提的百度翻譯移動APP,是吳華博士帶領團隊順應時代形勢,滿足移動用戶跨語言交流的需求而精心打造的產品。利用APP的語音翻譯、情景例句以及離線翻譯等功能,用戶真正體驗了隨時隨地、無障礙跨語言交流。

在談到技術構想和產品形式的實現時,吳華博士多次提到百度翻譯團隊,言語間充滿愛護和欣慰。這支人數不多的精英隊伍,是在她身體力行的影響和精心培養下成長起來的。在遇到技術難題時,吳華博士善於為團隊指出可行的方向,引導成員打開思路,同時借鑑學術界的研究成果和工業界的既有技術,加入自己的創新思維,研發出具有百度自主智慧財產權的技術解決方案。在把握宏觀技術方向的同時,女科學家的細膩和敏銳,也使她擅於關注到每個成員的工作細節,發現亮點和痛點,給予具體指導和啟發。吳華博士從自身工作實踐出發,引導團隊成員不僅研發機器翻譯技術,同時進一步了解用戶行為和需要,積極思考翻譯產品的定位與發展。在她的影響和帶領下,機器翻譯團隊學習氛圍濃厚,研究成果和產出顯著。

訪談中我們問到女科學家職業成功的秘訣是什麼,吳華博士有些靦腆地笑了。團隊中的年輕成員也曾請她分享這一話題,她說「我在事業上還談不上成功,是對技術的熱情,不怕吃苦和責任感支撐我走到今天,取得了一些成績。」這些樸素而實在的感悟已經在機器翻譯團隊生根發芽,激勵每個成員努力實踐,為百度翻譯繼續保持和提升技術優勢,研發出更多更好的滿足用戶需求的翻譯產品,從而擴大百度影響力貢獻自己的一份力量,同時成就個人職業成長。

女科學家的夢想,所有人的夢想

訪談的最後,我們猶豫著提出技術夢想的話題,擔心這個某些時候被誤讀為大而空的詞不符合科學家嚴謹的思路。吳華博士給出的答案卻具體鮮活:不久的將來,百度翻譯產品在普通人的生活、工作和學習中扮演不可或缺的角色。旅遊者在南美的某個城市,使用移動翻譯APP在當地餐館訂餐、在賓館入住、閱讀景點介紹、與當地人討價還價;外貿從業者與來自不同國家的合作夥伴用百度翻譯交流商品信息、詢問報價、敲定商務細節;學生可以通過百度翻譯定製適合自己興趣和學習程度的外語資源;更多的用戶可以跨語言無障礙溝通交流,獲取資訊… …

女科學家鮮活的夢想中蘊含的正是普通人對於未知世界探索的夢想,而吳華博士和她的團隊早日實現夢想,自然能夠相當於每個人都插上語言自由、信息自由的翅膀,讓人們可以走得更遠,了解世界更多,實現自己的夢想。

相關焦點

  • 百度翻譯背後的女科學家:吳華博士
    吳華博士  女科學家和百度翻譯  作為百度翻譯技術負責人和團隊的創始人之一,吳華博士在機器翻譯及自然語言處理領域浸潤多年,負責過多項機器翻譯的研究與開發工作,開發了多款自然語言處理  這一切的背後,是這位女科學家以自己在機器翻譯和自然語言處理領域的深厚積累和對新技術新方法的敏銳感知,制定了綜合利用各種機器翻譯技術和資源的、面向網際網路應用的技術策略。實現這一策略的是依託百度人才成長機制、吳華博士參與組建並精心培養起來的百度翻譯團隊。
  • 百度翻譯閃耀MIT年度科技大會,吳華現場展示百度WiFi翻譯機
    百度自然語言處理部首席科學家、技術委員會聯席主席吳華博士受邀發表題為「Breaking Barriers with Machine Translation」的報告,介紹了百度機器翻譯的最新技術進展及創新產品。百度是此次機器翻譯領域唯一被邀請出席的企業嗷!
  • 百度翻譯閃耀MIT年度科技大會 吳華現場展示翻譯機
    百度自然語言處理部首席科學家、技術委員會聯席主席吳華博士受邀發表題為「Breaking Barriers with Machine Translation」的報告,介紹了百度機器翻譯的最新技術進展及創新產品。據悉,百度是此次機器翻譯領域唯一被邀請出席的企業。MIT Technology Review隨後發文詳細報導了這次演講,稱讚百度作為中國網際網路巨頭在提高機器翻譯上取得的重大進展。
  • 百度翻譯現身科技大會,吳華展示翻譯機!未來發展更完美!
    在當年這個競爭才能上崗的年代,你想找一個不用辛苦的、不用操心的估計就是翻譯。人工翻譯在國家領導人或者重要客戶身邊是非常需要的,在正常的工作或者有其他事情需要翻譯的時候,我們就需要用到智能翻譯。翻譯還分很多,360、有道、必應,還有百度,誰追強大呢?我們想說不相上下,但那是以前。
  • 以技術為引擎 百度在線翻譯精益求精
    2011年,百度正式推出百度翻譯,入主在線翻譯。從2011年6月百度翻譯上線以來,憑藉「翻譯質量、產品功能、使用體驗」等方面的優勢,備受用戶認可,在翻譯領域後來居上。最新數據顯示,百度每天還響應著300餘萬來自網頁搜索的翻譯請求和600餘萬的詞典翻譯請求。此外,百度翻譯還在2011年底新上線了中日翻譯,翻譯的語言種類逐步擴充。
  • 金山詞霸與百度深入合作 將全線接入百度翻譯
    騰訊科技訊(樂天)4月24日消息,金山詞霸和中文搜尋引擎百度今日共同宣布雙方達成深度合作協議。金山詞霸網站、PC客戶端、移動客戶端全線接入百度機器翻譯技術,百度詞典將接入金山詞霸海量詞典內容。
  • 百度在美國科技會議上展示的「即時翻譯」令美國人驚嘆
    今天,百度公司就表示:他們正將將數字神經網絡植入機器,並已經研製出了便攜袖珍的即時翻譯小機器。 在」巴別魚耳塞「的道路上,人類又前進了一大步。百度技術委員人主席兼公司首席科學家吳華博士(重點研究機器對自然語言的識別和處理)說:「自2015以來,中國百度公司在改進機器語言翻譯方面取得了重大進展,使用了一種稱之為」深度學習」的先進人工智慧技術」。在當天會議的舞臺上,該便攜翻譯器通過WIFI連接網際網路後,可以立即翻譯吳華和小編Will Knight之間的簡短對話。
  • 科技大會百度翻譯機:神經網絡機器使用翻譯,場景運用更加精準!
    百度對翻譯機的布局還要從2013年開始說起,我們知道隨著移動網際網路的加速成長AT開始了非常強勁的勢能,而作為BAT開頭的百度一直都在原地踏步,很多人都以為是百度不思進取,其實人家百度早就已經確立好了自己的發展方向只是需要點時間來完善自己。
  • 機器翻譯七十年:百度領跑神經網絡翻譯時代
    12月21日,在百度機器翻譯技術開放日上,百度技術委員會聯席主席、自然語言處理部技術負責人吳華博士表示,基於領先的人工智慧、神經網絡以及自然語言處理技術,百度早在1年多以前就率先發布了世界上首個網際網路NMT系統,引領機器翻譯進入神經網絡翻譯時代。先發制人:百度率先進入NMT時代眾所周知,一項新的技術從實驗室誕生到真正的工業化應用,往往需要很長時間。
  • 金山詞霸與百度合作 全線接入百度翻譯
    金山詞霸與百度今日共同宣布達成深度合作協議,金山詞霸網站、PC客戶端、移動客戶端全線接入百度機器翻譯技術,百度詞典將接入金山詞霸多年積累優化的海量詞典內容。據介紹,百度於兩年前組建起機器翻譯研發團隊,主要領銜成員為機器翻譯專家王海峰和吳華,百度歷時一年多時間自主研發了多語言挖掘和機器翻譯核心技術,發布了機器翻譯產品百度翻譯,提供中英、中日文之間的字詞、句子和網頁翻譯。據悉,百度翻譯上線不到一年,日均使用量達到數百萬頻次,近期還將上線英語論文寫作助手。據悉,此次與金山詞霸深度合作,是百度翻譯首次開放API。
  • 出海記|日媒關注百度發布自動翻譯機:冀明年擴大至日本市場
    參考消息網9月22日報導 日媒稱,百度開發出了可在旅遊時攜帶的自動翻譯機,只要對著它說出中文,馬上就能聽到翻譯過來的日語或英語等。通過採用人工智慧(AI)語音識別和自動翻譯技術,這款翻譯機已經可以非常準確地進行翻譯。
  • 百度翻譯正式上線 凸顯四大技術亮點
    日前,百度在線翻譯服務--百度翻譯正式上線。作為一款百度公司完全自主投入、研發的語言翻譯服務,百度翻譯目前可以提供中英文之間的字詞、句子和網頁翻譯,並提供一鍵清空、複製,雙語對照查看等功能。據悉,百度翻譯的技術原理是機器自動從大量語料中學習並自動生成翻譯結果,翻譯結果不經過人工整理與編輯。
  • 百度翻譯--自主研發凸顯四大技術亮點
    百度翻譯--自主研發凸顯四大技術亮點 2011年07月04日 13:28作者:廠商稿編輯:廠商稿文章出處:泡泡網原創     日前,百度在線翻譯服務
  • 百度翻譯上線 自主研發凸顯四大技術亮點
    日前,百度在線翻譯服務--百度翻譯正式上線。作為一款百度公司完全自主投入、研發的語言翻譯服務,百度翻譯目前可以提供中英文之間的字詞、句子和網頁翻譯,並提供一鍵清空、複製,雙語對照查看等功能。據悉,百度翻譯的技術原理是機器自動從大量語料中學習並自動生成翻譯結果,翻譯結果不經過人工整理與編輯。
  • 百度AI人才圖鑑:他們都是誰?
    類似神奇的技術背後,實際隱藏著神經網絡機器翻譯技術(Neural Machine Translation,NMT)在特定領域的強化應用。以寫詩為例,其NMT算法需要在生成框架時兼顧幾個維度:押韻、流程性、內容意義、主題抽取等等。神奇功能的背後,隱藏著舉重若輕的AI語義技術能力。
  • AACL2020「中國元素」滿滿 百度王海峰組織發起、吳華任聯合主席
    會議匯集來自學界、業界的百餘位自然語言處理領域的專家大咖,圍繞語義表示與理解、知識圖譜、對話系統、信息抽取與文本挖掘、機器翻譯等前沿技術方向進行了深入交流與探討。(百度CTO王海峰出任AACL創始主席)以語言和知識為研究對象的自然語言處理技術素有人工智慧皇冠上的明珠之稱。
  • 百度翻譯研發500天,曾經困惑一個月
    這款由世界級頂尖機器翻譯研發團隊歷時一年多時間打造的最新翻譯工具,也曾遭遇過瓶頸困惑期。百度翻譯研發負責人日前獨家披露產品背後的故事。   組建頂尖機器翻譯團隊   網際網路的出現,為機器翻譯的研發和應用帶來了空前的機遇和挑戰。
  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    1954年,計算機科學家第一次公開發布了一款可以翻譯人類語言的機器。後來這被稱為喬治城-IBM實驗:一個能將句子從俄語翻譯成英語的「電子大腦」(electronic brain)。 當時,科學家相信,一旦通用翻譯器被開發出來,不僅可以讓美國在國家安全上領先蘇聯,還能消除語言障礙,從而促進世界和平。
  • ACL 2019盛大開幕 百度NLP技術實力亮相引行業熱潮
    由百度CTO王海峰博士領銜的百度NLP團隊「全方位參與」此次學術盛會,展現了百度在國內NLP領域的領軍者地位,也為國際NLP學術交流貢獻了中國力量。王海峰博士曾於2013年出任 ACL主席,是ACL五十多年歷史上首位華人主席,ACL Fellow。本屆大會,王海峰博士和百度高級技術總監趙世奇博士作為執委會成員,參與討論決定ACL整體決策和重要發展方向。ACL於去年宣布成立了ACL亞太分會(AACL),王海峰博士為創始主席。
  • 王海峰:他打造了「百度翻譯」
    記者以「神馬都是浮雲」為例,百度翻譯為「Everything is nothing」,比較接近原意,而谷歌則翻譯成了「Horses are clouds of God」,基本不知所云。與百度翻譯相比,谷歌翻譯明顯體現出本地化不足的特點。而負責組隊實現百度翻譯技術攻關的則是百度基礎技術首席科學家王海峰。