自然語言處理頂會 ACL 2020 下個月就要召開了。本次大會共收到有效論文 3429 篇。中國大陸提交數量最多,達 1084 篇,其中 185 篇被接收,僅次於美國。
在中國 AI 實力躋身世界前列的今天,我們或許已經習慣了這樣的數字。
但大多數人不知道的是:2000 年 ACL 在中國香港舉辦時,只有微軟中國研究院的論文來自內地;到了 2005 年,來自內地的論文也只有三篇。
這十幾年的時間究竟發生了什麼?我們或許可以從 ACL 首位華人主席王海峰身上找到答案。
王海峰如今在百度擔任 CTO。從 2004 年在 ACL 上發表論文並參會後,他就再也沒缺席過這一會議。2010 年,他被選為 ACL 主席,這也是 ACL 創辦 50 多年來首次有華人當選。2016 年,王海峰又當選了 ACL 會士,成為首位獲此榮譽的中國大陸科學家,也是 ACL 目前最年輕的會士。而王海峰從未缺席的,還有中國 AI 近三十年來的高速發展。王海峰本、碩、博都畢業於哈爾濱工業大學。在百年校慶之際,哈工大以成書的形式記錄了優秀學子們在哈工大求學以及闊別母校之後的人生旅程,王海峰便是其中一位。這本書最大的價值在於,它不僅僅是一部王海峰的個人成長史,還記錄了一段中國人工智慧的學術史、教育史與應用史,而王海峰既是其中的親歷者,也是推動者。AI 是一場殘酷的戰爭,當很多人尚未意識到起跑線的存在時,比賽就已經開始了。幸運的是,以王海峰為代表的中國研究者很早就看到了這條起跑線。王海峰對 AI 的洞察體現在他學術、產業生涯的各個階段,先是將神經網絡引入機器翻譯,讓中國機器翻譯從規則、統計方法時期的一路跟隨,發展到在神經網絡時期向無人之地邁出了第一步。之後,他又預見到了中國網際網路產業的無限機遇,在百度建立起完整的 AI 落地應用體系。之所以能做到這些,離不開王海峰對整個 AI 技術領域的長期觀察。在產業智能革命席捲而來的今天,我們不僅能從王海峰身上看到中國和 AI 歷史握手的關鍵節點,還能看到王海峰對於智能產業革命發展的思考。著名科幻作家劉慈欣在推薦語中寫道,「科學是科幻小說的源泉,在我心中,科學前沿和科幻前沿的關係,科幻肯定是跟在科學後面。這本書中介紹的王海峰博士,是中國人工智慧科學家成長的一個縮影。我推薦熱愛科幻的讀者們看看這本書,看看建築著未來想像力的發端之處。」1989 年,王海峰進入哈工大。在大四做畢業設計時,他來到了李生教授的實驗室。在那裡,王海峰以機器翻譯為媒介,真正與 NLP 相遇了。李生教授從 1985 年就開始研究機器翻譯,彼時,中國的 AI 研究還是一個獨立而貧瘠的孤島。在王海峰剛剛入學時,李生教授帶頭研製的漢英機器翻譯系統 CEMT-Ⅰ 就已經成為我國第一個通過技術鑑定的漢英機器翻譯系統。1993 年,在王海峰進入李生教授的實驗室時,CEMT 系統已經進化到第三代,也早已投入實際應用並獲得了不少好評。李生教授交給王海峰的任務是對 CEMT-Ⅲ 進行優化,並定下了三個目標:提升效率、整合原始碼、降低系統維護難度。王海峰善於化繁為簡,將 CEMT-Ⅲ 的原始碼進行了模塊化處理,又在模塊之間彼此建立關聯,方便在修改代碼和系統維護時縮小範圍,進而提升效率。回憶起王海峰當時對 CEMT-Ⅲ 的優化,李生教授至今仍然感慨於他在這項看似發揮空間不大的工作中展露出的能力與天分。繼 CEMT-Ⅲ 之後,王海峰又參與了 「863 計劃」 的一個重要項目——漢英雙向機器翻譯系統 BT863。當時王海峰在讀研究生,他在 BT863 的漢譯英方向做規則知識庫的建構,以及計算機軟體等方面的準備。 據當時在哈工大實驗室工作的學生回憶,那時實驗室經費很緊張,即使是 BT863 這樣的重點項目,一年也只有十幾萬元。此外,資料的獲取也非常困難。王海峰需要奔波於北京與哈爾濱之間,從國家圖書館複印幾千頁的資料後再用旅行袋背回。在這樣的條件下,王海峰等人完成了 BT863 的設計。在測試過程中,他們的系統在漢譯英部分獲得了全國第一,用一分鐘左右完成了對 200 句話的翻譯。在今天來看,這種速度幾乎不值一提,而且整個程序還要裝在一塊沉甸甸的硬碟裡。但當時,這一成績給了王海峰和其他哈工大人很大的鼓舞。在參與這兩個項目的過程中,王海峰對基於規則和統計的機器翻譯技術都有所涉獵。當時,這兩個方向的機器翻譯系統已經開始投入商業化應用,很多人都在努力擴大詞典庫、積累句法規則數據,在既有方向繼續深挖下去。但是,王海峰的視野沒有局限於此。在本科和碩士期間,他就已經開始認識到神經網絡這種參照人腦認知模式的計算方法。在博士期間,他開始思考,自己能否去嘗試一些更新的東西。在這個重要的節點上,王海峰的博士生導師高文院士帶他進入了更大的世界。高文曾經在美國卡內基梅隆大學機器人研究所和美國麻省理工學院人工智慧實驗室訪學,1996 年,他就任於國家智能計算機研究中心與摩託羅拉共同設立的先進人機通信技術聯合實驗室(JDL),王海峰作為博士生也一起來到了北京。這段時間,王海峰發現,在海外(例如卡內基梅隆大學),已經開始有人將神經網絡應用到語音處理之中。但是,當時應用更廣的是多層前饋神經網絡(BP 神經網絡),不能對上下文進行有效建模。針對這個問題,王海峰開始尋求突破。他將循環神經網絡的方法引入了機器翻譯領域來反映上下文關係,而且取得了很好的效果。即使在世界範圍內,將循環神經網絡引入機器翻譯領域也不算常見,在國內更是首創。在王海峰等人的努力下,中國機器翻譯從規則、統計方法時期的一路跟隨,發展到在神經網絡時期向無人之地邁出了第一步。1999 年,王海峰博士畢業,結束了在哈工大的十年求學生涯。此時,王海峰面臨著一個很多人都會面臨的選擇:留在學校任教還是去業界闖蕩一番?在王海峰博士畢業之前,李開復曾經到哈工大演講,跟王海峰進行了一場對話。被李開復問及畢業後的打算,王海峰迴答說:「我搞了這麼多年研究,我希望研究的東西有用。」抱著這種信念,王海峰走進了業界,而且第一站就是李開復一手創建、有著人工智慧 「黃埔軍校」 之稱的微軟中國研究院。當年與王海峰一起報考的有兩千多位博士,最終僅有 27 位被錄取。在剛剛加入微軟的時候,李開復教王海峰如何做語言模型,手把手教他推公式,幫他改論文。這段時間,王海峰與同事合力完成了微軟中國研究院第一篇從零開始的論文。半年之後,王海峰就轉組開始從事搜索的研究。又過了半年,由於微軟總部叫停了搜索項目,王海峰也就萌生了離開微軟的想法。雖然在微軟只待了短短的 15 個月,但王海峰通過這扇窗口見識到了產業界如何思考問題、解決問題。這對於此後他始終堅持走在產業一線、投身人工智慧的產業化進程至關重要。離開微軟之後,王海峰在香港的一家網際網路初創公司工作過一段時間,但在網際網路降溫之後又很快回到內地,加盟了當時剛剛成立的東芝中國研究開發中心。在東芝的這段時間,王海峰不僅成長為一位出色的領導者,也是一位高產的學者。據不完全統計,這一階段他發表的學術論文就有 43 篇,涉及自然語言處理、語音基礎理論研究以及機器翻譯系統的研發等領域。這段時間,他發表了自己的第一篇 ACL 論文,2006 年更是一人中了 5 篇。此外,他的研究成果被應用於東芝的眾多產品中,比如車載晶片。但隨著王海峰在業界探索的不斷深入,他發現東芝的平臺能夠提供的應用場景漸有不足。他意識到,想要擁抱更廣泛的應用場景,必須具備更多的數據,更大的實驗平臺、應用平臺。而這些條件,蘊藏在冉冉興起的國內網際網路行業。為什麼是百度?相信大家都會有這個疑問。其實,當時就連王海峰的朋友、同事也對這個選擇頗感困惑。因為在他們看來,當時王海峰的去處應該是微軟、谷歌這樣的國際大企業,或者是頂級科研院所。據王海峰自己回憶,2007 年的時候,他就感覺到未來是屬於中國本土企業的。而從他依然希望投身產業界的角度來看,高速發展的網際網路產業是最佳選擇。在網際網路公司中,百度顯然又是最擅長技術、最尊重技術人才的。從研究方向來看。機器翻譯的進一步研究和探索,離不開網際網路的興起帶來的語料爆炸。而百度的搜索業務,又是網際網路世界中最好的語料留存中心。很多科學家都表示,想要進一步探索語言秘境,百度是天然的「礦藏」。同時,百度還是一個連接千萬用戶的技術出口,可以幫王海峰的技術找到更多的應用場景。2009 年 8 月,李彥宏在第四屆 「百度世界大會」 上推出了全新計算平臺 「框計算」。當時,王海峰敏銳地判斷出,如果百度想要朝「框計算」 方向進一步發展,就需要更強大的自然語言處理技術的支撐。尤其是語言分析、語義理解、知識獲取等方向,百度將面臨非常多前所未有的工作,需要在技術深度上尋求突破。而這些領域,恰好是王海峰所擅長、所追求的。 初入百度時,王海峰做的第一件事就是成立了「自然語言處理部」,以服務搜尋引擎中產生的相關需求。此外,百度 NLP 研究的範圍逐漸包括了一些當下應用性沒那麼強、 卻更具前瞻性的技術方向,如語義搜索、語義理解、智能交互、深度問答、 篇章理解等。這些技術為之後百度在 AI 技術領域的領先打下了堅實的基礎,當然,如果只是在 NLP 方向布局,我們之後看到的百度 AI 不會像今天這樣遍地開花。幾乎在成立 NLP 部門的同一時期,王海峰就已開始著手布局語音技術和視覺技術,牽頭組建了當時的 「多媒體部」。在王海峰的推動下,「多媒體部」 很快就取得了大量的研發成果:在語音方面, 有圍繞語音識別的複雜聲學建模、海量語言模型和高速解碼等關鍵技術;在圖像方面,他進一步推進了圖像識別、圖像分類、圖像搜索以及 OCR 等技術的完善。2012 年年中,百度多媒體部門開始推動這些技術的產品化,使其進入了用戶的視野。在基礎研究方面,2013 年,王海峰作為執行負責人協助李彥宏創建了世界上第一家企業深度學習研究院(IDL),這個時間早於普通人對於深度學習的第一印象——李世石大戰 AlphaGo。而在 2011 年,王海峰等人就已經預判出深度學習在產業界將大有可為。 籌備過程中,王海峰完成了兩項至關重要的奠基工作。第一是為百度深度學習研究院明確自身定位,讓百度深度學習研究院專注於基礎研究。第二是招攬研究人才,為百度深度學習研究院奠定了人才基礎。在此之後,王海峰開始對百度的技術平臺化進行了初步推動,成果就是我們今天看到的飛槳等 AI 開源開放平臺。2020 年 5 月,王海峰發布飛槳平臺最新全景圖。2017 年,經過數年的技術積累,百度已經為迎接 AI 的全面到來做足了準備。而王海峰接到的任務。就是將百度多年積累、分別發展的各條 AI 戰線整合起來。也是在這一年,王海峰被任命為百度新組建的 AI 技術平臺體系 (AIG)總負責人。AIG 基本整合了當時百度體系下的所有 AI 相關技術研發部門,包括自然語言處理、知識圖譜、語音、視覺、大數據、AI 平臺與生態,還有百度深度學習實驗室、大數據實驗室、矽谷人工智慧實驗室等在內的百度研究院。對於王海峰來說,他不僅僅是要將原有的一個個獨立的技術部門在物理上組合進 AIG,更要讓它們在技術上和管理上都發生化學反應,實現真正的融會貫通。為了讓整個 AIG 在戰略層達成一致,王海峰設定了 AIG 的三項基本任務:鞏固核心技術,把每項 AI 技術做紮實,並且保持敏銳的前瞻技術布局;用 AI 技術,全面支撐和優化百度業務;面向外部需求,進行 AI 的生態賦能、人才培養以及商業化探索。AIG 整合後表現出了強大的技術優勢,催生了百度大腦等綜合性很強的產品和平臺。2019 年 7 月,王海峰宣布百度大腦升級到 5.0。到 2018 年底,AIG 迎來了另一次重要的架構調整,其中最吸引外界關注的是,王海峰同時擔任百度人工智慧技術平臺(AIG)和基礎技術平臺(TG)的負責人。這意味著百度在基礎技術領域的布局,比如系統、基礎架構、安全、工程效率等技術部門,與 AIG 完成了完整會師。至此,AIG 作為面向人工智慧時代的技術基礎設施,為百度和全產業提供人工智慧底層支撐的定位更加明晰。王海峰團隊在百度整體布局中的作戰範圍再次升級。2019 年 5 月,李彥宏通過內部信,宣布王海峰擔任百度首席技術官(CTO),同時繼續擔任 AIG 和 TG 總負責人。外界認為,這一方面反映出百度整體對 AI 技術的堅定信任,以及對王海峰及其團隊的深刻認同,另一方面也反映出王海峰將擔負起更重要的戰略任務,在百度發展產業智能化的新路線擔負更多責任。2020 年 1 月,王海峰發布內部架構升級郵件,宣布原 AIG(AI 技術平臺體系)、TG(基礎技術體系)、ACG(百度智能雲事業群組)整體整合為「百度人工智慧體系」(AI Group,新 AIG)。新 AIG 包含技術中臺群組(TPG)和智能雲事業群組(ACG),繼續由百度 CTO 王海峰整體負責。同時智慧政務、智慧醫療、智慧金融、智能客服與營銷四大業務板塊升級為四大事業部,並在工業網際網路、視頻、物聯網、工業質檢、物流地圖等領域加大投入。相關負責人繼續向王海峰匯報。從 2010 年到 2020 年,王海峰不僅幫百度早早地站在了 AI 產業化的起跑線上,還促成了一系列技術和產品的落地。開源方面的持續發力使得百度擁有了中國第一個也是唯一一個功能完備的開源深度學習平臺飛槳;「多媒體部」和深度學習研究院的成立為之後 Apollo 自動駕駛等技術的落地早早埋下了伏筆;AIG 等部門、群組的整合更是催生了全方位輸出各種 AI 能力的百度大腦。業內有評價,王海峰擅長讓項目落地——從 1989 年今天,我們從王海峰身上看到了一段中國人工智慧的學術史、教育史與應用史。但除此之外,我們還能從他身上看到中國 AI 的一段「出海史」。前面已經提到,在李生教授剛開始 NLP 研究的時代,中國的 AI 研究還是一個獨立而貧瘠的孤島。中國的研究者很難獲取國際 AI 研究的一手資料,國外的研究者也對中國的 AI 研究知之甚少。到了王海峰的時代,情況有所好轉,中國的研究者逐漸走向世界舞臺,在世界頂級期刊上發表論文,但學術影響力還稍遜一籌。ACL 是自然語言處理領域影響力最大、最具活力的國際學術組織。NLP 領域最有影響力的幾個國際學術會議,包括 ACL 年會、EMNLP、NAACL 等,都是 ACL 旗下會議。王海峰在競選時向 ACL 做出了幾項保證:1)推動 ACL 在中國的發展;2)提升亞洲 NLP 社群對 ACL 的貢獻率;3)加強 ACL 同產業界的聯繫。從王海峰自身的學術成就、影響力以及他 「中國科技企業代表」 這一獨特身份來看,這些承諾都是很有說服力的。最終,王海峰在全球會員投票中成功當選。在 ACL 任職期間,王海峰提名了眾多優秀的中國學者進入 ACL 承擔職務,包括周明、趙世奇、吳華、劉洋等一大批中國 NLP 人才。2015 年,隨著中國 NLP 方面的學術成果越來越引人矚目,當年的 ACL 年會在北京舉辦。這也是國際 NLP 領域的學術盛會第一次來到中國大陸。在提名終身成就獎這一獎項時,王海峰提議評選一位亞洲人,而且最好是中國人,以提升 ACL 在中國的號召力。最終,李生教授通過重重票選,成為 ACL 成立 53 年以來第一位獲得終身成就獎的華人。2015 年,前 ACL 主席、史丹福大學教授克里斯多福 D. 曼寧為李生教授頒發 ACL 終身成就獎。