今年是黃學東加入微軟的第25年,但這位微軟老將至今仍活躍在人工智慧領域科學研究的前線。
2018年3月份,他帶領的團隊在機器翻譯領域拿下一項裡程碑式的成就:其研發的機器翻譯系統在通用新聞報導的newstest2017中譯英測試集上,達到了人工翻譯水平。這是首個在新聞報導的翻譯質量和準確率上媲美人工翻譯的翻譯系統。在去年8月,也是在黃學東的帶領下,其團隊在產業標準Switchboard語音識別基準測試中實現了對話語音識別詞錯率(word error rate,簡稱WER),低至5.1%,創造了當時該領域內錯誤率最低紀錄,首次達成與專業速記員持平而優於絕大多數人的表現。
在兩年不到的時間裡,黃學東的團隊接二連三地取得突破。他的成績也獲得了微軟的認可。2017年,他被評選為微軟技術院士(Technical Fellow),這代表著微軟技術人員的最高榮譽,獲得這一榮譽的人還包括圖靈獎得主Butler W Lampson、Charles P. Thacker等。
黃學東
近日,在北京微軟亞洲研究院裡,這位國際電子電氣工程師學會(IEEE)和美國計算機學會(ACM)的雙科院士,微軟認知工具包CNTK的締造者之一,用一口帶著湖南鄉音的普通話接受了澎湃新聞(www.thepaper.cn)的採訪。
從大學時代到加入微軟,踏上25年的技術徵程,再到帶領團隊屢創佳績,黃學東談到了自己為什麼能堅持這麼久的原因:就是想讓語言交流能夠更美好,人與人之間的語言障礙可以消除。目前,黃學東的團隊已經在語音識別的詞錯率上達到了專業速記員的水平,並且在機器翻譯上比肩人類專業譯者。在採訪中,除了談到最新的機器翻譯突破背後的故事外,黃學東還談到了人工智慧技術發展最終是否會取代人的問題,以及中美之間的人工智慧之爭。
以人為師:微軟機器翻譯提前7年超越人類譯者
在2017年,牛津大學曾向機器學習(Machine Learning)的研究人員做過一項調查,調查的內容是對人工智慧未來發展的預測。根據這些研究人員的預測,未來10年的人工智慧會在很多方面超過人類。其中,他們預測機器翻譯想要超過人類業餘譯者需要8年時間。
根據這項預測,微軟今年3月份研發出的機器翻譯系統,實際上將機器翻譯中譯英方面超越人類業餘譯者的時間提前了7年,並達到了比肩人類專業譯者的水平。
「這是一個歷史性的突破,因為語言一直是我們人類交流最重要的東西,尤其中國要走向世界,中翻英現在可以達到專業的水平,這是一個歷史性的突破。這對中國走向世界,對人工智慧的推進都有正面意義,非常鼓舞人心。」黃學東告訴澎湃新聞(www.thepaper.cn)。
據黃學東介紹,這個項目由來自微軟亞洲研究院和微軟雷德蒙研究院的三個研究組,進行了跨越中美時區、跨越研究領域的聯合創新。
自1954年開始,機器翻譯一直是人類想要攻堅的領域。無奈在過去的幾十年中,由於技術方法,計算力和訓練數據等原因,研究人員一直未能找到有效的突破口。直到進入21世紀,研究人員引入深度學習的神經網絡,構建了神經機器翻譯(Neural Machine Translation)才有了突破。
神經機器翻譯,簡要的說,就是對源語言的句子進行編碼,即轉化為計算機可以「理解」的形式,編碼的結果會形成很多隱含變量,每個隱含變量代表從句首到當前詞彙為止的語義信息。然後通過一個解碼的過程,一個詞、一個詞輸出譯文。
這一次微軟的突破可謂是既站在了巨人的肩膀上,又用到了自己的創新:微軟的機器翻譯系統不僅用了最新的神經網絡技術,還用了微軟自己研發的一些獨到的技術,做到了集大成者。
在微軟這次的創新中,微軟的研究團隊借鑑了人類在翻譯時的一些思維方式。第一個是對偶學習(Dual Learning)。這有點像人類在學習英語時,當把中文翻譯成英文後,通常還需要檢查,即將英文再翻譯回中文,看是否正確,做到翻譯的一致性。這樣做的目的是能在中翻英、英翻中的過程中做到聯合優化。微軟就將這一方法「教」給了機器。
第二個是推敲網絡(Deliberation Networks)。在中文詩詞裡「僧敲月下門」中的「敲」就是一個作者在寫詩時反覆推敲,將語言表達到極致的結果。在微軟的機器翻譯系統中,就借鑑了這樣的方式。機器翻譯完成翻譯後,為了讓其做的更好,研究人員使用推敲網絡讓機器不斷推敲,不斷修改,把翻譯完的結果再輸入,再全盤考慮,做到不斷優化。
第三個是一致性規範(Agreement Regularization)。一致性規範讓翻譯可以從左到右進行,也可以從右到左進行,最終讓兩個過程生成一致的翻譯結果。
黃學東解釋說,這一點就像人類在翻譯的過程中,我們通常會左看右看,兩邊都看順眼了,才覺得放心。
除此之外,此次機器翻譯系統還使用了聯合訓練(Joint Training),這個方法可以認為是從源語言到目標語言翻譯(Source to Target)的學習與從目標語言到源語言翻譯(Target to Source)的學習的結合。中英翻譯和英中翻譯都使用初始並行數據來訓練,在每次訓練的迭代過程中,中英翻譯系統將中文句子翻譯成英文句子,從而獲得新的句對,而該句對又可以反過來補充到英中翻譯系統的數據集中。同理,這個過程也可以反向進行。這樣雙向融合不僅使得兩個系統的訓練數據集大大增加,而且準確率也大幅提高。
值得一提的還有,微軟研究團隊這次還為整個翻譯研究找了雙語的語言顧問,對機器翻譯的結果進行評測。就人們像學習英語時,通常需要有專業的老師對我們的學習成果進行評測一樣,對於機器翻譯而言,專業老師給出的結果也非常重要。「機器翻譯其實相當於一題有多個答案,答案好壞跟老師的水準有關係,所以用機器自動評分很難評判,我們現在用專業的人員來評,就是要把好質量關。」黃學東說。
在上述幾個技術的加持下,微軟的研究團隊將原本設定為兩年的研究周期,提前一年完成了機器翻譯達到人類專業水平的研究成果。
三所不同大學的薰陶和近30年的堅持
黃學東加入微軟已經25年了,算上大學時期的研究,他在人工智慧領域裡已經堅持了30多年時間。從最初的默默無聞到最近幾年,自己帶領的團隊接二連三的完成突破,黃學東說這是堅持不懈的成果,也是自己的幸運。
黃學東祖籍湖南,在現場接受澎湃新聞採訪時,仍可以聽出他普通話裡的湘音。15歲時,他便參加了高考,考上了湖南大學計算機專業。回憶起自己的本科時光,黃學東說印象最深的是湖南大學嶽麓書院門前的對聯:「惟楚有才,於斯為盛」 。
「嶽麓書院有一千餘年歷史,同樣在嶽麓書院這個地址,湖南大學一直保持了教育的連續性。我每天從宿舍經過嶽麓書院,都要看嶽麓書院門前的對聯,它為自信心,有情懷的追求打下了基礎。因為很多事情,以及你在追求事業的過程中一定要有耐力,要有內力,這是湖南大學給我最好的訓練。」黃學東說。
湖南大學的本科學習結束後,黃學東北上來到了清華大學念碩士和博士。在清華,黃學東學習了5年時間,完成了碩士學業,但博士沒有讀完就「跑」了。原因是,當時在自己導師的鼓勵下,黃學東提前到了英國的愛丁堡大學學習。
但正是學習環境的改變,讓黃學東找到了自己想要研究的方向。
「30年前,我在清華學的都是美式英語,留學去了英國,而且去的是蘇格蘭的愛丁堡,儘管學校非常漂亮,也是出大牛的地方。可是上課,我聽不懂,因為我的英文不好,再加上蘇格蘭口音。所以我當時就想要是一邊講一邊有字幕多好。」黃學東笑著說,「當時英國還是很厲害的,1987年,BBC的所有電視節目都有字幕,我當時就調到蘇格蘭的當地頻道看字幕學蘇格蘭式英語,講的我現在英文都帶蘇格蘭口音。」
深切體會到自己學習過程中的痛點後,黃學東希望能幫助其他人也解決這個問題。他在微軟後來所做的許多工作和研究也跟這些經歷相關。例如,微軟的語音翻譯,它們擁有Skype translator、Microsoft translator兩個落地產品。目前,Microsoft translator不管是iPhone還是Android設備都可以使用,還和微軟Office整合起來了。這款應用可以在有語言障礙的面對面溝通時,同時支持100個人用60多種不同語言自由的交流。
堅持了30年後,黃學東說他的最終夢想是能讓機器理解人類的語言,並讓機器能夠像人一樣說話、交流。目前,他的團隊在語音識別、機器翻譯上已經取得成功,下一個目標是能在語音合成上取得突破。
中美人工智慧競爭格局
從中國的大學出發,黃學東在英國、美國都有過學習、工作的經歷。微軟作為全球科技巨頭,在人工智慧領域已經有了深入的布局。設在北京的微軟亞洲研究院,更是被外界稱為是人工智慧人才培養的「黃埔軍校」。
對於中美兩國之間,在人工智慧領域裡,越來越明顯的競爭火藥味,黃學東有自己的看法。
在他看來,人工智慧想要獲得成功,離不開三個要素:計算力、數據和算法。 從這三個維度出發,中國用戶量大、數據豐富,在數據上有優勢,這是中國一大亮點。但是僅有數據,沒有計算力和算法還遠遠不夠。
「目前,大的格局是這樣,從計算力來講,美國公司還是佔優勢,像英偉達的GPU,他們剛出的晶片很厲害,但中國目前還沒有。從算法來看,比如深度學習也是谷歌的TensorFlow、微軟的CNTK,這也是西方的工具。所以從計算力和算法來看,西方現在還是絕對佔優勢。中國的優勢是數據豐富,這三個裡面至少中國有一個優勢。」黃學東說。
在採訪最後,回顧自己25年的職業生涯,看到目前中國掀起的人工智慧浪潮,黃學東感慨頗多。對於當下想投身於人工智慧的青年研究人員,黃學東說最好的建議是堅韌不拔。
「不要動不動就想著一炮打紅,一夜成名,哪有那麼好的事。任何成績的獲得,不僅僅是個人的成果,是從好幾代人的研發基礎上一步步往前走的。這是事實,整個社區不是微軟一個公司,是大學研究機構和各個公司一起的努力才做到今天這個結果的。」黃學東說。