ICLR 2020丨微軟亞洲研究院精選論文解讀

2020-12-14 AI 科技評論

本文為大家介紹的是微軟亞洲研究院入選 ICLR 2020的 4 篇精選論文,研究主題分別為BERT 在機器翻譯中的應用,有理論保障的對抗樣本防禦模型 MACER,一種新的基於自我博弈的文本生成對抗網絡(GAN)訓練算法,以及可廣泛應用於視覺-語言任務的預訓練通用特徵表示 VL-BERT。

作者 | 微軟亞院

編輯 | 叢 末

1、BERT 在神經機器翻譯中的應用

論文連結:https://arxiv.org/pdf/2002.06823.pdf

BERT 在自然語言理解任務如文本分類、閱讀理解上取得了巨大的成功,然而在機器翻譯等文本生成任務上的應用仍缺乏足夠的探索。本篇論文研究了如何有效地將 BERT 應用到神經機器翻譯(NMT)中。

在文本分類任務中, 通常有兩種方法利用預訓練模型;一種是利用 BERT 初始化下遊任務的模型權重;另一種是讓預訓練模型給下遊任務模型提供 contextual embedding。在初步嘗試中,我們發現:(1)用 BERT 初始化 NMT 模型不能給機器翻譯帶來顯著提升;(2)利用 BERT 提供 contextual embedding,在機器翻譯上這個任務上更加有效。結果見表1。因此,本文將探索重點放在第二類方法上。

表1:利用預訓練的不同方式在 IWSTL14 英德翻譯的結果

我們提出的模型如下:

先將源語言句子輸入 BERT 模型進行編碼,得到輸入序列的 BERT 模型特徵。Transformer 的編碼器和解碼器的每一層都引入一個額外的注意力機制,讓編碼器和解碼器去主動地去選取 BERT 模型特徵中有用的信息。這種處理方式有效地解決了BERT 模型和機器翻譯模型的分詞方式不同產生的矛盾,也讓 BERT 提取的特徵更加有效、完全地融合到機器翻譯這個任務中去。另外,我們還提出了 drop-net 的 trick,隨機丟棄 Transformer 中原有的注意力分支或引入的額外注意力分支,能夠有效地提高模型的泛化能力,提升機器翻譯的效果。模型框架如圖1所示。

圖1:模型框架

我們將該方法作用到有監督翻譯(句子級別翻譯和文檔翻譯)、半監督機器翻譯、無監督機器翻譯中,都得到了顯著的結果提升,在多個任務上都取得了 SOTA 的結果,說明了該方法的有效性。我們的算法在 WMT14 英德翻譯和英法翻譯的結果見表2。

表2:我們的算法在 WMT14 英德和英法翻譯任務的結果。

2、有理論保障的對抗樣本防禦模型

論文連結:https://openreview.net/pdf?id=rJx1Na4Fwr

深度神經網絡在很多領域都取得了成功,但它有一個致命的弱點:無法承受對抗樣本的攻擊。例如給定一張狗的圖片,一個神經網絡可以準確地將其分類為狗。但攻擊者可以給這張圖片加一個人類難以察覺的特殊噪音,使得神經網絡把它分類成貓、樹、車及任何其它物體。這樣加過噪音的圖片被稱為對抗樣本。這個弱點使得神經網絡難以被應用到注重安全的領域,例如自動駕駛中。

如何防禦對抗樣本一直是研究人員關心的話題。目前最主流的防禦方法是對抗訓練,即在訓練的每一次迭代中,先在線地生成對抗樣本,再在這些對抗樣本上訓練神經網絡。這樣訓練出來的網絡可以一定程度地防禦對抗樣本的攻擊。然而,對抗訓練有兩個缺點:一,這種防禦是沒有理論保證的,即我們不知道攻擊者能否設計更聰明的攻擊方法繞開這種防禦;二,因為生成對抗樣本很慢,所以對抗訓練非常慢。

本文設計了一種算法去訓練有理論保證的防禦模型,能保證任何攻擊都無法繞開這種防禦。我們首先引入防禦半徑的概念。一個圖片的可防禦半徑指的是半徑內任何一個圖片的預測都不發生變化。對於光滑模型,我們可以用高效的計算方法得到該半徑的一個下界。而我們提出的算法 MACER(MAximize the Certified Radius)正是通過最大化該半徑來學習有理論保證的防禦模型。

圖2:樣本的可防禦半徑

MACER 算法的思路非常簡單,設計卻相當具有挑戰性。第一個挑戰是設計優化目標函數。我們通過數學推導將目標函數定為模型準確度和模型防禦成功率的結合,並證明它是防禦效果的上界;第二,我們提出了梯度軟隨機光滑化,這個變體可以提供可導的損失函數;第三,我們通過巧妙地設計損失函數,避免梯度爆炸問題。實驗表明 MACER 可以取得比目前主流可驗證防禦算法更大的平均驗證半徑,且訓練速度有數倍的提升。

表3:實驗結果對比

MACER 算法主要帶給我們兩個啟發:一是 MACER 完全與攻擊無關,這不僅使得 MACER 運行相當快,而且可以讓模型有效地防禦任何攻擊;二是 MACER 是一個有理論保證的防禦算法,能夠讓實際應用有可靠的保障。

3、基於 Self-Play 的文本生成對抗網絡(GAN)模型

論文連結:https://openreview.net/pdf?id=B1l8L6EtDS

本文介紹了一種新的基於自我博弈的文本生成對抗網絡(GAN)訓練算法。目前大多數文本生成任務,如機器翻譯、文本摘要、對話系統等,都採用序列到序列模型(seq2seq),並通過最大似然估計(MLE)進行模型訓練。這種訓練方式存在 exposure bias 的問題,使得模型在訓練和推斷時單詞的分布不一致,因此會影響生成質量。此前的工作如 SeqGAN 等,嘗試通過 GAN 來訓練文本生成模型。

GAN 在文本生成中的應用主要受限於兩個問題,一是獎勵稀疏(reward sparsity),即訓練中判別器往往遠強於生成器,因此生成器在訓練過程中得到的獎勵信號通常很低;二是模式崩潰(mode collapse),即生成的文本通常較為單一。本文中我們借鑑深度強化學習中常用的自我博弈(self-play)機制,提出了自對抗學習(SAL)範式來改進文本 GAN 的訓練。

圖3:自對抗學習中基於比較的判別器訓練示意圖

與傳統的 GAN 中判別器對於給定樣本輸出其真/假標籤不同,自對抗學習中採用一種新的基於比較的判別器,其輸入是兩個樣本 A 和 B,輸出標籤包含三類,分別對應樣本 A 的質量比 B 優(>),差(<),和無法區分(~=)。基於比較的判別器的訓練過程如圖3所示。

和 SeqGAN、LeakGAN 等文本 GAN 模型一樣,SAL 通過 REINFORCE 算法對生成器進行訓練。在訓練期間,SAL 通過比較判別器,將生成器當前生成的樣本與其自身先前生成的樣本進行比較。當發現其當前生成的樣本比其先前的樣本質量更高時,賦予生成器正獎勵,反之則獎勵為負,兩者質量無法區分時獎勵為0。獎勵的具體計算公式如圖4公式所示。

圖4:自對抗學習獎勵計算公式

在文本生成 GAN 的早期訓練階段,當生成的樣本質量遠遠低於真實樣本的質量時,SAL 的自我對抗機制使得生成器不需要成功欺騙判別器、使其誤將生成樣本判斷為真實樣本才能獲得獎勵。相反的,SAL 會在生成器成功生成比之前更好的樣本時就賦予其獎勵信號,這種自我對抗的獎勵機制使生成器更易於接收非稀疏獎勵,從而有效緩解了獎勵稀疏性問題。而在訓練後期,SAL 可以防止開始高頻出現的模式繼續獲得較高的獎勵,因為包含這些經常出現的模式的句子經常會和相似的句子進行比較,因此在自我對抗中取勝也將變得越來越困難,從而防止生成器塌縮到有限的模式中。自對抗學習的示意和算法流程分別如圖5和表4所示:

圖5 : 自對抗學習(SAL)與傳統 GAN 的對比

表4:自對抗學習(SAL)算法流程

本文在模擬數據集(Synthetic Dataset)和真實數據集(COCO & EMNLP WMT17)上進行了文本生成的實驗,並與之前的文本生成 GAN 模型的效果進行比較,結果如表5、6所示。可以看到,本文提出的 SAL 算法在反應生成文本的質量和多樣性的眾多指標上比此前的文本 GAN 模型都有顯著的提升。在未來,我們希望探索 SAL 訓練機制在圖像生成 GAN 領域的應用。

表5:不同文本 GAN 模型在模擬數據集上的表現比較

表6:不同文本 GAN 模型在真實數據集上的表現比較

4、VL-BERT:通用的視覺-語言預訓練模型

論文地址:https://openreview.net/forum?id=SygXPaEYvH

適用於下遊任務的通用特徵表示預訓練是深度網絡成功的標誌之一。在計算機視覺領域,深度網絡在 ImageNet 數據集進行圖像分類的預訓練過程,被發現可廣泛提高多種圖像識別任務的效果。在自然語言處理領域中,Transformer 模型在大規模語料庫中使用語言模型進行預訓練的過程,也被證明可廣泛提高多種自然語言處理任務的效果。

但對於計算機視覺和自然語言處理領域交叉的任務,例如圖像標題生成、視覺問答、視覺常識推理等,缺少這種預訓練的通用多模態特徵表示。一般來說,此前的視覺-語言模型分別使用計算機視覺或自然語言處理領域中的預訓練模型進行初始化,但如果目標任務數據量不足,模型容易過擬合從而損失性能。並且對於不同的視覺-語言任務,其網絡架構一般是經過特殊設計的,因此很難通過視覺-語言聯合預訓練的過程幫助下遊任務。

本文提出了一種可廣泛應用於視覺-語言任務的預訓練通用特徵表示,稱為 Visual-Linguistic BERT,簡稱 VL-BERT,其架構如下圖所示:

圖6:VL-BERT 模型架構

VL-BERT 的主幹網絡使用 Transformer Attention 模塊,並將視覺與語言嵌入特徵作為輸入,其中輸入的每個元素是來自句中單詞或圖像中的感興趣區域(Region of Interests,簡稱 RoIs)。在模型訓練的過程中,每個元素均可以根據其內容、位置、類別等信息自適應地聚合來自所有其他元素的信息。在堆疊多層 Transformer Attention 模塊後,其特徵表示即具有更為豐富的聚合、對齊視覺和語言線索的能力。

為了更好地建模通用的視覺-語言表示,本文在大規模視覺-語言語料庫中對 VL-BERT進行了預訓練。採用的預訓練數據集為圖像標題生成數據集 Conceptual Captions,其中包含了大約330萬個圖像-標題對。在預訓練結束後,使用微調來進行下遊任務的訓練。實驗證明此預訓練過程可以顯著提高下遊的視覺-語言任務的效果,包括視覺常識推理(Visual Commonsense Reasoning)、視覺問答(Visual Question Answering)與引用表達式理解(Referring Expression Comprehension)。

ICLR 2020 系列論文解讀

0、ICLR 2020 會議動態報導

疫情嚴重,ICLR2020 將舉辦虛擬會議,非洲首次 AI 國際頂會就此泡湯

疫情影響,ICLR 突然改為線上模式,2020年將成為頂會變革之年嗎?

火爆的圖機器學習,ICLR 2020上有哪些研究趨勢?

1、直播

回放 | 華為諾亞方舟ICLR滿分論文:基於強化學習的因果發現

2、論文解讀

01. 一種鏡像生成式機器翻譯模型:MGNMT

02. 額外高斯先驗目標,緩解負多樣性無知

03. 引入額外門控運算,LSTM稍做修改,性能便堪比Transformer-XL

04. 並行蒙卡樹搜索,性能無損,線性加速,勇闖「消消樂」1000關!

05. 元強化學習迎來一盆冷水:不比元Q學習好多少

06. 用群卷積建立深度、等變的膠囊網絡

07. | 谷歌推出分布式強化學習框架SEED,性能「完爆」IMPALA,可擴展數千臺機器,還很便宜

08. Reformer ,一種高效的Transformer

09. 基於值函數的規劃和強化學習的控制架構(視頻直播)

10. 北大圖靈班滿分論文:基於計算約束下有用信息的資訊理論

11. 使用GAN進行高保真語音合成

12. 模型參數這麼多,泛化能力為什麼還能這麼強?

13. 公平與精確同樣重要!CMU提出學習公平表徵方法,實現算法公平

14. 組合泛化能力太差?用深度學習融合組合求解器試試

15. 加速NAS,僅用0.1秒完成搜索

16. 華盛頓大學:圖像分類中對可實現攻擊的防禦(視頻解讀)

17. 超越傳統,基於圖神經網絡的歸納矩陣補全

18. 受啟諾獎研究,利用格網細胞學習多尺度表達(視頻解讀)

19. 神經正切,5行代碼打造無限寬的神經網絡模型

20. 華為諾亞:巧妙思想,NAS與「對抗」結合,速率提高11倍

21. 拋開卷積,多頭自注意力能夠表達任何卷積操作

22. NAS 太難了,搜索結果堪比隨機採樣!華為給出 6 條建議

23. 清華提 NExT 框架,用「神經元執行樹」學習可解釋性

24. 谷歌最新研究:用「複合散度」量化模型合成泛化能力

25. 完勝 BERT,谷歌最佳 NLP 預訓練模型開源,單卡訓練僅需 4 天

26. FSNet:利用卷積核概要進行深度卷積神經網絡的壓縮

27. "同步平均教學"框架為無監督學習提供更魯棒的偽標籤

28. 快速神經網絡自適應技術

28. 引入隨機擾動,提高智能體泛化能力

30. Deformable Kernels,創意滿滿的可變形卷積核

AI 科技評論系列直播

1、ACL 2020 - 復旦大學系列解讀

直播主題:不同粒度的抽取式文本摘要系統

主講人:王丹青、鐘鳴

直播時間:4月 25 日,(周一晚) 20:00整。

直播主題:結合詞典的中文命名實體識別【ACL 2020 - 復旦大學系列解讀之(二)】

主講人:馬若恬, 李孝男

直播時間:4月 26 日,(周一晚) 20:00整。

直播主題:ACL 2020 | 基於對抗樣本的依存句法模型魯棒性分析

【ACL 2020 - 復旦大學系列解讀之(三)】

主講人:曾捷航

直播時間:4月 27 日,(周一晚) 20:00整。

2、ICLR 2020 系列直播

直播主題:ICLR 2020丨Action Semantics Network: Considering the Effects of Actions in Multiagent Systems

主講人:王維壎

回放連結:http://mooc.yanxishe.com/open/course/793

直播主題:ICLR 2020丨通過負採樣從專家數據中學習自我糾正的策略和價值函數

主講人:羅雨屏

回放連結:http://mooc.yanxishe.com/open/course/802(回放時間:4月25日上午10點)

直播主題:ICLR 2020丨分段線性激活函數塑造了神經網絡損失曲面

主講人:何鳳翔

直播時間:4月24日 (周五晚) 20:00整

如何加入?

相關焦點

  • 微軟亞洲研究院:20年20人-虎嗅網
    1999年1月,張亞勤毅然回國加盟剛剛組建的微軟中國研究院,出任該院首席科學家。2000年,接替李開復成為微軟研究院院長。2001年11月,微軟中國研究院升級為微軟亞洲研究院,張亞勤出任首任院長。2004年,微軟亞洲研究院被MIT科技評論評為全球最頂級的計算機科學研究院。
  • 江山代有才人出 | 微軟亞洲研究院建院二十周年
    更有超過115位院友在創業大潮中開拓創新,其中至少有5位是獨角獸公司的創始人。微軟亞洲研究院作為一家企業研究院,卻獲得了與世界各大頂尖學府相比也並不遜色的稱號。不過,學校的任務是培養人才,而企業則更希望人才為之所用。「黃埔軍校」這一稱號也被解讀為培養了人才但是卻留不住人才。
  • 他12歲考入大學,博士論文滿分引轟動,畢業後創立微軟亞洲研究院
    說起今天中國的計算機、雲計算,乃至人工智慧領域,有一個人的成績絕對不能忽視,他就是歷任微軟亞洲研究院院長、百度總裁,目前正在籌建「清華大學智能產業研究院」的張亞勤。就是在這裡,他一路領跑,博士論文竟然獲得滿分的佳績,在喬治華盛頓大學的歷史上是前所未有的。畢業之後,張亞勤被授予IEEE(美國電氣和電子工程師協會)院士,成為獲此榮譽的最年輕科學家,後來受到比爾·蓋茨委派,到中國創立微軟中國研究院(也就是後來的微軟亞洲研究院),後來歷任百度公司總裁和微軟全球副總裁。
  • 十九年來,從微軟亞洲研究院走出了他們-虎嗅網
    後面發生事情讓人欣喜,研究院陸續在全球頂級學術會議與期刊嶄露頭角,關鍵的2002年,研究院首次在計算機科研領域最富盛名的國際圖形學年會SIGGRAPH上發表了4篇論文。隨後的三年內,MSRA迎來了他最為輝煌的歲月。2005年SIGGRAPH收錄的9篇論文都來自於微軟中國研究院,這相當於當年論文收錄量的十分之一。
  • ICLR 2020 全析解讀:華人作者貢獻60%,谷歌、卡內基梅隆和清華大學...
    從每篇論文的作者個數來看,ICLR 2020 接收的論文大多都有 3-4 個作者,其中有 4 個作者的最多,共有 163 篇,3 個作者的共有 159 篇;擁有 10 個及以上作者的論文共有 15 篇,最多的 1 篇文章擁有 15 個作者。
  • 微軟亞洲研究院/工程院 交大訪問日程
    出訪人員: 沈向洋 博士 微軟亞洲研究院院長 首席科學家 張益肇 博士 微軟亞洲工程院 副院長 李航   博士 微軟亞洲研究院自然語言組 研究員 校友 鄭海濤 博士 微軟亞洲研究院無線網絡組 研究員 校友 黨映農 博士 微軟亞洲研究院多通道用戶界面組 副研究員 校友 鄒靜   碩士 微軟亞洲研究院高校關係部 高校合作專員
  • 微軟亞洲研究院在西安交大設立「微軟小學者」獎學金
    日前,微軟亞洲研究院與西安交大籤署合作協議,面向學校基礎學科拔尖人才培養試驗班、錢學森實驗班和少年班學生設立「微軟小學者」獎學金項目,獲獎者除獲5000元獎學金外,還將參加當年的微軟暑期夏令營。首批「微軟小學者」獎學金評選近日揭曉,曹彬、竇竟銘、馬賢忠3位同學獲獎,同時,韓思陽等5名同學獲得參加2013年微軟暑期夏令營的機會。
  • AAAI 2019:一文看全微軟亞洲研究院 27 篇重點論文
    >【新智元導讀】AAAI即將舉行,本文帶來微軟亞洲研究院入選的27篇論文解讀,包括機器學習、自然語言處理(NLP)、計算機視覺和圖形學等多個領域。在被錄取的論文中,來自微軟亞洲研究院的有 27 篇之多,包括了機器學習、自然語言處理(NLP)、計算機視覺和圖形學等多個領域。本文將詳細介紹這三個領域中來自微軟亞洲研究院的那些硬核論文。
  • 微軟亞洲研究院的研究員們提出了一種模型壓縮的新思路
    打開APP 微軟亞洲研究院的研究員們提出了一種模型壓縮的新思路 微軟研究院AI頭條 發表於 2020-11-24 09:48:17
  • 五大頂尖企業研究院的116篇論文ICLR2018錄用論文,七大趨勢全解讀
    谷歌、DeepMind、Facebook、OpenAI、微軟,這 5 個雷鋒網 AI 科技評論重點關注的科技公司在今年 ICLR 中共貢獻了 9 篇 oral(口頭報告)論文和 107 篇 poster(海報展示)論文,在會議接受論文總數的 23 篇 oral、314 篇 poster 中已經佔據了接近半壁江山。
  • 微軟亞洲研究院副院長周明離職,將加入創新工場AI工程院
    12月17日,澎湃新聞(www.thepaper.cn)獲悉,微軟亞洲研究院副院長周明近期已經從微軟離職,加入由李開復創辦的創新工場人工智慧工程院,擔任首席科學家。1999年,周明加入微軟亞洲研究院,不久開始負責自然語言研究組。他帶領團隊進行了微軟輸入法、英庫詞典(必應詞典)、中英翻譯、微軟中國文化系列(微軟對聯、微軟字謎、微軟絕句)等重要產品和項目的研發,並對微軟Office、必應搜索、Windows等產品中的自然語言技術做出了重要貢獻。
  • 微軟亞洲研究院發布「微礦Qlib」:AI量化投資開源平臺
    【環球網科技綜合報導】12月11日報導,近日,微軟亞洲研究院正式發布了業內首個 AI 量化投資開源平臺「微礦 Qlib」。其中,在數據層面,Qlib 提供了基於領域知識設計的多個跨市場的數據集,其數據服務模塊中內含了為金融數據專門設計的表達式計算引擎,可對金融數據和運算進行了存儲和計算優化;在算法與模型層面,Qlib 目前內置了常見的金融 AI 模型(例如 LightGBM、GRU、GATs 等十幾個模型),用戶可以基於平臺和自己的數據甚至是引用的最新的外部論文去創建全新的模型;此外,模型管理也是 Qlib
  • 微軟亞洲研究院走過20年:從選一塊新地毯到開創一個新天地
    20年後,微軟亞洲研究院從幾個人的小實驗室,發展成了微軟在美國本土總部以外最大的研究機構,在國際頂級學術會議和期刊上發表了超過5000篇的論文,擁有200多名研究人員,超過300名訪問學者和實習生,近7000名院友遍布全球,活躍在科研創新和產業創新領域。
  • WMT 2019國際機器翻譯大賽:微軟亞洲研究院以7項第一成為冠軍
    大賽共設置了 19 項不同語言之間的翻譯任務,微軟亞洲研究院參加了 11 項,其中 7 項翻譯任務獲第一,包括:德語-英語、德語-法語、法語-德語、中文-英語、英語-立陶宛語、英語-芬蘭語、俄語-英語。另外 4 項任務獲得第二,包括:英語-德語、立陶宛語-英語、芬蘭語-英語、英語-哈薩克語。來自微軟的另外一支團隊則在英語-德語的任務上獲得了第一名。
  • 微軟亞洲研究院的新理念「數位化轉型即服務」是什麼?
    ——張益肇,微軟亞洲研究院副院長雷鋒網(公眾號:雷鋒網) AI 科技評論按:2018 年 5 月 8 日- 9 日,微軟亞洲研究院「創新匯」在北京舉辦了自成立後的首屆創新論壇。微軟亞洲研究院副院長、「創新匯」負責人潘天佑博士據雷鋒網了解,微軟亞洲研究院「創新匯」成立於 2017 年 11 月,由微軟亞洲研究院副院長潘天佑博士親自負責。
  • 培生攜手微軟亞洲研究院以AI賦能個性化學習
    培生與微軟亞洲研究院戰略合作籤約儀式現場 1月31日,繼上一年成功發布英語學習應用「朗文小英」後,培生與微軟亞洲研究院宣布籤署戰略合作協議,進一步深化合作。 據介紹,2017年9月,培生與微軟亞洲研究院合作,聯合開發了朗文小英這一基於微信平臺、以人工智慧(AI)為驅動的交互式英語學習應用。截至目前,朗文小英已推出第一套課程《新朗文小學英語》,並為全國100多所小學的20多萬學生使用。利用微軟亞洲研究院的AI技術,朗文小英提供了包括詞法星球、聽讀魔法屋和語音加油站在內的關鍵模塊,搭載了口語評測和自然語言處理兩項關鍵技術。
  • ICLR 2019最佳論文出爐:微軟、MILA、MIT獲獎
    深度學習頂會 ICLR 2019 的兩篇最佳論文現已放出,來自蒙特婁大學、微軟研究院和 MIT CSAIL 的研究者獲得了最佳論文獎。其中一篇最佳論文探討自然語言處理問題,提出利用神經元排序將對自然語言層級結構的考慮納入網絡。另一篇最佳論文探討了模型壓縮問題,提出了一個新的概念:彩票假設。
  • 「中科大-微軟亞洲研究院 教育部創新人才培養實驗班」簡介
    「中國科學技術大學-微軟亞洲研究院 教育部創新人才培養實驗班」是由中國科學技術大學和微軟亞洲研究院聯合發起的關於創新型人才培養模式的重要探索
  • 微軟亞洲研究院公布12項頂級研發成果
    首頁 > 傳媒 > 關鍵詞 > 微軟最新資訊 > 正文 微軟亞洲研究院公布12項頂級研發成果
  • 培生攜手微軟亞洲研究院 以人工智慧技術賦能個性化學習
    北京2018年1月31日,繼上一年成功發布英語學習應用「朗文小英」後,培生與微軟亞洲研究院共同宣布籤署戰略合作協議,進一步深化合作。  培生與微軟亞洲研究院的緊密合作始於2017年9月,雙方聯合開發了朗文小英這一基於微信平臺、以人工智慧為驅動的交互式英語學習應用。