業界| 機器閱讀理解打破人類記錄,解讀阿里iDST SLQA技術

2020-11-22 搜狐網

原標題:業界 | 機器閱讀理解打破人類記錄,解讀阿里iDST SLQA技術

機器之心原創

作者:王藝

幾乎在同一時間,微軟和阿里巴巴的機器閱讀理解系統在最新的 SQuAD 數據集測評結果中取得了並列第一的成績。這是歷史上第一次,機器閱讀理解的精準匹配分數超越了人類的評測結果。

這兩天 NLP 圈炸鍋了,焦點圍繞著微軟阿里到底是誰先打破了機器閱讀理解的人類記錄。

事情是這樣的。兩家的 PK 發生在 SQuAD 數據集上,這是行業內公認的機器閱讀理解標準水平測試,也是該領域頂級賽事,被譽為機器閱讀理解界的 ImageNet(圖像識別領域的頂級賽事)。和 ImageNet 一樣,SQuAD 的成績排名也會定時更新。

微軟和阿里先後於 1 月 3 日 和 1 月 5 日在 SQuAD 官方平臺提交模型,但阿里的結果在 1 月 11 日先於微軟產出並被公布,微軟的結果在 1 月 12 日緊隨其後發布。

阿里發布結果後,主辦方斯坦福向阿里發了賀信,表彰其機器閱讀理解系統首次超越人類。微軟結果發布後,鑑於雙方在更細分維度上的評測結果各有千秋,官方給出了排名並列第一的說法。

機器閱讀理解的評測維度分為 EM(Exact Match,精準匹配分數)和 F1(精確率和召回率的平均,模糊匹配分數)。

下圖可見,阿里巴巴在 F1 分數上略勝一籌,微軟的 EM 分數優於阿里巴巴。無論如何,我們可以欣喜地看到包括阿里,微軟亞洲研究院,騰訊,哈工大和訊飛等中國的研究人員走在了世界的前列。

拋開「誰是第一」事件本身,機器之心採訪到此次破紀錄的阿里巴巴 iDST NLP 團隊,希望回歸技術,對其模型進行解讀。

機器閱讀理解作為 QA 問答技術中的全新領域,允許用戶輸入非結構化文本及問題,機器在閱讀理解基礎上,從文本中尋找答案回答用戶問題。

對於阿里巴巴來說,機器閱讀理解技術的最直接應用就是阿里小蜜現在能直接閱讀說明書回答用戶問題了。

本次阿里巴巴參與測評的系統名為 SLQA,即 SLQA,即 Semantic Learning for Question Answering,是 iDST NLP 團隊提出的「基於分層融合注意力機制」的深度神經網絡系統。評測證明,相比傳統方法,SLQA 的效果取得了顯著的提升。

採用傳統方法解決機器閱讀理解問題,一般會將該過程分為以下幾個步驟:

1)對問題、篇章分別進行詞法、句法分析,針對分析結果進行特徵提取:

2)基於特徵採用諸如 LR、CRF 等模型進行答案邊界預測;

3)採用梯度下降類算法在訓練集上進行優化,擬合數據分布。

在此過程中,基礎語言模型、依存分析等模塊的準確率在一定程度上會影響訓練效果,特徵工程的優劣也同樣左右著是否能訓練得到可用的模型。

隨著深度學習在 NLP 領域的大量應用,很多場景如切詞、詞性標註、翻譯、命名實體識別等 End2End 模型逐漸取得接近並超越傳統模型的效果。在機器閱讀理解場景,iDST NLP 團隊設計了 Semantic Learning Net,即 SLQA 背後的算法模型。

該模型模擬人類在做閱讀理解問題時的一些行為,包括結合篇章內容審題、帶著問題反覆閱讀文章、避免閱讀中遺忘而進行相關標註等。

團隊總結,人類在進行閱讀理解時,常見思維順序如下:

1)通讀篇章,理解文章主題和大體內容;讀題,了解提問內容及關注點。

2)帶著問題找答案,將問題同篇章做關聯,並結合篇章主題,理解問題重點。

3)定位可能的答案範圍,並再次重點閱讀附近文字。

4)為避免忘記問題,再次審題,並結合 3)中重點區域進行答案圈選。

5)針對挑出的答案候選進行精篩,確定最正確的答案。

結合以上思路,團隊構建模型的主要思想是在捕捉問題和文章中特定區域關聯的同時,藉助分層策略,逐步集中注意力,使答案邊界清晰。

同時,為了避免過於關注細節,團隊採用融合方式將全局信息加入注意力機制,進行適度糾正,確保關注點正確。這種逐步聚焦併兼顧全局的方式與其他參賽者已經公布的的做法不太相同,也是團隊此次刷榜登頂的關鍵所在。

目前業界主流的基於 End2End 學習的機器閱讀理解模型主要為 Encode-Interaction-Pointer 框架。基於上述分析,SLQA 系統包含如下基本結構:Encoder Layer(文本表徵),Attention Layer(注意力機制),Match Layer(問題篇章匹配)以及 Output Layer(答案預測)。

  • Encoder Layer 用於表示學習,可以理解為語言模型層,用以將篇章及問題從離散字符轉變為蘊含語義的表徵向量。團隊採用了多層雙向 LSTM 並分別對篇章和問題進行主題和重點詞關注。

  • Attention Layer 得到有效的問題及篇章表徵後,為表達依據問題定位答案過程,縮小備選答案查找範圍,將搜索空間通過注意力機制約束,主要進行多層融合注意力表示,對問題和篇章進行相關性對齊(Align),並不斷補充全局信息(Fusion),每一次對齊都基於下層信息並在此基礎上更加細化(paragraph→sentence→phrase→word),採用的方式分別為 Co-Attention(篇章到問題,問題到篇章),Self-Attention(問題自身,篇章自身)。

  • Match Layer 用於做融合信息後的問題和篇章匹配,團隊採用雙線性矩陣來學習經過多層信息過濾後的篇章和問題匹配參數,由於在前一階段無關信息已經被過濾,最後的匹配可完成答案的定位工作。

  • Output Layer 結合匹配信息對篇章中詞彙進行標註,預測相應詞彙是答案開始位置或結束位置的概率。之後,模型會抽取可能性最高的一段連續文本作為答案。

團隊採用的技術就是基於以上四個Layer的深度神經網絡模型,重點探索和研究的Layer是第三層(Hierarchical Attention Fusion Network)。

iDST NLP 團隊負責人司羅表示,本次 SQuAD 評測登頂得益於其 NLP 團隊自身的完善性。「NLP 領域內的很多技術方向可以互相借鑑,例如機器閱讀理解任務,我們就借鑑了機器翻譯的一些技術。應該說我們機器閱讀理解的技術是建立在我們更廣闊的自然語言處理能力上的。」

讓知識獲取不受人腦的限制

據司羅介紹,本次登頂只是阿里巴巴相關技術研發的一個側面,其所指向的「創新的問答系統」的落地應用才是團隊的重要發展方向。

由於團隊支持阿里大生態下的問答技術業務(如與阿里小蜜合作的智能客服等),因此團隊的著眼點其實一直放在業務應用場景而非單純的技術突破上。

「阿里小蜜是我們所知的第一個真正把機器閱讀理解應用在大規模客服場景下的產品。」司羅說。

除阿里小蜜外,SLQA 系統在售前諮詢場景也能發揮作用。

面向商家的智能客服「店小蜜」是阿里售前諮詢場景的典型案例。顧客在購物時,往往會對商品信息進行詢問確認後才會下單購買,例如「榮耀 5c 的雙攝像頭拍照效果有什麼特點?」而這些信息往往已經存在於商品的詳情描述頁。

店小蜜通過機器閱讀理解技術,讓機器對詳情頁中的商品描述文本進行更為智能的閱讀和回答,在降低賣家服務成本的同時提高購買轉化率。

更廣泛地,著眼整個社會,機器閱讀理解也有著巨大的價值。試想機器自動閱讀病歷回答病人關心的問題、自動閱讀古今名著幫人們寫論文、自動閱讀旅遊場景的說明書來回答旅行者的問題、自動閱讀繁複的法律稅務條款來幫助人們解決法律報稅的問題。

「機器閱讀理解讓知識獲取不受人腦的限制。」司羅說。

儘管社會價值巨大,但目前的機器閱讀理解技術還在面臨很大的挑戰。例如該技術對於解決 WIKI 類客觀知識問答已經取得比較好的結果,但對於複雜問題來說仍處於比較初級的階段。

司羅認為,這是由於 WIKI 場景的數據相對較為充分、文檔結構也清晰、內容描述較為正規。而其他廣大的應用場景常常存在訓練數據不足、文檔知識不明確、描述不完整等問題,有不少甚至要通過多步推理才能得到答案。

這不僅對阿里巴巴,也對整個業界提出了挑戰。司羅表示,阿里希望建立自己完善的自然語言技術能力,在領域自適應、多步推理、知識自動抽取和歸納等方面進行全面且充分的準備,迎接這些挑戰。

本文為機器之心原創,轉載請聯繫本公眾號獲得授權。返回搜狐,查看更多

責任編輯:

相關焦點

  • NLP 從入門到實戰,阿里 iDST 9 大名師即將開講
    目前,詞彙知識庫的構建已經成為了業界普遍關注的問題。美國的 WordNet、FrameNet 以及我國的各種語法知識庫和語義知識庫,都反映了這種強烈的「詞彙主義」的傾向。隨著技術的不斷進步,NLP 通過不斷地從數學、生物神經科學以及統計語言學等交叉學科中吸收營養來豐富自己,目前已經取得了長足的進步。
  • 京東AI研究院獲QuAC機器閱讀理解競賽冠軍,模型能力業界領先
    其中,在 F1-Measure(又稱為 F1-Score) 指標上達到 74.6,大幅拉近了機器與人類在該任務上的水平差距。這也意味著以零售、物流、金融、客服等優質場景為依託的京東 AI 研究院,在機器閱讀理解能力上取得了突飛猛進的成果。
  • 走進機器閱讀理解的世界,飛槳開源升級版 BiDAF模型解讀
    機器閱讀理解概述閱讀理解,相信中國學生都不陌生,不管是語文考試還是英語考試,閱讀理解都是非常常規的考試內容。一般形式就是給出一篇文章,然後針對這些文章提出一些問題,問題的類型包括選擇題、填空題或者分析題,學生通過回答這些問題來證明自己理解了文章所要傳達的主旨內容。而機器閱讀理解,就是指機器自主來完成以上過程。
  • 從京東 618 導購機器人說起,機器如何更理解人類?
    據了解,取得這一成績,是因為深思考團隊提出的「多源整合的解碼器」的深度神經網絡模型技術。該技術在AI人機對話上能流暢地引導用戶交流,主動溝通,並和MRC機器閱讀理解、用戶畫像、目標規劃深度結合,適配多場景應用,可以迅速遷移多個場景。
  • 阿里技術又拿了世界第一 這次是任小楓的團隊
    繼阿里巴巴iDST自然語言處理團隊在機器閱讀理解領域頂級賽事SQuAD中刷新世界記錄、讓機器在精準度匹配上首次超越人類以來,阿里巴巴的技術團隊又奪得了三項世界第一。由機器視覺科學家任小楓帶領的視覺技術團隊最終以96.06%、97.70%的分割準確率分別獲得UU_ROAD(鄉村車道)、UMM_ROAD(多車道)兩項特定場景評測任務第一,96.76%的準確率獲整個道路場景分割綜合評測任務URBAN_ROAD第一。
  • 搜狗超越微軟成CoQA新紀錄保持者,閱讀理解能力可媲美人類
    2019年1月3日,搜狗搜索人工智慧研究團隊在對話型機器閱讀理解挑戰賽CoQA(Conversational Question Answering Challenge)中全面刷新所有評價指標成績,以總成績82.8%奪得第一。
  • 機器的「無限有趣空間」:人類將無法理解機器的崛起
    但是它們是如何實現這些成就的過程在人類眼裡卻是個黑箱。技術作家及藝術家James Bridle最近出版了一本反映機器崛起的新書,《New Dark Age(新黑暗時代)》。其中對機器如何思考的探討令人感到氣餒——借用科幻作家Iain M. Banks的話來說,在超智機器的腦子裡有一個無限有趣的空間,這個地方是人類永遠也無法進入的。
  • 言語理解與表達 閱讀理解
    第四章 言語理解與表達  第二節 閱讀理解  一、閱讀理解測驗的解題技巧  (一)、閱讀理解測驗的考試內容  與2002年、2003年一樣,2004年考試大綱中也只保留了「文章閱讀」這一題型,但從2002年和2003年中央、國家機關及各地錄用公務員考試命題來看
  • 機器會取代人類嗎?解局人工智慧技術的倫理風險
    機器會取代人類嗎?技術的邊界在理解了人工智慧帶來的風險之後,我們接下來討論人工智慧技術發展的邊界,只有明確了邊界才能理解風險。事實上我們可以看到人工智慧的風險相對於通常的技術風險來說,主要是在於智能的理解邊界有了分歧,由於人類是目前唯一具備智能的實體,因此出現了人工智慧之後就產生了所謂智能邊界的問題。
  • 百度領銜舉辦首次機器同傳講習班 詳解機器同聲傳譯技術演進
    EMNLP由國際計算語言學學會(ACL)旗下SIGDAT組織,會議涵蓋語義理解、文本理解、信息提取、信息檢索和機器翻譯等主題。會上,由百度聯合Google舉辦的首次機器同聲傳譯學術講習班(Tutorial)召開,圍繞機器同傳的背景、挑戰、模型、數據集、實用系統和產品、未來研究方向等展開報告和研討,吸引了數百位國際學者參會。
  • 「善解人意」的機器在哪裡?——自然語言理解的發展與挑戰
    本論壇將於CNCC第一天(10月22日)下午在杭州分會場舉行,共邀學界資深研究專家探討面向人工智慧時代的自然語言理解發展與挑戰。CNCC將於10月22-24日召開。今年CNCC將以北京作為主會場、瀋陽、杭州、濟南設立分會場並在線上同步直播,各個分會場技術論壇也是精彩紛呈,其中10月22日下午在杭州分會場-杭州市未來科技城學術交流中心:夢想小鎮2號會議廳(21號樓)舉行的自然語言理解的發展與挑戰技術論壇就十分精彩。屆時將邀請學界資深研究專家探討面向人工智慧時代的自然語言理解發展與挑戰。自然語言理解被譽為人工智慧皇冠上的明珠。
  • 解讀阿里組織架構調整:向外技術賦能 加重To B業務
    原標題:解讀阿里組織架構最新調整,關鍵詞有這些……(附張勇公開信)   作者:張宇婷   新官上任三把火。   一、向外技術賦能,加重To B業務   「商業作業系統」是本次張勇公開信中的關鍵字眼。作業系統(英語:operating system,縮寫作OS)是管理計算機硬體與軟體資源的電腦程式,同時也是計算機系統的內核。阿里被重新定義為賦能商家的商業作業系統,由此也可以理解為何在本次業務調整中,阿里雲首當其衝。
  • 阿里開源自研語音識別模型 DFSMN,準確率高達96.04%
    近日,阿里巴巴達摩院機器智能實驗室開源了新一代語音識別模型DFSMN,將全球語音識別準確率紀錄提高至96.04%。這一數據測試基於世界最大的免費語音識別資料庫LibriSpeech。
  • 閱讀生命「天書」的技術
    閱讀生命「天書」的技術——聽華大基因創始人汪建講述基因科技光明日報記者 嚴聖禾  記者:在剛剛結束的2017深圳國際生物技術峰會上,學界和業界大咖們討論的生物技術和我們老百姓的生活有什麼關係
  • 阿里升級機器翻譯,48種語言方向,雙11全球買賣無障礙
    李明宇不會任何外語,阿里機器翻譯支撐起了他的生意,「俄語和西班牙語很6。」同樣得益於達摩院的賦能,今年雙11期間,東南亞最大在線購物平臺Lazada也將推出支持當地六種語言的實時翻譯,涵蓋買賣雙方即時通訊溝通、商品詳情、優惠券等商家自營工具。達摩院的機器翻譯技術,還服務於ICBU、天貓國際、淘寶海外、釘釘、阿里雲、飛豬、菜鳥等的阿里國際業務。
  • 任小楓阿里「三調」,現任高德地圖首席科學家
    雷鋒網 AI 科技評論按:經確認,阿里達摩院機器智能實驗室旗下機器視覺實驗室負責人任小楓,現已轉入阿里於 2014 年全資收購的子公司高德地圖擔任首席科學家。AI 科技評論曾在《iDST 的前世今生,阿里 AI 帝國的野望與內省》一文中,也提到了當時任小楓加入阿里 iDST 的背景:當時早在 2016 年 7 月加入阿里 iDST 的華先勝,正在全權負責全新的城市大腦「城市之眼」項目,在接受 AI 科技評論的採訪時透露了 iDST 未來前沿技術重點布局的兩個關鍵信息點,一是智能交通項目會是 iDST 未來的重頭戲,二是他們急需要招人。
  • 閱讀都不能做到的機器,怎麼可能殺掉誰?
    為什麼從上世紀中期開始,人們一方面就在積極展望機器人革命到來後的生活便利,另一方面又恐懼「機器換人」甚至「機器殺人」?《如何創造可信的AI》一書提出,人工智慧誕生之初,「業界專家就保持著願景有餘,『落地』不足的傳統」,輕率的斷言在一個不太久的未來節點會誕生具有強大功能和兼容性的通用人工智慧。
  • 阿里行癲的「春天」
    如此一來,張建鋒將一手把控阿里的整個技術體系以及達摩院、阿里雲智能業務三大阿里技術戰略重鎮,可謂位高權重!同時,他還是阿里巴巴集團36位合伙人之一。在阿里,張建鋒的花名叫行癲,取自《鹿鼎記》裡李自成的法號。歷史上,李自成是闖王高迎祥部下的闖將,勇猛有識略。
  • 高中英語閱讀理解的解讀與剖析
    高中英語閱讀理解的解讀與剖析 2020-04-20 10:48 來源:北京新東方中小學全科教育一對一高中英語組 作者:張尚明珠
  • 阿里雲剛挖來的量子技術大牛施堯耘:一開始我是拒絕的
    施堯耘入職阿里巴巴是幾天前的事情,而正式宣布則是在北京時間9月11日,阿里雲宣布世界知名量子計算科學家、密西根大學終身教授施堯耘已經入職阿里巴巴,擔任阿里雲量子技術首席科學家,他的主要工作是組建並負責阿里雲量子計算實驗室。