巨穎:閱讀理解進階三部曲——關鍵知識、模型性能提升、產品化落地...

2021-01-10 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論按:閱讀理解是近兩年自然語言處理領域的熱點之一,受到學術界和工業界的廣泛關注。所謂機器閱讀理解,是指讓機器通過閱讀文本,回答內容相關的問題,其中涉及到的理解、推理、摘要等複雜技術,對機器而言頗具挑戰。

近日,在雷鋒網 AI 研習社公開課上,追一科技語義算法研究員巨穎作為 CMRC2018 中文機器閱讀理解比賽的冠軍團隊成員之一,將為大家剖析機器閱讀理解的關鍵知識點,並結合追一的實踐經驗,分享如何從數據、模型、訓練角度提升模型性能,探討 AI 時代閱讀理解技術的產品化落地:http://www.mooc.ai/open/course/596?=aitechtalkjuying

分享嘉賓:

巨穎,追一科技語義算法研究員,清華大學碩士。主要負責閱讀理解相關項目,為追一 AIForce、坐席助手等產品提供技術支持,在閱讀理解、文本分類、信息抽取等方面有深入的研究和豐富的應用經驗。

分享主題:閱讀理解進階三部曲——關鍵知識、模型性能提升、產品化落地

分享提綱:

何謂閱讀理解:常用數據集和基礎架構

閱讀理解的模型性能提升:從數據、模型、訓練等角度

閱讀理解的產品化落地

雷鋒網 AI 研習社將其分享內容整理如下:

今天的分享主題是閱讀理解進階三部曲——關鍵知識、模型性能提升、產品化落地,分享提綱包括:

第一,介紹相關背景知識:常用數據集和基礎架構;

第二,我們本次從 CMRC2018 中文機器閱讀理解比賽的獲獎經驗入手,介紹如何從數據、模型、訓練等角度來閱讀理解的模型性能;

第三,結合我在工作實踐中的經驗和體驗來談一談閱讀理解產品化落地的方向。

何謂閱讀理解:常用數據集和基礎架構

這部分主要介紹幾個數據集和經典模模型。

數據集分為四個類別:

第一種是完形填空式;

第二種是多選式;

第三種是原文中的片段;

第四種是答案由人類總結而來。

每一種數據集我都會以一個案例來進行講解:

完形填空式

多選式

原文中的片段

答案由人類總結而來

(關於四種數據集的案例講解,請回看視頻 00:02 : 45 處,http://www.mooc.ai/open/course/596?=aitechtalkjuying

接下來講一些閱讀理解的經典 Model,主要包括:

Allen AI 提出的 BIDAF

微軟提出的 R-NET

Google 提出的 QANet

最近刷榜的 GPT & BERT

 進入 Model 講解之前,我們先思考一個問題:機器如何進行閱讀理解?我們人類一般會先通讀文章和問題,再帶著問題重新閱讀文章,並定位答案的區間,進而找到正確的結果,機器閱讀也是一樣:

第一步,將詞彙向量化;

第二步:相當於閱讀文章和閱讀問題;

第三步:會採用 Attention 的機制來實現,將文章和問題的信息進行融合。

現在進入到 Model 介紹:



(關於這四個 Model 的具體講解,請回看視頻 00:13 : 15 處,http://www.mooc.ai/open/course/596?=aitechtalkjuying

閱讀理解的模型性能提升:從數據、模型、訓練等角度

接下來我們從 CMRC2018 中文機器閱讀理解這個比賽入手,介紹我們如何從數據、模型、訓練等角度來閱讀理解的模型性能。

CMRC 由中國中文信息協會舉辦,中文全稱為機器閱讀理解大賽,它的整個數據構造都跟 SQuAD 非常類似,只是換成了中文維基百科,它也是一個抽取式的閱讀理解,一個問題對應一篇文章,問題數為 1.9 萬個,訓練集大概是 1 萬條,驗證集大概是 3 千條,測試集大概是 5 千條,答案一定是文章中的一部分,評測指標是 EM & F1。

下面是 CMRC 的一個例子:

(關於這一案例的具體講解,請回看視頻 00:25 :10 處,http://www.mooc.ai/open/course/596?=aitechtalkjuyinghttp://www.mooc.ai/open/course/596?=aitechtalkjuying)

首先是數據準備工作:

接下來介紹一下模型:

我們的實驗結果如下:

(關於 CMRC 比賽的數據準備工作、模型以及實驗結果的具體講解,請回看視頻 00:25 : 43 處,http://www.mooc.ai/open/course/596?=aitechtalkjuying

閱讀理解的產品化落地

最後講一講閱讀理解在實際產品中的應用。

首先最先想到的應用場景就是搜尋引擎。搜尋引擎一般都是基於網頁的搜索,比如我現在輸入一個問題,搜尋引擎會返還給你一系列相關的網頁,需要你點入網頁找到答案位置,再提取出需要的信息,這都是跟人與人之間的問答交流不一樣的。搜尋引擎如何直接給用戶返回最直接的答案,是各大產商都比較關心的一個問題。其中一個解決方案就是閱讀理解。

(關於這部分的具體講解,請回看視頻 00:37 : 50 處,http://www.mooc.ai/open/course/596?=aitechtalkjuying

另外一個應用領域就是客服。以前如果需要機器回答用戶的問題,需要人工提前閱讀文檔,對其中的知識點進行拆解,最後再交給機器處理,比較耗時耗力。有了閱讀理解,機器就能直接閱讀文章並進行回答,非常快捷。

其他還有金融、教育等領域,它們都存在大量非結構化文本。比如金融有很多公告類型的數據,純靠人工提取知識點,並且由於長尾效應,難以覆蓋到用戶需要的所有點。依託閱讀理解,機器可以直接從非結構化數據中提取到用戶所需要的信息點。

實際應用中也存在不少的挑戰:

最後講一下我個人認為的閱讀理解的發展方向:

一個是高層次的推理;

二是如何引用外部性、常識性的信息;

三是如何拒絕回答。

(關於閱讀理解的三個發展方向的具體講解,請回看視頻 00:43 : 30 處,http://www.mooc.ai/open/course/596?=aitechtalkjuying)

以上就是本期嘉賓的全部分享內容。更多公開課視頻請到雷鋒網 AI 研習社社區(http://ai.yanxishe.com/)觀看。關注微信公眾號:AI 研習社(okweiwu),可獲取最新公開課直播時間預告。

問答部分

1.teacher 的輸出是訓練集還是驗證集?還有 loss 是怎麼算的,兩個標籤的 loss 權重怎麼設置?

teacher 的輸出是訓練集,實際上相當於我們先訓練好了一個模型,我們把這個模型恢復進來,然後重新初始化一個 student 模型,兩者一起進行訓練。就是說 teacher 現在已經訓練好了,然後來一個輸入信息,teacher 的這個輸出和 student 原本真實的 label 兩者都作為監督信號去訓練 student。

loss 設計的時候可以把 teacher 的輸出當成另一個 label。由真實的 label 得到 loss1,將 teacher 的輸出當成另一個 label,採用相同計算方式得到 loss2。在比賽中,二者的權重是一比一,即 loss1+loss2 

2. 訓練的時候 teacher 的變量用不用跟著 student 一起更新?

實際上,我們在驗證的時候一併嘗試了這兩種方式,一種是 teacher 的變量跟著 student 一起更新;另一種是 teacher 的變量是固定的,只更新 student 的變量。在 CMRC 比賽中,這兩種方式都有提升性能,但是 teacher 的變量跟著 student 一起更新時,提升的效果更好。

3. 有沒有用過一個多任務的學習方式?

多任務的學習方式,一種是預測這個詞是不是在答案的範圍裡面,輸出 0,1 二分類的 label 信號,將它當做輔助任務去訓練,另外預測答案是否在這個句子裡也可以是一個輔助任務。多任務其實是比較 trick 的東西,不同任務設置的權重不一樣,需要不斷去嘗試。

4.student 和 teacher 的 predict 需要完整的訓練集嗎?

teacher 是跟著 student 的訓練一起進行的,student 和 teacher 的輸入應該是全部訓練集,一個 bench 進來,先輸入 teacher。student 需要參考兩個監督信號:一個是 teacher 的輸入,一個是真實的 label。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • CMRC2018 評測任務冠軍隊伍分享: 如何從數據、模型和訓練角度提升...
    下文是該報告的講解文章,作者為追一科技的語義算法研究員巨穎,雷鋒網 AI 科技評論經授權轉載。機器閱讀理解(Machine Reading Comprehension)指的是,讓機器像人一樣去讀懂一段文字,並回答相應問題。常見的機器閱讀理解形式有完形填空式,選擇題式和知名度最廣的抽取式,從抽取文檔篇數又可細分為多文檔(如 MS MARCO)和單文檔(SQuAD)。
  • 新華三陳子云:以「金字塔模型」落地數位化轉型「三部曲」
    日前,新華三集團高級副總裁、紫光雲與智能事業群執行總裁陳子云博士在接受記者採訪時表示,為了能讓更多企業實現向數位化轉型領先者的跨越,新華三集團以「金字塔模型」來概括數位化轉型落地的「三部曲」。「數位化轉型」白皮書進入2020年,推進數位化轉型已經成為所有行業、所有企業的共識。
  • 京東AI研究院獲QuAC機器閱讀理解競賽冠軍,模型能力業界領先
    從結果來看,QuAC 具有較高的難度,在這個數據集上目前的最佳 AI 模型的性能距離人類表現仍有一定差距,表明在這個問題上技術還有進步的空間。相對於傳統的智能客服,這種新的交互方式可以極大地提升用戶的對話體驗和效率。圖 3:QuAC 與其他機器閱讀理解數據集的多維度對比圖 3 給出了 QuAC 與時下多個熱門機器閱讀理解數據集的詳細對比,可看出 QuAC 具有最豐富的數據特性,要求模型具有更強的上下文語義理解和對話邏輯推理能力。
  • 專訪科大訊飛:成為世界第一,只是閱讀理解系統萬裡長徵的第一步
    在加拿大溫哥華舉辦的ACL大會現場,雷鋒網對正在參加大會的科大訊飛研究院副院長王士進進行了專訪,王士進不僅向雷鋒網介紹了訊飛取得良好成績的關鍵因素,還對在機器閱讀理解領域的未來研發方向及產業化狀況做了解答。王士進認為,機器閱讀理解具有廣闊的應用場景,目前的成績只是萬裡長徵的第一步,訊飛也會繼續探索機器閱讀理解技術落地應用的場景。
  • 追一科技AI Lab團隊獲CoQA閱讀理解冠軍
    閱讀理解是目前語言AI最受關注、進步最快的技術方向,全球有兩大頂級比賽最受矚目,分別是注重一問一答的SQuAD和多輪對話問答的CoQA。相比SQuAD,CoQA比賽重點挑戰的是模型在對話過程中回答相互關聯問題的能力,而且對話問答數據集由來自不同領域一系列文章中的對話問題組成,答案的形式非常自由,這些改進點都極大地提高了挑戰賽的難度。
  • ACL 2019論文分享:百度閱讀理解知識和文本融合模型KT-NET
    機器閱讀理解(Machine Reading Comprehension) 是指讓機器閱讀文本,然後回答和閱讀內容相關的問題。該技術可以使機器具備從文本數據中獲取知識並回答問題的能力,是構建通用人工智慧的關鍵技術之一,長期以來受到學術界和工業界的廣泛關注。
  • Facebook大公開:解決NLG模型落地難題!工業界的新一波春天?
    因為是一篇偏實驗性的論文,所以論文的要點理解和模型框架並不算特別的難,但是需要大量的先驗知識儲備。因為本論文要探討的是NLG產品化落地,所以我們期望探索不同數據量下模型精度結果的情況。即,在Data-Reduction的情況下,如何提高Data-Efficiency。因為是要探討NLG的產品化落地,所以也期望做一下模型壓縮在NLG方面的探索。
  • 【ACL】深度融合模型KT-NET增強機器閱讀理解
    該技術可以使機器具備從文本數據中獲取知識並回答問題的能力,是構建通用人工智慧的關鍵技術之一,長期以來受到學術界和工業界的廣泛關注。近兩年,預訓練語言表示模型在機器閱讀理解任務上取得了突破性進展。通過在海量無標註文本數據上預訓練足夠深的網絡結構,當前最先進的語言表示模型能夠捕捉複雜的語言現象,更好地理解語言、回答問題。
  • 機器閱讀理解快速迭代,人機互動場景持續落地
    值得一提的是,在2018年的「機器閱讀理解大賽」中,深思考人工智慧同樣在1600多支國內外參賽隊伍中脫穎而出,排名第三,獲全球大獎。此番再奪大賽桂冠,一方面證明了深思考在全球機器閱讀理解領域的前沿實力;另一方面,大賽在極大地推動閱讀理解技術進步的同時,也將深思考這家以研發為主、不斷布局場景落地的創業型公司更多的展現在全世界面前。
  • 思必馳在中文機器閱讀理解公開評測中取得階段性進展
    日前,注重源頭基礎創新的思必馳,其知識服務團隊在多個中文機器閱讀理解公開評測中取得階段性進展。此前,該團隊還入選姑蘇重大創新團隊。  機器閱讀理解(Machine Reading Comprehension)是自然語言處理和人工智慧領域的重要前沿課題,旨在讓機器閱讀並理解非結構化的文本,可以準確地回答和文本內容相關的任何問題。
  • 閱讀理解得分超越人類:谷歌推出最強預訓練語言理解模型BERT
    近日,谷歌提出了一個新的預訓練語言模型 BERT,該模型橫掃 11 項不同的自然語言處理任務,並在 SQuAD v1.1 的閱讀理解任務上超越人類兩個百分點。該模型究竟有哪些創新?有為什麼會有如此突出的效果呢?這一切需要從語言模型講起。
  • 羅切斯特大學利用雷射系統模型PSOPS提升裝置運行性能與靈活性
    想要能夠精確輸出複雜脈衝形狀,並使裝置穩定運行、實驗效率最大化,對雷射系統時空輸出特性的精確實時預測十分關鍵。近期,來自羅切斯特大學OMEGA EP裝置的研究團隊在High Power Laser Science and Engineering 2020年第1期的論文中,報導了一種基於OMEGA EP裝置的半解析MATLAB模型PSOPS,能夠實時預測雷射輸出性能,為提升雷射系統的參數精確性和運行靈活性提供依據。
  • EasyDL實戰營開啟計算機視覺CV專場,講解多種模型效果提升技巧
    EasyDL 是百度大腦面向企業開發者推出的 AI 開發平臺,提供智能標註、模型訓練、服務部署等全流程功能,內置豐富的預訓練模型,支持公有雲/私有化/設備端等靈活部署方式。EasyDL 面向不同人群提供經典版、專業版、零售版三款產品,已在工業、零售、製造、醫療等二十多個行業領域落地。
  • 兩個進階的閱讀技巧,幫你高效吸收一本書!
    比如讀完一本小說,別人就能分析的頭頭是道,看出其中隱藏的細節;再比如,看完一本工具類實用書,別人就能馬上挑出其中的要點,運用到自己的工作中,提高自己的效率……他們不僅僅理解了書中的知識,更是能夠做到找到其中對自己有用的東西,以此來豐富完善自己的知識體系。
  • 高中英語二輪複習:完形填空+閱讀理解,後附進階練習
    二輪複習的基本方法就是模塊複習法,根據分類和歸納法將知識分為幾個模塊進行複習。在一輪複習中,自己還存在哪些的問題和弱點。然後在二輪複習的時候,著重審查這些問題和不足。比如英語強化閱讀完形,對基本題型例如語法填空,短文改錯,書面表達分類整理知識點易錯點難點,同時狠記考綱詞彙,這樣才能夠應對高考考試詞彙方面的要求,基本語法要複習,但是不能僅僅複習語法。總之,通過專項訓練總結,提升自己的綜合得分能力,這才應該是二輪複習的關鍵。
  • 第四範式胡時偉:如何以產品化最快實現AI商業價值?| 硬創公開課
    技術分析高維度的大規模機器學習下面我們從技術的角度上來分析,究竟是什麼技術使得業務的提升成為可能。VC維是衡量模型智能水平的關鍵首先,是高維度的大規模機器學習。對於用AI解決業務問題整體上來說,主要是考慮用VC維的概念。VC維度是什麼?
  • ICLR2021 | 顯著提升小模型性能,亞利桑那州立大學&微軟聯合提出SEED
    針對現有對比自監督學習方案在小模型上表現性能差的問題,提出將知識蒸餾的思想嵌入到自監督學習框架得到了本文的自監督蒸餾學習。相比常規自監督學習方案,所提方案可以顯著的提升輕量型模型的性能,同時具有極好的泛化性能。
  • BERT模型的崛起與榮耀
    使用比例翻十倍、涵蓋語言增至70餘種……自2018年誕生至今,是哪些硬技術賦予BERT「超人類」的語言理解能力,它在NLP屆(自然語言處理,下稱NLP)又有怎樣的「江湖地位」?今天,就讓智東西和你一起,走過BERT這兩年的進階之路,看看NLP屆如今的半壁江山。本文福利:打開BERT模型的黑箱!
  • 谷歌搜索的靈魂:BERT模型的崛起與榮耀
    那我們得先看看模型是怎樣「學語言」的。模型和人一樣,在會說話能閱讀之前,它也需要背單詞、學語法,只是它不是通過語境去理解詞義,而是將單詞轉化為可以計算的向量或者矩陣,再通過神經網絡計算特徵權重學會「語法」,從而「理解」人類語言。
  • 揭秘AI公司盈利「生意經」,竹間智能CEO簡仁賢的AI產品化和工程化
    人工智慧(NLP深度學習模型)對文字的「理解」能力強了,而不是簡單的「找到」和「對比」。舉個例子,最常見查資料用「簡單關鍵字」的方法,有了NLP技術,可處理字數較多的內容,也就是對長文本文檔的語義相似度進行匹配判斷(自動實體識別抽取,實體發現,實體識別和比對)。