2018機器閱讀理解技術競賽開始報名 百度提供中文閱讀理解數據集

2021-01-07 百度AI

3月1日,由百度公司、中國中文信息學會(CIPS)、中國計算機學會(CCF)聯手舉辦的「2018機器閱讀理解技術競賽」正式開啟報名通道。

本次競賽,百度將提供面向真實應用場景迄今為止規模最大的中文閱讀理解數據集DuReader。競賽官網及報名通道已正式開啟(http://mrc2018.cipsc.org.cn/),任何團隊和個人都可以報名參加,獲勝團隊還將分享總額近10萬人民幣的獎金。

為什麼舉辦本次競賽?

閱讀不僅是人類獲取知識、提高心智的重要途徑,對於機器而言,擁有閱讀能力同樣也能夠實現持續學習和進化。機器閱讀理解讓機器閱讀文本,然後回答和閱讀內容相關的問題,其中涉及到的理解、推理、摘要等複雜技術,對機器而言頗具挑戰。

該任務的研究對於智能搜索、智能推薦、智能交互等人工智慧應用具有重要意義,是自然語言處理和人工智慧領域的重要前沿課題。這也是百度聯合舉辦2018機器閱讀理解技術競賽的重要原因。

百度將為參賽者提供迄今為止規模最大的數據集

為了給予參賽者最大力度支持,本次競賽將提供面向真實應用場景的大規模中文閱讀理解數據集 DuReader,包含來自百度搜索的30萬個真實問題,每個問題對應5個候選文檔文本,以及人工撰寫的優質答案。

同時,數據集還標註了問題類型、實體和觀點等豐富信息。數據集將劃分為28萬的訓練集,1萬開發集和1萬測試集。該數據集中包含了去年11月百度首批發布的 DuReader 數據集中的20萬問題數據,參賽者可自由下載用於訓練和測試。本次競賽報名團隊還將獲得新增的10萬問題數據集。

DuReader 是迄今為止最大的面向真實需求的中文閱讀理解數據集,將為此次參賽的研究者提供有力支撐。

據悉,本次競賽的任務是對於給定問題q及其對應的文本形式的候選文檔集合D=d1, d2, ..., dn,要求參評閱讀理解系統自動對問題及候選文檔進行分析,輸出能夠滿足問題的文本答案a。為了便於參賽選手快速了解競賽任務,競賽還提供了兩個開源的閱讀理解基線系統,並採用 ROUGH-L 和 BLEU 作為評價指標。

百度擁有最前沿、最全面、最領先的自然語言處理技術布局

百度在自然語言處理(NLP)領域已經過十餘年積累與沉澱,具備了最前沿、最全面、最領先的技術布局,不僅專注於前瞻技術探索,更致力通過技術應用解決實際問題。

在剛剛過去的春節假期中,百度 NLP 團隊研發的 V-Net 模型以46.15的 Rouge-L 得分登上微軟 MS MARCO 機器閱讀理解測試排行榜首。對此,微軟 MARCO 官方 twitter 也發文表示祝賀。

值得一提的是,此次百度只憑藉單模型(single model)就拿到了第一名,並沒有提交更容易拿高分的多模型集成(ensemble)結果。

可預見的未來:崛起的中文領域機器閱讀理解

目前,世界機器閱讀理解領域經典賽事多集中在英文領域,比如由史丹福大學發起的 SQuAD 挑戰賽以及微軟的 MSMARCO 機器閱讀理解測試,而基於百度 DuReader 的2018機器閱讀理解技術競賽無疑將成為中文機器閱讀理解領域的一大盛事。

此次百度與 CIPS、CCF 聯合舉辦2018機器閱讀理解技術競賽並開放數據集,旨在進一步提升機器閱讀理解技術的研究水平,並希望研究者能夠利用數據集產出更好更優質的機器閱讀理解模型,推動語言理解和人工智慧領域技術研究和應用的發展。

相關焦點

  • 百度發起機器閱讀理解競賽,提供中文數據集,獲勝團隊獎10萬
    允中 發自 SSJQ 量子位 報導 | 公眾號 QbitAI機器閱讀理解(中文版)技術競賽,現在可以報名了。3月1日,由百度、中國中文信息學會(CIPS)、中國計算機學會(CCF)聯手舉辦的「2018機器閱讀理解技術競賽」正式開啟報名通道。
  • 2018機器閱讀理解競賽獲獎名單出爐 百度數據集點亮行業創想
    近日,由中國中文信息學會(CIPS)、中國計算機學會(CCF)聯手百度公司共同舉辦的「2018機器閱讀理解技術競賽」 圓滿落幕。來自全球各地的1062支參賽隊伍,在百度提供的中文閱讀理解數據集基礎上,對測試問題進行不斷探索,使得參賽系統水平得到顯著提升。大賽更多信息可登錄2018機器閱讀理解技術競賽官網http://mrc2018.cipsc.org.cn/查看。
  • ACL2018: 百度閱讀理解技術新進展,讓機器讀懂文本
    閱讀理解是自然語言處理和人工智慧領域的重要前沿課題,對於提升機器智能水平、使機器具有持續知識獲取能力具有重要價值,近年來受到學術界和工業界的廣泛關注。隨著機器閱讀理解技術的發展,閱讀理解任務也在不斷升級,從早期的「完形填空形式」,發展到基於維基百科的「單文檔閱讀理解」,如以斯坦福 SQuAD 為數據集的任務。
  • EMNLP 2019 | 基於篇章片段抽取的中文閱讀理解數據集
    該論文提出了一種基於篇章片段抽取的中文閱讀理解數據集,也是由哈工大訊飛聯合實驗室承辦的第二屆「訊飛杯」中文機器閱讀理解評測(CMRC 2018)使用的數據。第二屆CCL「訊飛杯」中文機器閱讀理解評測研討會(CMRC 2018)由中國中文信息學會計算語言學專委會主辦,哈工大訊飛聯合實驗室承辦,科大訊飛股份有限公司冠名,於2018年10月19日在湖南長沙圓滿落幕。
  • 機器閱讀理解簡述
    機器閱讀理解技術即機器自動從給定的文本中回答用戶所提出的問題的技術[1],近幾年已經成為了研究熱點之一。閱讀理解大致可以分為四個任務,即填空型閱讀理解任務、選擇型閱讀理解任務、片段抽取型閱讀理解任務以及自由格式閱讀理解任務。隨著以BERT為代表的預訓練模型的發展,四種閱讀理解任務都有著飛速的發展,主要體現為從關注限定文本到結合外部知識,從關注特定片段到對上下文的全面理解。本文對上述幾種主流的機器閱讀理解任務從任務描述、相關數據集、解決方法等幾方面逐一展開介紹。1.
  • 賽爾筆記 | 機器閱讀理解簡述
    作者:哈工大SCIR 施琦、妥明翔、孫月晴、尹治博機器閱讀理解技術即機器自動從給定的文本中回答用戶所提出的問題的技術[1],近幾年已經成為了研究熱點之一
  • 【賽爾筆記】機器閱讀理解簡述
    機器閱讀理解技術即機器自動從給定的文本中回答用戶所提出的問題的技術[1],近幾年已經成為了研究熱點之一。閱讀理解大致可以分為四個任務,即填空型閱讀理解任務、選擇型閱讀理解任務、片段抽取型閱讀理解任務以及自由格式閱讀理解任務。隨著以BERT為代表的預訓練模型的發展,四種閱讀理解任務都有著飛速的發展,主要體現為從關注限定文本到結合外部知識,從關注特定片段到對上下文的全面理解。本文對上述幾種主流的機器閱讀理解任務從任務描述、相關數據集、解決方法等幾方面逐一展開介紹。1. 填
  • 思必馳在中文機器閱讀理解公開評測中取得階段性進展
    日前,注重源頭基礎創新的思必馳,其知識服務團隊在多個中文機器閱讀理解公開評測中取得階段性進展。此前,該團隊還入選姑蘇重大創新團隊。  機器閱讀理解(Machine Reading Comprehension)是自然語言處理和人工智慧領域的重要前沿課題,旨在讓機器閱讀並理解非結構化的文本,可以準確地回答和文本內容相關的任何問題。
  • 30 萬獎金海華 AI 挑戰賽 | 用機器挑戰中文閱讀理解
    為了進一步推動機器閱讀理解的發展,今年,中關村海華信息技術前沿研究院與清華大學交叉信息研究院聯合推出了《2021 海華AI挑戰賽·中文閱讀理解》大賽。[4]為了進一步推動機器閱讀領域的發展,史丹福大學的 Percy Liang 實驗室於 2016 年發布了 SQuAD 數據集 [5],2018 年又發布了 SQuAD 2.0 [6]。SQuAD 2.0 在 SQuAD 的基礎上添加了一些不可回答的問題。到目前為止,SQuAD 和 SQuAD 2.0 都是機器閱讀理解領域最重要的數據集之一,同時也引發了一波搭建閱讀理解數據集的熱潮。
  • 30萬獎金海華AI挑戰賽 | 用機器挑戰中文閱讀理解
    為了進一步推動機器閱讀理解的發展,今年,中關村海華信息技術前沿研究院與清華大學交叉信息研究院聯合推出了《2021 海華AI挑戰賽·中文閱讀理解》大賽。[1]Ricardson 等人在 2013 年發表的 MCTest 是較早的閱讀理解數據集。[2] 它的總體形式和英語考試中的閱讀理解單項選擇題很像,一段用於提供信息的文本,加上 4 道包含 1 個正確選項和 3 個合理錯誤選項的問題。
  • 京東AI研究院獲QuAC機器閱讀理解競賽冠軍,模型能力業界領先
    QuAC 新挑戰:更複雜的數據集、更開放的問題、更貼近真實場景機器閱讀理解能力已成為判斷機器是否具有自然語言理解(語義理解、閱讀、問答等)能力的重要標準。SQuAD[2] (Rajpurkar et al., 2016) 數據集的提出極大地推動了機器閱讀理解的研究與發展。
  • 科大訊飛機器閱讀理解技術再次登頂SQuAD挑戰賽
    科大訊飛與哈工大聯合實驗室參賽提交系統一覽機器閱讀理解技術目前已經成為多家知名企業、高校等研究機構關注的對象,技術上的突破將帶來自然語言理解的長足進步。通過讓機器閱讀汽車說明書及相關的介紹材料,使機器深度理解並掌握對該車型的相關知識;在用戶提出相關問題時,不僅能夠快速反饋給用戶相關章節,並且還能夠利用閱讀理解技術進一步挖掘並反饋更精準的答案,從而減少用戶的閱讀量,提高信息獲取的速度。
  • 機器閱讀理解快速迭代,人機互動場景持續落地
    近日,由中國計算機學會、中國中文信息學會和百度公司聯合舉辦的「2019機器閱讀理解競賽」完美落幕。經過全球2502個團隊長達2個月的激烈角逐,深思考人工智慧在兩項評測指標中均登頂榜首。值得一提的是,在2018年的「機器閱讀理解大賽」中,深思考人工智慧同樣在1600多支國內外參賽隊伍中脫穎而出,排名第三,獲全球大獎。此番再奪大賽桂冠,一方面證明了深思考在全球機器閱讀理解領域的前沿實力;另一方面,大賽在極大地推動閱讀理解技術進步的同時,也將深思考這家以研發為主、不斷布局場景落地的創業型公司更多的展現在全世界面前。
  • Deepmind 最新閱讀理解數據集 NarrativeQA ,讓機器挑戰更複雜閱讀...
    雷鋒網按:自然語言處理始終是實現智能、自然人機互動願景裡一塊重要的技術基石。而機器閱讀理解則可以被視為是自然語言處理領域皇冠上的明珠,也是目前該領域的研究焦點之一。在這一領域,最有名的數據集是由史丹福大學自然語言計算組發起的 SQuAD(Stanford Question Answering Dataset)和相關的文本理解挑戰賽,它也被譽為「機器閱讀理解界的 ImageNet 」。而最近, Deepmind 發布了一個新的閱讀理解數據集 NarrativeQA,那麼這個數據集有什麼特點呢?一起來和雷鋒網了解一下。
  • 走進機器閱讀理解的世界,飛槳開源升級版 BiDAF模型解讀
    在重要的機器閱讀領域,基於DuReader數據集,飛槳升級並開源了一個經典的閱讀理解模型 —— BiDAF,相較於DuReader原始論文中的基線,在效果上有了大幅提升,驗證集上的ROUGE-L指標由原來的39.29提升至47.68,測試集上的ROUGE-L指標由原來的45.90提升至54.66。1.
  • AI機器閱讀理解已超越人類!
    主講人任教授個人簡介任教授領導的研究組在機器閱讀理解系統TriviaQA Leaderboard數據集上霸榜第一名已達一個月。此前史丹福大學的SQuAD競賽中,阿里、哈工大訊飛聯合實驗室等團隊先後超越了人類平均水平。此時不禁會問讓AI機器做閱讀理解,到底有什麼用?
  • 【ACL】深度融合模型KT-NET增強機器閱讀理解
    百度被收錄ACL編譯:楊一帆,孫靜正,劉博藝,數據挖掘組機器閱讀理解 (Machine Reading Comprehension)是指讓機器閱讀文本,然後回答和閱讀內容相關的問題。該技術可以使機器具備從文本數據中獲取知識並回答問題的能力,是構建通用人工智慧的關鍵技術之一,長期以來受到學術界和工業界的廣泛關注。近兩年,預訓練語言表示模型在機器閱讀理解任務上取得了突破性進展。通過在海量無標註文本數據上預訓練足夠深的網絡結構,當前最先進的語言表示模型能夠捕捉複雜的語言現象,更好地理解語言、回答問題。
  • OPPO獲中文機器閱讀理解挑戰賽DuReader 2019年度冠軍AI再突破
    近日,中文閱讀理解挑戰賽DuReader 2.0 頻繁刷新結果。截止到發稿前,OPPO參賽團隊以64.19的得分獲得2019年度冠軍的優異成績。OPPO在2019年度中文機器閱讀理解挑戰賽DuReader 2.0中奪得冠軍公開資料顯示,DuReader2.0 採用面向真實應用場景的數據集,是迄今為止規模最大的中文閱讀理解數據集之一,包含了超過30萬個問題、140萬個證據文檔和66萬個人工生成的答案。
  • OPPO獲中文機器閱讀理解挑戰賽DuReader 2019年度冠軍 AI領域再突破
    OPPO在2019年度中文機器閱讀理解挑戰賽DuReader2.0中奪得冠軍    公開資料顯示,DuReader2.0採用面向真實應用場景的數據集,是迄今為止規模最大的中文閱讀理解數據集之一在比賽中OPPO參賽團隊通過對任務多維度分析、對機器閱讀理解模型反覆對比試驗、進行大量細緻的數據處理、精益求精的模型調優和訓練,不斷克服技術難題,圍繞任務制定了一套完善的機器閱讀理解解決方案。    機器閱讀理解是人工智慧場景近幾年開始爆發的新興技術領域,體現的是人工智慧對文本信息獲取、理解和挖掘的能力,在對話、搜索、問答、同聲傳譯等領域有深遠的應用潛力。
  • 2017百度世界:開放BROAD數據集 促進AI創新
    優質的機器學習質量離不開其背後的數據集,而一個優質數據集的開放,將為更多技術提供學習養分。11月16日,在2017百度世界大會AI技術與平臺論壇上,百度3D視覺首席科學家楊睿剛宣布,推出百度AI公開數據集計劃——BROAD Baidu Research Open-Access Dataset,並宣布首批室外場景理解、視頻精彩片段、閱讀理解3個數據集即日起對公眾開放。