百度發起機器閱讀理解競賽,提供中文數據集,獲勝團隊獎10萬

2021-01-07 量子位

允中 發自 SSJQ

量子位 報導 | 公眾號 QbitAI

機器閱讀理解(中文版)技術競賽,現在可以報名了。

3月1日,由百度、中國中文信息學會(CIPS)、中國計算機學會(CCF)聯手舉辦的「2018機器閱讀理解技術競賽」正式開啟報名通道。

本次競賽,百度將提供面向真實應用場景迄今為止規模最大的中文閱讀理解數據集DuReader。

目前,世界機器閱讀理解領域經典賽事多集中在英文領域,比如由史丹福大學發起的SQuAD挑戰賽以及微軟的MS MARCO機器閱讀理解測試。

所以此次百度提供數據集並主辦競賽,無疑對中國AI從業者是件好事。

而且從數據集、任務和評判方面,也有參考意義。

數據集

DuReader中,包含了來自百度搜索的30萬個真實問題,每個問題對應5個候選文檔文本,以及人工撰寫的優質答案。

同時,數據集還標註了問題類型、實體和觀點等豐富信息。數據集將劃分為28萬的訓練集,1萬開發集和1萬測試集。該數據集中包含了去年11月百度首批發布的DuReader數據集中的20萬問題數據,參賽者可自由下載用於訓練和測試。本次競賽報名團隊還將獲得新增的10萬問題數據集。

任務

本次競賽的任務是對於給定問題q及其對應的文本形式的候選文檔集合D=d1, d2, …, dn,要求參評閱讀理解系統自動對問題及候選文檔進行分析,輸出能夠滿足問題的文本答案a。

為了便於參賽選手快速了解競賽任務,競賽還提供了兩個開源的閱讀理解基線系統,並採用ROUGH-L和BLEU作為評價指標,以ROUGH-L為主評價指標。

針對是非及實體類型問題,對ROUGE-L和BLEU4評價指標進行了微調,適當增加了正確識別是非答案類型及匹配實體的得分獎勵,一定程度上彌補傳統ROUGE-L和BLEU4指標對是非和實體類型問題評價不敏感的問題。

報名要求及獎勵

競賽官網及報名通道已正式開啟,任何團隊和個人都可以報名參加,獲勝團隊還將分享總額近10萬人民幣的獎金。

最後,如果從事AI相關研究的你已經心動,下面是傳送門:

報名地址及賽事詳情:http://mrc2018.cipsc.org.cn/

— 完 —

相關焦點

  • 2018機器閱讀理解技術競賽開始報名 百度提供中文閱讀理解數據集
    3月1日,由百度公司、中國中文信息學會(CIPS)、中國計算機學會(CCF)聯手舉辦的「2018機器閱讀理解技術競賽」正式開啟報名通道。本次競賽,百度將提供面向真實應用場景迄今為止規模最大的中文閱讀理解數據集DuReader。
  • 2018機器閱讀理解競賽獲獎名單出爐 百度數據集點亮行業創想
    近日,由中國中文信息學會(CIPS)、中國計算機學會(CCF)聯手百度公司共同舉辦的「2018機器閱讀理解技術競賽」 圓滿落幕。來自全球各地的1062支參賽隊伍,在百度提供的中文閱讀理解數據集基礎上,對測試問題進行不斷探索,使得參賽系統水平得到顯著提升。大賽更多信息可登錄2018機器閱讀理解技術競賽官網http://mrc2018.cipsc.org.cn/查看。
  • ACL2018: 百度閱讀理解技術新進展,讓機器讀懂文本
    閱讀理解是自然語言處理和人工智慧領域的重要前沿課題,對於提升機器智能水平、使機器具有持續知識獲取能力具有重要價值,近年來受到學術界和工業界的廣泛關注。隨著機器閱讀理解技術的發展,閱讀理解任務也在不斷升級,從早期的「完形填空形式」,發展到基於維基百科的「單文檔閱讀理解」,如以斯坦福 SQuAD 為數據集的任務。
  • EMNLP 2019 | 基於篇章片段抽取的中文閱讀理解數據集
    該論文提出了一種基於篇章片段抽取的中文閱讀理解數據集,也是由哈工大訊飛聯合實驗室承辦的第二屆「訊飛杯」中文機器閱讀理解評測(CMRC 2018)使用的數據。第二屆CCL「訊飛杯」中文機器閱讀理解評測研討會(CMRC 2018)由中國中文信息學會計算語言學專委會主辦,哈工大訊飛聯合實驗室承辦,科大訊飛股份有限公司冠名,於2018年10月19日在湖南長沙圓滿落幕。
  • 30 萬獎金海華 AI 挑戰賽 | 用機器挑戰中文閱讀理解
    為了進一步推動機器閱讀理解的發展,今年,中關村海華信息技術前沿研究院與清華大學交叉信息研究院聯合推出了《2021 海華AI挑戰賽·中文閱讀理解》大賽。相較於英文,中文閱讀理解有著更多的歧義性和多義性,然而璀璨的中華文明得以綿延數千年,離不開每一個時代裡努力鑽研、堅守傳承的人,這也正是本次大賽的魅力與挑戰:讓機器讀懂文字,讓機器學習文明。
  • 第二屆國際機器同傳評測開啟報名通道
    第二屆國際機器同傳研討會:https://autosimtrans.github.io全球報名通道:https://aistudio.baidu.com/aistudio/competition/detail/62本次挑戰賽設置了兩個語言方向、三個賽道同聲傳譯任務,提供大規模數據集及算力支持,所有參賽團隊/個人都可獲得百度、華為、
  • 京東AI研究院獲QuAC機器閱讀理解競賽冠軍,模型能力業界領先
    機器之心發布機器之心編輯部近日,在史丹福大學、華盛頓大學、Allen AI 和 UMass 聯合發起的機器閱讀理解(QuAC[1] (Choi et al., 2018))比賽上,京東 AI 研究院語音語言實驗室提出的 EL-QA 模型(Single
  • 30萬獎金海華AI挑戰賽 | 用機器挑戰中文閱讀理解
    為了進一步推動機器閱讀理解的發展,今年,中關村海華信息技術前沿研究院與清華大學交叉信息研究院聯合推出了《2021 海華AI挑戰賽·中文閱讀理解》大賽。[1]Ricardson 等人在 2013 年發表的 MCTest 是較早的閱讀理解數據集。[2] 它的總體形式和英語考試中的閱讀理解單項選擇題很像,一段用於提供信息的文本,加上 4 道包含 1 個正確選項和 3 個合理錯誤選項的問題。
  • 百度聯合發布全球最大中文自然語言處理數據共建計劃「千言」
    來源:證券時報網在8月25日舉行的百度大腦語言與知識技術峰會上,百度集團副總裁吳甜和百度技術委員會主席吳華分別發布百度語言與知識技術系列產品和數據集共建計劃,推出5款產品的新發布,全面加速AI技術大規模應用。
  • 思必馳在中文機器閱讀理解公開評測中取得階段性進展
    日前,注重源頭基礎創新的思必馳,其知識服務團隊在多個中文機器閱讀理解公開評測中取得階段性進展。此前,該團隊還入選姑蘇重大創新團隊。  機器閱讀理解(Machine Reading Comprehension)是自然語言處理和人工智慧領域的重要前沿課題,旨在讓機器閱讀並理解非結構化的文本,可以準確地回答和文本內容相關的任何問題。
  • 2017百度世界:開放BROAD數據集 促進AI創新
    優質的機器學習質量離不開其背後的數據集,而一個優質數據集的開放,將為更多技術提供學習養分。11月16日,在2017百度世界大會AI技術與平臺論壇上,百度3D視覺首席科學家楊睿剛宣布,推出百度AI公開數據集計劃——BROAD Baidu Research Open-Access Dataset,並宣布首批室外場景理解、視頻精彩片段、閱讀理解3個數據集即日起對公眾開放。
  • Deepmind 最新閱讀理解數據集 NarrativeQA ,讓機器挑戰更複雜閱讀...
    而機器閱讀理解則可以被視為是自然語言處理領域皇冠上的明珠,也是目前該領域的研究焦點之一。在這一領域,最有名的數據集是由史丹福大學自然語言計算組發起的 SQuAD(Stanford Question Answering Dataset)和相關的文本理解挑戰賽,它也被譽為「機器閱讀理解界的 ImageNet 」。
  • OPPO獲中文機器閱讀理解挑戰賽DuReader 2019年度冠軍 AI領域再突破
    近日,中文閱讀理解挑戰賽DuReader2.0 頻繁刷新結果。截止到發稿前,OPPO參賽團隊以64.19的得分獲得2019年度冠軍的優異成績。OPPO在2019年度中文機器閱讀理解挑戰賽DuReader2.0中奪得冠軍    公開資料顯示,DuReader2.0採用面向真實應用場景的數據集,是迄今為止規模最大的中文閱讀理解數據集之一
  • OPPO獲中文機器閱讀理解挑戰賽DuReader 2019年度冠軍AI再突破
    近日,中文閱讀理解挑戰賽DuReader 2.0 頻繁刷新結果。截止到發稿前,OPPO參賽團隊以64.19的得分獲得2019年度冠軍的優異成績。OPPO在2019年度中文機器閱讀理解挑戰賽DuReader 2.0中奪得冠軍公開資料顯示,DuReader2.0 採用面向真實應用場景的數據集,是迄今為止規模最大的中文閱讀理解數據集之一,包含了超過30萬個問題、140萬個證據文檔和66萬個人工生成的答案。
  • 三分熟博士生の閱讀理解與問答數據集 | 論文集精選 #03
    Characteristic-rich 指數據集提供了問題在下列維度的信息,使得研究者可以對問答系統進行細粒度的分析, 找到研究工作的前進方向:關係複雜度(Structure Complexity),普遍程度(Commonness),函數(Function),多重釋義(Paraphrasing),答案候選數(Answer Cardinality)。
  • DeepMind視頻行為分類競賽,百度IDL獲第一,新算法披露 | 百度開發者中心
    其中,來自百度深度學習實驗室(IDL)的Genome團隊獲得子命題、由DeepMind主辦的「Kinetics行為分類比賽」第一名,香港中文大學獲得第二名,德國創業公司TwentyBN獲得第三名。本文將具體介紹在ActivityNet Kinetics競賽排名第一的視頻識別任務解決方案。作為重要的內容載體,視頻已經成為信息獲取的重要來源之一。
  • 機器閱讀理解簡述
    閱讀理解大致可以分為四個任務,即填空型閱讀理解任務、選擇型閱讀理解任務、片段抽取型閱讀理解任務以及自由格式閱讀理解任務。隨著以BERT為代表的預訓練模型的發展,四種閱讀理解任務都有著飛速的發展,主要體現為從關注限定文本到結合外部知識,從關注特定片段到對上下文的全面理解。本文對上述幾種主流的機器閱讀理解任務從任務描述、相關數據集、解決方法等幾方面逐一展開介紹。1.
  • 中文NLP熱點|AMBERT模型在CLUE等數據集上獲卓越表現
    它包含八個不同的任務,包括單句分類、句子對分類和機器閱讀理解,團隊評估了CLUE現有的一些全網絡的中文預訓練模型,還包括一個小的手工製作的診斷測試集,使用不同的模型去探索特定的語言現象(其中一些是中國特有的)。項目還提供一個大型的乾淨原始的原始文本語料庫,可用於模型預訓練,在Github上發布的CLUE、基線、預訓練數據集可以為大家提供一個可以訓練中文模型的語言數據集。
  • 百度人工智慧開源大賽即將開啟
    在此背景之下,百度將於2020中國人工智慧產業發展聯盟開發者大會(以下簡稱:2020AIIA開發者大會)的預熱賽事中,聚焦於預測答案段落摘要中所表述的是非觀點極性,舉辦百度人工智慧開源大賽。本次大賽旨在為研究者和開發者提供學術和技術交流的平臺,鼓勵初創企業、企業開發者、高校科研人員及學生進一步提升機器閱讀理解的研究水平,推動語言理解和人工智慧領域技術和應用的發展。
  • Kaggle發起CORD-19數據集文本挖掘競賽
    近日,艾倫AI研究所等頂級研究小組發布了免費的COVID-19開放研究數據集,涵蓋目前所有的冠狀病毒研究文獻,Kaggle緊跟著發起CORD-19數據集文本挖掘競賽,提出10大難題,召喚AI研究人員開發文本數據挖掘工具助力醫學界。「新智元急聘主筆、編輯、運營經理、客戶經理,添加HR微信(Dr-wly)或掃描文末二維碼了解詳情。」