2018機器閱讀理解技術競賽開始報名 百度提供中文閱讀理解數據集

2021-01-09 百度AI

3月1日,由百度公司、中國中文信息學會(CIPS)、中國計算機學會(CCF)聯手舉辦的「2018機器閱讀理解技術競賽」正式開啟報名通道。

本次競賽,百度將提供面向真實應用場景迄今為止規模最大的中文閱讀理解數據集DuReader。競賽官網及報名通道已正式開啟(http://mrc2018.cipsc.org.cn/),任何團隊和個人都可以報名參加,獲勝團隊還將分享總額近10萬人民幣的獎金。

為什麼舉辦本次競賽?

閱讀不僅是人類獲取知識、提高心智的重要途徑,對於機器而言,擁有閱讀能力同樣也能夠實現持續學習和進化。機器閱讀理解讓機器閱讀文本,然後回答和閱讀內容相關的問題,其中涉及到的理解、推理、摘要等複雜技術,對機器而言頗具挑戰。

該任務的研究對於智能搜索、智能推薦、智能交互等人工智慧應用具有重要意義,是自然語言處理和人工智慧領域的重要前沿課題。這也是百度聯合舉辦2018機器閱讀理解技術競賽的重要原因。

百度將為參賽者提供迄今為止規模最大的數據集

為了給予參賽者最大力度支持,本次競賽將提供面向真實應用場景的大規模中文閱讀理解數據集 DuReader,包含來自百度搜索的30萬個真實問題,每個問題對應5個候選文檔文本,以及人工撰寫的優質答案。

同時,數據集還標註了問題類型、實體和觀點等豐富信息。數據集將劃分為28萬的訓練集,1萬開發集和1萬測試集。該數據集中包含了去年11月百度首批發布的 DuReader 數據集中的20萬問題數據,參賽者可自由下載用於訓練和測試。本次競賽報名團隊還將獲得新增的10萬問題數據集。

DuReader 是迄今為止最大的面向真實需求的中文閱讀理解數據集,將為此次參賽的研究者提供有力支撐。

據悉,本次競賽的任務是對於給定問題q及其對應的文本形式的候選文檔集合D=d1, d2, ..., dn,要求參評閱讀理解系統自動對問題及候選文檔進行分析,輸出能夠滿足問題的文本答案a。為了便於參賽選手快速了解競賽任務,競賽還提供了兩個開源的閱讀理解基線系統,並採用 ROUGH-L 和 BLEU 作為評價指標。

百度擁有最前沿、最全面、最領先的自然語言處理技術布局

百度在自然語言處理(NLP)領域已經過十餘年積累與沉澱,具備了最前沿、最全面、最領先的技術布局,不僅專注於前瞻技術探索,更致力通過技術應用解決實際問題。

在剛剛過去的春節假期中,百度 NLP 團隊研發的 V-Net 模型以46.15的 Rouge-L 得分登上微軟 MS MARCO 機器閱讀理解測試排行榜首。對此,微軟 MARCO 官方 twitter 也發文表示祝賀。

值得一提的是,此次百度只憑藉單模型(single model)就拿到了第一名,並沒有提交更容易拿高分的多模型集成(ensemble)結果。

可預見的未來:崛起的中文領域機器閱讀理解

目前,世界機器閱讀理解領域經典賽事多集中在英文領域,比如由史丹福大學發起的 SQuAD 挑戰賽以及微軟的 MSMARCO 機器閱讀理解測試,而基於百度 DuReader 的2018機器閱讀理解技術競賽無疑將成為中文機器閱讀理解領域的一大盛事。

此次百度與 CIPS、CCF 聯合舉辦2018機器閱讀理解技術競賽並開放數據集,旨在進一步提升機器閱讀理解技術的研究水平,並希望研究者能夠利用數據集產出更好更優質的機器閱讀理解模型,推動語言理解和人工智慧領域技術研究和應用的發展。

相關焦點

  • 百度發起機器閱讀理解競賽,提供中文數據集,獲勝團隊獎10萬
    允中 發自 SSJQ 量子位 報導 | 公眾號 QbitAI機器閱讀理解(中文版)技術競賽,現在可以報名了。3月1日,由百度、中國中文信息學會(CIPS)、中國計算機學會(CCF)聯手舉辦的「2018機器閱讀理解技術競賽」正式開啟報名通道。
  • 搜狗開源業內最全「閱讀理解工具集合」,助力研發人員快速構建高效...
    例如搜索「搜狗的吉祥物是什麼」,搜尋引擎就會反饋如下:這其中所利用到的技術便是「機器閱讀理解」。 近年來,由於神經網絡的復興和大規模數據集的可訪問,閱讀理解的研究取得了很大的進展,相繼湧現出許多優秀的機器閱讀理解模型。
  • 騰訊雲小微&騰訊雲TI-ONE聯合團隊獲RACE 數據集深層閱讀理解冠軍
    【天極網IT新聞頻道】近日,騰訊雲小微及騰訊雲TI-ONE聯合團隊在大型深層閱讀理解任務數據集 RACE 數據集(ReAding Comprehension dataset collected from English Examinations)上登頂第一。
  • 機器之心獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類
    為此,機器之心專訪百度自然語言處理部技術負責人吳華、高級總監吳甜,就神經網絡機器翻譯系統的優缺點、如何獲得高質量訓練數據及百度翻譯目前進展展開話題。同時也藉此機會了解百度自然語言處理部及其開展的 NLP 技術研發工作。以下為採訪內容整理,以饗讀者。NMT、SMT 的優與缺機器之心:能請您先介紹一下百度 NLP 部門嗎?
  • 考拉閱讀完成2000萬美元B輪融資,用AI技術自研中文分級閱讀系統
    此次融資將主要用於考拉閱讀原創「中文分級閱讀系統ER Framework」的優化升級、優質閱讀內容的生產聚合及市場規模的擴大。考拉閱讀創始人、CEO趙梓淳強調:「考拉閱讀完成本輪融資後,一方面將繼續加大在技術和研發上的投入,推進與高校等研究機構的進一步合作;另一方面則會持續加大市場投入,開展中學市場的推進,保持公司在中文分級閱讀領域的絕對領先優勢。」
  • 機器學習解鎖古日本時代!KuroNet輕鬆閱讀古草體
    但是,這些模型的識別精度還有待提高,這是因為光學字符識別(OCR)體系沒有很多識別日本歷史文獻的經驗,以及缺乏高質量的標準化數據集。OCR研究人員曾試圖自己創建訓練數據集。但是,由於自創數據集的字符數非常有限,因此在對所有字符範圍進行識別時,模型性能很差。
  • 2018石家莊小升初英語備考指南:英語閱讀理解21
    2018石家莊小升初英語備考指南:英語閱讀理解21   二、什麼是sight word?對閱讀有什麼幫助?   sight word,顧名思義,就是指「一sight(看見),就能馬上拼讀出來的單詞」。熟悉這些單詞的作用在於,它們是常見詞,而且其中有些不符合發音規律,無法通過自然拼音正確讀出來。
  • 如何理解閱讀的「點線面」?
    那怎麼理解呢?在大多數人談論閱讀當中,很多人都知道讀書的核心「為我所用」。很多人讀書不僅僅是培養閱讀興趣而形成習慣。更多時候,它是為了解決自己的某一個問題,看我可不可以通過讀這本書找到方法,解決正在困擾我的問題。
  • 英語六級閱讀理解高頻詞組
    英語六級閱讀理解各位考生在備考的時候需要找到適合的複習資料,那麼今天環球青藤小編就來給大家說一說英語六級閱讀理解高頻詞組有哪些,希望能給各位考生帶來幫助,祝願各位考生都能取得滿意的成績。英語六級閱讀理解高頻詞組:out of doors 在戶外face to face 面對面地a few 有些,幾個quite a few 不少,相當多a little 一點,一些
  • 2018石家莊小升初英語備考指南:英語閱讀理解20
    2018石家莊小升初英語備考指南:英語閱讀理解20   四、支招:提高英語閱讀能力的四大方法   英語閱讀題是在英語考試中佔分非常大的一塊!如果你希望能夠趁著寒假提高英語閱讀能力,以下的一些方法也許能夠幫助你哦!!
  • 考研英語閱讀理解部分複習要點
    考研英語閱讀理解部分是4篇閱讀,每篇5道題,總分值是40分。那麼重要性也是不言而喻的,那麼今天環球青藤小編就來給大家說一說考研英語閱讀理解部分複習要點,希望能給各位考生帶來幫助,祝願各位考生都能取得滿意的成績。
  • 高考英語閱讀理解小竅門 教你迅速提升閱讀理解成績
    高考英語閱讀理解小竅門 教你迅速提升閱讀理解成績很多學生在學習英語的過程中被英語閱讀理解難住,不知道怎麼才能提高英語閱讀理解能力,下面有途網小編為大家提供一些高考高考英語閱讀理解小竅門,教你迅速提升閱讀理解成績。高考閱讀理解的解題技巧第一,掃描提幹,劃關鍵項。
  • 百度機器翻譯獲獎 與166項技術共獲進步獎二等獎
    1月8日,國家科技獎勵大會在北京人民大會堂隆重舉行,百度機器翻譯獲獎。今年,國家科學技術進步獎共評選出187項。百度機器翻譯與其他166項技術共獲進步獎二等獎。1947年,機器翻譯步入歷史舞臺,但多年來機器翻譯卻一直處在象牙塔中。百度與多家機構共同研發,最終突破了機器翻譯領域內的四大技術難題。
  • 小學必備知識點:說明文的閱讀理解
    基礎知識、閱讀與作文是語文考試的三大塊,其中閱讀理解佔比很大,也很容易丟分。做好閱讀理解題,可以幫助孩子在語文考試中保持出色的成績,與其他考生拉開差距。閱讀理解的答題很有技巧, 今天就讓我們一起學學吧!
  • 首屆中國人工智慧·多媒體信息識別技術競賽報名進入倒計時
    美亞柏科信息股份有限公司 供圖據悉,針對此次競賽方式,組委會前期廣泛徵求了業內有關專家、企業和科研單位的意見,秉持「公開、公平、公正」原則,力求體現前瞻性和技術引領性,兼顧了學術性和實用性。截至4月11日,已有中科院自動化所、復旦大學、中國科學院大學等科研院所,百度、奇虎360、科大訊飛等知名企業,共計240餘家單位、團隊報名參賽。
  • 亞太地區學術頂會AACL2020如期而至 百度頻頻「現身」發揮重要助力
    會議匯集來自學界、業界的百餘位自然語言處理領域的專家大咖,圍繞語義表示與理解、知識圖譜、對話系統、信息抽取與文本挖掘、機器翻譯等前沿技術方向進行了深入交流與探討。國際計算語言學協會亞太分會 AACL 於2018年成立,是國際計算語言學協會 ACL(Association for Computational Linguistics)旗下三大區域性分會之一,由百度 CTO、ACL 前任主席王海峰出任創始主席,旨在進一步促進亞太地區 NLP 相關技術研究的發展。
  • 想入門機器學習?機器之心為你準備了一份中文資源合集
    機器之心也介紹過許多數學基礎與概念:基礎入門:深度學習矩陣運算的概念和代碼實現想了解概率圖模型?你要先理解圖論的基本定義與形式深度神經網絡中的數學,對你來說會不會太難?Reddit 熱門話題:如何閱讀並理解論文中的數學內容?
  • 閱讀理解01
    在閱讀理解做題的時候,如果不認識這個單詞,就把他當作牙齒來理解。鯨鬚。(解題技巧)  The baleen grows in long strips. It works like a big strainer.
  • 自然語言處理學術會議AACL線上召開 聚焦亞太地區NLP技術進展
    會議匯集來自學界、業界的百餘位自然語言處理領域的專家大咖,圍繞語義表示與理解、知識圖譜、對話系統、信息抽取與文本挖掘、機器翻譯等前沿技術方向進行了深入交流與探討。國際計算語言學協會亞太分會AACL於2018年成立,是國際計算語言學協會ACL(Association for Computational Linguistics)旗下三大區域性分會之一,由百度CTO、ACL前任主席王海峰出任創始主席,旨在進一步促進亞太地區NLP相關技術研究的發展。
  • 高中英語閱讀理解100篇:高考英語閱讀理解題目附答案(1)
    新東方網>英語>英語學習>高中英語>正文高中英語閱讀理解100篇:高考英語閱讀理解題目附答案(1) 2019-01-16 11:25 來源:新東方網整理 作者: