3月1日,由百度公司、中國中文信息學會(CIPS)、中國計算機學會(CCF)聯手舉辦的「2018機器閱讀理解技術競賽」正式開啟報名通道。
本次競賽,百度將提供面向真實應用場景迄今為止規模最大的中文閱讀理解數據集DuReader。競賽官網及報名通道已正式開啟(http://mrc2018.cipsc.org.cn/),任何團隊和個人都可以報名參加,獲勝團隊還將分享總額近10萬人民幣的獎金。
為什麼舉辦本次競賽?
閱讀不僅是人類獲取知識、提高心智的重要途徑,對於機器而言,擁有閱讀能力同樣也能夠實現持續學習和進化。機器閱讀理解讓機器閱讀文本,然後回答和閱讀內容相關的問題,其中涉及到的理解、推理、摘要等複雜技術,對機器而言頗具挑戰。
該任務的研究對於智能搜索、智能推薦、智能交互等人工智慧應用具有重要意義,是自然語言處理和人工智慧領域的重要前沿課題。這也是百度聯合舉辦2018機器閱讀理解技術競賽的重要原因。
百度將為參賽者提供迄今為止規模最大的數據集
為了給予參賽者最大力度支持,本次競賽將提供面向真實應用場景的大規模中文閱讀理解數據集 DuReader,包含來自百度搜索的30萬個真實問題,每個問題對應5個候選文檔文本,以及人工撰寫的優質答案。
同時,數據集還標註了問題類型、實體和觀點等豐富信息。數據集將劃分為28萬的訓練集,1萬開發集和1萬測試集。該數據集中包含了去年11月百度首批發布的 DuReader 數據集中的20萬問題數據,參賽者可自由下載用於訓練和測試。本次競賽報名團隊還將獲得新增的10萬問題數據集。
DuReader 是迄今為止最大的面向真實需求的中文閱讀理解數據集,將為此次參賽的研究者提供有力支撐。
據悉,本次競賽的任務是對於給定問題q及其對應的文本形式的候選文檔集合D=d1, d2, ..., dn,要求參評閱讀理解系統自動對問題及候選文檔進行分析,輸出能夠滿足問題的文本答案a。為了便於參賽選手快速了解競賽任務,競賽還提供了兩個開源的閱讀理解基線系統,並採用 ROUGH-L 和 BLEU 作為評價指標。
百度擁有最前沿、最全面、最領先的自然語言處理技術布局
百度在自然語言處理(NLP)領域已經過十餘年積累與沉澱,具備了最前沿、最全面、最領先的技術布局,不僅專注於前瞻技術探索,更致力通過技術應用解決實際問題。
在剛剛過去的春節假期中,百度 NLP 團隊研發的 V-Net 模型以46.15的 Rouge-L 得分登上微軟 MS MARCO 機器閱讀理解測試排行榜首。對此,微軟 MARCO 官方 twitter 也發文表示祝賀。
值得一提的是,此次百度只憑藉單模型(single model)就拿到了第一名,並沒有提交更容易拿高分的多模型集成(ensemble)結果。
可預見的未來:崛起的中文領域機器閱讀理解
目前,世界機器閱讀理解領域經典賽事多集中在英文領域,比如由史丹福大學發起的 SQuAD 挑戰賽以及微軟的 MSMARCO 機器閱讀理解測試,而基於百度 DuReader 的2018機器閱讀理解技術競賽無疑將成為中文機器閱讀理解領域的一大盛事。
此次百度與 CIPS、CCF 聯合舉辦2018機器閱讀理解技術競賽並開放數據集,旨在進一步提升機器閱讀理解技術的研究水平,並希望研究者能夠利用數據集產出更好更優質的機器閱讀理解模型,推動語言理解和人工智慧領域技術研究和應用的發展。