允中 發自 SSJQ
量子位 報導 | 公眾號 QbitAI
機器閱讀理解(中文版)技術競賽,現在可以報名了。
3月1日,由百度、中國中文信息學會(CIPS)、中國計算機學會(CCF)聯手舉辦的「2018機器閱讀理解技術競賽」正式開啟報名通道。
本次競賽,百度將提供面向真實應用場景迄今為止規模最大的中文閱讀理解數據集DuReader。
目前,世界機器閱讀理解領域經典賽事多集中在英文領域,比如由史丹福大學發起的SQuAD挑戰賽以及微軟的MS MARCO機器閱讀理解測試。
所以此次百度提供數據集並主辦競賽,無疑對中國AI從業者是件好事。
而且從數據集、任務和評判方面,也有參考意義。
數據集
DuReader中,包含了來自百度搜索的30萬個真實問題,每個問題對應5個候選文檔文本,以及人工撰寫的優質答案。
同時,數據集還標註了問題類型、實體和觀點等豐富信息。數據集將劃分為28萬的訓練集,1萬開發集和1萬測試集。該數據集中包含了去年11月百度首批發布的DuReader數據集中的20萬問題數據,參賽者可自由下載用於訓練和測試。本次競賽報名團隊還將獲得新增的10萬問題數據集。
任務
本次競賽的任務是對於給定問題q及其對應的文本形式的候選文檔集合D=d1, d2, …, dn,要求參評閱讀理解系統自動對問題及候選文檔進行分析,輸出能夠滿足問題的文本答案a。
為了便於參賽選手快速了解競賽任務,競賽還提供了兩個開源的閱讀理解基線系統,並採用ROUGH-L和BLEU作為評價指標,以ROUGH-L為主評價指標。
針對是非及實體類型問題,對ROUGE-L和BLEU4評價指標進行了微調,適當增加了正確識別是非答案類型及匹配實體的得分獎勵,一定程度上彌補傳統ROUGE-L和BLEU4指標對是非和實體類型問題評價不敏感的問題。
報名要求及獎勵
競賽官網及報名通道已正式開啟,任何團隊和個人都可以報名參加,獲勝團隊還將分享總額近10萬人民幣的獎金。
最後,如果從事AI相關研究的你已經心動,下面是傳送門:
報名地址及賽事詳情:http://mrc2018.cipsc.org.cn/
— 完 —