思必馳在中文機器閱讀理解公開評測中取得階段性進展

2020-12-27 CTI論壇

  日前,注重源頭基礎創新的思必馳,其知識服務團隊在多個中文機器閱讀理解公開評測中取得階段性進展。此前,該團隊還入選姑蘇重大創新團隊。

  機器閱讀理解(Machine Reading Comprehension)是自然語言處理和人工智慧領域的重要前沿課題,旨在讓機器閱讀並理解非結構化的文本,可以準確地回答和文本內容相關的任何問題。

  機器閱讀理解對於提升機器的智能水平、使機器具有持續知識獲取的能力、挖掘海量文本信息等具有重要價值,近年來受到學術界和工業界的廣泛關注。

  同時,機器閱讀理解也是自動問答系統的一個重要手段。相比基於結構化知識源(比如資料庫、知識圖譜等)的自動問答,機器閱讀理解可以大大減少結構化知識源的構建成本、降低自動問答系統使用成本,有助於最大程度地釋放海量非結構化文本蘊含的信息。

  近期,思必馳知識服務團隊也在中文機器閱讀理解方向投入研究,並在多個中文機器閱讀理解公開評測中取得階段性進展:

  1)在CMRC2018公開評測[1]中暫列第一,並在需要多線索聯合推理的挑戰集(Challengeset)上取得明顯性能提升;

  2)在「千言數據集:閱讀理解」公開評測[2]的兩個子任務(DuReader_robust和DuReader_yesno)上均暫列第一。

  針對中文機器閱讀理解的魯棒性和泛化性問題,思必馳知識服務團隊在以下幾個方面開展了技術研究:

  1)中文預訓練語言模型的預訓練與微調;

  2)中文機器閱讀理解領域自適應訓練;

  3)目標應用領域導向的多階段模型微調等。

  相關技術實現在上述公開評測中得到了應用和驗證。

  語言智能常被稱為人工智慧皇冠上的一顆明珠。在未來,思必馳知識服務團隊將繼續深耕語言理解領域,打造輕量、便攜且精準的機器閱讀理解系統,推動機器閱讀理解在真實場景的落地和應用。

  參考文獻:

  [1]CMRC2018公開評測,https://ymcui.github.io/cmrc2018/。

  [2]千言數據集:閱讀理解公開評測,https://aistudio.baidu.com/aistudio/competition/detail/49.

相關焦點

  • 思必馳在中文文本相似度計算任務上的探索與進展
    近期,思必馳知識服務團隊在中文文本相似度計算方向投入研究,並取得階段性成果:1)在第十四屆全國知識圖譜與語義計算大會(CCKS: China Conference on Knowledge Graph and Semantic Computing)[1]上發表相關論文一篇《Neural Fusion Model for Chinese Semantic Matching》
  • ACL2018: 百度閱讀理解技術新進展,讓機器讀懂文本
    機器閱讀理解(Machine Reading Comprehension)是指讓機器閱讀文本,然後回答和閱讀內容相關的問題。其技術可以使計算機具備從文本數據中獲取知識並回答問題的能力,是構建通用人工智慧的關鍵技術之一。簡單來說,就是根據給定材料和問題,讓機器給出正確答案。
  • 科大訊飛機器閱讀理解技術再次登頂SQuAD挑戰賽
    科大訊飛執行總裁胡鬱在2017發布會上介紹智能車載系統中閱讀技術的應用科大訊飛不僅在SQuAD挑戰賽持續發力,也關注並積極推動中文信息處理的研究發展。2017年,科大訊飛攜手中國中文信息學會計算語言學專業委員會(CIPS-CL)承辦了第一屆「訊飛杯」中文機器閱讀理解評測(CMRC2017),發布了相關中文閱讀理解數據集。
  • 「蒙漢在線機器翻譯系統」 取得階段性成果
    會上,該項目主要技術開發人烏格德勒博士對項目的階段性成果「蒙漢在線機器翻譯系統」進行了現場演示,並闡述了系統的相關技術。他表示,該系統相比較以往的機器翻譯系統翻譯質量大大提高,且基於神經網絡的技術是該系統的一大突破。
  • 哈工大訊飛聯合實驗室榮登多步推理閱讀理解評測HotpotQA榜首
    傳統的閱讀理解數據集只需要理解單個篇章中與問題相關的某個特定篇章片段即可得到答案。而多步推理閱讀理解評測HotpotQA不僅將模型需要「讀」的文本範圍擴展到了多個篇章段落,同時要從多個篇章中篩選出與問題相關的篇章,並進一步要求模型能夠對佐證篇章中所敘述事物的邏輯關係構建兩步及以上的推理鏈,因而更具有挑戰性。
  • EMNLP 2019 | 基於篇章片段抽取的中文閱讀理解數據集
    該論文提出了一種基於篇章片段抽取的中文閱讀理解數據集,也是由哈工大訊飛聯合實驗室承辦的第二屆「訊飛杯」中文機器閱讀理解評測(CMRC 2018)使用的數據。第二屆CCL「訊飛杯」中文機器閱讀理解評測研討會(CMRC 2018)由中國中文信息學會計算語言學專委會主辦,哈工大訊飛聯合實驗室承辦,科大訊飛股份有限公司冠名,於2018年10月19日在湖南長沙圓滿落幕。
  • 2018機器閱讀理解競賽獲獎名單出爐 百度數據集點亮行業創想
    近日,由中國中文信息學會(CIPS)、中國計算機學會(CCF)聯手百度公司共同舉辦的「2018機器閱讀理解技術競賽」 圓滿落幕。來自全球各地的1062支參賽隊伍,在百度提供的中文閱讀理解數據集基礎上,對測試問題進行不斷探索,使得參賽系統水平得到顯著提升。大賽更多信息可登錄2018機器閱讀理解技術競賽官網http://mrc2018.cipsc.org.cn/查看。
  • 30 萬獎金海華 AI 挑戰賽 | 用機器挑戰中文閱讀理解
    然而,直到今天,機器閱讀理解仍然是整個人工智慧領域最富挑戰的課題之一,主要的難點包括自然語言的多義性、創新性,以及理解自然語言所需的人類常識、知識和推理能力等。同時,機器閱讀理解作為自然語言處理和人工智慧領域的前沿課題,具有極強的應用價值:該技術可以幫助人類從大量文本中快速聚焦相關信息,降低人工信息獲取成本,在文本問答、信息抽取、對話系統等領域已有廣泛應用。
  • 30萬獎金海華AI挑戰賽 | 用機器挑戰中文閱讀理解
    在讀中學小學的時候,我們都沒少為語文考試中的閱讀理解題目傷腦筋。這些題目在考驗我們對語言是否有準確、深入的理解。所以,這樣的題目也是我們測試計算機模型的重要手段。因此,自自然語言處理出現之時起,機器閱讀理解也就成了最重要的任務之一。和面向學生的語文考試類似,這項任務要求機器閱讀並理解一段或一篇文字,並在此基礎上,回答與文字相關的問題。
  • 思必馳俞凱:DUI,邁向個性化人工智慧
    思必馳聯合創始人、首席科學家俞凱本次會議上,AIIA重磅發布了「智能化分級:自然語言處理產品評測結果」和「人工智慧產品和服務可信評估評測結果」。「思必馳中文語音識別系統」獲得《中文語音識別基礎服務評估證書》;「思必馳會話精靈」獲得《智能對話系統等級評估證書》;「思必馳智能客服V3.0」分別獲得《智能客服(語音客服)系統功能等級評估證書》和《智能客服(語音客服)系統性能等級評估證書》。
  • 2018機器閱讀理解技術競賽開始報名 百度提供中文閱讀理解數據集
    3月1日,由百度公司、中國中文信息學會(CIPS)、中國計算機學會(CCF)聯手舉辦的「2018機器閱讀理解技術競賽」正式開啟報名通道。本次競賽,百度將提供面向真實應用場景迄今為止規模最大的中文閱讀理解數據集DuReader。
  • OPPO獲中文機器閱讀理解挑戰賽DuReader 2019年度冠軍 AI領域再突破
    OPPO在2019年度中文機器閱讀理解挑戰賽DuReader2.0中奪得冠軍    公開資料顯示,DuReader2.0採用面向真實應用場景的數據集,是迄今為止規模最大的中文閱讀理解數據集之一在比賽中OPPO參賽團隊通過對任務多維度分析、對機器閱讀理解模型反覆對比試驗、進行大量細緻的數據處理、精益求精的模型調優和訓練,不斷克服技術難題,圍繞任務制定了一套完善的機器閱讀理解解決方案。    機器閱讀理解是人工智慧場景近幾年開始爆發的新興技術領域,體現的是人工智慧對文本信息獲取、理解和挖掘的能力,在對話、搜索、問答、同聲傳譯等領域有深遠的應用潛力。
  • 機器閱讀理解快速迭代,人機互動場景持續落地
    近日,由中國計算機學會、中國中文信息學會和百度公司聯合舉辦的「2019機器閱讀理解競賽」完美落幕。經過全球2502個團隊長達2個月的激烈角逐,深思考人工智慧在兩項評測指標中均登頂榜首。值得一提的是,在2018年的「機器閱讀理解大賽」中,深思考人工智慧同樣在1600多支國內外參賽隊伍中脫穎而出,排名第三,獲全球大獎。此番再奪大賽桂冠,一方面證明了深思考在全球機器閱讀理解領域的前沿實力;另一方面,大賽在極大地推動閱讀理解技術進步的同時,也將深思考這家以研發為主、不斷布局場景落地的創業型公司更多的展現在全世界面前。
  • 深思考大腦4.0發布 中文語義理解權威賽事連獲冠軍大獎
    那麼在人工智慧中文語義理解NLP/NLU和人機互動領域眾多企業中,技術最高水平究竟是哪家呢?中文語義理解權威賽事蟬聯冠軍SMP2018-ECDT由中國中文信息學會(人工智慧自然語義理解、自然語言處理最權威學會)主辦,旨在評測中文語義理解與人機互動的最高水平,推動人機對話技術在學術界和產業界的發展。
  • OPPO獲中文機器閱讀理解挑戰賽DuReader 2019年度冠軍AI再突破
    近日,中文閱讀理解挑戰賽DuReader 2.0 頻繁刷新結果。截止到發稿前,OPPO參賽團隊以64.19的得分獲得2019年度冠軍的優異成績。OPPO在2019年度中文機器閱讀理解挑戰賽DuReader 2.0中奪得冠軍公開資料顯示,DuReader2.0 採用面向真實應用場景的數據集,是迄今為止規模最大的中文閱讀理解數據集之一,包含了超過30萬個問題、140萬個證據文檔和66萬個人工生成的答案。
  • 【ACL】深度融合模型KT-NET增強機器閱讀理解
    百度被收錄ACL編譯:楊一帆,孫靜正,劉博藝,數據挖掘組機器閱讀理解 (Machine Reading Comprehension)是指讓機器閱讀文本,然後回答和閱讀內容相關的問題。該技術可以使機器具備從文本數據中獲取知識並回答問題的能力,是構建通用人工智慧的關鍵技術之一,長期以來受到學術界和工業界的廣泛關注。近兩年,預訓練語言表示模型在機器閱讀理解任務上取得了突破性進展。通過在海量無標註文本數據上預訓練足夠深的網絡結構,當前最先進的語言表示模型能夠捕捉複雜的語言現象,更好地理解語言、回答問題。
  • 走進機器閱讀理解的世界,飛槳開源升級版 BiDAF模型解讀
    教會機器學會閱讀理解是自然語言處理(NLP)中的核心任務之一,也是機器真正智能化的體現。在機器閱讀理解任務中,我們會給定一個問題(Q)以及一個或多個段落(P)/文檔(D),然後利用機器在給定的段落中尋找正確答案(A),即Q + P or D => A。
  • 科大訊飛認知智能持續突破,機器閱讀理解SQuAD測試勇奪第一!
    參賽者來自全球學術界和產業界的研究團隊,包括微軟亞洲研究院、艾倫研究院、IBM、Salesforce、Facebook、谷歌以及卡內基·梅隆大學、史丹福大學等知名企業研究機構和高校,賽事對自然語言理解的進步有重要的推動作用。閱讀理解是人類考試中必不可少的項目之一,對於機器,又該怎樣去作答和評判呢?
  • 金昌市國家溼地公園(試點)項目取得階段性進展
    原標題:我市國家溼地公園(試點)項目取得階段性進展  中國甘肅網11月7日訊 據金昌日報報導 近日,中央財政對永昌北海子國家溼地公園(試點)項目再次安排了300萬元補助資金,市林業局已向永昌縣下達了任務計劃。
  • 法蘭克福書展中國主賓國翻譯工程取得階段性進展
    本報北京6月8日電作為主賓國活動的重要項目之一,2009年法蘭克福書展中國主賓國圖書翻譯出版工程取得階段性進展。記者日前從該項目發起單位――中國國家新聞出版總署了解到,目前確定進入項目的共有114種圖書,在中外出版單位的共同努力下,有約40%的圖書已完成翻譯工作開始後期加工或已經完成出版。