日前,注重源頭基礎創新的思必馳,其知識服務團隊在多個中文機器閱讀理解公開評測中取得階段性進展。此前,該團隊還入選姑蘇重大創新團隊。
機器閱讀理解(Machine Reading Comprehension)是自然語言處理和人工智慧領域的重要前沿課題,旨在讓機器閱讀並理解非結構化的文本,可以準確地回答和文本內容相關的任何問題。
機器閱讀理解對於提升機器的智能水平、使機器具有持續知識獲取的能力、挖掘海量文本信息等具有重要價值,近年來受到學術界和工業界的廣泛關注。
同時,機器閱讀理解也是自動問答系統的一個重要手段。相比基於結構化知識源(比如資料庫、知識圖譜等)的自動問答,機器閱讀理解可以大大減少結構化知識源的構建成本、降低自動問答系統使用成本,有助於最大程度地釋放海量非結構化文本蘊含的信息。
近期,思必馳知識服務團隊也在中文機器閱讀理解方向投入研究,並在多個中文機器閱讀理解公開評測中取得階段性進展:
1)在CMRC2018公開評測[1]中暫列第一,並在需要多線索聯合推理的挑戰集(Challengeset)上取得明顯性能提升;
2)在「千言數據集:閱讀理解」公開評測[2]的兩個子任務(DuReader_robust和DuReader_yesno)上均暫列第一。
針對中文機器閱讀理解的魯棒性和泛化性問題,思必馳知識服務團隊在以下幾個方面開展了技術研究:
1)中文預訓練語言模型的預訓練與微調;
2)中文機器閱讀理解領域自適應訓練;
3)目標應用領域導向的多階段模型微調等。
相關技術實現在上述公開評測中得到了應用和驗證。
語言智能常被稱為人工智慧皇冠上的一顆明珠。在未來,思必馳知識服務團隊將繼續深耕語言理解領域,打造輕量、便攜且精準的機器閱讀理解系統,推動機器閱讀理解在真實場景的落地和應用。
參考文獻:
[1]CMRC2018公開評測,https://ymcui.github.io/cmrc2018/。
[2]千言數據集:閱讀理解公開評測,https://aistudio.baidu.com/aistudio/competition/detail/49.