2020語言與智能技術競賽啟動,百度提供最大規模中文數據集

2020-12-24 百度AI

語言是人類信息傳遞最重要的媒介,讓機器理解語言並使用語言進行交互是實現通用人工智慧的重要挑戰,3月10日2020語言與智能技術競賽正式啟動,面向全球開發者開啟報名通道。本屆競賽由中國中文信息學會(CIPS)和中國計算機學會(CCF)聯合主辦,百度公司、中國中文信息學會評測工作委員會和中國計算機學會中文信息技術專委會聯合承辦,並將在第五屆「語言與智能高峰論壇」舉辦技術交流和頒獎,獲勝團隊將分享總額35萬人民幣的獎金。屆時,國內外學術界、工業界知名專家學者,也將面向社會公眾介紹國內外語言與智能及相關領域的發展趨勢和創新成果。

本次競賽共設立五個任務,包括機器閱讀理解面向推薦的對話語義解析關係抽取事件抽取,涉及到語言理解、人機對話、知識抽取等複雜技術,這些任務的研究對於智能搜索、智能推薦、智能交互等人工智慧應用具有重要意義,是自然語言處理和人工智慧領域的重要前沿課題。本次競賽的五個任務都將提供百度大規模中文數據集,為研究者提供學術交流平臺,推動語言理解和人工智慧領域技術研究和應用的發展。

三大經典任務全面升級 覆蓋更多真實應用場景

本次競賽中,機器閱讀理解、面向推薦的對話、關係抽取三大經典任務在2019年的基礎上,做了全面升級。

機器閱讀理解是指讓機器閱讀文本然後回答和閱讀內容相關的問題。與2019年相比,今年的閱讀理解任務,將重點關注閱讀理解模型在真實應用場景中的魯棒性。因此,在本次競賽中特別構建了DuReader_robust數據集,用於考察模型在多個維度上的魯棒性,包括模型的過敏感性、過穩定性以及泛化能力。數據集中的樣本均來自於實際的應用場景,難度大,考察點豐富,覆蓋了真實應用中諸多難以解決的問題。

面向推薦的對話則是指集成對話系統和推薦系統的人機互動系統,該系統先通過問答或閒聊等形式收集用戶興趣和偏好,然後主動給用戶推薦其感興趣的內容。真實世界的人機互動會同時涉及到多種類型的對話,如何自然地融合多類型對話是一個重要的挑戰。為了應對這個挑戰,本次競賽將提出一個新的任務—多類型對話中的面向推薦的對話,期望系統能夠主動且自然地將對話從非推薦對話引導到推薦對話,然後基於收集到的用戶興趣及用戶實時反饋,通過多次交互完成最終的推薦目標。同時,任務還將提供多種對話類型、多個領域、融合用戶profile信息的對話邏輯數據集,貼近真實的應用場景。

關係抽取是指從自然語言文本中抽取實體及其之間的關係。本次競賽在去年信息抽取任務的基礎上進行了兩處升級,一是在簡單SPO關係的基礎上增加了複雜關係類型,用以刻畫現實世界中廣泛存在的複雜關係;二是引入百度貼吧口語化表達語料,其文本語義自由度更高,更貼近日常口語表達習慣,使關係抽取評測任務具有更大的挑戰性和實戰應用價值。

新增兩大熱門任務 為參賽者帶來全新挑戰

與往年競賽不同,除沿襲機器閱讀理解、面向推薦的對話、關係抽取三大任務外,還特別新增了語義解析與事件抽取兩大熱門任務。

語義解析任務旨在讓機器能自動將用戶輸入的自然語言問題轉成可與資料庫操作的程式語言(如SQL),以降低結構化數據使用的門檻和成本,同時提升結構化數據使用的價值和效率。當前的中文Text-to-SQL數據集的資料庫基本都是由單表構成的,問題模式比較簡單,僅覆蓋實際應用中存在的部分問題。本次競賽將首次發布DuSQL數據集,包含164個領域的200個資料庫,覆蓋了匹配、計算、推理等實際應用中常見的問題形式,每個問題關聯一個資料庫中一或多張表格。該數據集更貼近真實應用場景,對模型解決領域無關性、問題無關性、計算推理問題的能力提出了更高的挑戰。

事件抽取一直受到學術界和工業界的廣泛關注,具有重要的實用價值,也極具挑戰。此次競賽中,該任務目標是通過給定目標事件類型和角色類型集合及句子,識別句子中所有目標事件類型的事件,並根據論元角色集合抽取事件所對應的論元。針對事件抽取任務,百度將對外發布當前業界最大規模的中文事件抽取數據集,其中包含65個事件類型和1.7萬個具有事件信息的句子。希望通過此次競賽及開放的大規模中文數據集,助力事件抽取技術的進一步發展。

百度飛槳火力全開 為參賽選手提供全面支持

作為本次競賽的承辦方,百度還將為參賽選手提供全面的技術資源及平臺支持。本次比賽中,百度將為5大競賽任務均提供基於飛槳PaddlePaddle基線系統,助力選手快速上手。作為開源開放、功能完備的產業級深度學習平臺,飛槳具備開發便捷的核心框架、支持超大規模深度學習模型訓練、多端多平臺部署的高性能推理引擎和產業級開源模型庫等領先技術,鼓勵大家使用飛槳完成模型的設計、訓練和預測。

不僅如此,百度AI Studio也將為本次比賽提供軟硬體環境的支持。AI Studio是基於飛槳平臺的一站式AI開發實訓平臺,為參賽團隊提供在線編程環境、Tesla V100 免費GPU算力、海量開源算法和數據。登錄即送算力,每天登錄AI Studio並運行Notebook即可獲得12小時算力,連續登錄5天額外領取48小時算力。AI Studio宣布將為報名參加2020語言與智能技術比賽的參賽團隊額外提供免費GPU算力時長,徹底破除算力桎梏,助力選手取得優異成績。

據了解,2020語言與智能技術競賽將在2020年3月10日正式啟動競賽報名,並開放競賽平臺,發放樣例數據,並於3月31日對報名者發放全部訓練數據和第一批測試數據。競賽的每個任務都將分別評出一等獎1名,二等獎1名,三等獎1名和優勝獎2名,主辦方中國中文信息學會(CIPS)和中國計算機學會(CCF)將為獲獎者提供榮譽證書認證。同時,百度公司將為獲獎者提供獎金和參會旅行贊助。更多競賽信息及報名入口,可進入2020語言與智能技術競賽官網點擊各任務詳情頁查看詳細內容及報名比賽。

相關焦點

  • 全國大學生智能汽車競賽總決賽圓滿落幕 百度飛槳助高校生駛入AI路
    近日,由中國自動化學會主辦,百度承辦的第十五屆全國大學生智能汽車競賽創意組全國總決賽在南京信息工程大學圓滿落幕。在本次比賽中,百度作為國內人工智慧領軍者,提供了目前國內首個開源開放、技術領先、功能完備的產業級深度學習平臺——百度飛槳,幫參賽選手高效、靈活地完成高精度的模型定製,以賽促教,助力培養創新綜合人才。
  • NeurIPS2020遙感競賽 遙感智能解譯技術獲權威認可
    作為一門實用、先進的空間探測技術,遙感技術在城鄉建設、災害應急、環境監測等場景下一直發揮著重要作用。隨著與日俱增的海量遙感影像數據,遙感數據的解譯開始尋求AI技術的賦能,遙感智能解譯成為行業突破方向。12月6日-12日,神經信息處理系統大會NeurIPS 2020於線上舉行,競賽任務要求參賽者使用已建立的多目標跟蹤準確性指標來跟蹤建築物的建設進度,從而直接評估城市化程度。其實,這一賽題實際上就是在考察參賽團隊對遙感技術產生的數據進行解析的能力。
  • 百度AI的2020上半年
    百度正在依託包括百度大腦、飛槳、智能雲、晶片、數據中心等在內的新型 AI 技術基礎設施,推動智能交通、智慧城市、智慧金融、智慧能源、智慧醫療、工業網際網路和智能製造等領域實現產業智能化升級,目標是成為中國新基建 AI 服務最大提供商。1. 全球 AI 專利申請量已超過1萬件,中國第一2019年,中國人工智慧專利申請量排名中,百度以5712件位列第一。
  • 百度Apollo智能交通底座技術再升級!4項世界冠軍霸榜CVPR頂級賽事
    據知,上述的百度奪冠技術均已應用於百度自研的智能交通系統,該系統整合了檢測、跟蹤、3D定位、分割、身份重識別、事件分析在內的一攬子視覺技術,成為保障業務落地的堅實基礎。  其中,可分析車流數據發現交通擁堵的車流統計技術,智能交通系統中確認車輛身份的車輛再識別技術,以及可準確發現潛在交通風險的異常事件檢測技術,均是目前智能交通領域的典型服務。
  • 百度AI遙感技術獲NeurIPS2020挑戰賽冠軍 精準解決應用痛點
    競賽中,百度團隊採用了飛槳圖像分割模型庫PaddleSeg中單個語義分割模型HRNet進行訓練和預測,該模型已在諸如CityScapes等多個公開數據集獲得當前最佳結果(SOTA隨著與日俱增的海量遙感影像數據,遙感數據的解譯開始尋求AI技術的賦能,遙感智能解譯成為行業突破方向,在AI領域拔得頭籌的企業,也將努力成為遙感智能解譯成的
  • AI算法瞬間學習理解96種語言 斬獲國際權威競賽冠軍
    世界上存在6000餘種語言,這給不同國家與地區的交流帶來很多不便。人工智慧技術有助於打破語言的信息壁壘,搜尋引擎、智能客服、智能音箱等人工智慧系統不斷帶來更佳的用戶體驗。除了上述技術突破之外,ERNIE-M應用前景也很廣泛,該技術可將基於漢語研發的人工智慧系統,拓展到我國其他民族的語言理解上,幫助我們更好地分析各民族語言。此外,ERNIE-M 技術也可輔助語言學家和考古學家去理解已經瀕危或失傳的語言,更好地保護我們的民族文化。ERNIE-M只是百度世界級語義理解技術與平臺文心(ERNIE)的眾多技術成果之一。
  • 百度AI的2020
    1.AI 助力搜索體驗持續優化,更好地連接信息與服務百度移動生態是中國領先的以信息和知識為核心的移動生態,在 AI 技術的加持下,百家號、智能小程序和託管頁三大支柱迅速發展成為國內領先的內容和服務接入平臺。基於自然語言處理、知識圖譜、語音、視覺、深度學習等 AI 技術能力,百度搜索也在持續智能化。
  • 自然語言處理學術會議AACL線上召開 聚焦亞太地區NLP技術進展
    近年來,國內產學研各界在自然語言處理研究方面進步顯著,此次AACL會議從組委會成員、投稿地區分布,到參會嘉賓也都充滿著「中國元素」。據悉,AACL 2020會議由AACL創始主席王海峰組織發起,香港中文大學黃錦輝教授擔任大會主席,百度技術委員會主席吳華和滴滴出行(洛杉磯)自然語言處理首席科學家Kevin Knight擔任程序委員會聯合主席,百度人工智慧技術委員會主席何中軍擔任機器翻譯領域共同主席。
  • 百度斬獲NeurIPS2020挑戰賽冠軍,引領遙感變化檢測技術發展
    大會開設的SpaceNet-7挑戰賽聚焦於遙感變化檢測技術的應用,競賽任務要求參賽者使用已建立的多目標跟蹤準確性(SCOT)指標跟蹤建築物的建設進度,從而直接評估城市化程度。競賽中,百度團隊採用了飛槳圖像分割模型庫PaddleSeg中單個語義分割模型HRNet進行訓練和預測,該模型已在諸如CityScapes等多個公開數據集獲得當前最佳結果(SOTA);同時HRNet網絡中維持了一個高解析度的分支,可有效回應任務中依賴於大解析度的需求。此外,百度團隊還設計了專用的後處理算法以提升預測效果。
  • 一文回顧百度人工智慧2020上半年,王海峰:百度AI助力新基建提速
    百度AI在危機中捕捉和創造機遇,加大以人工智慧為核心的新型基礎設施建設。6月11日,百度AI新基建版圖亮相。百度正在依託包括百度大腦、飛槳、智能雲、晶片、數據中心等在內的新型AI技術基礎設施,推動智能交通、智慧城市、智慧金融、智慧能源、智慧醫療、工業網際網路和智能製造等領域實現產業智能化升級,目標是成為中國新基建AI服務最大提供商。
  • 百度世界2020文心ERNIE吸引眾多開發者目光 推動NLP技術向產業落地
    語言與知識技術,被歸類為認知智能,一直是人工智慧最熱門的研究與應用領域。9月15日,百度世界2020召開,作為「AI新型基礎設施」百度大腦6.0的重要組成部分,百度語義理解技術與平臺文心(ERNIE)在大會上的發布吸引了大量NLP開發者的目光,尤其基於多流機制的預訓練語言生成技術ERNIE-GEN、知識增強跨模態語義理解技術ERNIE-ViL等,均達到了世界領先水平。
  • IDC:2019中國視頻雲市場規模46.2億美元 百度智能雲居第三
    百度智能雲市場份額排名第三,同比增長59.3%,顯著高於行業整體增速。報告顯示,未來解決方案市場增速將超過基礎設施增速,這給擁有領先AI能力的百度等公司帶來新的發展機遇。 (百度智能雲在2019年中國視頻雲市場份額排名第三。數據來源IDC報告)視頻雲市場主要包括雲基礎設施和雲解決方案兩大分類。
  • 百度AI,走過2019
    創新的 3D 和 AR 視頻交互技術,已經實現人臉、手勢、環境、肢體多維度的技術突破,可用於一體化人機互動等創新應用。4. ERNIE 榮登 NLP 領域權威數據集 GLUE 榜首 自然語言處理技術方面,百度打造了可持續學習的知識增強語義理解框架 ERNIE,通過建模海量數據中的實體、概念等先驗知識,學習真實世界的語義關係。
  • 聚焦2020百度雲智峰會:百度智能雲發布金融智能風控解決方案
    12月17日,「2020 ABC SUMMIT百度雲智峰會」在北京舉行。上午的主論壇展現了百度智能雲的最新成績和產業智能化成果。「雲智一體」成百度智能雲獨特的競爭力,在各行各業加快規模化落地。該系統能把百度多年積累下來的對於網際網路用戶的行為分析、意圖識別的技術和算法沉澱下來,幫助銀行更好地去發現用戶的需求,去匹配合適的產品,以及更有效地去發現潛在的欺詐風險;第二,工具層面,針對金融行業和網際網路行業數據融合的需求,去提供安全可靠、數據能用而不可見,數據融合的底層技術平臺;第三,建模層面,提供從數據分析、模型訓練、效果評估等全流程的建模工具支持。
  • 中國人工智慧大賽個人賽圓滿結束,冠軍選手比賽經驗全解析
    每日簡報 2020年5月21日經過幾個月的多輪角逐,「中國人工智慧大賽·語言與知識技術競賽」個人賽圓滿結束。競賽於2019年12月啟動,由中央網信辦、工業和信息化部、公安部指導,由廈門市政府主辦,廈門市委宣傳部、廈門市委網信辦、廈門市科技局、廈門市工業和信息化局、廈門市公安局、人民網、百度承辦,是多方攜手共同打造的「中國第一、國際領先」的賽事。
  • OPPO 小布助手算法能力問鼎百度「千言數據集:文本相似度」行業測評
    「千言數據集:文本相似度」行業測評,並刷新該賽事 LCQMC 數據集最高分記錄。文本相似度是自然語言處理(NLP)領域的一個重要研究方向,旨在識別兩段文本在語義上是否相似,在信息檢索、新聞推薦、智能客服等領域都發揮重要作用,具有很高的商業價值。而百度「千言數據集:文本相似度」數據集聚合了哈工大(深圳)LCQMC、BQ Corpus 和 Google 的 PAWS-X(中文)三個行業權威的評測集,挑戰非常大。
  • 陪伴、智能、可依賴……百度「翻譯雞」以AI之力打破跨語言溝通障礙
    翻譯雞 IP 形象手稿有了可愛形象的百度翻譯,致力於應用AI技術優勢打破語言溝通障礙,為用戶提供不同國家精準的翻譯服務,努力成為一個貼心智能的小助手。接下來,就帶領大家感受一下如今百度翻譯的強大之處。
  • 百度AI的2020:迎合時代節拍,扛起智能大旗
    參考橋水基金總裁雷伊·達裡奧的去槓桿理論,經濟的發展離不開技術進步和信貸推動,其中後者對經濟的影響有周期可循,技術進步對經濟增長的作用則是持續的、恆久的。2020年恰恰是人工智慧技術走出迷霧的一年,幾乎在每一個重要的時間節點上,都可以看到人工智慧的影子。
  • 從2020百度地圖生態大會,看懂AI地圖技術演變的因果與新機
    其中,有一個承上啟下的關鍵節點,它匯聚了百度地圖既往的技術優勢,也開闢了適應未來發展的新價值空間,那就是2018年。百度地圖正式確定了「新一代人工智慧地圖」的產品定位,以人工智慧技術為核心驅動力,為用戶提供智能出行服務。今天看來,百度地圖的轉變正是時代契機與自身能力的奇妙碰撞:首先,地圖學的數據密集型計算,與百度的大數據基因相契合。
  • DuerOS普羅米修斯計劃:30頁國際專家PPT全面剖析對話式AI數據集
    一周後,2017百度世界大會上,普羅米修斯計劃正式起航。據介紹,普羅米修斯計劃作為百度DuerOS今年最重要的戰略規劃之一,包含開放超大規模對話式AI數據集、跨學科合作、學科共建等多種計劃,以及一個百萬美元基金用以鼓勵和培養對話式AI領域的優秀項目和人才。