NLP最新科研福利!MSRA開源學術界最全面語義分析數據集

2021-02-25 量子位
雷剛 發自 凹非寺 
量子位 報導 | 公眾號 QbitAI

微軟亞洲研究院(MSRA),剛剛送出最新一批AI資源和福利。

在「中國高校人工智慧人才國際培養計劃」2019國際人工智慧專家論壇暨2019微軟新一代人工智慧開放科研教育平臺合作論壇,MSRA面向高校提供最新的人工智慧技術、工具、科研成果,以及數據集。

詳情如下:

平臺:

OpenPAI支撐全國高校的人工智慧科研與教學

由微軟推出的Open Platform for AI(OpenPAI)人工智慧管理和調度平臺,是國內首個針對深度學習領域由多方共同開發的開源平臺解決方案。

在新一代人工智慧開放科研教育平臺的合作框架下,OpenPAI已幫助多所高校與科研機構建立了屬於自己的人工智慧基礎支撐平臺,其開放、開源、兼容、穩定的特性,模塊化的系統架構和豐富的資源為高校常見的異構IT環境以及高校教師在人工智慧領域的創新和教學提供了強有力的支撐。

其中,中國科學技術大學的「類腦智能技術及應用國家工程實驗室「(NEL-BITA,下文簡稱「類腦實驗室」),就是基於OpenPAI搭建的一個開放、共享的科研教育平臺。

並已經在真實的科研、教育場景中進行應用。類腦實驗室首先利用OpenPAI整合了其1040塊品牌、型號各異的GPU顯卡,為上層應用提供底層IaaS(Infrastructure as a Service,基礎設施即服務)支撐。

然後類腦實驗室在OpenPAI上自主開發了類腦雲OS作為PaaS層(Platform as a Service,平臺即服務),保障大量人工智慧科研、教育應用的開發和運行。

最後,類腦實驗室在最上層搭建了bitahub社區,供本校以及兄弟院校的師生發布其研究成果、數據、論文等。

2019年,微軟亞洲研究院將繼續提升OpenPAI的用戶體驗、核心深度學習能力支持、調度系統的可擴展性以及系統穩定性,並與合作高校進一步以OpenPAI為基礎進行深度學習算法和系統相關的研究,包括自動化機器學習算法、分布式深度學習、自動化網絡壓縮、自動深度神經網絡搜索以及GPU調度算法等。

工具:

集人工智慧研究開發實用工具之大成

在新一代人工智慧開放科研教育平臺上,微軟將其在語音、語言、視覺、機器學習、數據挖掘、數據可視化等核心技術範疇內的開源工具進行了整合,如自動化機器學習工具包NNI(Neural Network Intelligence)、輕量級機器學習算法LightGBM、信息圖設計工具Infographic Designer和高解析度網絡工具包HRNet(High-Resolution Network)等,與各高校分享,並且集成了各高校在各自領域裡的優質開源工具,從而形成能夠服務教師與學生的強大的人工智慧集成開發環境。

這些人工智慧相關的開放開源工具和集成開發環境,讓高校師生有效地提升了研究開發效率,不必顧慮技術之間的兼容、轉化等問題,降低了人工智慧領域技術的學習成本,更加專注於自己的研究領域,更高效地完成人工智慧科研和教學工作。

不僅如此,這些工具還讓教師和學生們可以輕鬆地開發、測試和部署人工智慧解決方案,靈活運用人工智慧領域的核心技術解決金融、醫療、教育等行業中的關鍵問題,讓科研成果產生更大的價值和影響力。

新的一年,微軟亞洲研究院將在自動化機器學習工具、深度學習開發工具,以及以此為基礎的人工智慧教育等方面加大投入。

同時,以PAI for VS Code等工具和OpenPAI為基礎,微軟亞洲研究院將為高校提供Azure+OpenPAI的部署方案和免費的Azure教學資源,讓教師們可以以更快速且低成本的方式部署人工智慧實驗,讓學生們可以在世界一流的平臺上練習人工智慧實戰技能。

數據:

新增業界最全面的語義分析數據集

在新一代人工智慧開放科研教育平臺的合作框架下,微軟開放了自身人工智慧領域的數據集供合作高校在科研和教育工作上進行引用,如微軟機器閱讀理解(MS MARCO)、微軟研究院社交媒體對話語料庫、18K數學文字題測試集SigmaDolphin等。

高校也通過平臺貢獻了各自在多個領域的數據集,如中國科學技術大學類腦實驗室的海量類腦數據等。

2019年,微軟亞洲研究院正式發布自然語言處理(NLP)領域全新的語義分析數據集MSParS (Multi-perspective Semantic ParSing Dataset)。

作為智能音箱、搜尋引擎、自動問答和對話系統等人工智慧產品中的核心技術,語義分析(Semantic Parsing)面臨著因人工標註代價高昂而導致的數據缺乏問題,目前已有的語義分析數據集在數據規模和問題類型覆蓋度上非常有限。

為此,微軟亞洲研究院提出並構建了 MSParS,該數據集(1.0版本)包含81,826個自然語言問題及其對應的結構化語義表示,覆蓋12種不同的問題類型和2,071個知識圖譜謂詞,是學術界目前最全面的語義分析數據集。未來,微軟將與各高校一起開放、共享更多數據,促進產教融合合作生態的建設。

課程與實踐分享:

讓人工智慧人才數量呈指數級增長

培養與時俱進的新時代科技人才是新一代人工智慧開放科研教育平臺的三大使命之一。

平臺採用課程共建和師資培訓的形式,為高校教師提供了來自微軟和高校專家多年積累的人工智慧實踐和前沿的技術知識,並通過教師們的教學內容和平臺課程進一步與學生們分享理論知識,並培養其實踐能力。

過去一年,微軟亞洲研究院組織了多場人工智慧教育實踐研討會,惠及全國2000餘位高校教師。

30多個由微軟亞洲研究院與高校合作設計的高質量課程,讓超過5萬名學生從中受益。

依託新一代人工智慧開放科研教育平臺,微軟亞洲研究院還成立了微軟人工智慧教育與學習共建社區(下文簡稱「社區」), 旨在打造聚合高質量資源、全生態教學、開放式學習為一體的人工智慧學習、實踐、共享平臺。

目前,社區已有來自100多所高校的200多名成員加入。

關於新一代人工智慧開放科研教育平臺

為響應教育部《高等學校人工智慧創新行動計劃》的號召,大力支持教育部「中國高校人工智慧人才國際培養計劃」。

2018 年微軟亞洲研究院聯手中國高校共建新一代人工智慧開放科研教育平臺(以下簡稱「智新平臺」),面向所有中國高校提供技術平臺、工具與應用、數據、課程與實踐這四大核心資源和服務。

並圍繞它們開展聯合科研、課程共建、師資培訓、實習實訓和國際交流等各項合作。

經一年的持續建設和提升,智新平臺不斷完善其教育合作體系,發展出了以「基礎支撐」、「學習理念」、「實踐案例」、「共建社區」、「打造『金課』」、「協同育人」、「開放科研」七個維度為核心的工作布局。

同時匯集企業與高校優勢資源,以期在更廣範圍打造人工智慧教育領域的共贏生態。

傳送門

MSParS數據集:

https://github.com/msra-nlc/MSParS

量子位AI社群開始招募啦,量子位社群分:AI討論群、AI+行業群、AI技術群;

歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「微信群」,獲取入群方式。(技術群與AI+行業群需經過審核,審核較嚴,敬請諒解)

相關焦點

  • 數據競賽必備的NLP庫總結!
    ,開源的,社區驅動的項目,提供了50多種語料庫和詞彙資源(如WordNet),還提供了一套用於分類,標記化,詞幹化,標記,解析和語義推理的文本處理庫。,它可以用來執行很多自然語言處理的任務,比如,詞性標註、名詞性成分提取、情感分析、文本翻譯等。
  • 2019自然語言處理前沿論壇 五大議題全面解析NLP技術前沿
    論壇圍繞語義計算、自動問答、語言生成、人機對話及機器翻譯五大議題,與學術界、工業界一線青年專家學者共同探討NLP領域的最新技術進展、產業應用及發展趨勢。劉康首先介紹了閱讀理解的主要任務、基本原理和數據集。在研究進展方面,介紹了基於深度學習的閱讀理解模型框架、注意力機制、基於上下文的編碼模型,以及預訓練模型等。同時,他強調,閱讀理解面臨一系列的挑戰,如合理構建數據集、如何提升模型推理能力、如何更好地使用外部知識等。在未來工作方面,劉康認為閱讀理解經過了數據驅動模型的階段,現在學術界開始逐步研究如何利用知識圖譜提升機器閱讀理解效果。
  • 【分析方法】語義分析
    聶校長福韻數據服務有限公司武漢中心主任,福韻網絡情報空間研究院校長。情報分析師工作循環,在我們搜集好數據後需對搜集到數據進行分析,這裡介紹其中一種分析方法語義分析。語義分析是編譯過程的一個邏輯階段, 語義分析的任務是對結構上正確的源程序進行上下文有關性質的審查,進行類型審查。
  • 【NLP】競賽必備的NLP庫
    開源的,社區驅動的項目,提供了50多種語料庫和詞彙資源(如WordNet),還提供了一套用於分類,標記化,詞幹化,標記,解析和語義推理的文本處理庫。,它可以用來執行很多自然語言處理的任務,比如,詞性標註、名詞性成分提取、情感分析、文本翻譯等。
  • 今日Paper | 多人姿勢估計;對話框語義分析;無監督語義分析;自然...
    還有一種是將自然語言直接轉換為計算機可以理解並且執行的語言,本文就是解決這個問題創新點:面向任務的對話框系統的分層語義表示,它可以對組合查詢和嵌套查詢建模。提出了一個語義解析的層次化注釋方案,它允許組合查詢的表示,並且可以被標準的選區解析模型高效準確地解析。而且還發布了一個由44k個帶注釋的查詢1組成的數據集。
  • 中文NLP熱點|AMBERT模型在CLUE等數據集上獲卓越表現
    論文連結:https://arxiv.org/pdf/2008.11869.pdf中文基準數據集CLUE的由來2018 年,來自紐約大學、華盛頓大學、DeepMind 等機構的研究者創建了一個多任務自然語言理解基準和分析平臺——GLUE
  • 最新中文NLP開源工具箱來了!支持6大任務,面向工業應用|資源
    在這個基於百度深度學習平臺飛槳(PaddlePaddle)開發的工具箱裡,裝有大量工業級中文NLP開源工具與預訓練模型。這個工具箱裡的工具全面,共支持的6大NLP任務,包括文本分類、文本匹配、序列標註、文本生成、語義表示與語言模型和其他複雜任務等。
  • 百度NLP主任架構師全面講解百度語義表示技術及最新進展
    相關技術包含語義表示、語義匹配、語義分析、多模態計算等。本文主要介紹百度在語義表示方向的技術發展和最新的研究成果艾尼(ERNIE),同時也會介紹工業應用價值很大、百度積累多年的語義匹配SimNet的相關內容,最後再談談未來的重點工作。
  • 打包帶走,競賽必備的NLP庫
    開源的,社區驅動的項目,提供了50多種語料庫和詞彙資源(如WordNet),還提供了一套用於分類,標記化,詞幹化,標記,解析和語義推理的文本處理庫。,它可以用來執行很多自然語言處理的任務,比如,詞性標註、名詞性成分提取、情感分析、文本翻譯等。
  • NLP、KG相關數據集匯總
    CBDB的數據是用access和sqlite兩種資料庫進行存儲,我轉了一個mysql的版本(repo中),表格和欄位的具體說明請參考官網。由於數據是不斷更新的,需要最新數據的請到官網下載。腳本cbdb.py是將sqlite中的數據導入mysql中,如果資料庫表格發生改變,可能需要更新一下腳本。
  • 一個快要被NLP人遺忘的方向: 句法分析
    )  語義依存分析(semantic dependency parsing)目前的句法分析已經從成分句法分析轉向依存句法分析,一是因為通用數據集Treebank(Universal Dependencies treebanks)的發展,雖然該數據集的標註較為複雜,但是其標註結果可以用作多種任務(命名體識別或詞性標註)且作為不同任務的評估數據,因而得到越來越多的應用,二是成分句法分析的語法集是由固定的語法集組成
  • NLP領域最優秀的8個預訓練模型(附開源地址)
    在自然語言處理的背景下,遷移學習本質上是在一個數據集上訓練模型,然後對該模型進行調整,以在不同的數據集上執行不同的自然語言處理功能。這一突破,使得每個人都能夠輕鬆地完成任務,尤其是那些沒有時間、也沒有資源從頭開始構建自然語言處理模型的人們。對於想要學習或過渡到自然語言處理的初學者來講,它也堪稱完美。
  • 騰訊開源業內最大多標籤圖像數據集,附ResNet-101模型
    允中 發自 凹非寺 量子位 報導 | 公眾號 QbitAI鵝廠福利,又是開源。最遲本月月底,騰訊AI Lab將開源「Tencent ML-Images」項目。不僅要開源多標籤圖像數據集ML-Images,以及業內目前同類深度學習模型中精度最高的深度殘差網絡ResNet-101。業內最大規模值得注意的是,這次開源的ML-Images包含了1800萬圖像和1.1萬多種常見物體類別,在業內已公開的多標籤圖像數據集中,規模最大,一般科研機構及中小企業的使用場景,應該夠了。
  • 一文學會最常見的10種NLP處理技術(附資源&代碼)
    自然語言處理(NLP)是一種藝術與科學的結合,旨在從文本數據中提取信息。在它的幫助下,我們從文本中提煉出適用於計算機算法的信息。從自動翻譯、文本分類到情緒分析,自然語言處理成為所有數據科學家的必備技能之一。在這篇文章中,你將學習到最常見的10個NLP任務,以及相關資源和代碼。
  • 谷歌開源NLP模型可視化工具LIT,模型訓練不再「黑箱」
    LIT 將局部解釋、聚合分析和反事實生成集成到一個流線型的、基於瀏覽器的界面中,以實現快速探索和錯誤分析。該研究支持多種自然語言處理任務,包括探索情感分析的反事實、度量共指系統中的性別偏見,以及探索文本生成中的局部行為。此外 LIT 還支持多種模型,包括分類、seq2seq 和結構化預測模型。
  • NLP: 基於文本語義的智能問答系統
    深度學習-智能問答機器人深度語言模型會將問題和文檔轉化為語義向量,從而找到最後的匹配答案。本文藉助Google開源的Bert模型結合Faiss開源向量搜尋引擎,快速搭建基於語義理解的對話機器人。積累了豐富的用戶問答數據,能夠解決用戶在看車、買車、用車等方面遇到的各種問題。針對用戶在平臺上提出的各種問題,從海量的高質量問答庫中匹配語義最相似的問題和答案文本數據具有表達多樣化、用語不規範(如:車型車系用語存在大量縮寫、簡寫、語序顛倒等現象)、歧義性強(如:「北京」可能指汽車品牌,也可能指城市)等特點,這給傳統基於關鍵詞匹配的搜索方法帶來了很大挑戰。
  • 騰訊AI Lab 開源業內最大規模多標籤圖像數據集
    DoNews9月10日消息 (記者 費倩文)騰訊AI Lab今日宣布將於9月底開源「Tencent ML-Images」項目,該項目由多標籤圖像數據集ML-Images,以及業內目前同類深度學習模型中精度最高的深度殘差網絡ResNet-101構成。
  • NLP入門+實戰必讀:一文教會你最常見的10種自然語言處理技術(附代碼)
    在這篇文章中,你將學習到最常見的10個NLP任務,以及相關資源和代碼。對於處理NLP問題,我也研究了一段時日。這期間我需要翻閱大量資料,通過研究報告,博客和同類NLP問題的賽事內容學習該領域的最新發展成果,並應對NLP處理時遇到的各類狀況。因此,我決定將這些資源集中起來,打造一個對NLP常見任務提供最新相關資源的一站式解決方案。
  • NLP入門+實戰必讀:一文教會你最常見的10種自然語言處理技術
    從自動翻譯、文本分類到情緒分析,自然語言處理成為所有數據科學家的必備技能之一。在這篇文章中,你將學習到最常見的10個NLP任務,以及相關資源和代碼。為什麼要寫這篇文章?然而,當NER被用在不同於該NER被訓練的數據領域時,即使是最先進的NER也往往表現不佳。論文:這篇優秀的論文使用雙向LSTM(長短期記憶網絡)神經網絡結合監督學習和非監督學習方法,在4種語言領域實現了命名實體識別的最新成果。(https://arxiv.org/pdf/1603.01360.pdf)程序實現:以下是如何使用spacy執行命名實體識別。
  • 【工具】語義分析工具匯總
    在目前的智能分析、大數據分析中語義分析的應用越來越廣泛了。