一些NER的英文數據集

2021-02-13 深度學習自然語言處理

點擊上方,選擇星標置頂,每天給你送乾貨!

閱讀大概需要2分鐘

跟隨小博主,每天進步一丟丟

 1   MUC Data Sets

https://www-nlpir.nist.gov/related_projects/muc/https://www.clips.uantwerpen.be/conll2002/ner/CoNLL 2003是由新聞通訊社的文章以四種不同的語言(西班牙語、荷蘭語、英語和德語)創建的,重點關注4個實體:PER(人員),LOC(位置),ORG(組織)和MISC(其他,包括所有其他類型的實體)https://www.clips.uantwerpen.be/conll2003/ner/2010 I2B2 NER任務考慮了臨床數據,重點關注臨床問題、測試和治療實體類型https://www.i2b2.org/NLP/Relations/ 5   DDIExtraction2013(Drug NER)重點關注藥品、品牌、集團和藥品n(未批准或新藥)實體類型https://www.cs.york.ac.uk/semeval-2013/task9/index.html 6   CHEMPROT(Similar to 5)相比5更側重於化學和藥物實體,例如縮寫、配方、家族、標識符等https://biocreative.bioinformatics.udel.edu/ 7   microbiology NER datasets從PubMed和生物學網站收集,並且主要關注細菌、棲息地和地理位置實體http://2016.bionlp-st.org/tasks/bb2    

下載一:中文版!學習TensorFlow、PyTorch、機器學習、深度學習和數據結構五件套!

由於微信平臺算法改版,公號內容將不再以時間排序展示,如果大家想第一時間看到我們的推送,強烈建議星標我們和給我們多點點【在看】。星標具體步驟為:

(1)點擊頁面最上方深度學習自然語言處理」,進入公眾號主頁。

(2)點擊右上角的小點點,在彈出頁面點擊「設為星標」,就可以啦。

感謝支持,比心

投稿或交流學習,備註:暱稱-學校(公司)-方向,進入DL&NLP交流群。

方向有很多:機器學習、深度學習,python,情感分析、意見挖掘、句法分析、機器翻譯、人機對話、知識圖譜、語音識別等。

整理不易,還望給個在看!

相關焦點

  • albert-chinese-ner使用預訓練語言模型ALBERT做中文NER
    預訓練小模型也能拿下13項NLP任務,ALBERT三大改造登頂GLUE基準一鍵運行10個數據集、9個基線模型、不同任務上模型效果的詳細對比模型性能與對比(英文) Performanceand Comparisionalbert-chinese-ner下載albert中文模型,這裡使用的是base將模型文件夾重命名為albert_base_zh
  • 使用CRF++實現命名實體識別(NER)
    學習時,利用訓練數據 集通過極大似然估計或正則化的極大似然估計得到條件概率模型p(Y|X);預測時,對於給定的輸入序列x,求出條件概率p(y|x)最大的輸出序列y0.NER實現實例   接下來,我們將利用CRF++來實現英文命名實體識別功能。
  • NLP 詳解教程:使用 Spacy 和 Python 實現命名實體識別 (NER)
    我們將使用Doccano標記數據,這是一個開源項目,它提供了一個不錯的UI來管理數據集,標記數據和團隊之間的協作。您可以創建標籤數據以進行情感分析,命名實體識別,文本摘要等。您可以嘗試注釋演示以獲取更多詳細信息。
  • NLP入門(八)使用CRF++實現命名實體識別(NER)
    學習時,利用訓練數據 集通過極大似然估計或正則化的極大似然估計得到條件概率模型p(Y|X);預測時,對於給定的輸入序列x,求出條件概率p(y|x)最大的輸出序列y0.NER實現實例   接下來,我們將利用CRF++來實現英文命名實體識別功能。
  • 運用多源分詞信息助力中文NER 邱震宇
    "ner_label":我 們 變 而 以 書 會 友 , 以 書 結 緣 , 把 歐 美 、 港 臺 流 行 的 食 品 類 圖 譜 、 畫 冊 、 工 具 書 匯 集 一 堂 。因此我自己根據模型定義代碼,擴充了數據準備和訓練的流程,順便溫習了一下pytorch代碼。
  • NER殺器集結:五個難點與解決方法匯總
    一是工業界對NER 標註數據緊缺。因為數據標註就很困難,需要專家好好定義標準規範。而這個標準是基於人類共有知識的。它還不是一成不變的,你標註完了就能一勞永逸。而是隔幾個月熱點實體詞就要大換一次血。過去標註好了一些實體,因為未來人們談論它的語境都變了,可能不再適用。二是超越人類專家水平的 NER 系統難以實現。當前的 SOTA 模型大都是建立在有監督模型的基礎之上。
  • 基於BERT 的中文數據集下的命名實體識別(NER)
    如上圖,對數據集進行了分割,其中source是訓練集中文,target是訓練集的label。注意BERT分詞器在對字符分詞會遇到一些問題。代碼中除了數據部分的預處理之外,還需要自己修改一下評估函數、損失函數。訓練首先下載BERT基於中文預訓練的模型(BERT官方github頁面可下載),存放到BERT_BASE_DIR文件夾下,之後將數據放到NER_DIR文件夾下。即可開始訓練。sh run.sh
  • Keras-BERT-NER albert、roberta、bert、wwm四個模型如何去做命名實體識別任務
    keras_bert_ner或者直接用pip吧:這個項目目前也傳到pypi上了,可以直接pip install:pip install keras_bert_ner卸載項目:pip uninstall keras_bert_ner訓練數據形式[ [ "揭秘趣步騙局,趣步是什麼,趣步是怎麼賺錢的?
  • Google 推出數據集搜索!百度怎麼看?
    一些掌握了大量數據的網際網路公司也因此擁有很大的優勢,而高校的學者除了一些公開的知名數據集,想要擁有大量的數據則非常困難,因此 Google 的這款產品可謂是及時雨。當然,其他需要各種數據的工作者也能從中受益。Google Dataset Search 為用戶提供了能夠同時搜索多個存儲區的單個界面,希望藉此改變用戶發布和運用數據的方式。
  • 當RNN神經網絡遇上NER(命名實體識別):雙向LSTM,條件隨機場(CRF),層疊Stack LSTM, 字母嵌入
    而外部的監督庫(如gazetteer),把一些同種類的實體聚合在一起做成一個庫,可以幫助識別同一個意思的實體,如:auntie其實和aunt一個意思:姨媽Mikey其實是Mike的暱稱,都是人名今天所講的這篇卡內基梅隆大學的論文,用RNN神經網絡的相關技術避開使用這些人工特徵,並能達到與之相當的準確率。
  • Google推出數據集搜索!百度,你怎麼看?
    一些掌握了大量數據的網際網路公司也因此擁有很大的優勢,而高校的學者除了一些公開的知名數據集,想要擁有大量的數據則非常困難,因此 Google 的這款產品可謂是及時雨。當然,其他需要各種數據的工作者也能從中受益。
  • 【數據】CMU大佬分享三類優質數據集:綜合、CV和NLP
    主要包括了綜合性數據集、CV計算機視覺數據集和NLP自然語言處理數據集。PS:以前我們也分享過一些數據集的資源,感興趣的可以在公眾號歷史文章中搜索查看,數據集系列也會持續更新。一、綜合性機器學習數據集1.
  • 推薦幾個免費數據集下載練習網站
    但是,對於剛入門的小夥伴來說,往往很難找到適合自己練習的數據集。今天,我給大家推薦幾個可以免費下載數據集的網站,助你找到豐富的數據集開啟多樣化數據分析之路。在可視化數據分析的練習中,tableau提供了一個超市的示例數據源,可以滿足基本的銷售訂單購買等分析。非常適合初入門的小夥伴在學習tableau desktop功能時拿來練手。包括很多配套的學習資源也都是以該超市數據為示例數據源。
  • Papers With Code新增數據集檢索功能:3000+經典數據集,具備多種過濾功能
    Papers with Code 現在已經集成了 3044 個機器學習數據集,點點滑鼠就能檢索需要的數據集。在機器學習中,數據集佔據了重要的一部分。研究人員除了需要開發先進的算法外,其實數據集的建立才是最基礎也是最重要的部分。在過往的研究中,機器學習從業者也建立了許多可用的數據集。
  • Papers With Code 新增數據集索引功能:覆蓋數據集3000+,數百任務、多種語言一網打盡!
    今日,又把機器學習數據集一網打盡。相關頁面:https://www.paperswithcode.com/datasets?page=1據Papers with Code的官方推特介紹,這次能夠索引的數據集規模達到了3000+,而且提供按任務和模式查找的功能,能夠比較數據集的使用情況,瀏覽基準.如上,此次數據集索引共支持的模式包括圖像(1066個),文本(830個),視頻(342個),音頻(173個)、3D(93)、圖形(70)等等共38種模式。
  • NLP - 基於 BERT 的中文命名實體識別(NER)
    作者:艾力亞爾(微博 @艾力亞爾),暴風大腦研究院研發工程師,現負責電視端的語音助手相關工作。
  • 《地球大數據(英文)》被Scopus資料庫收錄
    近日,由國際數字地球學會、中國科學院空天信息創新研究院、中國科學院A類戰略性先導科技專項「地球大數據科學工程」共同主辦的學術期刊《地球大數據(英文)》(Big Earth Data)被Scopus資料庫正式收錄。這是繼2018年5月該刊被DOAJ(國際開放獲取期刊檢索系統)收錄後,獲得的另一大型文獻資料庫的認可。
  • P300腦機接口及數據集處理
    本篇文章主要介紹了P300腦機接口及數據集處理以及相關的數據集處理。P300是大腦認知過程中產生的一種事件相關電位,主要與期待、意動、覺醒、注意等心理因素有關。Sutton等人發現,當人腦受到小概率相關事件的刺激時,腦電信號中會出現一個潛伏期約為300ms的正向波峰,P300因此得名。