點上方藍字計算機視覺聯盟獲取更多乾貨
在右上方 ··· 設為星標 ★,與你不見不散
spaCy 3.0 正式版來了。
spaCy 是具有工業級強度的 Python NLP 工具包,被稱為最快的工業級自然語言處理工具。它支持多種自然語言處理的基本功能,主要功能包括分詞、詞性標註、詞幹化、命名實體識別、名詞短語提取等。近日,spaCy v3.0 正式發布,這是一次重大更新。spcCy 3.0 更新文檔地址:https://github.com/explosion/spaCy/releases/tag/v3.0.0具有新的基於 transformer 的 pipeline,這使得 spaCy 的準確率達到了當前的 SOTA 水平;
提供了新的 workflow 系統,幫助用戶將原型變為產品;
pipeline 配置更加簡單,訓練 pipeline 也更加輕鬆;
與 NLP 生態系統的其他部分有許多新的和改進的集成。
spaCy v3.0 旨在優化用戶的應用體驗。用戶可以使用強大的新配置系統來描述所有的設置,從而在 PyTorch 或 TensorFlow 等框架中編寫支持 spaCy 組件的模型。新的 workflow 系統更加適用於步驟複雜的現代 NLP 流程。為了實現最流暢的更新過程,項目開發者建議用戶在一個新的虛擬環境中啟動:在具體操作上,用戶可以選擇自己的作業系統、包管理器、硬體、配置、訓練 pipeline,以及選擇 pipeline 時可以選擇側重效率性或者準確性。本次更新的 spaCy v3.0 增添了一些新功能,也進行了一系列改進,具體如下:基於 Transformer 的 pipeline,支持多任務學習;
針對 18 + 種語言再訓練的模型集合以及 58 個訓練的 pipeline(包括 5 個基於 transformer 的pipeline);
針對所有支持語言再訓練的 pipeline,以及用於馬其頓語和俄語的新的核心 pipeline;
新的訓練工作流和配置系統;
使用 PyTorch、TensorFlow 和 MXNet 等任何機器學習框架實現自定義模型;
管理從預處理到模型部署等端到端多步驟工作流的 spaCy 項目;
集成數據版本控制(Data Version Control, DVC)、Streamlit、Weights & Biases、Ray 等;
利用 Ray 的並行訓練和分布式計算;
新的內置pipeline組件:SentenceRecognizer、Morphologizer、Lemmatizer、AttributeRuler 和 Transformer;
針對自定義組件的全新改進版 pipeline 組件 API 和裝飾器;
從用戶訓練配置的其他 pipeline 中獲取經過訓練的組件;
為所有經過訓練的 pipeline 包提供預建和更高效的二進位 wheel;
使用 Semgrex 運算符在依賴解析(dependency parse)中提供用於匹配模式的 DependencyMatcher;
在 Matcher 中支持貪婪模式(greedy pattern);
新的數據結構 SpanGroup,可以通過 Doc.spans 有效地存儲可能重疊的 span 的集合;
用於自定義註冊函數的類型提示和基於類型的數據驗證;
各種新方法、屬性和命令。
用戶在下載訓練的 pipeline 時,可以使用 spacy download 命令。58 個訓練的 pipeline 如下圖所示:用戶在自己的數據上訓練 pipeline 時可參考訓練文檔,地址:https://spacy.io/usage/training下圖中棄用的方法、屬性和參數已經在 v3.0 中刪除,其中的大多數已經棄用了一段時間,並且很多以往會引發錯誤。如果用戶使用的是最新版本的 spaCy v2.x,則代碼對它們的依賴性不大。https://explosion.ai/blog/spacy-v3https://zhuanlan.zhihu.com/p/51425975我是王博Kings,一名985AI博士,在Github上開源了機器學習、深度學習等一系列手推筆記,獲得了不少同學的支持。這是我的私人微信,還有少量坑位,可與相關學者研究人員交流學習 目前開設有人工智慧、機器學習、計算機視覺、自動駕駛(含SLAM)、Python、求職面經、綜合交流群掃描添加CV聯盟微信拉你進群,備註:CV聯盟
王博Kings的系列手推筆記(附高清PDF下載):博士筆記 | 周志華《機器學習》手推筆記第九章聚類
博士筆記 | 周志華《機器學習》手推筆記第十章降維與度量學習
博士筆記 | 周志華《機器學習》手推筆記第十一章特徵選擇與稀疏學習
博士筆記 | 周志華《機器學習》手推筆記第十二章計算學習理論(上)
博士筆記 | 周志華《機器學習》手推筆記第十二章計算學習理論(下)
博士筆記 | 周志華《機器學習》手推筆記第十三章半監督學習
博士筆記 | 周志華《機器學習》手推筆記第十四章概率圖模型
點個在看支持一下吧