提供基於transformer的pipeline、準確率達SOTA

2021-03-01 計算機視覺聯盟

點上方藍字計算機視覺聯盟獲取更多乾貨

在右上方 ··· 設為星標 ★,與你不見不散

spaCy 3.0 正式版來了。

spaCy 是具有工業級強度的 Python NLP 工具包,被稱為最快的工業級自然語言處理工具。它支持多種自然語言處理的基本功能,主要功能包括分詞、詞性標註、詞幹化、命名實體識別、名詞短語提取等。近日,spaCy v3.0 正式發布,這是一次重大更新。

spcCy 3.0 更新文檔地址:https://github.com/explosion/spaCy/releases/tag/v3.0.0

具有新的基於 transformer 的 pipeline,這使得 spaCy 的準確率達到了當前的 SOTA 水平;

提供了新的 workflow 系統,幫助用戶將原型變為產品;

pipeline 配置更加簡單,訓練 pipeline 也更加輕鬆;

與 NLP 生態系統的其他部分有許多新的和改進的集成。

spaCy v3.0 旨在優化用戶的應用體驗。用戶可以使用強大的新配置系統來描述所有的設置,從而在 PyTorch 或 TensorFlow 等框架中編寫支持 spaCy 組件的模型。新的 workflow 系統更加適用於步驟複雜的現代 NLP 流程。為了實現最流暢的更新過程,項目開發者建議用戶在一個新的虛擬環境中啟動:在具體操作上,用戶可以選擇自己的作業系統、包管理器、硬體、配置、訓練 pipeline,以及選擇 pipeline 時可以選擇側重效率性或者準確性。

本次更新的 spaCy v3.0 增添了一些新功能,也進行了一系列改進,具體如下:

基於 Transformer 的 pipeline,支持多任務學習;

針對 18 + 種語言再訓練的模型集合以及 58 個訓練的 pipeline(包括 5 個基於 transformer 的pipeline);

針對所有支持語言再訓練的 pipeline,以及用於馬其頓語和俄語的新的核心 pipeline;

新的訓練工作流和配置系統;

使用 PyTorch、TensorFlow 和 MXNet 等任何機器學習框架實現自定義模型;

管理從預處理到模型部署等端到端多步驟工作流的 spaCy 項目;

集成數據版本控制(Data Version Control, DVC)、Streamlit、Weights & Biases、Ray 等;

利用 Ray 的並行訓練和分布式計算;

新的內置pipeline組件:SentenceRecognizer、Morphologizer、Lemmatizer、AttributeRuler 和 Transformer;

針對自定義組件的全新改進版 pipeline 組件 API 和裝飾器;

從用戶訓練配置的其他 pipeline 中獲取經過訓練的組件;

為所有經過訓練的 pipeline 包提供預建和更高效的二進位 wheel;

使用 Semgrex 運算符在依賴解析(dependency parse)中提供用於匹配模式的 DependencyMatcher;

在 Matcher 中支持貪婪模式(greedy pattern);

新的數據結構 SpanGroup,可以通過 Doc.spans 有效地存儲可能重疊的 span 的集合;

用於自定義註冊函數的類型提示和基於類型的數據驗證;

各種新方法、屬性和命令。

用戶在下載訓練的 pipeline 時,可以使用 spacy download 命令。58 個訓練的 pipeline 如下圖所示:

用戶在自己的數據上訓練 pipeline 時可參考訓練文檔,地址:https://spacy.io/usage/training

下圖中棄用的方法、屬性和參數已經在 v3.0 中刪除,其中的大多數已經棄用了一段時間,並且很多以往會引發錯誤。如果用戶使用的是最新版本的 spaCy v2.x,則代碼對它們的依賴性不大。

https://explosion.ai/blog/spacy-v3https://zhuanlan.zhihu.com/p/51425975我是王博Kings,一名985AI博士,在Github上開源了機器學習、深度學習等一系列手推筆記,獲得了不少同學的支持。這是我的私人微信,還有少量坑位,可與相關學者研究人員交流學習 目前開設有人工智慧、機器學習、計算機視覺、自動駕駛(含SLAM)、Python、求職面經、綜合交流群掃描添加CV聯盟微信拉你進群,備註:CV聯盟
王博Kings的系列手推筆記(附高清PDF下載):

博士筆記 | 周志華《機器學習》手推筆記第九章聚類

博士筆記 | 周志華《機器學習》手推筆記第十章降維與度量學習

博士筆記 | 周志華《機器學習》手推筆記第十一章特徵選擇與稀疏學習

博士筆記 | 周志華《機器學習》手推筆記第十二章計算學習理論(上)

博士筆記 | 周志華《機器學習》手推筆記第十二章計算學習理論(下)

博士筆記 | 周志華《機器學習》手推筆記第十三章半監督學習

博士筆記 | 周志華《機器學習》手推筆記第十四章概率圖模型

點個在看支持一下吧

相關焦點

  • 陳丹琦新作:關係抽取新SOTA,用pipeline方式挫敗joint模型
    該方法基於兩個獨立的預訓練編碼器構建而成,只使用實體模型為關係模型提供輸入特徵。通過一系列精心檢驗,該研究驗證了學習不同的語境表示對實體和關係的重要性,即在關係模型的輸入層融合實體信息,併集成全局語境信息。此外,該研究還提出了這一方法的高效近似方法,只需要在推斷時對兩個編碼器各執行一次,即可獲得 8-16 倍的加速,同時準確率僅小幅下降。
  • 超越SOTA Transformer模型,哈佛、FAIR提出基於殘差能量模型的文本...
    機器之心報導機器之心編輯部在本文中,來自哈佛大學、Facebook AI 研究院的研究者提出了一種基於殘差能量模型的文本生成方法,效果超過 state-of-the-art 的 transformer 語言模型。
  • ...利用基於遷移學習策略的transformer 模型進行Heck反應預測
    learning模型的top-1準確率仍能達到87.7%。無論是化學信息還是序列之間的對應關係,transformer模型通過遷移學習能夠對其有更深刻的認識。表2. Transformer-transfer learning模型和transformer-baseline模型對於分子間和分子內Heck反應預測的top-1準確率。
  • |利用基於遷移學習策略的transformer 模型進行Heck...
    作者以經典的小數據-Heck人名反應為代表,證明了遷移學習這一方法在反應預測任務上具有強大性能,同時進一步擴展了transformer這一語言翻譯模型在化學領域的應用,突破性地解決了有限數據預測的難題,為後續的人工智慧輔助化學研發提供了重要的現實依據。
  • 用 Scikit-learn Pipeline 創建機器學習流程
    Pipeline 中除最後一個 estimators 外的所有估計器都須是 transformer。最後一個 estimator 可以是任何類型(transformer,classifier,regresser)。
  • sklearn 機器學習 Pipeline 模板
    最終完整Pipeline使用 sklearn 的 pipeline 搭建機器學習的流程本文例子為 [Kesci] 新人賽 · 員工滿意度預測參考 [Hands On ML] 2. 一個完整的機器學習項目(加州房價預測)1.
  • 哈希革新Transformer:ICLR高分論文讓一塊GPU處理64K長度序列
    大型的 Transformer 往往可以在許多任務上實現 sota,但訓練這些模型的成本很高,尤其是在序列較長的時候。在 ICLR 的入選論文中,我們發現了一篇由谷歌和伯克利研究者發表的優質論文。在最大的配置中,參數數量已經超過了 0.5B/層,層數多達 64。諸如此類的大型 Transformer 模型頻頻出現,到底是客觀上必須要求如此多的資源,還是僅僅是因為處理效率不夠高?
  • 熱門的模型跨界,Transformer、GPT做CV任務一文大盤點
    與之前的目標檢測系統相比,DETR 的架構有了根本上的改變,也是第一個將 Transformer 成功整合為檢測 pipeline 中心構建塊的目標檢測框架。基於 Transformer 的端到端目標檢測,沒有 NMS 後處理步驟、真正的沒有 anchor,且對標超越 Faster RCNN。
  • sklearn調包俠之學習曲線和Pipeline
    首先,講講寫本系列教程的原因:第一,《機器學習實戰》的代碼由Python2編寫,有些代碼在Python3上運行已會報錯,本教程基於Python3進行代碼的修訂;第二:之前看了一些機器學習的書籍,沒有進行記錄,很快就忘記掉了,通過編寫教程也是一種複習的過程;第三,機器學習相對於爬蟲和數據分析而言,學習難度更大,希望通過本系列文字教程,讓讀者在學習機器學習的路上少走彎路。
  • NLP攜手Transformer跨界計算機視覺,DETR:目標檢測新範式
    基於 DETR,研究者們提出了多種優化版本進行目標檢測任務,效果還不錯。Transformer 是 Google 團隊在 2017 年 6 月提出的 NLP 經典之作,由 Ashish Vaswani 等人在發表的論文《Attention Is All You Need》中提出。自從 Transformer 被提出以來,得益於其強大的注意力機制,便開始在 NLP 領域一統江湖。
  • 嵌入式快訊:M1808 AI 核心板和基於Transformer的車道線檢測網絡
    流行的分兩步解決問題的pipeline:特徵提取和後處理。雖然有用,但效率低下,在學習全局上下文和通道的長而細的結構方面存在缺陷。 本文提出了一種端到端方法,該方法可以直接輸出車道形狀模型的參數,使用通過transformer構建的網絡來學習更豐富的結構和上下文。車道形狀模型是基於道路結構和攝像頭姿勢制定的,可為網絡輸出的參數提供物理解釋。
  • 【強推】優雅高效地數據挖掘——基於Python的sklearn_pandas庫
    因此 sklearn_pandas 提供了一個方便的轉換接口,省去自己轉換數據的過程。一樣,比如可以作為 Pipeline 的輸入參數DataFrameMapper 內部機制是先將指定的 DataFrame 的列轉換成 ndarray 類型,再輸入到 sklearn 的相應 transformer中DataFrameMapper 接受的變換類型是 sklearn 的 transformer 類,因而除了 sklearn 中常見的變換 (標準化、正規化、二值化等等
  • Facebook AI的DETR:一種基於Transformer的目標檢測方法
    utm_source=blog&utm_medium=facebook-detection-transformer-detr-a-transformer-based-object-detection-approach使用流行的YOLO框架進行目標檢測的實用指南https://www.analyticsvidhya.com/blog/2018/12/practical-guide-object-detection-yolo-framewor-python
  • 騰訊提結合ACNet進行細粒度分類,效果達到最新SOTA|CVPR 2020
    每個節點為路由模塊,決定下一個計算節點,邊採用attention transformer進行操作。Attention transformerAttention transformer模塊用於加強網絡獲取關鍵特徵的能力,在卷積後面插入結構如圖2c所示的attention模塊,該模塊的旁路輸出一個大小為的channel attention map對輸入特徵進行加權。
  • 視覺+Transformer最新論文出爐,華為聯合北大、雪梨大學發表
    Transformer 的詳細結構圖基於Transformer的語言模型獲得了成功應用:基於Transformer構建的代表性語言模型列表Vision Transformer(ViT,出自谷歌論文 An image is worth 16x16 words: Transformers for image recognition at scale
  • CNN與Transformer的強強聯合!谷歌最新開源BoTNet,ImageNet達84.7%準確率
    本文是伯克利與谷歌的研究在Convolution+Transformer組合方面一個探索,它採用混合方式同時利用了CNN的特徵提取能力、transformer的內容自注意力與位置自注意力機制,取得了優於純CNN(如ResNet、EfficientNet)或者自注意力(如ViT、DeiT)的性能。
  • 基於transformer的中文文本分類
    _positionEmbedding(lastBatch=tf.shape(self.wordEmbedded)[0])        self.embeddedWords = self.wordEmbedded + self.positionEmbedded        with tf.name_scope("transformer"):          for
  • 視覺Transformer最新綜述
    BETR 及其變種(SpanBERT,RoBERTa)等都是基於 transformer 的模型。在 BERT 的預訓練階段,對 BookCorpus 和英語維基百科數據集進行了兩個任務Generative Pre-Trained Transformer(GPT2,GPT3)是另一種基於 Transformer 解碼器架構的預訓練模型,它使用了帶掩碼的自我注意機制。