斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言

2021-01-18 新智元

新智元報導

來源:stanfordnlp.github.io

編輯:肖琴

【新智元導讀】斯坦福團隊最新發布一個NLP任務的軟體包StanfordNLP,通過Python接口為53種語言提供標記、依存句法分析等NLP任務的重要工具。

今天,斯坦福NLP團隊發布一個重磅NLP工具包:StanfordNLP。

StanfordNLP是一個軟體包組合,包括斯坦福團隊在CoNLL 2018 的通用依存解析(Universal Dependency Parsing)共享任務上使用的軟體包,以及斯坦福CoreNLP軟體的官方Python接口。

StanfordNLP支持包括阿拉伯語、中文、英語等53種語言(全部語言列表見文末)。

除了從CoreNLP繼承的功能外,StanfordNLP還包含將一串文本轉換成句子和單詞列表,生成這些單詞的基本形式、它們的詞類和形態學特徵的工具,以及超過70種語言的句法結構。

這個軟體包採用高準確性的神經網絡組件構建,這些組件支持用戶使用自己的注釋數據進行高效的訓練和評估。這些模塊構建在PyTorch上。

StanfordNLP具有以下特徵:

本地Python實現,只需最少的設置工作;用於穩健的文本分析的完整神經網絡pipeline,包括tokenization、多詞標記(MWT)擴展、外延化、詞類(POS)和形態學特徵標記,以及依存句法分析(dependency parse);支持73個treebank中53種(人類)語言的預訓練神經模型;穩定、官方維護的轉到CoreNLP的Python接口。

獲取地址:

https://stanfordnlp.github.io/stanfordnlp/index.html

安裝與測試

我們強烈建議使用pip安裝StanfordNLP,這非常簡單

要查看StanfordNLP的neural pipeline的運行情況,可以啟動Python交互式解釋器,並嘗試以下命令:

最後,我們應該能看到示例中第一句的依存句法分析。更多詳細指南,請參閱官方入門指南:

https://stanfordnlp.github.io/stanfordnlp/installation_download.html#getting-started

除了neural pipeline之外,StanfordNLP還提供了用於訪問Java Stanford CoreNLP Server的官方Python包裝器。要使用它,首先需要像下面這樣設置CoreNLP包:

下載你希望使用的語言的Stanford CoreNLP和模型。將模型的jar包放到分發文件夾中告訴Stanford CoreNLP所在的位置:export CORENLP_HOME=/path/to/stanford-corenlp-full-2018-10-05

設置完CoreNLP之後,就可以按照我們的演示腳本進行測試。

演示腳本:

輸出應該像下面這樣:

StanfordNLP支持的所有語言:

更多閱讀:

孫劍出任院長!西交大成立人工智慧學院,本科必修課表曝光Science封面裡程碑研究!納米級成像,人類終於看清大腦每個神經元剛剛,任正非回應一切:對今天的困難,華為已備戰十幾年!

新智元AI技術+產業社群招募中,歡迎對AI技術+產業落地感興趣的同學,加小助手_2 入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。

相關焦點

  • 資源| 史丹福大學NLP組開放神經機器翻譯代碼庫(附論文)
    選自斯坦福機器之心編譯參與:吳攀、杜夏德近日,史丹福大學自然語言處理組(Stanford NLP)發布了一篇文章,總結了該研究組在神經機器翻譯(NMT)上的研究信息。在這篇文章中,他們還放出了在多種翻譯任務上(比如英德翻譯和英語-捷克語翻譯)實現了當前最佳結果的代碼庫(codebase)。
  • 【超全資源】自然語言處理(NLP)入門學習資源清單(部分資料下載)
    v=nfoudtpBV68&list=PL6397E4B26D00A269 •  斯坦福CS224d:自然語言處理的深度學習[更高級的機器學習算法、深度學習和NLP的神經網絡架構]http://cs224d.stanford.edu/syllabus.html •  Coursera:自然語言處理簡介[由密西根大學提供的NLP
  • 國內自然語言處理(NLP)研究組
    小編第一次講技術了,希望大家多多支持,啥都不說了,先把重要實驗室奉上。Lab)ByteDance AI Lablab.toutiao.com中科院計算所自然語言處理研究組歡迎來到中科院計算所自然語言處理組網站nlp.ict.ac.cn中科院自動化研究所語音語言技術研究組中文信息處理組nlpr-web.ia.ac.cn中國科學院軟體研究所中文信息處理實驗室中科院軟體所中文信息處理實驗室www.icip.org.cn
  • 重磅發布 | 牛津大學Deep NLP深度自然語言處理課程17年最新(漢化視頻)
    大數據文摘作品,轉載要求見文末大數據文摘重磅推出牛津大學深度學習與自然語言處理課程(Deep NLP)漢化視頻!去年,大數據文摘獲得授權並完成了李飛飛教授史丹福大學CS231N課程視頻的漢化斯坦福《CS231n深度學習與計算機視覺課》(戳標題查看),該課程目前在網易雲課堂有超過4萬人學習,並且好評不斷。
  • 深度學習在NLP中的運用?從分詞、詞性到機器翻譯、對話系統
    (框架流程見圖 1,具體見 https://arxiv.org/abs/1706.00286)圖 1:利用 RNN 解決 Word2Vec 中 out of vocabulary 問題實例中文不同於英文自然分詞,中文分詞是文本處理的一個基礎步驟,也是自然語言處理的基礎模塊。
  • 中文NLP福利!大規模中文自然語言處理語料
    新智元推薦來源:AINLP作者:徐亮【新智元導讀】本文介紹一個中文自然語言處理語料庫項目:nlp_chinese_corpus ,初步貢獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料,可直接下載使用。
  • NLP入門+實戰必讀:一文教會你最常見的10種自然語言處理技術
    (https://www.analyticsvidhya.com/blog/2017/10/essential-nlp-guide-data-scientists-top-10-nlp-tasks/)相關工具:這是個基於瀏覽器的詞向量可視化工具。
  • NLP 與 NLU:從語言理解到語言處理
    NLU: from Understanding a Language to Its Processing作者 | Sciforce翻譯 | 蘿蔔菜在種樹     編輯 | 王立魚原文連結:https://medium.com/sciforce/nlp-vs-nlu-from-understanding-a-language-to-its-processing
  • 想快速入門NLP?我們測評了15門最火課程,幫你找到最適合的
    大數據文摘出品來源:airev編譯:DD、Andy數年前,當小編剛踏足NLP領域時,還沒有太多相關課程,找學習資料就頗費功夫;如今,當網上充斥著各種良莠不齊公開課時,從中挑選一門適合自己的又成了另一種頗費功夫,特別對於選擇困難綜合症患者。
  • 乾貨| 請收下這份2018學習清單:150個最好的機器學習,NLP和Python...
    猛回頭,發現標收藏夾又多了20個資源待我學習(推薦提升效率工具Tab Bundler)。)https://monkeylearn.com/blog/introduction-to-support-vector-machines-svm/支持向量機(Stanford CS229)http://cs229.stanford.edu/notes/cs229-notes3.pdf線性分類:支持向量機,Softmax
  • ...請收下這份2018學習清單:150個最好的機器學習,NLP和Python教程
    猛回頭,發現標收藏夾又多了20個資源待我學習(推薦提升效率工具Tab Bundler)。>支持向量機(Stanford CS229)http://cs229.stanford.edu/notes/cs229-notes3.pdf線性分類:支持向量機,Softmax (Stanford 231n)http://cs231n.github.io
  • 乾貨 | 請收下這份2018學習清單:150個最好的機器學習,NLP和Python教程
    猛回頭,發現標收藏夾又多了20個資源待我學習(推薦提升效率工具Tab Bundler)。)https://monkeylearn.com/blog/introduction-to-support-vector-machines-svm/ 支持向量機(Stanford CS229)http://cs229.stanford.edu/notes/cs229-notes3.pdf 線性分類:支持向量機,Softmax
  • 基於Bert和通用句子編碼的Spark-NLP文本分類
    自然語言處理(NLP)是許多數據科學系統中必須理解或推理文本的關鍵組成部分。常見的用例包括文本分類、問答、釋義或總結、情感分析、自然語言BI、語言建模和消歧。NLP在越來越多的人工智慧應用中是越來越重要。如果你正在構建聊天機器人、搜索專利資料庫、將患者與臨床試驗相匹配、對客戶服務或銷售電話進行分級、從財務報告中提取摘要,你必須從文本中提取準確的信息。
  • 自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文
    示例:SNLI斯坦福自然語言推理(SNLI)語料庫包含大約 550k 個假設/前提對。模型基於準確率評估。可以在 SNLI 的網站上查看當前最佳結果:https://nlp.stanford.edu/projects/snli/MultiNLI多語型自然語言推理(MultiNLI)語料庫包含大約 433k 個假設/前提對。它和 SNLI 語料庫相似,但覆蓋了多種口頭和書面文本的語型(genre),並支持跨語型的評估。
  • 2019 年 NLP 領域都發生了哪些大事件?
    XLNet 是一種用於自然語言處理任務的預訓練方法,它在 20 種任務上相較於 BERT 有了進一步的提升。關於這份卓越的工作的總結,請參閱: https://medium.com/dair-ai/xlnet-outperforms-bert-on-several-nlp-tasks-9ec867bb563b。
  • 人工智慧難點之——自然語言處理(NLP)
    (人工智慧主要包含以下幾個方面: 自動推理-計算語言學-計算機視覺-進化計算-專家系統-自然語言處理-機器人學)自然語言處理(NLP)是資訊時代最重要的技術之一。理解複雜的語言也是人工智慧的重要組成部分。NLP的應用無處不在,因為人們用語言進行大部分溝通:網絡搜索,廣告,電子郵件,客戶服務,語言翻譯,發布學報告等等。
  • 斯坦福CS224n《基於深度學習的NLP》課程更新,C.Manning主講
    新智元報導 來源:Stanford編輯:大明【新智元導讀】史丹福大學官方公布cs224n課程《基於深度學習的自然語言處理》詳細安排,主講人為史丹福大學人工智慧實驗室主任,著名計算機科學家Christopher Manning教授,1月份課程閱讀材料已公布。本課程自2017 年起開設,2017年該課程視頻已公開放出。
  • 2019自然語言處理前沿論壇 五大議題全面解析NLP技術前沿
    5月26日,由百度與中國計算機學會中文信息技術專委會、中國中文信息學會青工委聯合舉辦的「2019自然語言處理前沿論壇」正式召開。本屆論壇主題為「機器之『讀、寫、說、譯』—— 探尋NLP未來之路」。論壇圍繞語義計算、自動問答、語言生成、人機對話及機器翻譯五大議題,與學術界、工業界一線青年專家學者共同探討NLP領域的最新技術進展、產業應用及發展趨勢。
  • NLP 新手必看!這是一份覆蓋全面的基於 PyTorch 和 keras 的 NLP...
    項目的 GitHub 地址為:https://github.com/lyeoni/nlp-tutorial。這是一個教你逐步實現和適應簡單的實詞 NLP 任務的教程:項目裡面有 4 個資源:神經機器翻譯、問答匹配、新聞分類和電影分級。這些資源都提供了源碼,對初學者來說,極為友好。初學者可以學會建立自己的模型。
  • 人工智慧培訓系列:R語言NLP的中文單詞特徵處理 1
    不過對於中文名義特徵的處理相對比較少。對於中文處理,可以看成有兩方面內容,一個是中文分詞,另外一個就是把一個文檔中的中文詞語做為一個個的特徵轉換為稀舒矩陣處理。文檔轉換為多個特徵對應的稀舒矩陣處理請參考R語言NLP的中文單詞特徵處理 2第一個中文分詞:中文分詞與英文單詞用空格不太一樣。