斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言

2020-12-17 新智元

新智元報導

來源:stanfordnlp.github.io

編輯:肖琴

【新智元導讀】斯坦福團隊最新發布一個NLP任務的軟體包StanfordNLP,通過Python接口為53種語言提供標記、依存句法分析等NLP任務的重要工具。

今天,斯坦福NLP團隊發布一個重磅NLP工具包:StanfordNLP

StanfordNLP是一個軟體包組合,包括斯坦福團隊在CoNLL 2018 的通用依存解析(Universal Dependency Parsing)共享任務上使用的軟體包,以及斯坦福CoreNLP軟體的官方Python接口。

StanfordNLP支持包括阿拉伯語、中文、英語等53種語言(全部語言列表見文末)。

除了從CoreNLP繼承的功能外,StanfordNLP還包含將一串文本轉換成句子和單詞列表,生成這些單詞的基本形式、它們的詞類和形態學特徵的工具,以及超過70種語言的句法結構。

這個軟體包採用高準確性的神經網絡組件構建,這些組件支持用戶使用自己的注釋數據進行高效的訓練和評估。這些模塊構建在PyTorch上。

StanfordNLP具有以下特徵:

本地Python實現,只需最少的設置工作;用於穩健的文本分析的完整神經網絡pipeline,包括tokenization、多詞標記(MWT)擴展、外延化、詞類(POS)和形態學特徵標記,以及依存句法分析(dependency parse);支持73個treebank中53種(人類)語言的預訓練神經模型;穩定、官方維護的轉到CoreNLP的Python接口。

獲取地址:

https://stanfordnlp.github.io/stanfordnlp/index.html

安裝與測試

我們強烈建議使用pip安裝StanfordNLP,這非常簡單

要查看StanfordNLP的neural pipeline的運行情況,可以啟動Python交互式解釋器,並嘗試以下命令:

最後,我們應該能看到示例中第一句的依存句法分析。更多詳細指南,請參閱官方入門指南:

https://stanfordnlp.github.io/stanfordnlp/installation_download.html#getting-started

除了neural pipeline之外,StanfordNLP還提供了用於訪問Java Stanford CoreNLP Server的官方Python包裝器。要使用它,首先需要像下面這樣設置CoreNLP包:

下載你希望使用的語言的Stanford CoreNLP和模型。將模型的jar包放到分發文件夾中告訴Stanford CoreNLP所在的位置:export CORENLP_HOME=/path/to/stanford-corenlp-full-2018-10-05

設置完CoreNLP之後,就可以按照我們的演示腳本進行測試。

演示腳本:

輸出應該像下面這樣:

StanfordNLP支持的所有語言:

更多閱讀:

孫劍出任院長!西交大成立人工智慧學院,本科必修課表曝光Science封面裡程碑研究!納米級成像,人類終於看清大腦每個神經元剛剛,任正非回應一切:對今天的困難,華為已備戰十幾年!

新智元AI技術+產業社群招募中,歡迎對AI技術+產業落地感興趣的同學,加小助手_2 入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。

相關焦點

  • 支持53種語言預訓練模型,斯坦福發布全新NLP工具包StanfordNLP
    53 種語言預訓練模型的自然語言處理工具包 StanfordNLP,該工具包支持 Python 3.6 及之後版本,並基於 PyTorch,支持多種語言的完整文本分析管道,包括分詞、詞性標註、詞形歸併和依存關係解析,此外它還提供了與 CoreNLP 的 Python 接口。
  • 史丹福大學發布 StanfordNLP,支持多種語言
    雷鋒網 AI 科技評論按,近日,史丹福大學發布了一款用於 NLP 的 Python 官方庫,這個庫可以適用於多種語言,其地址是:https://stanfordnlp.github.io/stanfordnlp/,github 資源如下:這是 Stanford 官方發布的 NLP 庫,詳細信息請訪問:https://stanfordnlp.github.io/
  • 資源 | 史丹福大學發布Stanford.NLP.NET:集合多個NLP工具
    近日,史丹福大學發布了 Stanford.NLP for .Net,為自然語言處理領域的開發者們提供幫助。
  • 什麼樣的NLP庫,可以支持53種語言?
    每種語言都有自己的語法模式和語言細微的差別,並且其他語言中並沒有很多數據集可用。直到出現了史丹福大學最新的NLP庫——Sanford NLP。作者聲稱StanfordNLP可以支持超過53種人類語言。53種(人類)語言的預訓練神經模型· 一個穩定的官方維護CoreNLPPython接口這些正是NLP愛好者所追求的。
  • 斯坦福NLP團隊發布最新自然語言處理Python庫
    【導讀】斯坦福NLP團隊,於1月29日發布了新版的自然語言處理Python庫:StandfordNLP,不同於以前java系的CoreNLP,
  • 史丹福大學NLP組Python深度學習自然語言處理工具Stanza試用
    幾年前我曾基於斯坦福Java工具包和NLTK寫過一個簡單的中文分詞接口:Python自然語言處理實踐: 在NLTK中使用斯坦福中文分詞器,不過用起來也不是很方便。深度學習自然語言處理時代,史丹福大學自然語言處理組開發了一個純Python版本的深度學習NLP工具包:Stanza - A Python NLP Library for Many Human Languages,前段時間,Stanza v1.0.0 版本正式發布,算是一個裡程碑:
  • NLP、KG相關軟體、工具、資源匯總
    NLTK主要還是英文文本的處理。裡面也集成了斯坦福的分詞器,可用於中文分詞。SpaCy(https://github.com/explosion/spaCy):工業級的NLP工具包,同時集成了預訓練模型,詞向量,目前支持60多種語言的分詞任務。
  • 資源| 史丹福大學NLP組開放神經機器翻譯代碼庫(附論文)
    選自斯坦福機器之心編譯參與:吳攀、杜夏德近日,史丹福大學自然語言處理組(Stanford NLP)發布了一篇文章,總結了該研究組在神經機器翻譯(NMT)上的研究信息。在這篇文章中,他們還放出了在多種翻譯任務上(比如英德翻譯和英語-捷克語翻譯)實現了當前最佳結果的代碼庫(codebase)。
  • 乾貨 | NLP、知識圖譜教程、書籍、網站、工具...(附資源連結)
    /CoreNLP/THUCTCTHUCTC(THU Chinese Text Classification)是由清華大學自然語言處理實驗室推出的中文文本分類工具包。然而對於初學者來說,這卻是最適合的工具。這主要體現在以下幾個方面:1.中文處理能力。NLTK和OpenNLP對中文支持非常差,這裡不光是中文分詞的問題,有些NLP算法需要一定的語言模型數據,但瀏覽NLTK官方的模型庫,基本找不到中文模型數據。
  • Python NLP中的五大英雄
    在本指南中,我們將訪問Python自然語言包。這些包能處理一系列的任務,如詞性(詞性)標註、情感分析、文檔分類、主題建模等等。為什麼只有5個包?我們寫的每一個指導與思想的實踐者,實際上有幾十個的NLP包…但一旦你掌握了其中的一些基礎,你就可以覆蓋所有重要的基地。這是一個固執己見的嚮導,它展示了我們發現最有用的5個Python NLP庫。
  • 這把神器,讓你用 Python 一口氣掌握 53 種自然語言處理!
    它不但包含了完整的語義分析工具鏈,還帶有 73 個不同的高精度神經網絡模型,能解析 53 種不同的人類語言。是不是很牛×啊?今天的教程裡,我就手把手帶你在 Python 上使用 StanfordNLP,進行一些自然語言處理實戰。關注優達學城,私信回復關鍵詞 NLP (注意是大寫),領取全套「StanfordNLP」官方文檔。
  • 【獨家】自然語言處理(NLP)入門指南
    v=nfoudtpBV68&list=PL6397E4B26D00A269 •  斯坦福CS224d:自然語言處理的深度學習[更高級的機器學習算法、深度學習和NLP的神經網絡架構]http://cs224d.stanford.edu/syllabus.html •  Coursera:自然語言處理簡介[由密西根大學提供的NLP
  • Awesome-Chinese-NLP:中文自然語言處理相關資料
    HanLP (Java)SnowNLP (Python) Python library for processing Chinese textYaYaNLP (Python) 純python編寫的中文自然語言處理包,取名於「牙牙學語」小明NLP (Python) 輕量級中文自然語言處理工具DeepNLP (Python) Deep
  • 社科NLP課程來了:斯坦福開年公開課主講NLP和社交網絡應用
    近日,史丹福大學發布了一門明年 1 月的公開課程,主要關注 AI 中的自然語言處理和社交網絡的結合應用,適合文科生學習。史丹福大學的 AI 相關公開課一直受到機器學習社區的關注。機器之心曾經也報導過史丹福大學的 CS224n 自然語言處理課程。近日,史丹福大學的另一門 NLP 公開課程也放出了課程通知,即將於 2020 年 1 月開始授課。
  • 一個快要被NLP人遺忘的方向: 句法分析
    如何描述文法,另一種是依存結構,用單詞之間的依存關係來表達語法。如果一個單詞修飾另一個單詞,則稱該單詞依賴於另一個單詞:依存文法存在一個共同的基本假設:文法結構本質上包含詞和詞之間的依存(修飾)關係。一個依存關係連接兩個詞,分別是核心詞( head)和依存詞( dependent)。依存關係可以細分為不同的類型,表示兩個詞之間的具體句法關係。
  • 中文分詞工具評估:chinese-segmentation-evaluation
    專欄地址:http://www.52nlp.cn/author/tiandiweizun中文分詞工具評估項目地址:https:基於此,我做了一個java和python版本中文分詞工具評比項目chinese-segmentation-evaluation。
  • 八款中文詞性標註工具使用及在線測試
    相比於其他的分詞工具包,當使用相同的訓練數據和測試數據,pkuseg可以取得更高的分詞準確率。支持用戶自訓練模型。支持用戶使用全新的標註數據進行訓練。支持詞性標註。/THULAC-PythonTHULAC(THU Lexical Analyzer for Chinese)由清華大學自然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包,具有中文分詞和詞性標註功能。
  • 【NLP】競賽必備的NLP庫
    jieba是Python中的優秀的中文分詞第三方庫,通過幾行代碼就可以完成中文句子的分詞。jieba的分詞精度和性能非常優異,經常用來進行中文分詞的實驗對比。此外jieba還可以很方便的自定義詞典,使用起來非常靈活。
  • 資源 | Python中文分詞工具大合集
    首先介紹之前測試過的8款中文分詞工具,這幾款工具可以直接在AINLP公眾號後臺在線測試,嚴格的說,它們不完全是純粹的中文分詞工具,例如SnowNLP, Thulac, HanLP,LTP,CoreNLP都是很全面的(中文)自然語言處理工具。
  • Python自然語言處理工具NLTK學習導引及相關資料
    NLTK雖然主要面向英文,但是它的很多NLP模型或者模塊是語言無關的,因此如果某種語言有了初步的Tokenization或者分詞,NLTK的很多工具包是可以復用的。,發現少了斯坦福中文分詞器,所以當時動手加了一個:Python自然語言處理實踐: 在NLTK中使用斯坦福中文分詞器史丹福大學自然語言處理組是世界知名的NLP研究小組,他們提供了一系列開源的Java文本分析工具,包括分詞器(Word Segmenter),詞性標註工具(Part-Of-Speech Tagger),命名實體識別工具(Named Entity Recognizer),句法分析器