新智元報導
來源:stanfordnlp.github.io
編輯:肖琴
【新智元導讀】斯坦福團隊最新發布一個NLP任務的軟體包StanfordNLP,通過Python接口為53種語言提供標記、依存句法分析等NLP任務的重要工具。
今天,斯坦福NLP團隊發布一個重磅NLP工具包:StanfordNLP。
StanfordNLP是一個軟體包組合,包括斯坦福團隊在CoNLL 2018 的通用依存解析(Universal Dependency Parsing)共享任務上使用的軟體包,以及斯坦福CoreNLP軟體的官方Python接口。
StanfordNLP支持包括阿拉伯語、中文、英語等53種語言(全部語言列表見文末)。
除了從CoreNLP繼承的功能外,StanfordNLP還包含將一串文本轉換成句子和單詞列表,生成這些單詞的基本形式、它們的詞類和形態學特徵的工具,以及超過70種語言的句法結構。
這個軟體包採用高準確性的神經網絡組件構建,這些組件支持用戶使用自己的注釋數據進行高效的訓練和評估。這些模塊構建在PyTorch上。
StanfordNLP具有以下特徵:
本地Python實現,只需最少的設置工作;用於穩健的文本分析的完整神經網絡pipeline,包括tokenization、多詞標記(MWT)擴展、外延化、詞類(POS)和形態學特徵標記,以及依存句法分析(dependency parse);支持73個treebank中53種(人類)語言的預訓練神經模型;穩定、官方維護的轉到CoreNLP的Python接口。
獲取地址:
https://stanfordnlp.github.io/stanfordnlp/index.html
安裝與測試
我們強烈建議使用pip安裝StanfordNLP,這非常簡單
要查看StanfordNLP的neural pipeline的運行情況,可以啟動Python交互式解釋器,並嘗試以下命令:
最後,我們應該能看到示例中第一句的依存句法分析。更多詳細指南,請參閱官方入門指南:
https://stanfordnlp.github.io/stanfordnlp/installation_download.html#getting-started
除了neural pipeline之外,StanfordNLP還提供了用於訪問Java Stanford CoreNLP Server的官方Python包裝器。要使用它,首先需要像下面這樣設置CoreNLP包:
下載你希望使用的語言的Stanford CoreNLP和模型。將模型的jar包放到分發文件夾中告訴Stanford CoreNLP所在的位置:export CORENLP_HOME=/path/to/stanford-corenlp-full-2018-10-05
設置完CoreNLP之後,就可以按照我們的演示腳本進行測試。
演示腳本:
輸出應該像下面這樣:
StanfordNLP支持的所有語言:
更多閱讀:
孫劍出任院長!西交大成立人工智慧學院,本科必修課表曝光Science封面裡程碑研究!納米級成像,人類終於看清大腦每個神經元剛剛,任正非回應一切:對今天的困難,華為已備戰十幾年!
新智元AI技術+產業社群招募中,歡迎對AI技術+產業落地感興趣的同學,加小助手_2 入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。