PaddleNLP:工業級中文NLP開源工具集

2021-02-13 相約機器人


近年來隨著大數據、深度學習等技術的快速發展,加之與自然語言處理技術密切結合,語言智能獲得了持續的續發展和突破,並越來越多地應用於各個行業。百度在自然語言處理技術方面,已有了十幾年的技術累積和前瞻探索,並且不斷將核心技術高效落地產業實踐。

為了適應全面豐富的NLP任務,方便更多開發者靈活插拔嘗試多種網絡結構,並且讓應用最快速達到工業級效果,今年4月23日,百度正式開放了工業級中文NLP工具與預訓練模型集——PaddleNLP(nlp.baidu.com/homepage/nlptools)。

PaddleNLP將自然語言處理領域的多種模型用一套共享骨架代碼實現,可大大減少開發者在開發過程中的重複工作。工具集擁有當前業內效果最好的中⽂語義表示模型和基於用戶大數據訓練的應用任務模型,模型源於產業實踐,達到工業級的應用效果。

PaddleNLP完全基於PaddlePaddle (www.paddlepaddle.org)開發。PaddlePaddle 是中國首個、也是目前國內唯一開源開放,集核心框架、工具組件和服務平臺為一體的端到端開源深度學習平臺,其囊括支持面向真實場景應用、達到工業級應用效果的模型,並具備針對大規模數據場景的分布式訓練能力、支持多種異構硬體的高速推理引擎。

PaddleNLP提供依託於百度百億級大數據的預訓練模型,能夠極大地方便NLP研究者和工程師快速應用。使用者可以用PaddleNLP快速實現文本分類、文本匹配、序列標註、閱讀理解、智能對話等NLP任務的組網、建模和部署,而且可以直接使用百度開源工業級預訓練模型進行快速應用。用戶在極大地減少研究和開發成本的同時,也可以獲得更好的基於工業實踐的應用效果。

紮根產業實踐,PaddleNLP為了更好滿足開發者需求

百度在十幾年來一直紮根NLP技術的產業應用,通過在百度搜索、信息流、百科、貼吧、文庫等內部場景的技術積累,加之對外的技術開放與應用,形成了一整套服務於產業實踐的NLP技術方案。除了保持技術先進,百度也不斷關注開發者對NLP工具的具體需求,希望打造一個全面、易用、高效的開源NLP工具集,讓NLP技術有更廣泛的落地應用場景。

一個面向完整場景的NLP應用系統通常需要對眾多NLP基礎任務進行系統化集成方可完成搭建。與此同時,NLP任務通常需要針對應用場景做適應性遷移,需要其具備充分的組網方案自由度且可高效率重訓。更重要的是,NLP任務需要通過大量細節調優以滿足苛刻的應用需求,非工業級模型難以積累。而百度開源的PaddleNLP工具集恰恰是針對這些需求進行開發,能夠覆蓋豐富的NLP任務,具備靈活的應用適應性,並擁有優異的應用效果。

全面、靈活、高效,打造強大的PaddleNLP

全面:涵蓋應用任務和基礎網絡,提供豐富任務類型

PaddleNLP基於十幾年的技術積累,提供了全面豐富的中文處理任務,涵蓋了文本分類、文本匹配、序列標註、語言表示等多種任務方向,可根據業務需求或實驗需求快速選擇相應的任務進行使用。

靈活:任務與網絡解耦,網絡靈活可插拔

PaddleNLP工具集將任務與網絡解耦,區分出應用任務層和基礎網絡層,同類型任務的不同網絡可以實現靈活插拔和快速替換,方便開發者快速針對應用場景做適應性遷移。

高效:強大的工業化預訓練模型,打造優異應用效果

PaddleNLP擁有當前業內效果最好的中⽂語義表示模型和基於用戶大數據訓練的應⽤用任務模型,模型效果調整機制源於產業實踐,模型應用效果更突出。

百度提供了大量工業化預訓練模型,包括語義表示基礎模型和基於任務的預訓練模型。2019年3月,百度提出知識增強的語義表示模型ERNIE(Enhanced Representation through kNowledge IntEgration),在包括語言推斷、語義相似度、命名實體識別、情感分析、問答匹配等自然語言處理各類任務上,均超越了語義表示模型BERT 的效果。

ERNIE基於海量百科、新聞、貼吧多源數據進行學習。並且相較於BERT 學習原始語言信號,ERNIE 直接對先驗語義知識單元進行建模,增強了模型語義表示能力。同時,ERINE建模Query-Response 對話結構,將對話Pair 對作為輸入,進一步提升模型語義表示能力。

除ERNIE之外,百度也開源了針對文本情感分類、對話情緒識別、語義匹配、詞法分析、閱讀理解等任務場景基於百度海量工業化數據的預訓練模型,方便NLP工程師針對具體任務進行開發。

與此同時,百度還開放了在對話等任務的開放數據集上超越SOTA效果的模型網絡結構與參數,方便相關領域研究人員快速驗證、使用。配合PaddleHub,用戶可以輕鬆進行下載並更新不同版本的預訓練模型,方便效果遷移與模型調優。

除了開放預訓練模型,PaddleNLP還開放了相關任務的評測數據集。這些數據來自於百度真實的工業化場景,能夠很好地對模型效果進行評估。

展望

PaddleNLP工具集將依託Paddle和百度NLP強大的技術保障, 支持更加廣泛的任務場景。在不斷打磨技術應用效果,優化開發者使用體驗的同時,更多、更先進的預訓練模型也將會持續不斷地發布,歡迎您持續關注。

 

歡迎您了解更多百度NLP開源工具集能力:

百度NLP開源工具集主頁地址:

nlp.baidu.com/homepage/nlptools

百度NLP開源工具集GitHub地址:

github.com/PaddlePaddle/models/tree/develop/PaddleNLP

百度自然語言處理(Natural Language Processing,NLP)以『理解語言,擁有智能,改變世界』為使命,研發自然語言處理核心技術,打造領先的技術平臺和創新產品,服務全球用戶,讓複雜的世界更簡單。

推薦閱讀

斯坦福2019年深度學習NLP課程完結

《深度學習之TensorFlow:入門、原理與進階實戰》和《Python帶我起飛——入門、進階、商業實戰》兩本圖書是代碼醫生團隊精心編著的 AI入門與提高的精品圖書。配套資源豐富:配套視頻、QQ讀者群、實例源碼、 配套論壇:http://bbs.aianaconda.com 。更多請見:https://www.aianaconda.com

點擊「閱讀原文」圖書配套資源

相關焦點

  • PaddleNLP:工業級中文 NLP 開源工具集
    今年4月23日,百度正式開放了工業級中文 NLP 工具與預訓練模型集——PaddleNLP(nlp.baidu.com/homepage/nlptools)PaddleNLP 將自然語言處理領域的多種模型用一套共享骨架代碼實現,可大大減少開發者在開發過程中的重複工作。
  • 【NLP】競賽必備的NLP庫
    jieba是Python中的優秀的中文分詞第三方庫,通過幾行代碼就可以完成中文句子的分詞。jieba的分詞精度和性能非常優異,經常用來進行中文分詞的實驗對比。此外jieba還可以很方便的自定義詞典,使用起來非常靈活。
  • 乾貨 | NLP、知識圖譜教程、書籍、網站、工具...(附資源連結)
    然而對於初學者來說,這卻是最適合的工具。這主要體現在以下幾個方面:1.中文處理能力。NLTK和OpenNLP對中文支持非常差,這裡不光是中文分詞的問題,有些NLP算法需要一定的語言模型數據,但瀏覽NLTK官方的模型庫,基本找不到中文模型數據。
  • 斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言
    NLP任務的軟體包StanfordNLP,通過Python接口為53種語言提供標記、依存句法分析等NLP任務的重要工具。今天,斯坦福NLP團隊發布一個重磅NLP工具包:StanfordNLP。StanfordNLP支持包括阿拉伯語、中文、英語等53種語言(全部語言列表見文末)。
  • 在 NLTK 中使用 Stanford NLP 工具包
    Stanford NLP是由史丹福大學的 NLP 小組開源的 Java 實現的 NLP 工具包,同樣對 NLP 領域的各個問題提供了解決辦法。史丹福大學的 NLP 小組是世界知名的研究小組,如果能將 NLTK 和 Stanford NLP 這兩個工具包結合起來使用,那自然是極好的!
  • 資源 | 史丹福大學發布Stanford.NLP.NET:集合多個NLP工具
    Stanford CoreNLP 是一個集成框架,可以讓你輕鬆使用語言分析工具來分析一段文字。在純文本的基礎上,你可以使用僅僅兩行代碼來運行整個工具。它的分析為更高級別和特定領域的文本理解應用提供了基礎。
  • 谷歌開源NLP模型可視化工具LIT,模型訓練不再「黑箱」
    假如有一款可視化的工具,能夠幫助研究人員更好地理解模型行為,這應該是件非常棒的事。近日,Google 研究人員發布了一款語言可解釋性工具 (Language Interpretability Tool, LIT),這是一個開源平臺,用於可視化和理解自然語言處理模型。LIT 重點關注模型行為的核心問題,包括:為什麼模型做出這樣的預測?什麼時候性能不佳?在輸入變化可控的情況下會發生什麼?
  • 支持53種語言預訓練模型,斯坦福發布全新NLP工具包StanfordNLP
    今日,Stanford NLP 團隊發布了包含 53 種語言預訓練模型的自然語言處理工具包 StanfordNLP,該工具包支持 Python
  • Awesome-Chinese-NLP:中文自然語言處理相關資料
    "閱讀原文"可直達:https://github.com/crownpku/Awesome-Chinese-NLPawesome-chinese-nlpA curated list of resources for NLP (Natural Language Processing) for Chinese中文自然語言處理相關資料圖片來自復旦大學邱錫鵬教授
  • PaddlePaddle深度學習開源平臺 :等待眾人划槳的中國AI大船
    所以在第三節我也打算聊聊 PaddlePaddle 的劣勢,以及在第五節探討一下這個優秀工具的發展路徑。每一個成功的開源項目,文檔和教程都必不可少,而且很大程度上是項目易用性的保證、是深度鑽研的輔助,更為項目的成功增色。
  • 一本開源的NLP入門書籍
    作者 | duoergun0729 Github:https://github.com/duoergun0729/nlp
  • 數據競賽必備的NLP庫總結!
    jieba是Python中的優秀的中文分詞第三方庫,通過幾行代碼就可以完成中文句子的分詞。jieba的分詞精度和性能非常優異,經常用來進行中文分詞的實驗對比。此外jieba還可以很方便的自定義詞典,使用起來非常靈活。
  • Manning大神牽頭,斯坦福開源Python版NLP庫Stanza:涵蓋66種語言
    近日,Christopher Manning 所在的斯坦福 NLP 組開源了 Python 版的工具包——Stanza,讓 Python 生態系統又增添了一員 NLP 大將。我們都知道斯坦福 NLP 組的開源工具——這是一個包含了各種 NLP 工具的代碼庫。近日,他們公開了 Python 版本的工具,名為 Stanza。該庫有 60 多種語言的模型,可進行命名實體識別等 NLP 任務。
  • 打包帶走,競賽必備的NLP庫
    jieba是Python中的優秀的中文分詞第三方庫,通過幾行代碼就可以完成中文句子的分詞。jieba的分詞精度和性能非常優異,經常用來進行中文分詞的實驗對比。此外jieba還可以很方便的自定義詞典,使用起來非常靈活。
  • 中文分詞工具評估:chinese-segmentation-evaluation
    這裡有一個Java開源項目cws_evaluation,對中文分詞做了評比,但有幾點不足:(1). 只有java版本,但是機器學習主要是基於python的 (2).效果指標為行完美率和字完美率,該指標不妥,特別是句子越長,越無意義,(3). 每種分詞工具評測的算法太多了,這裡僅評比了默認的分詞算法。
  • 【NLP】幾個NLP實用工具:不用重新造輪子
    有些NLP工具依賴於機器學習,有些甚至使用深度學習。我建議檢查這個存儲庫以獲取更多的工具和參考:https://github.com/keon/awesome-nlp應用既然我們已經討論了預處理方法和Python庫,讓我們用幾個例子把它們放在一起。對於每種算法,我將介紹幾個NLP算法,根據我們的快速開發目標選擇一個,並使用其中一個庫創建一個簡單的實現。
  • NeurIPS 2019:進入NLP的黃金時代
    NLP 是一個多樣化的領域,它需要許多特定於任務的數據集 — 缺乏特定任務的訓練數據是一個巨大的冷啟動挑戰。BERT 接受過 Wikipedia 語料庫的訓練,他為開發人員和數據科學家啟動了 NLP 模型的構建,允許他們使用小型數據集來 finetune 特定的 NLP 任務。
  • ​關於深度學習、NLP和計算機視覺的30個頂級Python庫
    TensorFlow(https://github.com/tensorflow/tensorflow):149000,提交數:97741,貢獻者:2754TensorFlow是一個用於機器學習的端到端的開源平臺。
  • NLP Chinese Corpus:大規模中文自然語言處理語料
    數據集劃分:數據去重並分成三個部分。訓練集:243 萬;驗證集:7.7 萬;測試集,數萬,不提供下載。可能的用途:可以做為【通用中文語料】,訓練【詞向量】或做為【預訓練】的語料;也可以用於訓練【標題生成】模型,或訓練【關鍵詞生成】模型(選關鍵詞內容不同於標題的數據);亦可以通過新聞渠道區分出新聞的類型。
  • 多語言NLP工具StanfordNLP發布0.2.0,推特1天獲500+轉發和1600+點讚
    【導讀】StanfordNLP是強大的NLP工具,具有非常友好的Python接口,並可以處理多國語言,近期發布了