近年來隨著大數據、深度學習等技術的快速發展,加之與自然語言處理技術密切結合,語言智能獲得了持續的續發展和突破,並越來越多地應用於各個行業。百度在自然語言處理技術方面,已有了十幾年的技術累積和前瞻探索,並且不斷將核心技術高效落地產業實踐。
為了適應全面豐富的NLP任務,方便更多開發者靈活插拔嘗試多種網絡結構,並且讓應用最快速達到工業級效果,今年4月23日,百度正式開放了工業級中文NLP工具與預訓練模型集——PaddleNLP(nlp.baidu.com/homepage/nlptools)。
PaddleNLP將自然語言處理領域的多種模型用一套共享骨架代碼實現,可大大減少開發者在開發過程中的重複工作。工具集擁有當前業內效果最好的中⽂語義表示模型和基於用戶大數據訓練的應用任務模型,模型源於產業實踐,達到工業級的應用效果。
PaddleNLP完全基於PaddlePaddle (www.paddlepaddle.org)開發。PaddlePaddle 是中國首個、也是目前國內唯一開源開放,集核心框架、工具組件和服務平臺為一體的端到端開源深度學習平臺,其囊括支持面向真實場景應用、達到工業級應用效果的模型,並具備針對大規模數據場景的分布式訓練能力、支持多種異構硬體的高速推理引擎。
PaddleNLP提供依託於百度百億級大數據的預訓練模型,能夠極大地方便NLP研究者和工程師快速應用。使用者可以用PaddleNLP快速實現文本分類、文本匹配、序列標註、閱讀理解、智能對話等NLP任務的組網、建模和部署,而且可以直接使用百度開源工業級預訓練模型進行快速應用。用戶在極大地減少研究和開發成本的同時,也可以獲得更好的基於工業實踐的應用效果。
紮根產業實踐,PaddleNLP為了更好滿足開發者需求百度在十幾年來一直紮根NLP技術的產業應用,通過在百度搜索、信息流、百科、貼吧、文庫等內部場景的技術積累,加之對外的技術開放與應用,形成了一整套服務於產業實踐的NLP技術方案。除了保持技術先進,百度也不斷關注開發者對NLP工具的具體需求,希望打造一個全面、易用、高效的開源NLP工具集,讓NLP技術有更廣泛的落地應用場景。
一個面向完整場景的NLP應用系統通常需要對眾多NLP基礎任務進行系統化集成方可完成搭建。與此同時,NLP任務通常需要針對應用場景做適應性遷移,需要其具備充分的組網方案自由度且可高效率重訓。更重要的是,NLP任務需要通過大量細節調優以滿足苛刻的應用需求,非工業級模型難以積累。而百度開源的PaddleNLP工具集恰恰是針對這些需求進行開發,能夠覆蓋豐富的NLP任務,具備靈活的應用適應性,並擁有優異的應用效果。
全面、靈活、高效,打造強大的PaddleNLP全面:涵蓋應用任務和基礎網絡,提供豐富任務類型
PaddleNLP基於十幾年的技術積累,提供了全面豐富的中文處理任務,涵蓋了文本分類、文本匹配、序列標註、語言表示等多種任務方向,可根據業務需求或實驗需求快速選擇相應的任務進行使用。
靈活:任務與網絡解耦,網絡靈活可插拔
PaddleNLP工具集將任務與網絡解耦,區分出應用任務層和基礎網絡層,同類型任務的不同網絡可以實現靈活插拔和快速替換,方便開發者快速針對應用場景做適應性遷移。
高效:強大的工業化預訓練模型,打造優異應用效果
PaddleNLP擁有當前業內效果最好的中⽂語義表示模型和基於用戶大數據訓練的應⽤用任務模型,模型效果調整機制源於產業實踐,模型應用效果更突出。
百度提供了大量工業化預訓練模型,包括語義表示基礎模型和基於任務的預訓練模型。2019年3月,百度提出知識增強的語義表示模型ERNIE(Enhanced Representation through kNowledge IntEgration),在包括語言推斷、語義相似度、命名實體識別、情感分析、問答匹配等自然語言處理各類任務上,均超越了語義表示模型BERT 的效果。
ERNIE基於海量百科、新聞、貼吧多源數據進行學習。並且相較於BERT 學習原始語言信號,ERNIE 直接對先驗語義知識單元進行建模,增強了模型語義表示能力。同時,ERINE建模Query-Response 對話結構,將對話Pair 對作為輸入,進一步提升模型語義表示能力。
除ERNIE之外,百度也開源了針對文本情感分類、對話情緒識別、語義匹配、詞法分析、閱讀理解等任務場景基於百度海量工業化數據的預訓練模型,方便NLP工程師針對具體任務進行開發。
與此同時,百度還開放了在對話等任務的開放數據集上超越SOTA效果的模型網絡結構與參數,方便相關領域研究人員快速驗證、使用。配合PaddleHub,用戶可以輕鬆進行下載並更新不同版本的預訓練模型,方便效果遷移與模型調優。
除了開放預訓練模型,PaddleNLP還開放了相關任務的評測數據集。這些數據來自於百度真實的工業化場景,能夠很好地對模型效果進行評估。
展望PaddleNLP工具集將依託Paddle和百度NLP強大的技術保障, 支持更加廣泛的任務場景。在不斷打磨技術應用效果,優化開發者使用體驗的同時,更多、更先進的預訓練模型也將會持續不斷地發布,歡迎您持續關注。
歡迎您了解更多百度NLP開源工具集能力:
百度NLP開源工具集主頁地址:
nlp.baidu.com/homepage/nlptools
百度NLP開源工具集GitHub地址:
github.com/PaddlePaddle/models/tree/develop/PaddleNLP
百度自然語言處理(Natural Language Processing,NLP)以『理解語言,擁有智能,改變世界』為使命,研發自然語言處理核心技術,打造領先的技術平臺和創新產品,服務全球用戶,讓複雜的世界更簡單。
推薦閱讀
斯坦福2019年深度學習NLP課程完結
《深度學習之TensorFlow:入門、原理與進階實戰》和《Python帶我起飛——入門、進階、商業實戰》兩本圖書是代碼醫生團隊精心編著的 AI入門與提高的精品圖書。配套資源豐富:配套視頻、QQ讀者群、實例源碼、 配套論壇:http://bbs.aianaconda.com 。更多請見:https://www.aianaconda.com
點擊「閱讀原文」圖書配套資源