超讚!百度詞法分析工具 LAC 全面升級,2.0 版在線極速體驗

2020-12-23 百度NLP

關於中文詞法分析(中文分詞、詞性標註、命名實體識別)相關的工具,我們在之前已經多次提到過百度LAC,除了在易用性上稍弱外,其他方面,特別在專名識別的橫向對比中還是很亮眼的。

最近百度NLP發布了LAC 2.0:開源!我知道你不知道,百度開源詞法LAC 2.0幫你更懂中文,看完文章的第一感受就是易用性大大加強了,之前需要通過PaddleNLP或者PaddleHub調用lac,現在 "pip install lac" 後即可直接調用,相當方便。

所以花了一點時間,把 LAC 2.0 單獨作為一個接口部署在AINLP公眾號的自然語言處理工具測試平臺了,感興趣的同學可以通過AINLP公眾號後臺對話極速體驗LAC 2.0,輸入"LAC 中文文本"直接獲取百度LAC的中文文詞、詞性標註、NER識別結果:

關於百度LAC,首先看一下官方主頁的介紹:

LAC全稱Lexical Analysis of Chinese,是百度自然語言處理部研發的一款聯合的詞法分析工具,實現中文分詞、詞性標註、專名識別等功能。該工具具有以下特點與優勢:效果好:通過深度學習模型聯合學習分詞、詞性標註、專名識別任務,整體效果F1值超過0.91,詞性標註F1值超過0.94,專名識別F1值超過0.85,效果業內領先。效率高:精簡模型參數,結合Paddle預測庫的性能優化,CPU單線程性能達800QPS,效率業內領先。可定製:實現簡單可控的幹預機制,精準匹配用戶詞典對模型進行幹預。詞典支持長片段形式,使得幹預更為精準。調用便捷:支持一鍵安裝,同時提供了Python、Java和C++調用接口與調用示例,實現快速調用和集成。支持移動端: 定製超輕量級模型,體積僅為2M,主流千元手機單線程性能達200QPS,滿足大多數移動端應用的需求,同等體積量級效果業內領先。

LAC 2.0 的使用還是很方便的,官方文檔很清晰,可以直接參考,以下是在 Ubuntu 16.04, Python 3.6.8 環境下安裝測試,這裡是在 virtualenv 虛擬環境下通過 pip install lac 安裝,安裝完成後可以在命令行中直接輸入lac進行體驗:

(venv) textminer@textminer:~/nlp_tools/baidu_lac$ lac我愛自然語言處理我/r 愛/v 自然語言處理/nz百度LAC是一個中文詞法分析工具百度/ORG LAC/nz 是/v 一個/m 中文/nz 詞法/n 分析/vn 工具/n習近平致信祝賀哈爾濱工業大學建校100周年習近平/PER 致信/v 祝賀/v 哈爾濱工業大學/ORG 建校/v 100周年/m新華社北京6月7日電 中共中央總書記、國家主席、中央軍委主席習近平7日致信祝賀哈爾濱工業大學建校100周年,向全校師生員工和校友致以熱烈的祝賀和誠摯的問候。新華社/ORG 北京/LOC 6月7日/TIME 電/n /w /w 中共中央/ORG 總書記/n 、/w 國家主席/n 、/w 中央軍委/ORG 主席/n 習近平/PER 7日/TIME 致信/v 祝賀/v 哈爾濱工業大學/ORG 建校/v 100周年/m ,/w 向/p 全校/n 師生/n 員工/n 和/c 校友/n 致以/v 熱烈/a 的/u 祝賀/vn 和/c 誠摯/a 的/u 問候/vn 。/w

如果只需要測試中文分詞結果,輸入'lac --segonly'即可。LAC的代碼調用也很方便:

1 (venv) textminer@textminer:~/nlp_tools/baidu_lac$ ipython2 Python 3.6.8 (default, May 7 2019, 14:58:50)3 Type 'copyright', 'credits' or 'license' for more information4 IPython 7.15.0 -- An enhanced Interactive Python. Type '?' for help.56 In [1]: from LAC import LAC78 # 如果只需要中文分詞功能,設置'seg'模式,加載中文分詞模型9 In [2]: lac = LAC(mode='seg')1011 # 單個樣本調用12 In [3]: text = '我愛自然語言處理'1314 In [4]: result = lac.run(text)1516 In [5]: print(result)17 ['我', '愛', '自然語言處理']1819 # 批量樣本調用20 In [6]: texts = ['我愛自然語言處理', '百度LAC是一個不錯的中文詞法分析工具', 'AINLP@我愛自然語言處理']2122 In [7]: result = lac.run(texts)2324 In [8]: print(result)25 [['我', '愛', '自然語言處理'], ['百度', 'LAC', '是', '一個', '不錯', '的', '中文', '詞', '法', '分析', '工具'], ['AINLP', '@', '我', '愛', '自然語言處理']]

如果需要使用LAC的詞性標註與命名實體識別功能,可以調用的時候設置為'lac'模式,加載LAC模型:

1 In [11]: lac = LAC(mode='lac') 2 3 In [12]: text = '我愛自然語言處理' 4 5 In [13]: result = lac.run(text) 6 7 In [14]: print(result) 8 [['我', '愛', '自然語言處理'], ['r', 'v', 'nz']] 910 In [15]: texts = ['我愛哈爾濱工業大學', '2020年6月7日哈工大迎來百年校慶'] 1112 In [16]: result = lac.run(texts) 1314 In [17]: print(result) 15 [[['我', '愛', '哈爾濱工業大學'], ['r', 'v', 'ORG']], [['2020年6月7日', '哈工大', '迎來', '百年', '校慶'], ['TIME', 'ORG', 'v', 'm', 'n']]]

這裡的輸出格式為(word_list, tags_list),對應每個句子的切詞結果word_list和每個詞的對應詞性標註的tags_list,其所用的詞性標記集如下,包括4個常用的專名類別(PER, LOC, ORG, TIME):

此外,LAC的詞典定製化和模型增量訓練功能也相當友好,這對於有在實際業務需求的團隊就非常有幫助,可以基於自己的業務需求和領域詞典數據定製一個面向自身業務和領域的中文詞法分析模型。以下以詞典定製化為例,我們添加了一個自定義詞典 mydict.txt, 內容如下:

錦江石材/ORG正式成立

以下是加載自定義詞典前後的結果對比:

1 In [24]: text = "錦江石材正式成立了"23 In [25]: result = lac.run(text)4 # 沒有幹預的結果5 In [26]: print(result)6 [['錦江', '石材', '正式', '成立', '了'], ['LOC', 'n', 'ad', 'v', 'xc']]78 In [27]: lac.load_customization('mydict.txt')910 In [28]: result = lac.run(text)1112 # 幹預後的結果13 In [29]: print(result)14 [['錦江石材', '正式成立', '了'], ['ORG', 'v', 'xc']]

至於模型增量訓練,留給感興趣的同學自己嘗試,這個功能很有用,可以參考LAC官方文檔說明,很清晰。

最後需要說明一下本文主要參考了百度LAC的項目主頁文檔,歡迎貢獻推薦Star

本文作者:AINLP

相關焦點

  • 我知道你不知道,百度開源詞法LAC 2.0幫你更懂中文
    百度NLP權威發布,可能是最好用的中文詞法分析工具——LAC 2.0閃亮登場!與LAC 1.0相比,LAC 2.0在性能與效果上有明顯提升,且支持多種開發語言,一鍵安裝調用,更加快速便捷。開源地址見下方評論區!
  • 基於百度LAC2.0的詞雲圖生成——各大分詞工具實戰比較
    1.前言詞法分析是自然語言處理的基本工具,主要包括分詞、詞性標註和實體識別等功能。目前各類詞法分析工具大行其道,有免費開源的,也有商業收費的;有高校研發的,也有企業開發的;有支持Java的,也有支持Python的,甚至還有支持安卓平臺的。
  • 百度新冠肺炎智能自測工具全面升級 攜手新華網客戶端助力全民防疫
    新型冠狀病毒感染肺炎的疫情仍在持續,為幫助用戶科學了解自身情況,緩解心理負擔,今天,百度聯合新華網客戶端推出了全新升級的新冠肺炎智能自測工具。用戶除了可繼續在百度App搜索「新冠肺炎自測」進入測試頁面,還可在新華網App首頁,進行新冠肺炎的智能自測。
  • 百度輸入法10.0版更智能:AI助聊的三大功能技高一籌!
    手機輸入法三分天下三大輸入法的功能體驗方面也在不斷創新,這些對用戶來說都是好事,可以用得更加得心應手!百度輸入法10.0版發布2020年12月中旬時,百度輸入法重磅發布了V10.0的全新版本,這一次重點更新了「AI助聊」功能,更加注重AI的生態體驗。
  • 輸入法的新功能的開拓者:百度輸入法AI助聊
    百度輸入法AI助聊是當前網上最流行、用戶好評率最高、功能最強大的拼音輸入法,並且承諾永久免費、絕無插件。百度輸入法與傳統輸入法不同的是,採用了搜尋引擎技術,是第二代的輸入法。由於採用了搜尋引擎技術,輸入速度有了質的飛躍,在詞庫的廣度、詞語的準確度上,百度輸入法都遠遠領先於其他輸入法。同時,百度輸入法以輸入法領域內前所未有的速度,在10個月內發布了10個版本。幾乎每一個版本都進行了多項重大改進。百度輸入法目前在詞庫、智能組詞、高級功能、易用性設計、外觀上都全面超過了其他所有輸入法。
  • 開言英語5.0版本正式上線,全面升級學習體驗
    開言英語5.0版本正式上線,全面升級學習體驗 2020年04月20日 19:15作者:網絡編輯:宏偉   4月20日,英語在線教育行業知名品牌開言英語正式發布5.0版本,並在安卓市場與蘋果App Store全面上線該版本。
  • 百度網盤PC版更新:首頁全新升級
    百度網盤PC版迎來更新,Windows版百度網盤更新至7.0.13版,主要是修復已知的體驗問題。同時,Mac版百度網盤3.6.0正式發布,繼Windows版本後,Mac版也升級了首頁視覺交互,並且支持一二級導航的自定義。
  • 百度網盤PC版更新:全新升級 一二級導航可自定義
    百度網盤PC版迎來了更新,Windows版百度網盤更新至7.0.13版,主要是修復已知的體驗問題。同時,Mac版百度網盤3.6.0正式發布,繼Windows版本後,Mac版也升級了首頁視覺交互,並且支持一二級導航的自定義。
  • 百度發力輸入法,體驗「滑行輸入」,聊天快人一步
    手機輸入法是我們經常用到手機軟體,很多朋友還在使用手機自帶的軟體,殊不知很多功能根本用不上,輸入法軟體中百度表現比較積極,先在顏值上下功夫,後續在AI智能輸入表現出實力,現在又升級了滑行輸入,手機輸入進入了全面升級狀態,百度開始發力輸入法,給友商留下的路子越來越窄了。
  • 百度翻譯電腦版
    感興趣朋友快來下載體驗百度翻譯電腦版吧。太平洋下載中心提供百度翻譯電腦版官網下載。百度翻譯電腦版軟體截圖11、拍照翻譯,塗抹識別10種語言,拍照後塗抹文字,即可快速獲取翻譯結果2、對話翻譯,暢想溝通體驗語音同聲翻譯
  • 全面解讀百度基木魚全鏈路推廣營銷工具新功能
    今天軒行筆記帶領大家全面解讀百度全鏈路數字營銷推廣工具基木魚升級新功能,讓大家對於基木魚工具都有一個新的全新的認識。一、百度基木魚的功能「我的站點」我的站點是基木魚百度營銷單頁的落地頁推廣,在我的站點中,我們可以搭建豐富的營銷落地頁,之前我們也說過關於落地頁優化的內容,今天說說我的站點搭建都可以添加哪些內容?
  • 滑行輸入是什麼體驗?百度輸入法重磅升級,體驗超出預料
    使用人群不同,大家對輸入法訴求期待也有所差異,早前輸入法只作為單一打字工具,確實很難做到同時滿足所有用戶訴求,不過隨著科技發展以及對用戶需求的深入挖掘,輸入法已由單一的打字工具進化為更多元,智慧交互媒介,譬如百度輸入法,集高顏鍵盤,原創皮膚內容生態,業內領先AI語音,方言自由說,語音速記,AI鬥圖,智能預測等等多元輸入於一體,充分滿足大家對輸入法的所有想像。
  • 百度百科博物館計劃2.0全面升級:助力博物館完成數位化蓄能
    為了擺脫文博行業的困局,助力博物館實現產業復甦,同時也著眼於博物館更好地打造文博品牌文化,百度百科從2月底開始,就開啟了一系列獨具特色的博物館直播活動,涵蓋了包含西班牙、荷蘭、日本、澳洲、瑞典、中國在內的6個國家14個博物館,直播累計已經覆蓋近千萬用戶,百度百科把這個項目命名為《行走的文明》。
  • 吊打紅米2? 699元大神F1極速版首發評測
    【中關村在線】大神F1極速版評測:2015年3月19日下午,大神手機在線上發布售價僅為699元的大神F1極速版,一款和紅米手機2同價,卻在多個方面比紅米更優秀的高性價比手機。人們都說賈伯斯重新定義了手機,而大神卻大有憑藉F1極速版重新定義百元級別智慧型手機之勢!
  • 百度ERNIE 2.0強勢發布!16項中英文任務表現超越 BERT 和 XLNet
    2019年3月,百度正式發布 NLP 模型 ERNIE,其在中文任務中全面超越 BERT 一度引發業界廣泛關注和探討。今天,經過短短幾個月時間,百度 ERNIE 再升級。發布持續學習的語義理解框架 ERNIE 2.0,及基於此框架的 ERNIE 2.0預訓練模型。
  • 極速匹配體驗更佳,搜狗輸入法率先適配蘋果M1處理器
    極速匹配體驗更佳,搜狗輸入法率先適配蘋果M1處理器 2020年12月24日 09:57作者:網絡編輯:宏偉   12月24日消息 據搜狗輸入法官方,近日Mac版應用程式已完成更新,新版本引入蘋果M1桌面處理器原生支持,體驗更優、速度更快,兼容搭載MacBook Pro、MacBook Air和Mac mini等機型,令使用蘋果M1系列產品的用戶們獲得更加高效、精準的輸入體驗。
  • 升級的百度輸入法AI功能,普通話不準,也能快速錄入
    因此手機是生活中和工作中必不可少的一項工具,並且人們對於它的依賴持續增加。然而現實生活中,還有很多人對手機的應有和熟練程度遠遠及不上科技發展的速度,這就是一種矛盾,然而時代並不會等待走得慢的人。不過百度輸入法可以寵你,即便是不會拼音的人,也可以正常使用手機進行交流,因為在百度AI功能的加持下,百度輸入法中升級了AI自由手寫的功能,讓原有輸入法中的手寫模型得到有效的升級。基於百度搜尋引擎20年的積累和大數據的建立,百度輸入法AI自由手寫很是自由,可以暢快的根據自己的習慣書寫,實現了疊加書寫和連比手寫都可以準確識別文字。
  • 百度愛企查小程序接入百度地圖 升級體驗
    近日,百度地圖與百度愛企查達成合作,前者通過接入百度愛企查的海量企業數據,為用戶帶來了更加便捷的搜索體驗。在百度愛企查的賦能下,百度地圖的搜索功能得到了進一步升級。截至目前,百度地圖內超百萬企業數據都已更新,用戶只要在百度地圖內搜索公司名字,即可在信息詳情頁內快速跳轉到愛企查的百度小程序,同時獲取更加詳盡的企業工商信息。
  • 百度輸入法AI功能升級,準確快速輸入提升打字
    不知道在生活中,愛聊天的人有沒有體驗過同時和很多人同時聊天的體驗,打字快的人可以同時聊幾個人比較吃力!如果做客服的人員,需要及時回復客戶的信息,不能服務到太多的人,然而現在服務至上,能夠秒回復會讓對方感受很好。
  • 一文速覽百度飛漿八大全新發布與升級 | WAVE SUMMIT2020
    目前百度推出的《基於機器學習的生物計算平臺技術要求》,已成為行業內首個生物計算平臺的標準立項。 從今年5月飛槳發布全新全景圖,再到螺旋槳這一重磅工具組件的「加盟」,可見,飛槳平臺在不斷迭代拓新,持續提升核心能力同時,進一步夯實了人工智慧開源開放與創新發展的底座。 峰會上,更讓開發者們驚豔的是飛漿開源框架V2.0RC版的重磅發布。