開源!我知道你不知道,百度開源詞法LAC 2.0幫你更懂中文

2020-12-15 百度NLP

百度NLP權威發布,可能是最好用的中文詞法分析工具——LAC 2.0閃亮登場!與LAC 1.0相比,LAC 2.0在性能與效果上有明顯提升,且支持多種開發語言,一鍵安裝調用,更加快速便捷。

開源地址見下方評論區!

LAC是什麼

LAC全稱Lexical Analysis of Chinese,是百度NLP(自然語言處理部)研發的一款詞法分析工具,可實現中文分詞詞性標註專名識別等功能。

LAC在分詞、詞性、專名識別的整體準確率超過90%,以專名識別為例,其效果要比同類詞法分析工具提升10%以上。

例如:我知道你不知道,百度開源詞法LAC幫你更懂中文!

LAC 2.0可以從語義合理性角度精確完成分詞、詞性標註專名的一體化識別。

LAC 2.0有哪些優勢

自開源以來,LAC得到了不少關注與好評。為了進一步提升廠內外開發者的使用體驗,我們對LAC進行了新一輪全面升級,帶來5大優勢:

效果好:通過大規模語料自動標註和聯合模型訓練,整體效果業內領先

通過前沿的深度學習模型BiGRU-CRF,LAC 2.0可以聯合學習分詞、詞性標註實體識別這三個具有強關聯性的任務,模型的整體效果F1值超過了0.91,詞性標註F1值超過了0.94,專名識別F1值超過了0.85,效果對比業內其他開源工具達到了領先的水平。

同時,對於詞法分析而言,OOV(新詞,out of vocabulary)是當前模型效果提升最大的障礙,最有效的解決方法是增加數據量,但是人工標註數據需要巨大的人力成本。我們基於強大的NLP技術積累,通過自動標註生成大規模數據集,讓模型可以學習到強大的泛化特徵,並通過一定量的人工標註數據對模型進行修正。相較於僅用人工標註數據集進行模型訓練,通過該方法訓練得到的模型整體效果提升超過3%

效率高:優化模型參數與性能,重構C++調用代碼,簡化編譯流程,性能提升約2倍

與舊版本相比,LAC 2.0的效率得到較大的提升。通過精簡模型參數,結合飛槳預測庫的性能優化,LAC 2.0詞法分析的CPU單線程性能優於其他主流工具(詳細數據參考表4詞性標註與實體識別性能評估)。

可定製:LAC 2.0可以實現簡單可控的幹預機制,能夠精準匹配用戶詞典對模型進行幹預,詞典支持長片段形式,使得幹預更為精準。

模型示意圖

調用便捷:增加Python的pip一鍵安裝,增加Java和Android的支持與調用

LAC 1.0僅支持C++和Python,調用相對複雜有一定門檻。LAC 2.0則同時提供了Java、android、C++Python語言,重構相關代碼,相比LAC1.0版本使用更便捷。同時,LAC 2.0支持一鍵安裝,開發者可以實現快速調用和集成。

支持移動端:定製超輕量級模型,體積僅為2M

LAC 2.0在對Android應用的支持上,定製了一版超輕量級的模型,該模型的體積僅為2M,在主流千元手機上測試單線程性能達到了200 QPS,能夠滿足大多數移動應用的需求,效果大幅超過了同等體積量級的模型。

LAC 2.0對比其他開源工具

分詞效果

我們選擇市面上流行的3款分詞工具進行模型比較。並在pku、msr、ctb、weibo等多個開源數據集對模型效果進行評測,從結果上看,LAC在不同數據集的分詞效果均明顯優於相關工具,平均分詞錯誤至少降低38.5%,如下所示:

該表格列出的數據是通過各個工具提供的訓練接口在不同開源數據集上進行微調訓練得出。採用數據集微調訓練後再評估,是因為目前分詞結果並沒有統一的標準,比如人名「張三」,MSR數據集切分時會將其作為一個完整的單詞,而工具A數據集標準則認為姓和名需要進行切分,故而會切分為「張 三」。不同標準導致結果差異大,故而通過微調訓練使得模型在一個分詞標準下進行比較。

LAC默認模型的分詞標準偏向於實體粒度,會比其他開源工具的分詞粒度更大一些,有需要的同學,可通過增量訓練接口定製接口快速實現模型微調和粒度遷移。

專名識別效果

標註任務中,我們以詞法任務中難度最大的專名識別任務對LAC的效果進行評估,在開源的新聞實體識別數據集(MSRA)與簡歷實體識別數據集(Resume)上比較了LAC 2.0與其他工具的效果差異:

表1 MSRA 專名效果評估
表2 Resume 專名效果評估

表1、表2中LAC的人名識別效果顯示會稍低於工具B,實則是因為LAC認為"張先生"、"李老師"才是一個完整的人名實體,而其他工具和MSRA數據集則將其中"張"字、"李"字標註為人名實體。故而LAC的人名識別效果實際上會顯著高於表中的數值,並優於工具B。

綜上可知,LAC的專名識別的整體效果要顯著優於其他工具。

性能比較

我們也對LAC與其他工具的性能進行比較,測試環境為:Python語言Linux系統CPU E5-2650 v3

其分詞的性能如表3所示,詞性標註與實體識別性能如表4所示,LAC還可實現批處理的形式,性能會更快一些。

從結果上看,在分詞速率上,LAC性能優於工具A和工具B。而在詞性標註和實體識別上,LAC的性能是最高的。

表3 分詞性能評估
表4 詞性標註與實體識別性能評估

LAC 2.0如何安裝使用

LAC 2.0安裝非常簡單,Python語言的開發者可直接使用pip安裝,兼容Python2/3,兼容WindowsLinuxMacOS,其他語言(JAVA、C++、Android)的調用可以參考GitHub的README文檔中安裝與使用部分。

pip install lac

from LAC import LAC

lac = LAC()

lac.run("百度是一家高科技公司")

感謝大家的關注,點擊「閱讀原文」或打開下方連結,可了解更多技術詳情!

LAC項目地址見下方評論區!

百度自然語言處理(Natural Language Processing,NLP)以『理解語言,擁有智能,改變世界』為使命,研發自然語言處理核心技術,打造領先的技術平臺和創新產品,服務全球用戶,讓複雜的世界更簡單。

相關焦點

  • 百度詞法分析工具 LAC 全面升級,2.0 版在線極速體驗
    最近百度NLP發布了LAC 2.0:開源!我知道你不知道,百度開源詞法LAC 2.0幫你更懂中文,看完文章的第一感受就是易用性大大加強了,之前需要通過PaddleNLP或者PaddleHub調用lac,現在 "pip install lac" 後即可直接調用,相當方便。
  • 百度深度學習中文詞法分析工具LAC試用之旅
    之前在調研中文分詞和詞性標註相關工具的時候就發現了百度的深度學習中文詞法分析工具:baidu/lac(https://github.com/baidu
  • 中文詞法分析工具LAC測評來啦
    :中文分詞之前在調研中文分詞和詞性標註相關工具的時候就發現了百度的深度學習中文詞法分析工具:baidu/lac(https://github.com/baidu/lac),但是通過這個項目github上的文檔描述以及實際動手嘗試源碼編譯安裝發現非常繁瑣,缺乏通常中文分詞工具的易用性,所以第一次接觸完百度lac之後就放棄了。
  • 你用中文「學」英語跟用「百度翻譯」幫你「懂得」中文有何區別?
    學英語,你用中文「學」跟用「百度翻譯」幫你「懂得」中文意思有什麼區別?學無止境,學海無涯。我們天天隨便找一句英語出來然後問你:懂得它的中文什麼意思嗎?1.這就好比我搬出一本康熙字典來,隨便翻到其中一頁找出個字來問你「知道這個漢字什麼意思嗎」一樣,你答得完嗎?答完又怎樣?英語不是用來訓練語言技能,而是用來當「知識」拷問你它的中文意思,除了浪費時間精力,這叫「學習」嗎?就算你能把整本康熙字典背下來對答如流,那又怎樣?裡面多少你都懂的含義可以在實際生活工作中用得到的?
  • 李彥宏:AI技術讓百度從更懂中文變得「更懂你」
    百度世界2017的主題是AI改變世界,利用AI的力量讓世界更簡單。百度李彥宏發表主題演講,他談了阿波羅無人駕駛汽車的量產時間是2018年,同時闡述了百度無人駕駛汽車背後的「百度大腦」。其實,百度AI技術一直在每個人的身邊,在我們使用的百度每個產品中,比如,手機百度。
  • 百度輸入法10.0版更智能:AI助聊的三大功能技高一籌!
    百度輸入法10.0版發布2020年12月中旬時,百度輸入法重磅發布了V10.0的全新版本,這一次重點更新了「AI助聊」功能,更加注重AI的生態體驗。百度輸入法升級百度輸入法的AI助聊功能,重點在於幫助用戶:懂你想說、幫你聊,讓你聊天更加輕鬆,更有趣!
  • 重磅開源!百度中文依存句法分析工具DDParser等你來體驗!
    繼百度詞法分析工具LAC 2.0開源之後,8月4日,百度NLP又重磅發布了中文依存句法分析工具—DDParser!相較於目前的其他句法分析工具,DDParser基於大規模標註數據進行模型的訓練,採取了更加簡單易理解的標註關係,並且支持一鍵安裝及調用,更加適合開發者快速學習及使用。
  • 基於百度LAC2.0的詞雲圖生成——各大分詞工具實戰比較
    1.前言詞法分析是自然語言處理的基本工具,主要包括分詞、詞性標註和實體識別等功能。目前各類詞法分析工具大行其道,有免費開源的,也有商業收費的;有高校研發的,也有企業開發的;有支持Java的,也有支持Python的,甚至還有支持安卓平臺的。
  • 這才是真正的智能輸入法:AI助聊想你所想,讓你社交更智能!
    百度輸入法的AI功能主要涉及語音輸入、手寫輸入、語音速記、方言識別等方面。近期,百度輸入法迎來了一次大版本更新,這次更新主要是結合AI算法,推出了一系列炫酷的黑科技功能,在全新的V10.0版本中,上線了一項十分有人情味的AI新功能——AI助聊。
  • 百度一下,你就不知道
    不懂就問是好學的表現,是我們背後的求知慾在驅動著我們。豐富自己的知識儲備無疑是百利而無一害的好事,漸漸的我們也養成了一個習慣,那就是不懂得事情先問父母,老師和關係好的朋友們。   後來長大了,大家知道運用搜尋引擎幫助自己答疑解惑,可是現實讓我們曉得兩點,一是不要凡事都問別人,有的人會以為我們是個傻子,二是不要所有人都問,很多人沒義務必須給我們答案。
  • 中文分詞技術全解析,你想知道的都在這裡(附開源工具)
    2 基於統計2.1 基於語言模型基於詞典的方法雖然簡單,但是明顯能看出來太!不!智!能!了!稍微複雜一些的句子,例如「沒關係,除夕小瑤在家做飯。」,這時候如果使用後向最大匹配法,就會切分成「沒關係/,/除/夕小瑤/在家/做飯/。」,這明顯錯的很不可原諒。
  • 聊天神器來了 百度輸入法10.0版本發布
    近日, 百度輸入法最新發布了10.0版本,帶來一項重磅的新功能—— AI助聊,實現「一鍵幫寫」的效果。   比如在聊天窗口輸入「加班」,點擊百度輸入法鍵盤右上角的AI助聊圖標,就會出現一句吐槽加班的完整語句,如果不滿意可以點擊「換一換」。
  • 百度重磅推出AI新功能,AI大腦幫你打字!不愧是人工智慧一哥
    微軟公司創始人比爾·蓋茨曾經說過「人工智慧只是一種最新的技術,可以讓我們用更少的勞動力生產更多的產品和服務,而絕大多數情況下,顛覆過去數百年的發展,這對整個社會來說非常重要」。的確人工智慧技術已經應用到了各行各業,我們都知道世界範圍內,google的人工智慧技術是相當牛的,那麼在國內人工智慧領域百度的人工智慧技術也是首屈一指的。是唯一一家具備與google叫板的中國企業。
  • 我知道的百度王海峰
    更重要的是,王海峰自己創過業,在東芝的時候也有從 0 到 1 的管理經驗,知道怎麼去做開拓性的工作。我就去微軟(中國研究院)了。《中國人工智慧簡史》:你在學術和產業上的結合做得很好,有什麼心得嗎?王海峰:我對研究一直也很執著,也想搞,我好像一直兩頭都搞。要兩全也不容易,但我還是能找到一些點讓它結合起來,我做研究也不是說開小差做副業,對公司也有用。
  • 百度正式發布ERNIE 2.0:16項中英文任務超越BERT、XLNet刷新SOTA
    這就是 ERNIE 2.0 希望探索的。ERNIE 2.0 新一代升級之前機器之心就曾介紹過百度開源的 ERNIE 1.0,今天百度也開源了 ERNIE 2.0 的 Fine-tuning 代碼和英文預訓練模型。那麼相比 1.0,ERNIE 2.0 的升級包括哪些方面呢?
  • 嫌百度輸入法不好用?送你 6 個神一樣的小技巧!
    筆者經常聽到有人因為一些輸入法能選擇的符號太少」而一部手機上安裝最少3款輸入法,在此筆者想說,其實百度輸入法的特殊符號多的你想不到。你只要你在全鍵盤26鍵拼音或英文模式下,點擊「符」就會有超多選擇。其中包括中文,英文,表情,網絡,特殊,數學,序號,希俄,拉丁等多達14種符號表示。
  • 如何評價百度剛剛開源的Paddle平臺?
    不過鑑於深度學習的開源平臺目前並不多,作為開發者也作為熱心吃瓜群眾的頭等大事,就是想知道——這個平臺怎麼樣?別人怎麼看這個平臺?以及這個平臺跟Tensorflow以及Caffe有何區別?並且經過和百度相關業務的「緊密摩擦」後,它已經迭代了兩個版本:從Spark on Paddle架構1.0版,到Spark on PADDLE 架構2.0版。根據平臺開源的規則,大概是在百度內部用的非常得心應手,修復了一系列bug後,實驗室才終於打算把Spark on PADDLE以及異構計算平臺開源。
  • 下載使用百度輸入法V10.0.6,「AI助聊」讓手機輸入效率倍增
    不知道聊什麼!女孩傷心了不知道怎麼安慰,吵架了不知道怎麼哄她開心,不知道怎麼表達自己的想法,遇到這種事情很多宅男選擇去百度搜索找結果,但需要一定的時間,有沒有可以幫助我們聊天的一個工具,讓自己笨拙的表達變得更加圓滑搞笑?
  • 「百度知道」答題,你不知道的手機兼職平臺
    對於我們的寶媽,上班族以及大學生們,都或多或少接觸過平臺兼職,今天我來重點分享一下「百度知道APP」手機兼職首先我們在軟體商店下載「百度知道」APP,用我們的百度帳號登錄即可。第一步 完善個人信息要選擇你感興趣的領悟,相關的題目也是在對應的領域推薦給你。
  • 關於法考,你想知道的都在這裡
    例如下面一些耽誤時間、效率很低的事,大家必須避免:1、基礎差的一開始就自己讀書,讀不懂,效率低,還在堅持(其實可以直接跟課走,聽完課再倒回去看看,就很容易懂,或者跟我的帶讀課學)2、哪裡學不懂就停下來鑽研,法學是一個文科的學科,並不是像數學那樣你鑽研就能懂的