復旦邱錫鵬團隊最新成果fastHan:基於BERT的中文NLP集成工具

2020-12-24 澎湃新聞

機器之心轉載

機器之心編輯部

fastHan 是基於 fastNLP 與 PyTorch 實現的中文自然語言處理工具,像 spacy 一樣調用方便,其內核為基於 BERT 的聯合模型。

簡介

fastHan 是基於 fastNLP 與 PyTorch 實現的中文自然語言處理工具,像 spacy 一樣調用方便。其內核為基於 BERT 的聯合模型,其在 13 個語料庫中進行訓練,可處理中文分詞、詞性標註、依存句法分析、命名實體識別四項任務。

fastHan 共有 base 與 large 兩個版本,分別利用 BERT 的前四層與前八層。base 版本在總參數量 150MB 的情況下各項任務均有不錯表現,large 版本則接近甚至超越 SOTA 模型。

項目地址:https://github.com/fastnlp/fastHan

安裝

fastHan 的安裝非常簡便。它存在如下包的依賴:

fastNLP>=0.5.0

pytorch>=1.0.0

執行指令 pip install fastHan 即可安裝。

使用

fastHan 的使用非常簡單,只需要兩步:加載模型、輸入句子。

加載模型

執行以下代碼即可加載模型:

用戶首次初始化模型時模塊將自動從伺服器下載參數。模型默認初始化 base 版本,可修改 model_type 參數值為』large』加載 large 版本。

輸入句子

輸入模型的可以是單獨的字符串,也可是由字符串組成的列表。如果輸入的是列表,模型將一次性處理所有輸入的字符串,所以請自行控制 batch size。模型對句子進行依存分析、命名實體識別的簡單例子如下:

其中,target 參數可在 'Parsing'、'CWS'、'POS'、'NER' 四個選項中取值,模型將分別進行依存分析、分詞、詞性標註、命名實體識別任務, 模型默認進行 CWS 任務。其中詞性標註任務包含了分詞的信息,而依存分析任務又包含了詞性標註任務的信息。命名實體識別任務相較其他任務獨立。

模型的輸出是在 fastHan 模塊中定義的 sentence 與 token 類。模型將輸出一個由 sentence 組成的列表,而每個 sentence 又由 token 組成。每個 token 本身代表一個被分好的詞,有 pos、head、head_label、ner 四項屬性,代表了該詞的詞性、依存關係、命名實體識別信息。

如果分別運行 CWS、POS、Parsing 任務,模型輸出的分詞結果等可能存在衝突。如果想獲得不衝突的各類信息,可以直接運行包含全部所需信息的那項任務。

模型的 POS、Parsing 任務均使用 CTB 標籤集。NER 使用 msra 標籤集。

正如上圖所示,模型基礎的使用流程非常簡單。此外,模型還可調整分詞風格、切換設備。

調整分詞風格

模型在 13 個語料庫中進行訓練,其中包含 10 個分詞語料庫。不同語料庫的分詞粒度均不同,如本模型默認的 CTB 語料庫分詞粒度較細。如果想切換不同的粒度,可以使用模型的 set_cws_style 函數,例子如下:

在分詞風格中選擇 'as'、'cityu' 可進行繁體字分詞,這兩項為繁體語料庫。由於各項任務共享詞表、詞嵌入,這意味著即使不切換模型的分詞風格,模型對繁體字也具有執行分詞及其他任務的能力。此外,模型對數字、英文字母也具有一定的識別能力。

切換設備

可使用模型的 set_device 函數,令模型在 cuda 上運行或切換回 cpu,示例如下:

模型表現

模型在以下數據集進行測試和訓練:

CWS:AS、CITYU、CNC、CTB、MSR、PKU、SXU、UDC、WTB、ZX

NER:MSRA、OntoNotes

POS & Parsing:CTB9

註:模型在訓練 NER OntoNotes 時將其標籤集轉換為與 MSRA 一致。

最終模型在各項任務中取得的 F 值如下:

表格中單位為百分數。CWS 的成績是 10 項任務的平均成績。Parsing 中的兩個成績分別代表 F_{ldep} 和 F_{udep}。SOTA 模型的數據來自筆者對網上資料及論文的查閱,如有缺漏請指正,不勝感激。這五項 SOTA 表現分別來自如下五篇論文:

[1] Huang W, Cheng X, Chen K, et al. Toward Fast and Accurate Neural Chinese Word Segmentation with Multi-Criteria Learning.[J]. arXiv: Computation and Language, 2019.

[2] Hang Yan, Xipeng Qiu, and Xuanjing Huang. "A Graph-based Model for Joint Chinese Word Segmentation and Dependency Parsing." Transactions of the Association for Computational Linguistics 8 (2020): 78-92.

[3] Meng Y, Wu W, Wang F, et al. Glyce: Glyph-vectors for Chinese Character Representations[J]. arXiv: Computation and Language, 2019.

[4] Diao S, Bai J, Song Y, et al. ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations[J]. arXiv: Computation and Language, 2019.

[5] Jie Z, Lu W. Dependency-Guided LSTM-CRF for Named Entity Recognition[C]. international joint conference on natural language processing, 2019: 3860-3870.

更多關於模型結構、模型訓練的信息,未來將在項目網站中進行更新。

知乎連結:https://zhuanlan.zhihu.com/p/147665538?utm_source=wechat_session&utm_medium=social&utm_oi=56560353017856

世界人工智慧大會線上活動(WAIC)是由上海市政府打造的國際頂級人工智慧會議。為進一步促進人工智慧技術與產業相融合,推動開發者技術生態建設,WAIC 2020年黑客馬拉松將於7月9日-11日期間舉辦。

機器之心聯合優必選科技與軟銀機器人公布兩大賽題,邀請全球開發者來戰。更多精彩賽題將於近期公布,歡迎關注。

原標題:《復旦邱錫鵬團隊最新成果fastHan:基於BERT的中文NLP集成工具》

閱讀原文

相關焦點

  • 復旦邱錫鵬教授:2020最新NLP預訓練模型綜述
    本篇文章主要介紹邱錫鵬老師在2020年發表的一篇預訓練模型的綜述:「Pre-trained Models for Natural Language Processing: A survey」。 該綜述系統地介紹了nlp中的預訓練模型。
  • FLAT:中文NER屠榜之作!復旦大學邱錫鵬團隊出品
    作者 | JayLou婁傑近年來,引入詞彙信息逐漸成為提升中文NER指標的重要手段。ACL2020中一篇來自復旦大學邱錫鵬老師團隊的 FLAT: Chinese NER Using Flat-Lattice Transformer 刷新了中文NER任務的新SOTA。
  • 復旦大學4月-5月部分科研成果:抗新冠全人源納米抗體,小型基因編輯...
    5月25日,復旦大學附屬華山醫院神經外科毛穎教授和吳雪海教授的意識研究團隊與中國科學院腦科學與智能技術卓越創新中心(神經科學研究所)王立平研究員團隊最新合作成果以《意識障礙患者語言加工深度的評估》為題在《自然-神經科學》(Nature Neuroscience)上以研究長文形式在線發表。
  • 復旦大學附屬腫瘤醫院多項成果攻堅「最難治」乳腺癌
    近期,復旦大學附屬腫瘤醫院乳腺外科連續獲得三項研究突破:繪製最大規模的中國人群乳腺癌基因突變圖譜,探索國人乳腺癌精準治療靶點並在臨床上成功應用;在有「最難治」乳腺癌之稱的三陰性乳腺癌研究領域,繼續完善「復旦分型」研究體系,首次提出基於代謝特徵的治療策略;鑑定中國患者特異的胚系基因變異,證實國人三陰性乳腺癌特異性治療靶點的存在。
  • 百度飛槳秀出最新成績單,產業應用、人才培養、開源生態全面繁榮
    百度AI平臺研發部總監忻舟介紹了飛槳企業版發布和升級的兩大亮點功能:全新AI集成開發環境和智能數據服務平臺。BML的最新成果——端雲協同的AI集成開發環境BML CodeLab,開箱即用的客戶端內置飛槳文心(ERNIE)NLP套件及單機高性能技術引擎,最重要的是它可以無縫擴展到包括百度智能雲在內的多個雲端算力平臺,極大加強了客戶端的可擴展性和靈活性; EasyData智能數據服務平臺,大幅提升智能標註的效能,新增多人標註能力以及高級智能清洗能力。
  • 上海交大物理與天文學院科研團隊成果獲評「2018中國光學十大進展」
    2019年3月19日,中國雷射雜誌社在上海浦東召開「2018中國光學十大進展」發布會,上海交通大學、復旦大學、中科院技物所、清華大學、華中科技大學等機構的成果獲此殊榮(基礎研究類與應用研究類各10項)。上海交通大學物理與天文學院金賢敏團隊和盛政明、陳燕萍團隊分獲基礎研究類和應用研究類「2018年中國光學十大進展」。
  • 使用Amazon SageMaker 運行基於 TensorFlow 的中文命名實體識別
    一、背景利用業內數據構建知識圖譜是很多客戶正在面臨的問題,其中中文命名實體識別(Named Entity Recognition,簡稱NER)是構建知識圖譜的一個重要環節。我們在與客戶的交流中發現,現有的NER工具(比如Jiagu)對於特定領域的中文命名實體識別效果難以滿足業務需求,而且這些工具很難使用自定義數據集訓練。
  • 復旦大學類腦智能科學與技術研究院科研成果彙編
    在2020年的最後一天,讓我們一起回顧研究院一年來的主要科研成果。該研究由復旦大學類腦智能科學與技術研究院青年研究員王鶴課題組與華東師範大學步文博團隊合作完成。研究團隊提出了一種創新的策略,將用於精確追蹤PTAs的T1-MRI與用於實時監測PTT過程中體內溫度變化的磁共振溫度成像(MRTI)相結合。研究團隊合成了一種有利於提升T1加權性能,進而能夠更好的追蹤腫瘤和局部PTAs分布情況的新型納米材料。
  • 百度推出基於AI的情人節主題功能;牛津大學2017自然語言處理課程...
    近期在美國舊金山舉辦的IEEEE國際固態電路研討會上(IEEE International Solid-State Circuits Conference ,ISSCC)上,來自美國密西根大學的David Blaauw和Dennis Sylvester教授向公眾展示了他們最新的研究成果
  • 中山醫院葛均波院士團隊「腫瘤心臟病學」創新成果落地
    圖說:葛均波院士團隊在「科技會客廳」腫瘤心臟病學領域分享研究成果分享 採訪對象供圖(下同)「得了腫瘤,卻死於心臟」?這聽起來好像有悖於日常認知,但聆聽了復旦大學附屬中山醫院葛均波院士團隊在「科技會客廳」腫瘤心臟病學領域的研究成果分享,給許多腫瘤患者、甚至一些醫務工作者敲響了警鐘。今天,葛均波院士團隊做客「科技會客廳」,就腫瘤心臟病臨床實踐中的創新成果研發與落地、新媒體平臺工具的輔助應用進行分享。
  • 谷歌親兒子BERT的王者榮耀,僅用一年雄霸谷歌搜索頭牌!
    下面是谷歌展示的集成BERT之後的一個demo,當查詢「在沒有路緣的山上停車」時,過去這樣的查詢會讓谷歌的系統感到困惑。 BERT替代RankBrain,晉升谷歌搜索算法「蜂鳥」頭牌 BERT只是谷歌搜索算法的冰山一角,這個世界最強大的搜索工具,真可謂是一個Search Brain。 谷歌把這個Search Brain稱為「蜂鳥」,是一個搜索算法貨櫃,就像一輛汽車有一個整體的引擎一樣。
  • 2020 年 10 種最佳持續集成工具,總有一款適合你
    Jenkins 是基於開源持續集成伺服器的持續性應用程式,使開發人員可以更快地構建,自動化和測試任何軟體項目。它最初是由河口晃介(Kohsuke Kawaguchi)於2004年啟動的 Hudson 項目的一部分,但後來於2011年以 Jenkins 的名稱發布。該工具經過多年的發展,已成為最可靠的軟體交付自動化工具。
  • 【WinRAR 5.90 】最新簡體中文破解版(已註冊版)
    今天給大家帶來的是一款【WinRAR】 簡體中文破解版這是一款解壓縮必備工具,WinRAR最新版簡體中文漢化版,集成正版KEY,使用沒有限制。基於官方原版漢化,安裝包採用原版SFX模塊安裝漢化主程序、右鍵擴展、命令行、SFX等模塊升級7z解壓模塊文件到15.06beta
  • 復旦桂韜:當NLP邂逅Social Media——構建計算機與網絡語言的橋梁
    復旦大學桂韜為大家帶來報告《當NLP邂逅Social Media--構建計算機與網絡語言的橋梁》。桂韜,復旦大學自然語言處理實驗室博士生,導師是張奇和黃萱菁教授。一直致力於網絡語言的自然語言處理研究,包括信息抽取、序列標註、強化學習、元學習等。
  • 那個屠榜的T5模型,現在可以在中文上玩玩了
    當然,對我們來說,最重要的是 mT5 裡邊包含了中文,因此我們終於有機會在中文任務中嘗試下 T5 了。值得一提的是,對於中文來說,tokenizer 給出的結果是帶有詞的,即對於中文來說 mT5 是以詞為單位的,只不過詞顆粒度會比較少。這進一步說明了我們之前的工作提速不掉點:基於詞顆粒度的中文 WoBERT [6] 的改進方向是正確的。3.1 中文相信大多數讀者多數都只關心中文任務,部分讀者可能也會關心英文任務,應該鮮有讀者會關心中英文以外的任務了。
  • IEDM2020:復旦大學在類腦計算領域獲重要進展
    09:17 來源: 腦科學君 舉報   近日,在2020年國際電子器件大會(IEDM)上,復旦大學晶片與系統前沿技術研究院劉琦教授和劉明院士團隊展示了憶阻器基類腦計算技術的最新研究進展
  • Nature Genetics在線發表武漢理工大學教授團隊最新研究成果
    未來網高校頻道4月3日訊(記者 楊子健 通訊員 熊盛武 袁景凌)近日,武漢理工大學計算機科學與技術學院袁曉輝教授團隊與廣州大學孔凡江教授、劉寶輝教授團隊,中科院遺傳發育所田誌喜研究員團隊及澳大利亞塔斯馬尼亞大學James Weller教授團隊協作,以該校為通訊單位在國際遺傳學頂級期刊