向AI轉型的程式設計師都關注了這個號👇👇👇
機器學習AI算法工程 公眾號:datayx
這次的albert某種程度上可能比bert本身更具有意義,恰逢中文預訓練模型出來,還是按照之前的數據來做NER方面的fine-tune
項目相關代碼獲取:
關注微信公眾號 datayx 然後回復 命名識別 即可獲取。
AI項目體驗地址 https://loveai.tech
albert_zh海量中文語料上預訓練ALBERT模型:參數更少,效果更好。預訓練小模型也能拿下13項NLP任務,ALBERT三大改造登頂GLUE基準
一鍵運行10個數據集、9個基線模型、不同任務上模型效果的詳細對比
下載albert中文模型,這裡使用的是base
將模型文件夾重命名為albert_base_zh,放入項目中
運行
python albert_ner.py
--task_name ner --do_train true --do_eval true --data_dir data --vocab_file ./albert_config/vocab.txt --bert_config_file ./albert_base_zh/albert_config_base.json --max_seq_length 128 --train_batch_size 64 --learning_rate 2e-5 --num_train_epochs 3 --output_dir albert_base_ner_checkpoints
4.最好使用tensorflow > 1.13, 這裡運行的是1.15,不支持tf2.0
結果Base模型下訓練3個epoch後:
INFO:tensorflow: eval_f = 0.9280548
INFO:tensorflow: eval_precision = 0.923054
INFO:tensorflow: eval_recall = 0.9331808
INFO:tensorflow: global_step = 2374
INFO:tensorflow: loss = 13.210413
測試結果同樣:
[CLS]
B-LOC
I-LOC
O
B-LOC
I-LOC
I-PER
O
O
O
O
O
O
O
O
O
[SEP]
[CLS]
比起Bert本體,模型確實小了很多,效果卻基本相當甚至領先bert,訓練時間大幅縮小.
BERT-BiLSTM-CRF基於BERT預訓練的中文命名實體識別TensorFlow實現
基於Bert-NER構建特定領域中文信息抽取框架
閱讀過本文的人還看了以下文章:
【全套視頻課】最全的目標檢測算法系列講解,通俗易懂!
《美團機器學習實踐》_美團算法團隊.pdf
《深度學習入門:基於Python的理論與實現》高清中文PDF+源碼
特徵提取與圖像處理(第二版).pdf
python就業班學習視頻,從入門到實戰項目
2019最新《PyTorch自然語言處理》英、中文版PDF+源碼
《21個項目玩轉深度學習:基於TensorFlow的實踐詳解》完整版PDF+附書代碼
《深度學習之pytorch》pdf+附書源碼
PyTorch深度學習快速實戰入門《pytorch-handbook》
【下載】豆瓣評分8.1,《機器學習實戰:基於Scikit-Learn和TensorFlow》
《Python數據分析與挖掘實戰》PDF+完整源碼
汽車行業完整知識圖譜項目實戰視頻(全23課)
李沐大神開源《動手學深度學習》,加州伯克利深度學習(2019春)教材
筆記、代碼清晰易懂!李航《統計學習方法》最新資源全套!
《神經網絡與深度學習》最新2018版中英PDF+源碼
將機器學習模型部署為REST API
FashionAI服裝屬性標籤圖像識別Top1-5方案分享
重要開源!CNN-RNN-CTC 實現手寫漢字識別
yolo3 檢測出圖像中的不規則漢字
同樣是機器學習算法工程師,你的面試為什麼過不了?
前海徵信大數據算法:風險概率預測
【Keras】完整實現『交通標誌』分類、『票據』分類兩個項目,讓你掌握深度學習圖像分類
VGG16遷移學習,實現醫學圖像識別分類工程項目
特徵工程(一)
特徵工程(二) :文本數據的展開、過濾和分塊
特徵工程(三):特徵縮放,從詞袋到 TF-IDF
特徵工程(四): 類別特徵
特徵工程(五): PCA 降維
特徵工程(六): 非線性特徵提取和模型堆疊
特徵工程(七):圖像特徵提取和深度學習
如何利用全新的決策樹集成級聯結構gcForest做特徵工程並打分?
Machine Learning Yearning 中文翻譯稿
螞蟻金服2018秋招-算法工程師(共四面)通過
全球AI挑戰-場景分類的比賽源碼(多模型融合)
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(列印收藏)
python+flask搭建CNN在線識別手寫中文網站
中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特徵工程
不斷更新資源
深度學習、機器學習、數據分析、python
搜索公眾號添加: datayx
QQ群
333972581