沙龍乾貨|基於深度學習的自動問答工具​——qa_match開源項目解析直播回顧集錦

2021-02-24 58技術

基於深度學習的自動問答工具——qa_match開源項目解析qa_match是58同城開源的一款基於深度學習的問答匹配工具,支持一層和兩層結構知識庫問答。qa_match通過意圖匹配模型支持一層結構知識庫問答,通過融合領域分類模型和意圖匹配模型的結果支持兩層結構知識庫問答。qa_match同時支持無監督預訓練功能,通過輕量級預訓練語言模型(SPTM,Simple Pre-trained Model)可以提升基於知識庫問答等下遊任務的效果。
qa_match開源項目地址:
      https://github.com/wuba/qa_match
qa_match文章介紹:
      開源 | qa_match:一款基於深度學習的層級問答匹配工具     
      開源 | qa_match更新啦——支持輕量級預訓練、提高問答通用性

主辦:58同城

58同城技術委員會AI分會聯合ITPUB,於2020年6月16日晚上20:00-21:00舉辦了一期線上技術沙龍,58同城AI Lab算法資深工程師賀睿直播分享了《基於深度學習的自動問答工具——qa_match開源項目解析》。

本次沙龍的乾貨如下,各位技術大拿們敬請享用。

qa_match是58同城開源的一款基於深度學習的問答匹配工具,實現了文本分類和匹配算法的融合、輕量級訓練語言模型等,支持一層、兩層結構知識庫的自動問答。本次分享將深度解析該項目中的算法模型原理和應用實踐。

58同城TEG技術工程平臺群AI Lab算法資深工程師,2018年4月加入58,目前主要負責智能客服算法研發工作,曾就職於騰訊,負責推薦算法研發,2016年7月碩士畢業於中國科學院大學。
問題1:請問離線訓練時正負例的比例是多少?
解答:DSSM離線訓練時的默認正負例比例是1:200,可以通過negative_size參數進行調整。

問題2:這裡的知識庫是怎麼產生的?量級大概多少?
解答:知識庫是機器挖掘和人工標註結合產生的,量級取決於具體業務,比如咱們給的demo裡邊知識庫大小為90k。

問題3:這裡DSSM這裡是說先計算出標準問的向量表徵,標準問大概多少個呢?訓練時是用的一個正例其餘負例,這裡的採樣負例是保證所有的擴展問都包括嗎?
解答:標準問問題數與業務場景相關,比如咱們給的demo中有2k個標準問。訓練時採樣負例不保證所有擴展問都包括。

問題4:這裡如果按照現在預訓練的方式,用Transformer會怎麼樣,預訓練速度會有變化嗎?
解答:如果按照現在預訓練的方式,使用一層Transformer,預訓練速度會變快。

問題5:我理解去掉nsp可能是當時的一個點,是這樣嗎?
解答:是的,因為我們是在2019年4月開始開發該模型,當時距BERT發布不久,一些去掉nsp的模型如RoBERTa還沒有提出無法復用,所以我們當時需要解決這個點。

問題6:實際有結果率,以及模型的有結果率怎樣做能接近呢?會把這個當做優化目標嗎? 
解答:需要調整閾值來使這兩個指標接近,比如發現唯一回答模型有結果率低於實際有結果率,則可以通過調低唯一回答閾值的方式來使它們接近。不會把這個當做優化目標。

問題7:請問生產中模型是在什麼配置機器上跑的?  
解答:我們訓練模型是在P40顯卡+Intel(R) Xeon(R) CPU E5-2620 v4機器上跑的,線上推理是在CPU Intel(R) Xeon(R) CPU E5-2620 v4機器上跑的。



相關焦點

  • 【乾貨】去年最火的機器學習開源項目集錦(上)
    :https://github.com/luanfujun/deep-photo-styletransfer簡介:本項目開源了一種實現照片風格遷移的深度學習方法,這種方法可以處理很多不同種類的照片內容,同時還能如實遷移參考風格。
  • 12.20 WAVE SUMMIT+2020深度學習開發者峰會來襲
    目前峰會官網已正式上線,可以通過官網報名參會或觀看直播。WAVE SUMMIT是中國深度學習開發者每年兩次的技術盛會,WAVE SUMMIT+ 2020是今年的第二場。從官網議程看,本次峰會將從早上九點開始持續到晚上,包括生態盛典、技術沙龍和AI之夜。來自高校的著名專家學者、企業界和開源社區負責人將共聚盛會,帶來精彩發言,為開發者們帶來一場乾貨滿滿的AI盛宴。
  • 實踐入門NLP:基於深度學習的自然語言處理
    特別是最近兩年,基於深度學習的自然語言處理逐漸取得了一定進展,在人機對話、問答系統、語言翻譯等方向的應用也一直是自然語言處理中的熱門話題,而這些應用的實現,基本依賴於底層技術和模型的進步,再加上自然語言處理領域也算是一個多學科交叉的行業,自然語言處理的未來發展對於很多相關學科和方向都具有深遠的影響力。
  • 華為深度學習框架MindSpore正式開源:自動微分不止計算圖
    今年的華為開發者大會 HDC 2020 上,除了昇騰、鯤鵬等自研晶片硬體平臺之外,最令人期待的就是深度學習框架 MindSpore 的開源了。今天上午,華為 MindSpore 首席科學家陳雷在活動中宣布這款產品正式開源,我們終於可以在開放平臺上一睹它的真面目。
  • NLP: 基於文本語義的智能問答系統
    深度學習-智能問答機器人深度語言模型會將問題和文檔轉化為語義向量,從而找到最後的匹配答案。本文藉助Google開源的Bert模型結合Faiss開源向量搜尋引擎,快速搭建基於語義理解的對話機器人。案例分享:FAQ問答機器人FAQ是Frequently Asked Questions的簡稱。假定我們有一個常見問題和答案的資料庫,現在用戶提出了一個新問題,能不能自動從常見問題庫中抽取出最相關的問題和答案來作答呢?在這個項目中,我們會探索如何構建這樣問答機器人。
  • 深度學習開發者的情人節520,飛槳將帶來哪些大消息
    在深度學習開源路上,百度飛槳始終保持著高頻升級迭代。由深度學習技術及應用國家工程實驗室與百度聯合主辦的WAVE SUMMIT 2020深度學習開發者峰會,定檔5月20日召開,並首次採用線上直播的方式舉辦。
  • CogDL: 基於圖的深度學習開源工具包
    CogDL 是由清華大學知識工程實驗室(KEG)聯合北京智源人工智慧研究院(BAAI)所開發的基於圖的深度學習的開源工具包,底層架構 PyTorch,程式語言使用了 Python。CogDL 的一個特點是整合了當下流行的圖表示學習算法,包括:非圖神經⽹絡算法如 Deepwalk、LINE、Node2vec、NetMF、ProNE、methpath2vec、PTE、graph2vec、DGK 等;以及圖神經網絡算法如 GCN、GAT、GraphSAGE、GTN、HAN、GIN、DiffPool 等。工具包重現了所有算法,可以一鍵實現基線算法的對比。
  • 【乾貨】深度學習預測比特幣價格;基於神經網絡的自動化前端開發 | Github 項目推薦
    海豚大數據實驗室從 YouTube、知乎以及 Github 官網上搜羅了數個與 AI 相關的開源項目,為 AI 開發者的設計提供參考。這些項目涉及自動化前端開發、中文近義詞處理以及火熱的比特幣等領域,詳細信息和具體代碼實現請閱讀下文。
  • 微軟打造深度學習開源框架「自動翻譯機」:不同框架輕鬆切換
    【新智元導讀】微軟Cortana智能和機器學習小組的數據科學家最新在Giuhub開源項目,對各個深度學習框架進行了基準測試,提供了很多有參考價值的數據以及GPU優化代碼。眾多的深度學習框架,就像世界上各種不同的語言一樣,但是,不會「外語」並不可怕,他們希望構建一個深度學習框架的羅塞塔石碑,讓開發人員和研究者能在這個眾多框架並存的環境中,好好生存。
  • 什麼值得看 | 最新論文、硬核項目、優質資源!
    ://keras.io/examples/keras_recipes/bayesian_neural_networks/[4]Keras實例:Vision Transformer圖像分類: https://keras.io/examples/vision/image_classification_with_vision_transformer/[5]2020年十篇有趣的深度學習
  • WAVE SUMMIT+2020深度學習開發者峰會報名啟動
    WAVE SUMMIT+2020深度學習開發者峰會盛大開啟!讓我們再次相約,嗨翻歲末~此次大會由深度學習技術及應用國家工程實驗室與百度聯合主辦,既有前沿技術解析與產業落地的乾貨,也有美酒和音樂的派對狂歡。同時,百度開源深度學習平臺飛槳也會在這次大會上帶來重磅更新,新老朋友們千萬不要錯過!
  • 李沐《動手學深度學習》+ TF2.0 開源項目來了,不容錯過!
    ,第一時間送達還記得李沐老師的《動手學深度學習》嗎?近日,該書的 TF2.0 代碼復現項目來了。UC 伯克利李沐的《動手學深度學習》開源書一經推出便廣受好評。很多開發者使用了書的內容,並採用各種各樣的深度學習框架將其復現。據機器之心所知,現在已有 MXnet(原版)和 PyTorch 版本。近日,《動手學深度學習》書又有了一個新的復現代碼版本——TensorFlow2.0 版。這一項目登上了 12 月 9 日的 GitHub 熱榜,一天獲得了百星。
  • 伯克利大學和Adobe開源最新的深度學習圖像編輯工具 iGAN
    近日,伯克利和 Adobe 在 Github 上開源了新的深度學習圖像編輯工具 iGAN。這是在 ECCV 2016 接收的的論文 Generative Visual Manipulation on the Natural Image Manifold 中作者們介紹的工具。
  • GitHub:語義分割最全資料集錦
    ://github.com/mrgloom/awesome-semantic-segmentation本項目包含的內容相當之多,雖然名為語義分割,但跟分割相關方向其實都有涉及:語義分割實例分割數據集Benchmarks標註工具Losses(損失函數)醫學圖像分割
  • 【乾貨薈萃】機器學習&深度學習知識資料大全集(二)(論文/教程/代碼/書籍/數據/課程等)
    介紹:20個最熱門的開源(Python)機器學習項目.  介紹:三星開源的快速深度學習應用程式開發分布式平臺.  介紹:微軟亞洲研究院開源分布式機器學習工具包.至於深度學習,像是TensorFlow、Theano和Caffe之類的框架也均被涵蓋其中,當然還有相關的特定構架和概念等.  介紹:開源的深度學習服務,DeepDetect是C++實現的基於外部機器學習/深度學習庫(目前是Caffe)的API。
  • 乾貨 | NLP、知識圖譜教程、書籍、網站、工具...(附資源連結)
    缺點:傳統方法居多,深度學習未涉及。:Global Vectors for Word Representationhttps://nlp.stanford.edu/projects/glove/textsumtextsum是一個基於深度學習的文本自動摘要工具。
  • 2016AI巨頭開源IP盤點 50個最常用的深度學習庫
    Data Science Central網站主編、有多年數據科學和商業分析模型從業經驗的Bill Vorhies曾撰文指出,過去一年人工智慧和深度學習最重要的發展不在技術,而是商業模式的轉變——所有巨頭紛紛將其深度學習IP開源。 毋庸置疑,「開源浪潮」是2016年人工智慧領域不可忽視的一大趨勢,而其中最受歡迎的項目則是谷歌的深度學習平臺TensorFlow。
  • ...2深度學習環境到神經機器翻譯,上手機器學習這些開源項目必不可少
    另外,雷鋒網 AI 研習社在原文的基礎上補充了部分開源項目,為 AI 開發者提供更加詳細的 AI 項目和資源。機器學習是用數據來學習、概括、預測的研究。近幾年,隨著數據的開發、算法的改進以及硬體計算能力的提升,機器學習技術得以快速發展,不斷延伸至新的領域。
  • 從星際2深度學習環境到神經機器翻譯,上手機器學習這些開源項目必...
    另外,雷鋒網(公眾號:雷鋒網) AI 研習社在原文的基礎上補充了部分開源項目,為 AI 開發者提供更加詳細的 AI 項目和資源。機器學習是用數據來學習、概括、預測的研究。近幾年,隨著數據的開發、算法的改進以及硬體計算能力的提升,機器學習技術得以快速發展,不斷延伸至新的領域。
  • 這裡有個利用AI技術的熱門開源...
    最近,有開發者開源了一個 AI 支持的文獻發現和綜述引擎 paperai,可用於醫療 / 科學論文。 GitHub 地址:https://github.com/neuml/paperai paperai 可以自動執行繁瑣的文獻綜述工作,使研究人員不必為此耗費精力,從而能夠聚焦自己的核心工作。