北郵張慶恆:如何基於 rasa 搭建一個中文對話系統 (有源碼視頻)|...

2021-01-11 雷鋒網

雷鋒網(公眾號:雷鋒網)AI研習社按:對話系統是自然語言處理的一個熱門話題,而自然語言理解則是對話系統的關鍵組成部分,現有的很多自然語言理解工具往往以服務的方式獲取(Google 的 API.ai, Facebook 的 Wit.ai 等),使用這些服務往往需要向服務提供商提供自己的數據,並且根據自己業務調試模型很不方便。本文為大家介紹了一種新方法,即如何基於 rasa 搭建一個中文對話系統。

在近期雷鋒網AI研習社舉辦的線上免費公開課上,來自北京郵電大學網絡技術研究院的張慶恆分享了基於 rasa nlu 構建自己的自然語言理解工具,並結合 rasa core 搭建對話系統框架的一些經驗,方便初學者入門,加深對對話系統的理解。本文根據分享者的直播視頻內容整理而成。(推薦觀看直播回放)

張慶恆,北京郵電大學網絡技術研究院,網絡與交換技術國家重點實驗室碩士,主要研究方向為機器學習與自然語言處理。曾在百度實習且多次參加機器學習、深度學習比賽,獲阿里雲安全算法挑戰賽獲冠軍,中文標註開源項目Chinese-Annotator主要開發成員。

分享主題:基於 rasa 搭建中文對話系統

分享提綱

 2.1 rasa nlu 中文自然語言理解實現,及其背後的原理

 2.2 rasa core 對話管理實現,結合源碼介紹其實現方法

主要內容:

大家好,今天的分享內容首先是為大家介紹基於任務型對話系統的主要概念和它的幾個模塊。第二部分是基於Rasa搭建電信領域任務型對話系統的實操訓練。分別是基於Rasa nlu實現自然語言理解和基於rasa core實現對話管理。

自然語言理解(NLU)和對話管理是任務型對話的主要模塊。自然語言理解是問答系統、聊天機器人等更高級應用的基石。下面列舉三個典型的問答系統:

任務型對話系統示意圖

任務型對話主要包括四部分 ,語音識別,自然語言理解,對話管理,最後是自然語言生成。

下面是一個訂餐應用的例子。

接下來分別來看每個模塊具體實現的方式

首先是自然語言理解。做自然語言理解首先要有一種表示自然語言含義的形式,一般用傳統的三元組方式即:action, slot , value。action就是意圖,slot是需要填充的槽值,value是對應的值。

具體可以用哪些技術做這些事情呢?下面列出了三個方法。

第一個是語法分析,可以通過語法規則去分析一句話,得到這句活是疑問句還是肯定句,繼而分析出用戶意圖。相應的也可以通過語法結構中找到對應的槽值。

第二種方法是生成模式,主要兩個代表性的HMM,CRF, 這樣就需要標註數據。

第三種方法是分類思想,先對一句話提取特徵,再根據有多少個槽值或意圖訓練多少個分類器,輸入一句話分別給不同的分類器,最終得到包含槽值的概率有多大,最終得到這個槽值。

還有一種採用深度學習方式,使用LSTM+CRF兩種組合的方式進行實體識別,現在也是首選的方法 ,但有一個問題是深度學習的速度比較慢 ,一般輕量型的對話系統還是通過語法分析或分類方式或序列標註來做。

對話狀態應該包含持續對話所需要的各種信息。DST的主要作用是記錄當前對話狀態,作為決策模塊的訓練數據。

系統如何做出反饋動作?

下面是自然語言生成部分。自然語言生成也有多種方法。這裡舉三個方法:基於模板,基於語法規則和基於生成模型方法; 具體可觀看視頻回放。

任務型對話其他模塊

第二部分是用Rasa實現任務型對話系統。Rasa nlu是自然語言理解框架,主要實現實體識別,意圖識別等。Rasa core是對話管理框架,主要實現狀態跟蹤、policy訓練,在線學習等。

實操部分使用rasa nlu和 rasa core 實現一個電信領域對話系統demo,實現簡單的業務查詢辦理功能『』具體代碼實現過程推薦觀看AI慕課學院提供的視頻回放。  

雷鋒網更多公開課直播預告敬請關注微信公眾號【AI研習社】)。如果錯過了直播課程,還可到AI慕課學院查找該期的視頻回放。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 李傑 打造北郵世紀的3G時代
    誰也不會想到,早從入學第一年開始,他就以學院舉辦的「視頻策劃大賽」為契機,建立了自己創業的團隊雛型——「白菜幫」工作室。  談起這位學生,北京郵電大學世紀學院院長李傑並不覺得有什麼特別之處。他說,學院的宗旨就是培養高素質和具有專業技能的應用型人才,每一位學生都能在學院搭建的「創業、就業、深造、出國」四大平臺上,根據自身的愛好和能力選擇適合自己的發展路徑,蔡星只是其中之一。
  • 中科院-北郵「通信工程中的數學問題」研討會在我校召開
    12月28日,我校聯合中國科學院數學與系統科學研究院共同主辦的「中科院-北郵『通信工程中的數學問題研討會』」採用線上線下交互的模式舉行,來自中國科學院數學與系統科學研究院、北京郵電大學、山東大學、南開大學、北京交通大學等十餘所高校院所的百餘位師生參加了研討會。
  • 推薦算法系統/人臉識別/深度學習對話機器人高級實戰課
    推薦系統是一個完整的系統工程,從工程上來講是由多個子系統有機的組合,比如基於Hadoop數據倉庫的推薦集市、ETL數據處理子系統、離線算法、準實時算法、多策略融合算法、緩存處理、搜尋引擎部分、二次重排序算法、在線web引擎服務、AB測試效果評估、推薦位管理平臺等,每個子系統都扮演著非常重要的角色,當然大家肯定會說算法部分是核心,這個說的沒錯,的確。
  • 如何搭建酒店電商系統
    現在早已經是電商時代,很多酒店都想搭建一個線上的電商網站,吸收客源,轉化成交。 那麼,該如何搭建酒店電商系統呢?兩種版本各有優劣: 源碼版本酒店可將網站搭建在自己的伺服器上,系統、數據、源碼都是自己管理,安全,自主,後期可二次開發,但價格較高, SaaS版本,網站數據、系統源碼不在自己手裡,不可二次開發,但網站維護省心省力,價格也相對較低。 酒店根據自己的需求,選擇對應版本就行。
  • 動手搭建一個基於 CNN 的電影推薦系統
    本文中,我們將從深度學習卷積神經網絡入手,基於 Github 的開源項目來完成 MovieLens 數據集的電影推薦系統。什麼是推薦系統?什麼是推薦系統呢?首先我們來看看幾個常見的推薦場景。常見的推薦系統主要包含兩個方面的內容,基於用戶的推薦系統(UserCF)和基於物品的推薦系統(ItemCF)。兩者的區別在於,UserCF 給用戶推薦那些和他有共同興趣愛好的用戶喜歡的商品,而 ItemCF 給用戶推薦那些和他之前喜歡的商品類似的商品。這兩種方式都會遭遇冷啟動問題。
  • 如何自行搭建一個威脅感知大腦 SIEM?| 雷鋒網公開課
    在網絡安全的原始森林裡,SIEM就扮演這樣一個威脅感知大腦的角色。如何在合理成本下打造一個最為強大、合適的 SIEM 系統,是許多安全人員頭疼的問題。雷鋒網有幸邀請到了擁有十年安全產品經驗的百度安全專家兜哥,為大家講解如何使用開源軟體搭建企業的SIEM系統。
  • 基於DL的中文語音識別系統ASRT開源
    2月11日消息,一套基於深度學習實現的語音識別系統ASRT(全稱Auto Speech Recognition Tool),由AI檸檬博主開發並在GitHub上開源(GPL 3.0 協議)。本項目聲學模型通過採用卷積神經網絡和連接性時序分類方法,使用大量中文語音數據集進行訓練,將聲音轉錄為中文拼音,並通過語言模型,將拼音序列轉換為中文文本。
  • 開發以中文「與數據對話」的AI決策系統,「訊能集思」要做人工智慧...
    一個矛盾:企業強烈的數位化需求和企業傳統的數據分析運行機制在「訊能集思」創始人張宗堯博士看來,「商業決策平臺」概念的產生來自於企業強烈的數位化需求和企業傳統的數據分析運行機制之間的矛盾。當前的企業決策支持系統(Decision Support System)作為基於IT、用於支持業務或組織決策活動的信息系統,在企業中常常被拆分為企業資源管理ERP、商業智能軟體BI等多個辦公軟體,應用於業務財務、IT和數據分析科學家等多個團隊。這種分離的軟體形式實際上造成了極大的資源浪費,拉高了溝通成本、教育成本和採購成本。
  • 國內首屆中文人機對話技術評測賽果出爐,兩項任務冠軍團隊都分享了...
    學術上,人機對話是人機互動最自然的方式之一,其發展影響及推動著語音識別與合成、自然語言理解、對話管理以及自然語言生成等研究的進展;產業上,眾多產業界巨頭相繼推出了人機對話技術相關產品,如小冰、siri、度秘等,並將人機對話技術作為其公司的重點研發方向。
  • 實踐入門NLP:基於深度學習的自然語言處理
    特別是最近兩年,基於深度學習的自然語言處理逐漸取得了一定進展,在人機對話、問答系統、語言翻譯等方向的應用也一直是自然語言處理中的熱門話題,而這些應用的實現,基本依賴於底層技術和模型的進步,再加上自然語言處理領域也算是一個多學科交叉的行業,自然語言處理的未來發展對於很多相關學科和方向都具有深遠的影響力。
  • 三角獸被 EMNLP 錄取論文精華導讀:基於對抗學習的生成式對話...
    論文中提出了一種新的對話文本對抗生成學習框架,目的是解決文本生成過程中的採樣操作帶來的誤差無法反向傳導的實際問題,從而實現基於對抗學習的聊天回復生成模型。通常認為自動聊天系統(Automatic Chatting Systems)可以通過兩種技術路線實現:一種是將信息檢索系統構建於大規模對話數據集之上,通過建立有效的問句匹配和問答相關度量化模型實現對用戶 query的合理回復[6],本文不做贅述;另一種技術路線則試圖通過構建端到端(End-to-End)的深度學習模型,從海量對話數據中自動學習 query 和 response 之間的語義關聯
  • 如何搭建一個CO2雷射拋光玻璃系統?
    這時輸出一個峰值功率很高,脈寬很窄的調Q脈衝。  在實驗系統中使用的聲光調製器可實現高重複頻率調製(高達10 MHz),且可在低電壓(幾十伏左右)下,實現脈衝調製,較為安全;但其缺點也較為明顯,調製時間長,需配備專業冷水機,且價格較為高昂。
  • 英文電腦系統如何改成中文系統
    為了體驗新功能,現在越來越多的用戶都將自己的電腦升級到了最新的win10系統,當對於剛更換上win10系統的用戶來說,對於win10系統的很多設置都還不是很熟悉的。比如說要怎麼將英文電腦系統更改為中文系統呢?接下來,小編就將英文電腦系統更改中文系統的教程來分享過大家。
  • 這是見過最全的北郵通信考研前期複習建議
    一旦有了一個目標,再安排複習比漫無目的複習效率要高很多。6月份考完六級之後再針對考研的題型進行考研英語針對性的訓練,不需要太多的時間。  4,專業課前期複習如何安排?  如前面所說,不建議在3月中旬前開始專業課的複習,一開始可以多把時間留給數學和英語。  請大家特別注意,不要為了所謂的打基礎去看信號與系統的教材。
  • 基於MB90092的視頻字符疊加系統設計
    摘要:為了滿足某型車栽產品對於操控終端疊加字符信息的需求,根據視頻字符疊加基本原理,分析了幾種字符疊加方案,提出一種基於字符疊加晶片MB90092的字符疊加系統設計,並給出該系統的硬體電路設計及其軟體編程。
  • 基於尺度-時間網格的視頻中物體檢測算法,解決如何優化和平衡視頻...
    基於尺度-時間網格的視頻中物體檢測算法,解決如何優化和平衡視頻物體檢測中精度和速度的難題 李倩 發表於 2018-06-07 17:48:43 在物體檢測與識別領域,香港中文大學-商湯科技聯合實驗室在CVPR
  • 從分詞、詞性到機器翻譯、對話系統
    其中,對話交互系統已經成為一個重要的應用研究領域,2017 年的自然語言對話系統,將開創一個新的人機互動時代。通過深度學習和其他機器學習技術的模型組合,竹間智能也已初步實現了自然語言對話中的意圖識別、上下文理解和多輪對話。
  • 北郵教授景曉軍:帶隊獲「數據世界盃」冠軍
    幫助北郵「拿下」軍事通信學碩士點景曉軍是一名從部隊走出來的「博士後」。他是部隊大院裡長大的孩子,打小就有身穿戎裝的夢想。還是少年時,他便應徵入伍,成為「兩彈一星」戰線上的一名「小戰士」。2002年,博士後景曉軍從部隊轉業到北京郵電大學從事教學、科研工作。
  • 港中文開源視頻動作分析庫MMAction,目標檢測庫算法大更新
    OpenMMLab 計劃是香港中文大學多媒體實驗室(MMLab)2018 年啟動的計劃,由香港中文大學教授、商湯科技聯合創始人林達華老師負責,初衷是「為計算機視覺的一些重要方向建立統一而開放的代碼庫,並不斷把新的算法沉澱其中。」
  • 在線教育系統搭建的好處
    如今在線教育系統搭建興盛起來,吸引著非常多的機構試水。在線教育系統搭建有哪些好處呢?在線教育系統搭建1、在線教育系統搭建可以解決教學教務管理問題 大到一個國家,或者小到一個班級都需要一個好的管理。那麼教育培訓機構想要發展,也必須需要好的管理。如何管理也就成了教育培訓機構的另一個大問題,面對一個機構的眾多人員和學生,即使你的管理很完善,但是面對一大堆的紙質合同也經常出現整丟亦或錯亂的問題,教育培訓機構對此也是非常的頭疼。彼時,在線教育系統就可以解決以上問題,學員管理、班級管理只需在後臺中輕鬆管理。