Facebook 開源聊天機器人 Blender,更具「人情味」

2020-12-04 InfoQ技術實驗室

不久前,Facebook 開源了號稱是全球最強大的聊天機器人 Blender,它標誌著 Facebook 在 AI 領域的新進展:不僅解決了此前聊天機器人的原有缺點,新的聊天機器人更是擁有史無前例的 94 億個參數!

近日,Facebook 的人工智慧和機器學習部門 Facebook AI Research(FAIR)詳細介紹了一個名為 Blender 的綜合人工智慧聊天機器人框架。

FAIR 聲稱,目前可以在 GitHub 上以開源方式獲得的 Blender,是有史以來最強大的開放域聊天機器人,它比生成對話的現有方法更有「人情味」。

FAIR 表示,Blender 是多年研究的巔峰之作,它將移情、知識和個性結合到一個系統中。為此,受益於改進的解碼和技能混合技術的基礎模型,包含了多達 94 億個參數(定義特定問題上的技能配置變量),是之前系統的 3.6 倍。

Blender 承諾,無論在企業、工業還是面向消費者的環境中,Blender 都可以使與 Alexa、Siri 和 Cortana 等對話式人工智慧系統的交互變得比以往更加自然。這是因為它們能夠提問並回答各種各樣的問題,展示有關特定主題的知識,並視情況的需要表達出不同的情感,如同情、認真或「好玩」的情緒。

混合技能和生成策略

為了實現 Blender 最先進的性能,FAIR 的研究人員將重點放在兩個工程步驟上:混合技能和生成策略。

「混合技能」指的是選擇性能優於缺乏調優的較大模型的任務。正如 FAIR 的研究人員在一篇論文中指出的那樣,聊天機器人的改進可以通過對數據模型進行微調來實現,這些模型側重於可取的會話技巧。事實證明,調優還可以最大限度地減少從大型數據集中學到的不良特徵,如毒性等。

在生成策略方面,解碼算法(從語言模型生成文本的算法)的選擇對聊天機器人的響應有著極大的影響。由於機器人響應的長度往往與人類對質量的判斷相對應,因此,解碼器的長度最好能達到適當的平衡。太短的回覆通常會被人們認為沉悶或表現出缺乏興趣,而太長的回覆則暗示著含糊其辭或分心。

圖為與 Blender 聊天機器人的對話。藍色對話框為 Blender 的回覆。

在這些工程步驟的過程中,研究人員測試了三種類型的模型架構,都以 Transformers 作為基礎。與所有深度神經網絡一樣,Google 的創新產品 Transformer 包含按層次排列的神經元(數學函數),這些神經元從輸入數據中傳輸信號,並調整每個連接的強度(權重)。這就是它們提取特徵和學習預測的方式,但 Transformer 也有注意力機制。這意味著每一個輸出元素都與每一個輸入元素相連,它們之間的權重是動態計算的。

首先是一種檢索器模型,它給定了一個對話歷史(或上下文)作為輸入,通過對一大堆候選響應進行打分,並輸出得分最高的那一個來選擇下一個對話響應。FAIR 的研究人員採用了一種多編碼器架構,該架構使用每個候選響應的表徵來編碼上下文的特徵,他們說,與其他架構(如交叉編碼器)相比,這種架構在提高了性能的同時,還保持了 " 易於處理 " 的計算能力。

第二種模型是一種生成器,它產生響應,而不是從一個固定的集合中檢索響應。按大小考慮了三種模型,從 9000 萬個參數,到 27 億個參數,再到 94 億個參數不等。

第三種模型試圖解決生成器的問題,即生成器重複響應和 " 幻化 " 知識的傾向。它採用了 「檢索和提煉」(RetNRef)的方法,即上述的檢索模型在提供對話歷史時產生一個響應,然後將其附加到生成器的輸入序列中。通過這種方式,生成器可以學習到什麼時候從檢索器中複製響應元素,什麼時候不複製,這樣它就可以輸出更有趣、更有吸引力和更 " 生動 " 的響應。(檢索器模型所產生的人寫的響應往往比標準的生成器模型包含更多的生動語言)。

FAIR 團隊將一個嚮導生成模型與另一個檢索器配對,共同決定何時將知識整合到聊天機器人的響應中。這兩個模型產生了一組初始知識候選者,然後對這些候選者進行排序,之後它們選擇一個句子,並使用它來對生成響應進行約束。分類器根據每個對話選擇是否執行檢索,以避免在不需要的時候提供知識。

解碼

對於生成模型,FAIR 的研究人員使用了一種波束搜索(Beam Search)解碼器的方法來生成對給定對話上下文的響應。波束搜索保留了一組被部分解碼的序列,稱為假設,這些序列被附加在一起形成序列,然後進行評分,從而使最好的序列按冒泡排序的方法到達頂端。

為了控制聊天機器人響應的長度,FAIR 團隊考慮了兩種方法:對最小生成長度的硬約束和分類器預測回答長度,並將最小生成長度約束設置為相應的預測值。後者更為複雜,但結果是對問題的響應長度不固定,確保聊天機器人在看似合適的情況下能提供較長的響應。

訓練模型

為了準備組成 Blender 的各種模型,研究人員首先進行了預訓練,這已不是為特定任務的機器學習模型設定條件。他們使用了 Facebook 自己的 Fairseq,這是一個支持訓練自定義語言模型的工具箱,其數據樣本來自 Reddit 語料庫,其中包含 15 億條評論(每條評論保留兩組 36 萬條,用於驗證和測試),對已知的聊天機器人、非英文的 Subreddit、已刪除的評論、帶有 URL 的評論和一定長度的評論進行了縮短等優化調整。

接下來,FAIR 團隊使用另一個 Facebook 開發的套件 ParlAI 對模型進行了微調,該套件用於訓練和測試對話模型。所選的一個訓練語料庫是 ConvAI2,其中包含 14 萬句話語,包括成對的志願者通過提問和回答有好的問題相互了解。

另一個是移情對話(Empathetic Dialogues),其中包含 50000 個情感情境的眾包話語。然而,另一個數據集「維基百科嚮導」(Wizard of Wikipedia),由 194000 個話題組成,每個對話以隨機選擇的話題開始,目標是展示專家知識。

第四個微調數據集「Blended Skill Talk」,旨在將前三個數據集(ConvAI2、移情對話和維基百科嚮導)混合在一起,以便在對話過程中將它們各自的技能結合起來。在這裡,我們收集了 76,000 句話語,其中有引導的和無引導的人類說話者,引導的說話者可以選擇由機器人在這三個單獨的數據集上訓練的機器人建議的話語。

評估

訓練結束後,研究人員將 Blender 與 Google 最新的機器學習模型 Meena 聊天機器人進行了性能比較,Meena 是一個擁有 26 億個參數的機器學習模型。人類志願者的任務是回答兩個問題:「你更願意和誰進行長時間的對話?」和「哪個說話的人聽起來更有人情味?」— 給出了 100 條 Meena 公開發布的隨機日誌以及 Blender 生成的相同數量的日誌。在每種情況下,志願者們都會看到一系列人類與相應的聊天機器人配對的對話。

對話的主題從烹飪、音樂、電影、寵物到瑜伽、素食主義、樂器和購物中心等,Blender 模型在被問及相關商店、樂隊、電影、演員、寵物種類和寵物名稱時,往往會深入細節。有這樣的一個例子,Blender 細緻入微地回答了一個關於 Bach 與 Justin Beiber 相比較的問題,而要求 Blender 寫出一首歌時,確實產生了歌詞,儘管沒有什麼特別的詩意。

向志願者分別展示 Meena 和 Blender 的聊天后,67% 的志願者表示,表現最好的 Blender 聊天機器人聽起來更像人類,它包含 94 億個參數的生成模型,是在 Blended Skill Talk 語料庫上預訓練的。大約 75% 的志願者表示,他們寧願與 27 億個參數的微調模型進行長時間對話,也不願與 Meena 進行長談。並且,在人與人和人與 Blender 對話之間的 A/B 對比中,49% 的志願者表示更喜歡在 Blended Skill Talk 上進行微調的模型,而只有 36% 的志願者更喜歡只接受過公共領域對話訓練的模型。

然而,問題並不是沒有。進一步的實驗顯示,Blender 有時會從訓練語料庫中產生攻擊性樣本風格的響應,這些響應大部分來自 Reddit 的評論。FAIR 的研究人員表示,在 Blended Skill Talk 數據集上進行微調,可以在一定程度上緩解這一問題,但要全面解決這一問題,還需要使用不安全詞過濾器和一種安全分類器。

當然,FAIR 的研究人員並沒有宣稱開放域對話的問題已經得到解決。事實上,他們列舉了 Blender 的幾個主要限制:

詞彙用法:即使是最好的 Blender 模型,也會傾向過於頻繁地生成常見的短語,如:「do you like」、「lot of fun」、「have any hobbies」等。無意識的重複:模型經常會重複別人對它們說的話。比如說,如果談話對象提到了寵物狗,它們就會稱自己養了一隻寵物狗,或者說自己和對方喜歡的是同一個樂隊等等。矛盾和遺忘:Blender 模型自相矛盾,儘管在較大的模型中矛盾的程度較輕。但它們也未能建立起邏輯上的聯繫,即,它們不應該提出之前曾提過的問題(以避免出現「遺忘」的現象)。知識和事實的正確性:比較容易誘導 Blender 模型出現事實性錯誤,尤其是在深入探索一個主題時,更容易出現事實性錯誤。對話長度和記憶:FAIR 的研究人員稱,在數天或數周的對話過程中,Blender 的對話可能會變得枯燥乏味且重複,尤其是考慮到 Blender 記不住之前的對話內容。更深層次的理解:Blender 模型缺乏通過進一步的對話學習概念的能力,而且它們沒有辦法與現實世界中的實體、行為和經驗建立聯繫。要解決所有這些問題可能需要新的模型架構,FAIR 團隊表示正在探索。它還專注於構建更強大的分類器,以過濾掉對話中的有害語言,以及消除聊天機器人中普遍存在的性別偏見的技術。

Facebook 在一篇博文寫道:「我們對改進開放域聊天機器人方面取得的進展感到興奮,然而,構建一個真正智能的、能像人類一樣聊天的對話智能體,仍然是當今人工智慧領域最大的公開挑戰之一……該領域的真正進步取決於可重現性,這是建立在最佳技術之上的機會。我們相信,發布模型對全面、可靠地了解它們的能力至關重要。」

FAIR 在 GitHub 上提供了具有 9000 萬個參數、27 億個參數和 94 億個參數的預訓練和微調的 Blender 模型,以及一個用於與聊天機器人交互的腳本(內置了安全過濾器)。所有用於模型評估和微調的代碼,包括數據集本身,都可以在 ParAI 中獲得。

關注我並轉發此篇文章,私信我「領取資料」,即可免費獲得InfoQ價值4999元迷你書!

相關焦點

  • Facebook 開源聊天機器人 Blender,號稱全球最強
    Facebook AI 和機器學習部門 FAIR 發布博客宣布,經過多年研究,其已經構建和開源了一個新的聊天機器人 Blender。並稱,這是有史以來最大的開放域(Open-Domain)聊天機器人。據介紹,Blender 是第一個將各種對話技能(包括同理心、知識和個性)融合在一個系統中的聊天機器人。據人類評估者稱,在參與度方面,它比別人更出色,也感覺更人性化。同時,Blender 包括改進的解碼技術、新穎的技能融合以及具有 94 億個參數的模型,比最大的現有系統(谷歌聊天機器人 Meena)高出 3.6 倍。
  • Facebook開源全球最強聊天機器人Blender
    儘管聊天機器人和虛擬助手已經取得了很大的進步,但市面上的聊天機器人大多數是以任務為導向的。你提出要求,機器人就會服從,但它們似乎從來沒有真正理解人的語言,缺乏人類的感情,也不能隨機應變。現在 Facebook 開源了一個新的聊天機器人Blender,它聲稱自己擅長所有領域的聊天,並且更有人情味。
  • Facebook將其Blender聊天機器人作為開源項目發布
    由於Facebook今天早上發布了一個令人驚訝的栩栩如生的聊天機器人,它被稱為Blender,作為人工智慧研究的開源資源,Facebook很快就會變得更加靈活。幾年來,Facebook一直在為其自然語言處理技術傾注資金和資源,這些努力似乎得到了回報。
  • Facebook 推出最強聊天機器人
    猜猜我是真人仍是 AI場景描繪:Facebook 近來開源了新的談天機器人 Blender,表現優於現有對話機器人,更具特性化。關鍵詞:Facebook 談天機器人 Blender4 月 29 日,Facebook AI 和機器學習部分 FAIR 發布博客宣布,通過多年研討,他們已近構建並開源了一個新的談天機器人 Blender。
  • Facebook開源聊天機器人,人們為何對聊天機器人如此痴迷
    4月29日,Facebook開源了一個新的聊天機器人 Blender。Facebook是全球最大的社交網絡,擁有最大的聊天資料庫,可供機器人學習。Blender可以說是目前最人性化的聊天機器人。比1月份Google發布的Meena效果更好。
  • Facebook AI推出最先進聊天機器人:一句「恭喜」隱藏哪些玄機?
    」可以說,Blender是AI聊天先進功能的集大成者,它最近也獲評「最先進聊天機器人」,勢頭勝過Apple和Google等研發的虛擬小助理。不僅僅會講笑話——有問必答,會跟你談天說地的機器人海量的訓練數據是Blender開啟順暢聊天模式的動力源泉。
  • 馬來西亞宣布成立新航空公司 使飛行更具人情味
    新航空公司董事長表示,公司的目標是使空中旅行「更令人期待」,並使飛行更具「人情味」。(原標題:馬來西亞宣布成立新航空公司 使飛行更具人情味)
  • 親,購買Blender Cloud以支援開源電影Gooseberry
    六、你能為這部開源電影做些什麼對於一個眾籌電影項目,也許需要你幫忙的地方並不多,那麼就試試為所有能參與的人們提供支持吧!作為Blender雲服務的訂閱者,你可以更緊密地查看項目的進度,同時參與分享並學習,要是你也能貢獻一些的話那就更好了。如果你持續訂閱18個月,我們將會把你的名字放在電影製作者中哦!
  • Facebook AI聊天機器人研究新突破,可根據用戶改變機器人性格
    自進入大數據時代後,AI也學會了聊天這門藝術。儘管AI聊天機器人已經屢見不鮮了,但是 Facebook 人工智慧研究實驗室(FAIR)依然在該領域努力鑽研。最近他們又有了新成果,這是一種通過自然語言處理、對話、神經模型等技術構造的全新 AI 聊天技術。
  • 養老、問診、心理諮詢,和聊天機器人聊聊未來醫療
    此外,需要注意的是,雖然這種模式沒有運用智能回應技術,但是由於這種服務本質上是基於聊天界面來解決用戶需求的,因此從定義上來看也屬於chatbot。在國內,微信和微博都是可以運用聊天機器人的平臺。在國外,facebook messenger、Slack、telegram這一類平臺居多。
  • 聊天機器人再受追捧?Facebook押注下一代交互界面
    在對M和其他聊天機器人的熱情爆發之後,隨之而來的是一波失望(微軟執行長納德拉曾說「機器人是新的應用」)。聊天機器人不像機器人那麼愛聊天,那是因為他們被訓練只談論一小部分事情,執行特定的、有限的任務。它們無法與人進行自然的對話,無法根據對單詞及其含義的一般理解產生自己的反應。它們只能提供一般性的答覆。
  • 他死後,被朋友做成了一個聊天機器人
    這只是一段跟聊天機器的對話,當你下載了這個叫 Luka (iOS)的應用後,它跟普通聊天機器人一樣會用文字回答你的各種問題。但不一樣的是,正在回答你的這個機器人,它的所有信息和語氣來自一個已經過世的人—— Roman Mazurenko。Roman Mazurenk因為一場意外的車禍,出生於 1981 年的 Roman 在去年 2 月去世。
  • Facebook下屬AI實驗室開發出一款動畫聊天機器人
    據Futurism報導,社交網絡Facebook下屬 人工智慧 (AI)實驗室開發出一款動畫聊天機器人,它能在交談過程中對人類的面部表情做出自然反應,以至於志願者們認為,它的反應幾乎與人類沒什麼差別。我們中的絕大多數人都能直觀地理解其他人的面部表情。
  • Facebook開源物體識別工具Detectron,加速計算機視覺研究
    不久前,FAIR才開源了語音識別的工具wav2letter,戳這裡看大數據文摘介紹《快訊 | Facebook開源語音識別工具包wav2letter》。這一系列工具的開源,將使更多研究人員能使用到Facebook的平臺,進一步擴大Facebook人工智慧實驗室的影響力。
  • 幾次嘗試聊天機器人後,Facebook 也要開發智能語音助理
    晚些時候,Facebook 向科技媒體 The Verge 確認了在研發智能語音助理的消息,說會用在公司開發的 AR、VR 產品上,如 Oculus 、Portal 視頻聊天硬體設備等。 Facebook 於 2013 年收購了 Oculus 後一直加大在 VR 領域的投入。
  • Facebook 正改進聊天機器人的對話能力,讓它們學會「閒聊」
    儘管 Facebook 關閉了自家個人助手 M,但 Facebook 依然沒有放棄聊天機器人。在過去的幾年裡,Facebook 曾做過很多嘗試,如讓聊天機器人代表用戶進行談判;關閉了兩個突然開始自行對話的機器人「Alice」和「Bob」;發布研究工具 ParlAI。
  • Facebook誤把一女子標記為西部世界的聊天機器人
    【PConline資訊】昨日,FacebookMessenger團隊不小心將一名Facebook用戶的私人帳號當成了HBO推廣的《西部世界》機器人。儘管這則消息已被移除,但它至少曬了數小時。由Twitter截圖可知,烏龍推文上寫到:「給大家介紹下Tes,她是西部世界官方(WestworldHBO)在FacebookMessenger裡推出的聊天機器人,與她互動即可解鎖最新資訊…」。說好的《西部世界》聊天機器人呢?  MattNavarra吐槽道:「FacebookMessenger團隊發布的這條推文,已經炸掉了這名肯塔基州女子的收件箱。
  • 被黑客分分鐘玩死的微信聊天機器人
    一個腦洞大開的程序猿寫了用開源程序改了一個微信聊天機器人,並且在不斷調試中給它賦予了n多好玩的功能譬如防撤回信息之類。 以下是正文:前段時間用開源程序做了一個微信聊天機器人,放到i春秋魔法學院群裡做調試。然後被一群黑客玩壞了。但是整個過程還是比較好玩的,所以記錄下來這個事情的來龍去脈,不過提前聲明,這樣做是不對的,沒有考慮後果就貿然跑代碼測試也是不負責任的,尤其是你不知道黑客們會用什麼方法幫你測試,真的有封號的風險哦,請大家不要學我!
  • Facebook 開源 CV 開發平臺 Detectron,打包支持各種物體識別算法
    雷鋒網 AI 科技評論消息,Facebook 人工智慧實驗室今日宣布開源自己的頂級物體檢測研究平臺 Detectron,為廣大研究人員們未來的新計算機視覺研究課題提供靈活、快速的模型實現和評估途徑。經過一年半的開發之後,代碼庫已經成熟了,而且其中集成了許多 Facebook 自己的研究項目,包括在 ICCV 2017 上獲得最佳論文獎(馬爾獎)的《Mask R-CNN》和獲得最佳學生論文獎的《檢測密集物體時的焦距損失》兩篇論文中的算法,以及更早更廣泛使用的 R-CNN 算法家族等。
  • 新聞聊天機器人的時間簡史
    第一代機器人程序:揭示、優化、娛樂、連接前紐約雜誌編輯Lainna Fader曾指出,機器人程序可以對收集到的信息進行反覆的分析,這也使機器人程序變得更有價值:「從模糊的信息中揭示真相,提升邊緣話題和群體的透明度,使價值體系變得清晰。」