自進入大數據時代後,AI也學會了聊天這門藝術。儘管AI聊天機器人已經屢見不鮮了,但是 Facebook 人工智慧研究實驗室(FAIR)依然在該領域努力鑽研。最近他們又有了新成果,這是一種通過自然語言處理、對話、神經模型等技術構造的全新 AI 聊天技術。
Facebook AI Research (FAIR)
Facebook AI Research (FAIR) 目前在加州的Menlo Park,紐約曼哈頓和法國巴黎有三個分部,巴黎分部剛剛公開。總的來說,學術氛圍是非常濃厚的,大家坐在Facebook新建的20樓中央做深度學習的研究,目標是發高質量的文章,做有影響力的前沿工作。研究方向相對自由寬鬆,研究所需的計算資源(如GPU)相對豐富,同時也沒有近期的產品壓力,可以著眼長遠做困難和本質的研究問題。這樣的學術氛圍除了MSR之外,在各大公司是極其少見的。
扎克伯格之前提過Facebook將來的三大主要方向,其中之一就是人工智慧。FAIR正式成立是在前年12月至去年一月,然後陸續招人,時間還不長,重要的公開工作有DeepFace,運用深度學習將人臉識別(更準確說是人臉判定)提高到Human-level,Memory Networks,在深度學習中加入長期記憶(Long-term memory)以構建自然語言問答系統,開源深度學習框架Torch的更新和推廣,運用快速傅利葉變換加速卷積運算的CuFFT,等等。目前還有許多非常有影響力的工作正在進行中。
在深度學習的時代,研究和工程已經有融合的趨勢,因此FAIR這兩方面的大牛都有。工作氣氛上來說,組內較平等,討論自由,基本沒有傳統的上下級觀念。若是任何人有有趣的想法,大家都會傾聽並且作出評論。
聊天AI技術
關於新技術,FAIR 稱這是一種可以用來閒聊的聊天AI技術。相較以往,這項技術最大的突破就是在於它的「性格」。傳統聊天AI的性格都是統一的,並不能滿足於所有的用戶。而 FAIR 則為這個閒聊 AI 添加了一道塑造性格的措施:
1、收集用戶的個人公開資料
2、收集這些用戶的關係網。再把這些數據放進模型之中,便可以模擬出用戶喜歡的性格,並以此和用戶進行閒聊。
事實上基於神經模型的聊天AI是最近才誕生的,然而這些AI技術往往不能和用戶進行長時間的溝通。因為AI需要在響應用戶回話的同時訪問數據網絡,還必須要有足夠龐大的數據集支撐。不過這兩點,也正是 Facebook 的優勢。
FAIR 實驗室通過他們的數據網絡先創造了一個可以定製的基礎AI性格,被稱為配置文件。再將配置文件置於內存擴充式神經網絡之中。根據上述的用戶資料,將這個配置文件進行調整,使其變成另外一個更適合用戶的性格,以貼合用戶需求。
依照此步驟,FAIR 一共創建了1155 個獨立性格,每個性格都擁有最少5個配置文件。不僅如此,他們還有 100 個用於測試的性格和 100 個等待測試的性格。當然,為了讓這 1155 個性格更加獨特,FAIR 把這些性格所有重合的句子(比如口頭禪)全都重新調整,使之成為真正意義上的獨立性格。
但是這還沒完,閒聊機器人的性格建立完成後會向用戶提一些問題,或者發起一些話題。這項功能不僅僅是為了區別傳統Q&A式聊天機器人,還有一個更重要的原因:分析用戶聊天意向,建立用戶模型。
FAIR在論文中給出了這樣一則演示,上邊為原始性格(配置文件),下邊為基於用戶的公開資料所調整的性格。
※ 基礎性格:
我愛沙灘。
我爸有個4S店。
我剛剛做完指甲。
我正在節食。
我最喜歡的動物是馬。
※ 調整性格:
沒有什麼比在在海邊悠閒地呆上一天更讓人心曠神怡。
我爸以賣車為生。
我總是定期關心我自己。
我必須要減肥了!
我很喜歡馬術。
圖丨作為配置文件性格,右為調整後性格
性格數據集
對此,FAIR 創建了一種新的數據集,將其命名為性格數據集。這個數據集由隨機配對的 164,356 條對話組成,每個對話都要求對話雙方進行「角色扮演」,同時雙方會在對話之中逐漸了解。FAIR 表示,這一過程產生了許多引人入勝的談話內容,這對閒聊AI的幫助非常大。
性格數據集分為兩層,即基礎性格層(又稱性格層)和調整性格層。在基礎性格層,FAIR 會用 4 個句子來描述一個性格,比如「我是素食者」、「我喜歡遊泳」、「我父親在福特工作」、「我最喜歡的樂隊是 Maroon5」。
圖丨兩個閒聊AI進行角色扮演
基礎性格層的每個句子的長度不能超過15個單詞,這是為了讓性格數據集能夠更迅速地理解性格,每個句子單詞過多,則會導致性格數據集無法和用戶保持長時間聊天。同時,簡單的句子也能夠讓用戶更直觀地理解閒聊AI的性格。
調整性格層則是對這些句子進行修改,並且單詞的數量也有所放寬。但是該層需要面對另外一個問題——重疊。FAIR實驗室表示,這是一個人類也會犯的錯誤。有些時候,這些調整過的句子只是把單詞換了,但是整個句子的輪廓沒有改變,這就使得兩個獨立的性格出現了重疊的地方。正如上文所說,FAIR對所有重疊的性格進行了調整。
他們的做法是把這些輪廓相同的句子拿去給一支外包語言團隊進行改寫,比如把「我喜歡籃球」改寫成「我很崇拜 Micheal Jordan 」。這樣的改寫很大一定程度上偏離了句子的本意,但即便如此,改寫前後仍存在相互重合的地方。
不過調整性格層的工作遠沒有那麼簡單。外包團隊很有可能把「我爸爸在福特工作」改寫成「福特僱傭了我爸爸」。這樣的改寫在FAIR眼中是不合格的,因為這樣的改寫並沒有調整輪廓。
在所有外包團隊的工作都完成後,FAIR 還要進行一個步驟,就是把句子調整地更自然。比如,調整性格層有這樣一個句子「我喜歡咀嚼鹽」「我喜歡吞下扭曲的麵包」。這樣的句子並不合理,即使地球上會有小部分有如此獵奇的愛好,但是這並不是性格數據集應該呈現給用戶的樣子。
實踐出真知
FAIR 還將性格數據集和用電影腳本訓練的 OpenSubtitles 數據集進行比對,用戶的反饋是前者更能提出一些引人入勝的話題,還能長時間溝通。這對於FAIR來說還不夠,畢竟他們不能把數據集拿出來給用戶,而是要把它植入進閒聊 AI 才行。
圖丨閒聊AI模型
最終,FAIR利用生成模型和判別模型進行檢測,發現無論在怎樣的前提下,具有性格的閒聊AI,都要比傳統性格統一的聊天AI更讓用戶喜歡。
這個結果對於 Facebook 來說無疑是大喜歡,因為這項研究不僅讓該企業突破了自然語言理解的研究深度,也改善了 Facebook 自家的聊天AI。不過 FAIR 實驗室並不滿足於這個結果,他們表示,未來將會用這個閒聊AI和性格數據集來訓練其他聊天 AI 。同時他們也認為,未來的聊天AI絕對不是像傳統聊天AI一樣,對所有用戶都保持著相同的性格。
有方教育——我們的導師來自耶魯大學、麻省理工學院、史丹福大學等世界頂尖名校,致力為讓中學生提供來自學界業界前沿的學術科研教育內容,旨在讓學生在親身實踐的過程中深入淺出地理解前沿科技。
項目主題——我們聚集頂尖學府導師資源,補足中美教育差距,力求為中國學生搭建連接世界科技的平臺。我們引領學生在世界前沿課題研究中參與科研教育,全面提升學生的自主思考、觀察分析、邏輯思維能力。我們為學生提供參加海外科研項目,幫助學生斬獲國際知名學術驚呆大獎、發表英語敘述論文,讓學生在提升申請競爭力的同事,獲得領跑優勢。