雷鋒網(公眾號:雷鋒網) AI 科技評論按:打造能夠通過語言與人類自然交流並向人類學習的智能體,對 AI 科技的進步而言價值重大。百度 Research 研究人員的目標就是,開發能夠通過自然交互來向人類學習的 AI 智能體。
在雷鋒網旗下學術頻道 AI 科技評論的資料庫項目「AI影響因子」中,憑藉百度 PaddlePaddle 開源平臺負責人王益專訪、百度數據可視化實驗室的成立及NLP 團隊在微軟 MARCO 閱讀理解數據集上的突出表現、被ACL 2018 接收的論文「Interactive Language Acquisition with One-shot Visual Concept Learning through a Conversational Game」,排在「AI影響因子」前列。
百度曾在去年的 6 月份發表過一篇「Learning to Speak via Interaction」,該方法教 AI 智能體如何通過與一位虛擬老師的互動來學習說話。在一項最新的研究中,百度重點關注了虛擬老師與 AI 智能體之間的對話互動,這種互動既可以作為語言學習的自然途徑,也可以作為學習新的知識的自然途徑。百度提出的聯合仿真和強化方法可以通過一個對話互動遊戲,來訓練 AI 智能體學習接地氣的語言和進行快速概念學習。
用該方法訓練的 AI 智能體可以提問關於新事物的問題以主動獲得信息,並在隨後的對話中使用剛剛學到的知識;這個學習過程是單樣本學習的。AI 智能體的「主動」體現在,它能夠主動向老師問關於未知事物的信息,與此形成對比的是目前大多數的 AI 智能體範例還只能被動地學習預先收集好的標籤數據。「一次性」意味著,在部署之後,被老師教會過一次的 AI 智能體就可以在無需進一步訓練的情況下,學會識別一個此前從未見過的事物並且還將能正確地回答老師針對該新事物提出的相關問題。
為了教會智能體認知新事物,百度在虛擬環境中搭建了一位老師來同 AI 智能體交談。該虛擬環境與老師的設計靈感來自人類如何教嬰兒學習語言和認知新事物的經歷。在每一節課程的開頭,虛擬老師會隨機選擇一個事物來與學生(AI 智能體)互動,並針對這個事物隨機提出一個問題(如「它是什麼」),然後保持沉默或者給出一個陳述語句(如「它是猴子」)。隨後,老師將根據學生的回答來做出相應行為,要麼回答智能體提出的問題,要麼轉向下一個隨機事物再繼續。老師也會依據 AI 智能體回答的適當程度提供給它一個鼓勵或者不鼓勵的獎勵信號,例如,AI 智能體問關於新事物的信息的時候,或者在僅僅教了一次之後就能正確回答問題到時候,AI 智能體都會收到激勵信號。
百度的該 AI 智能體始於新生兒般的白紙狀態。它必須學會破解語言的奧秘並理解原始視覺和語言信號。AI 智能體只會通過與老師交流來評估自己的知識狀態和記住有用的信息,與老師的交流包括聽,冒泡,通過模仿進行學習以及通過老師的激勵進行強化學習。經過最初的訓練後,AI 智能體無需進一步的任何訓練就能成功地將成熟的語言和「一次性」概念認知能力遷移至新的測試場景。
例如,經過動物數據集的訓練後的 AI 智能體,在面對屬於此前它從未見過的事物類別的一張櫻桃圖片時,AI 智能體能夠問提問「它是什麼」並且只需要被教會一次「這是櫻桃」,在面對新的一張櫻桃圖像的時候也能正確回答其中是櫻桃。
百度的下一步目標是進一步增加該語言學習任務的複雜性和多樣性,以及研究該方法在其他相關任務上的應用和普遍性。該教學環境在百度自己的開源引擎 XWorld 模擬環境上運行,模型訓練則在 PaddlePaddle 深度學習平臺上完成的。更多細節,大家可以前往查看這篇 ACL 2018 的接收論文 https://arxiv.org/abs/1805.00462。
via 百度 Research,雷鋒網AI科技評論編譯。
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。