百度推「一次包會」模型:「一次性」教會智能體認知新事物

2021-01-13 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論按:打造能夠通過語言與人類自然交流並向人類學習的智能體,對 AI 科技的進步而言價值重大。百度 Research 研究人員的目標就是,開發能夠通過自然交互來向人類學習的 AI 智能體。

在雷鋒網旗下學術頻道 AI 科技評論的資料庫項目「AI影響因子」中,憑藉百度 PaddlePaddle 開源平臺負責人王益專訪、百度數據可視化實驗室的成立及NLP 團隊在微軟 MARCO 閱讀理解數據集上的突出表現、被ACL 2018 接收的論文「Interactive Language Acquisition with One-shot Visual Concept Learning through a Conversational Game」,排在「AI影響因子」前列。

百度曾在去年的 6 月份發表過一篇「Learning to Speak via Interaction」,該方法教 AI 智能體如何通過與一位虛擬老師的互動來學習說話。在一項最新的研究中,百度重點關注了虛擬老師與 AI 智能體之間的對話互動,這種互動既可以作為語言學習的自然途徑,也可以作為學習新的知識的自然途徑。百度提出的聯合仿真和強化方法可以通過一個對話互動遊戲,來訓練 AI 智能體學習接地氣的語言和進行快速概念學習。

 用該方法訓練的 AI 智能體可以提問關於新事物的問題以主動獲得信息,並在隨後的對話中使用剛剛學到的知識;這個學習過程是單樣本學習的。AI 智能體的「主動」體現在,它能夠主動向老師問關於未知事物的信息,與此形成對比的是目前大多數的 AI 智能體範例還只能被動地學習預先收集好的標籤數據。「一次性」意味著,在部署之後,被老師教會過一次的 AI 智能體就可以在無需進一步訓練的情況下,學會識別一個此前從未見過的事物並且還將能正確地回答老師針對該新事物提出的相關問題。

為了教會智能體認知新事物,百度在虛擬環境中搭建了一位老師來同 AI 智能體交談。該虛擬環境與老師的設計靈感來自人類如何教嬰兒學習語言和認知新事物的經歷。在每一節課程的開頭,虛擬老師會隨機選擇一個事物來與學生(AI 智能體)互動,並針對這個事物隨機提出一個問題(如「它是什麼」),然後保持沉默或者給出一個陳述語句(如「它是猴子」)。隨後,老師將根據學生的回答來做出相應行為,要麼回答智能體提出的問題,要麼轉向下一個隨機事物再繼續。老師也會依據 AI 智能體回答的適當程度提供給它一個鼓勵或者不鼓勵的獎勵信號,例如,AI 智能體問關於新事物的信息的時候,或者在僅僅教了一次之後就能正確回答問題到時候,AI 智能體都會收到激勵信號。

百度的該 AI 智能體始於新生兒般的白紙狀態。它必須學會破解語言的奧秘並理解原始視覺和語言信號。AI 智能體只會通過與老師交流來評估自己的知識狀態和記住有用的信息,與老師的交流包括聽,冒泡,通過模仿進行學習以及通過老師的激勵進行強化學習。經過最初的訓練後,AI 智能體無需進一步的任何訓練就能成功地將成熟的語言和「一次性」概念認知能力遷移至新的測試場景。

例如,經過動物數據集的訓練後的 AI 智能體,在面對屬於此前它從未見過的事物類別的一張櫻桃圖片時,AI 智能體能夠問提問「它是什麼」並且只需要被教會一次「這是櫻桃」,在面對新的一張櫻桃圖像的時候也能正確回答其中是櫻桃。

百度的下一步目標是進一步增加該語言學習任務的複雜性和多樣性,以及研究該方法在其他相關任務上的應用和普遍性。該教學環境在百度自己的開源引擎 XWorld 模擬環境上運行,模型訓練則在 PaddlePaddle 深度學習平臺上完成的。更多細節,大家可以前往查看這篇 ACL 2018 的接收論文 https://arxiv.org/abs/1805.00462。

via 百度 Research,雷鋒網AI科技評論編譯。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 宇宙學家是如何看待「大爆炸宇宙模型」與「穩恆態宇宙模型」的?
    我們都知道宇宙不可能既是靜態的,也是動態的,這兩個截然不同的觀點著實讓人們感到迷惑不解,到底宇宙是起源於那個轟動一聲的爆炸,還是它一直就這樣,也會永遠保持這個樣子呢?圖解:宇宙不可能既是靜態的,也是動態的宇宙學家是如何看待「大爆炸宇宙模型」與「穩恆態宇宙模型」的辯論呢?
  • 深度強化學習走入「死胡同」,繼續死磕電子遊戲還是另闢蹊徑?
    有無數的報告記錄了深度強化學習模型做出的各種意想不到的動作。強化學習通常被劃分為除監督機器學習和無監督機器學習以外的第三類,但在我看來,它其實就是監督學習。當前的強化學習實現步驟是這樣的:你開始訓練模型,然後你看著它失敗然後「死掉」,接著你花費大量的時間一次又一次調整獎勵函數,直到你「有可能」得到一個理想的結果,但僅僅是「有可能」。
  • 「熱大爆炸宇宙學模型」的創立者最早提出「遺傳密碼模型」
    上個世紀40年代「大爆炸模型」雖然有哈勃等人的觀測證據,有弗裡德曼和勒邁特等人的理論支撐,但是依然有很多人是反對的,為了使「大爆炸模型」被廣泛地接受,有一個問題是不容忽視的,那就是——為什麼有些元素比其他元素更常見!
  • 從「帶屏音箱」到「智能屏」,小度在家的兩年進化史
    而百度一直針對這三方面做技術和產品的迭代與優化。譬如從傳統的機器學習和深度學習模型過渡到基於訓練的多模型、多任務的 NLU 模型「ERINE Model」,具備了看網頁、看詞條、看百科的知識學習能力,只要稍加調教和處理,就能大幅提高智能度,以及用戶的滿足度。
  • 百度網盤:「免費空間」的價格已被「限速」標好
    百度網盤是我個人比較喜歡的產品。我並不否認百度網盤確實有非常多值得吐槽的地方,比如:Mac沒有自動備份功能、之前的用戶激勵計劃默認勾選……不過,「限速」這個問題,站在產品經理的角度來看,並不值得吐槽。我們要始終記得:「產品是約束條件下的效用組合」。用戶的需求是無限的:資源要多、傳輸要快、空間要大、搜索要準,不要廣告、不要錢,甚至可以幫我賺錢。這些需求,但凡沒有滿足,隨便一個人都能吐槽一句:體驗不好。但是,這些需求真的能全部滿足嗎?首先,用戶是單個的人。這些人的需求受到認知、偏好、情境的影響,各不相同。
  • 變態「三角戀」?世界知識、大腦和計算是AGI的新「三駕馬車」
    【新智元導讀】「冰鎮椅子」和「彩虹蕉」見過沒?反正神經網絡要淚奔了。近年來,吃數據的人工智慧狹隘性日益凸顯,而來自舊金山的科學家們,認為智能來源於歸納偏差,他們試圖通過已知的世界屬性、大腦的物理結構和算法來構建一種新的世界模型。看到下面這個場景,你會想到啥?
  • 訪談| Jürgen Schmidhuber:人工智慧在1991年就已經獲得了「意識」
    過去學習中有意識的東西會隨著時間的推移變得自動和具有潛意識。隨著網絡的進步,學習一個新的規律後,它可以通過查看無監督的世界模型在學會前後需要編碼多少計算資源來測量其新洞察力的深度,前後的差異就是網絡的「樂趣」。
  • 在「古板遲緩」的晶片產業,一群「寒武紀」們誕生的意義與挑戰
    雖然其研發及主體業務一直處於秘密狀態,但據消息人士透露,他們的晶片就是為「訓練某些 AI 算法模型」而量身定製的。像 Cerebras 這樣的晶片創業公司們相信,自己完全有能力在深度學習應用程式中構建一些優於 GPU 的晶片。
  • 李飛飛對話頂級神經學家:大腦做「微積分」,最高效GPU但很浪費
    神經科學是計算視覺的「鼻祖」,AI也能反哺生物認知研究首先,我的博士學位有一半是認知神經科學。我有時會想反過來: 視覺和神經科學對人工智慧有什麼啟發?李飛飛:對。史丹福大學的神經科學專家正在將認知的靈感,運用到深度學習框架的計算模型中。他們正在構建一些智能體,試圖遵循早期人類認知發展的規則,在好奇心、探索等方面,學習建立一個世界模型,並且改進與世界的互動。
  • 埃洛克防務發布「守望者」、「觀測者」
    「守望者」與「觀測者」以簡單易上手的操作體驗,適用不同的應用場景。「守望者」定點巡航系統——「守望者」側重於基礎設施巡檢、應急指揮、城市規劃、生態治理、工程監督、礦區運維等大範圍固定場所的自動化、高頻次的多元數據獲取。通過一次性的飛行線路與作業時間部署,即可無人值守執行任務。
  • 圖靈獎「擁抱」深度學習
    除了我們每天使用的產品,深度學習的新進展為科學家們帶來強大的新工具—從醫學、天文學到材料科學。」神經網絡是一種運算模型,由大量簡單的神經元之間相互連接構成。通過改變連接點上的權重(weight),可以改變神經網絡執行的計算。Yoshua Bengio, Geoffrey Hinton 和 Yann LeCun 認識到了構建多層網絡的重要性,「深度學習」的概念由此誕生。
  • 「好棒」的日文怎麼說?6種誇讚他人的日文,不要只會「鼠勾以」
    想用日文說「贊啦!」、「好棒棒!」該怎麼講?「棒」的程度不同,表達方式當然也不一樣,這篇要一次教你6種誇讚他人的超簡單日文,下次不要只會講「鼠勾以」啦!(すばらしいsubarashii)接下來要介紹容易搞混的「素晴らしい」和「素敵」,兩個詞同樣都是主觀的「好棒」,但用法不盡相同,有時候用顛倒的話還會產生誤會!首先來看看「素晴らしい」(すばらしいsubarashii),通常是形容人事物的「內容、本質」很棒。
  • 巨頭的恐懼、薛丁格的「馬斯克新冠」和新造車的「冷水」| 極客一周
    在這份殺傷力極大的「反壟斷意見稿」中,對人們大量反映的「二選一」、「大數據殺熟」、「搭售」等行為進行了更加詳細的界定,其最大看點是對於具有市場支配地位的經營者從事濫用市場支配地位行為予以規制。例如,消費者十分關注的「大數據殺熟」,「意見稿」主要分析具有市場支配地位的平臺經濟領域經營者(巨頭),無正當理由對交易條件相同的交易相對人實施差別待遇。
  • 霍伊爾提出「碳的激發態」,使用的是「人擇原理」
    福勒心想這種成本低效益卻超高的事不做才是傻子,於是福勒立即要求他的團隊去搜尋霍伊爾所說的這種激發態,經過10多天對碳12的核分析,福勒的研究小組發現了一種新的激發態·7.65兆電子伏特,與霍伊爾說的完全一樣,這是人類歷史上的第1次,也是唯一一次科學家竟然用「人擇原理」來做出預測,並且被證明是對的,於是這樣的激發態,後人就稱為「霍伊爾狀態」,這種形式的碳核僅包含3個連接非常鬆散的氦核,與常見的碳核完全不同
  • 「夜讀」總是沒辦法專注,怎麼辦?
    我常常心血來潮去接觸一些新東西,涉獵一些新領域,甚至有時候會耽誤正事……從這個角度來看,很難說我是一個「有專注力」的人。所以,我想告訴你的是什麼呢?「專注力」這個東西,其實是一個極度簡化的、意義不大的概念。02很多自媒體總會告訴你:怎麼樣才能成功?一,要自律;二,要專注。這當然是對的,但是有什麼意義呢?
  • 以「果殼」為例:調研新媒體矩陣
    外部矩陣(1)在百度中搜索關鍵詞「果殼」,根據搜索結果和相關PR新聞,尋找果殼已/將入駐的平臺;(2)參考ciccorporate2018社會化媒體信息圖、新榜榜單平臺以及360互動新媒體導航網信息,在各大主流平臺中搜索關鍵詞「果殼」,查找相關的產品。3.
  • TV動畫「出包王女 Darkness」10月播出 新角色登場!
    TV動畫「出包王女 Darkness」10月播出 新角色登場!動畫名為「出包王女 Darkness」,並預定與今年10月播出!另外,在TV動畫系列放送開始之前,將搶先製作OAD「出包王女 The Darkness」與8月17日發售的漫畫單行本第5卷限定版同捆發售。   最新消息顯示動畫中將有新角色登場!角色名為「黑咲芽亞」,聲優是為「魔法經書目錄」中的額茵蒂克絲以及「蘿球社」中的三澤真帆配音的井口裕香擔當。
  • 2019年小人物創業指南之「事」
    關於「未來」的創業:通常是未驗證新產品的新市場,所以一般是「新產品,新市場」。關於未來,你其實沒啥可選的,要麼是大公司、大資源、大資本的方向,要麼是需要你兩邊驗證的……比如,當年的淘寶大資本、如今的百度AI、以及科大訊飛。有人說馬雲也沒啥資源,那只是包裝出來的美麗故事,一般人那時候就能融到2000萬美金?
  • 電波代替神經元,認知機器人的「未來簡史」
    而想像「七弟」一樣,擁有各種情感,那就是認知智能,也就是人的高度了。可是,扒開機器人的腦袋,那密密麻麻的電線很難與意識連接到一起。現在的robot都不是「人」為什麼我們現在的機器人都還只停留在機器層面,而無法成為一個「人」呢?
  • 首增新職業「惡魔獵人」
    《爐石傳說》今(16)日正式公布新年度「鳳凰年」更新,這次鳳凰年更新規模可謂是《爐石傳說》史上最大規模的一次,牽涉範圍巨大。就跟之前洩漏的消息一樣,新年度就是「鳳凰年」。第一階段將更新天梯機制、新職業「惡魔獵人」、卡牌掉落機制等,第二階段則將引入全新的遊戲模式,官方表示該模式將以玩家收集的卡牌為基礎,規模類似於競技場;第三階段則會進一步大更新系統,將引入進度系統與成就系統,官方表示「希望玩家能了解到暴雪正努力將《爐石傳說》開發成一款最棒的卡牌遊戲。」另外英雄戰場模式也將持續更新。《爐石傳說》鳳凰年計劃。