原標題:深度 | 構建好奇的機器,Maluuba的通用人工智慧探索(附論文)
選自Maluuba
機器之心編譯
參與:李澤南、朱思穎
人類具有對認識和理解的天生欲望。從學習騎自行車到學習在線課程,我們通過與周遭環境互動來獲得信息。最近,我們受到人類學習方式的啟發,開發了一套任務,讓人工智慧體學會了如何通過提出問題來尋找有效信息。同時,我們也設計了一個基於深層神經網絡的人工智慧系統,它可以通過高效的信息搜索完成這些任務。我們相信,這些研究讓人類向通用人工智慧邁出了重要一步。
問正確的問題
假如你在和朋友聚餐,在飯桌上玩起了「20 個問題」遊戲。現在輪到你了,你決定讓大家來猜「貓」。他們開始從大範圍問題切入:「它/他是活物嗎?」,「它/他是一個人嗎?」,「它/他是一種動物嗎?」,「它是否生活在水下?」。首先猜出正確答案的人會成為勝利者,所以你的朋友們不僅需要找出正確的答案,而且還要儘量少問問題。基於簡單的是或不是的回答方式,你的朋友們可以很快地縮小尋找範圍,最終猜出正確的答案「貓」。
這個例子說明了人類尋找信息的過程具有的迭代性質:你正在尋找的信息永遠基於你已經獲得的信息。同樣,為了保持效率,尋找信息的智能體必須在某種意義上理解它已經獲得的信息。它必須知道自己已經知道了什麼,從而可以知曉如何達成自己真正需要完成的任務。
「20 個問題」的例子也表明了交流通常是在受限的條件下進行的:每個答案都是簡單的是或否(僅僅傳遞 1bit 信息),而且問題的數量也是有限的。在現實世界中我們對於信息的搜索往往面臨同樣的困局——我們通過有限的語言在有限的時間內交流。比如在網上搜索,思考為朋友挑選哪件禮物,你一開始會隨便搜搜——以對方的年齡、性別和自己的錢包為導向——隨後再在縮小的範圍內以興趣和推薦等條件為依據找到最終目標。
由於這種方式構建了智能行為的基礎,人們對人工智慧尋找信息的方法已經進行了廣泛的研究,認知科學、心理學、神經科學和機器學習的角度都已被涉足。例如,在神經科學中,信息尋找策略通常被解釋為對新奇,令人驚訝或不確定的事件的偏見(Ranganath 和 Rainer,2003)。信息尋找是樂趣和創造力等概念的一個關鍵組成部分(Schmidhuber,2010)和內在動機(Oudeyer 和 Kaplan,2007)。也有一些研究認為注意力機制是人類尋找信息的策略,通過忽略不相關的特徵提高了處理問題的效率(Mnih 等人,2014)。
信息搜索的新任務
研究人員會使用各種工具和系統用來訓練人工智慧,從數據集到定製學習環境。人工智慧已經在西洋棋、圍棋、Atari 遊戲中取得了令人矚目的成就。同樣,許多人類熱衷的遊戲看起來正是為了訓練信息搜索而設計的,也許人類能從信息搜索的過程中得到快感。
因此,我們設計了一套信息搜索的任務集來訓練和評估人工智慧的信息搜索能力。在這裡我們展示了三種任務(其他的任務詳見我們的論文):
在任務集中,最有意思的任務就是「劊子手」,「面部識別」和「戰船」。這些任務中,每一個都有自己的獨特規則和獲勝目標。更重要的是,每個任務都需要人工智慧可以在已有信息的基礎上尋找更多信息。
劊子手:西方經典遊戲,給出一個單詞,人工智慧必須在指定輪次內猜出該單詞的每一個字母。
面部識別:人工智慧需要在這個遊戲中回答諸如:「這個人是否戴著帽子?」「這個人是否有鬍子?」這類的問題。
戰船:人工智慧需要擊沉地方戰船,它們會隨機出現在網格中,事先處於隱藏狀態,選擇正確的網格意味著敵方被「擊中」。
訓練模型來獲取信息
在我們任務中人工智慧的行為表現可以理解為對其周圍環境進行提問,如「這個短語包涵字母'a'嗎?」或者「這部分的像素塊看起來像什麼?」為了成功獲取信息,一個人工智慧體必須學會提出有效問題並消化由此獲取的信息。
我們開發了一個模型,這一模型被訓練用來完成上述任務。在完成某一任務的每一步裡,模型都會提出一個其所認為當前情形下最有效的問題,然後從環境中獲取相應的回覆,並進一步將所獲取的回覆與其既有的知識(knowledge)整合。這個模型是一個深度神經網絡,通過把強化學習的技巧(具體是:廣義優勢估計——Generalized Advantage Estimation,Schulman 等人,2016)和反向傳播結合起來的方式訓練得到。詳細內容請參閱該研究的論文。
在訓練中,人工智慧會尋求獎勵最大化,這個最大化獎勵包涵多個特定任務的外部獎勵和一個任務無關的內部獎勵。外部獎勵促使人工智慧體通過儘量多的問題來獲取有效回復,內部獎勵促使模型提出能獲取環境最新信息的問題。具體來說,我們對每個問題的獎勵設置是依據這個問題的回覆能多大程度增加模型的認知與世界真實狀態之間的相似度。因此,人工智慧學會了如何高效的對周圍環境構建一個與之對應的精確內部圖。
目標:通用人工智慧
就如在 demo 裡展示的那樣,我們的方法所訓練出的人工智慧體能夠成功完成較廣泛領域內的任務。同樣的方法可以用於語言處理問題、圖像處理問題以及決策問題。在我們的任務中,所訓練出來的人工智慧的行為是具備可解釋性的,且這些系統具有智能化的信息獲取能力,它們的效率經常超過人類的水平。
我們希望這些研究能為通用智能的發展奠定基礎。我們當下的工作只是朝實現這一宏偉目標所邁出的一小步。
相關論文:TOWARDS INFORMATION-SEEKING AGENTS
摘要:我們開發了一種通用問題集用於訓練和測試人工智慧體收集有效信息的能力。具體來說,它是一系列任務的集合,完成這些任務需要在給定環境中尋找有效信息。同時,我們將深層架構和強化學習技術整合到一起,構建了用於處理此類問題的人工智慧系統。我們通過組合內部和外部獎勵機制來塑造人工智慧體的行為。我們的研究表明,這些人工智慧體可以學會積極、智能化地搜索信息以減少不確定性,並在這個過程中不斷利用已有信息。
©本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。
✄------------------------------------------------
加入機器之心(全職記者/實習生):hr@almosthuman.cn
投稿或尋求報導:editor@almosthuman.cn
廣告&商務合作:bd@almosthuman.cn返回搜狐,查看更多
責任編輯: