強大的人工智慧就像阿拉丁神燈中的精靈。一個看似簡單的願望,比如「讓我家變得環保」——可能導致意想不到的後果。
現在,一位科學家正在教機器了解我們的「真實願望」,以避免機器在執行命令時可能帶來的災難性後果。
2017年羅素在TED上就AI的危害進行演講
加州大學伯克利分校的計算機科學家斯圖爾特·羅素(Stuart Russell)認為,儘管在完成特定任務,比如下圍棋、識別圖像和文字、甚至創作音樂和散文時取得了巨大成功,如今的目標導向型 AI 最終是有局限性的。
羅素認為,要求機器優化「獎勵功能」(即在增強學習問題中的目標,要求AI不斷優化總獎勵),將不可避免地導致AI的錯位,因為AI不可能在獎勵功能中囊括並正確地對所有目標、子目標、例外和警告事項進行權衡,它們甚至不知道正確的目標是什麼。將目標交給自由發展的「自主」機器人將變得越來越危險,因為隨著它們變得更加智能,機器人將「無情地」追求獎勵的最大化,並試圖阻止我們關閉它們。
《人類兼容》 斯圖爾特·羅素 著
新提出的邏輯,不是讓機器追求自己的目標,而是尋求讓它們滿足人類的偏好:AI唯一的目標應該是更多地了解我們的偏好。羅素認為,對人類偏好的不確定性、並需要向人類尋求指導,這兩點將保證AI系統對人類的安全。
在他最近出版的《人類兼容》(Human Compatible)一書中,羅素以三個「有益機器的原則」的形式闡述了他的觀點。這三個原則與艾薩克·阿西莫夫(Isaac Asimov)1942年的「機器人三定律」相呼應,但都成熟許多。羅素的版本是:
機器的唯一目標是最大限度地實現人類的偏好。
機器最初不確定這些是什麼。
關於人類偏好的信息的最終來源是人類的行為。
羅素教授認為,如果我們按照純理性目標構建人工智慧,就會出現很多麻煩,比如「你讓AI幫你買杯咖啡,並不是讓它不計一切代價去獲得一杯咖啡」。所以在他看來,發展AI的重點是調整研究方向。
在過去的幾年裡,羅素和來自伯克利大學、史丹福大學、德克薩斯大學等機構的同事,一直在開發創新的方法,為AI系統理解我們的偏好提供線索,但又永遠不必具體說明這些偏好是什麼。
強大的人工智慧就像阿拉丁神燈中的精靈
實驗室正在教機器人如何學習那些從未闡明、甚至不確定具體目標的人類偏好。機器人可以通過觀看不完美的演示來了解我們的欲望,甚至能夠學習如何理解人類的不確定性。這表明,AI可能出奇地善於推斷我們的心態和偏好,即使是那些我們在做某件事情時即時產生的偏好。
「這是首次嘗試使問題正式化,」薩迪說。「就在最近,人們開始意識到我們需要更仔細地看待人與機器人之間的互動。」
這些新嘗試,外加羅素的機器新三大原則,是否真正預示著AI發展的光明未來,尚還有待觀察。這種方法將衡量機器人表現的標準聚焦在它們理解人類真正喜歡什麼的能力上。OpenAI的研究員保羅·克裡斯蒂安諾(Paul Christiano)說,羅素和他的團隊已經大大地推動了這一進程。
如何理解人類?羅素的觀點仿佛來自於一種頓悟。2014年,他從伯克利到巴黎休假,「我突然想到,AI 最重要的關注是人類感受的總體質量」 。
他意識到,機器人的目標不應該是「將觀看時間最大化」這樣的具體目標,它們應該試著改善我們的生活。其實只有一個問題:「如果機器的目標是試圖優化人類感受的總體質量,它們究竟如何知道應該怎麼做?」
雙子座的機器人正在學習如何在桌子中央放置一個花瓶
在德克薩斯大學奧斯汀分校的斯科特·尼庫姆(Scott Niekum)的實驗室裡,一個名叫雙子座的機器人正在學習如何在桌子中央放置一個花瓶。人類演示是模稜兩可的,因為機器理解的意圖可能是把花瓶放在綠色盤子的右邊,或者放在紅碗的左邊。但是,在經過幾次嘗試後,機器人的表現相當不錯。
羅素認為,人類不是理性的,我們不可能計算在一個特定時刻哪種行動將導致很長一段時間後的最佳結果,AI 也不能。羅素的理論認為,我們的決策是分層的,我們通過中期目標追求模糊的長期目標,同時最關注我們的眼前情況,從而表現出近似理性的狀態。他認為,機器人需要做類似的事情,或者至少了解我們是如何這樣做的。
他意識到,如果計算機不知道人類喜歡什麼,「它們可以做某種反向強化學習來學習更多這方面的知識」。
回到伯克利後,羅素開始與同事合作開發一種新的「合作逆向增強學習」,讓機器人和人類可以一起工作,通過各種「輔助遊戲」學習人類的真正偏好。遊戲中抽象的場景代表了現實世界的情況。
他們開發了一款「開關遊戲」,針對的就是自主機器人最可能與我們的真實意圖出現偏差之處:自主機器人可能會禁用自己的關閉開關。1951年,圖靈在BBC的一次廣播講座中提出,要「保持機器處於從屬地位,例如在某個特定時刻關閉電源」。
羅素在《人類兼容》一書中寫道,開關問題是「智能系統控制問題的核心。如果我們不能關閉一臺機器是因為它不讓我們關閉,那我們真的有大麻煩了。」
史丹福大學的計算機科學家多爾薩·薩迪(Dorsa Sadigh)正在教授機器人拾取各種物體的首選方法
人類偏好的不確定性可能是關鍵所在。
在「開關遊戲」中有兩個角色:一個是人類,叫哈裡特;另一個是機器人羅比。羅比需要代表哈裡特做決定——比如說,是否為她預訂一間漂亮但昂貴的酒店房間——但又不確定她更喜歡什麼。
這裡有三種情況:
羅比替哈裡特做出選擇:羅比預期哈裡特的回報可能在-40到60英鎊之間,平均數值10英鎊(羅比認為她可能會喜歡這個花哨的房間,但不確定)。
羅比什麼都不做:回報為 0。
羅比可以詢問哈裡特,她是否希望它繼續做決策,還是更希望「關閉它」——也就是說,不需要羅比再做酒店預訂的決策。如果她讓機器人繼續,平均預期回報將超過10。所以羅比將決定詢問哈裡特,如果她願意,可以讓她關掉它。
羅素和他的合作者證明,一般來說,除非羅比完全確定哈裡特自己會怎麼做,否則最好讓她決定。羅素在《人類兼容》中寫道:「事實證明,目標的不確定性對於確保我們關閉機器至關重要,即使它比我們更聰明。」
蒙特婁頂級AI研究機構Mila的科學主任約舒亞·本吉奧(Yoshua Bengio)說,羅素的想法正在「深入人心」。他說,可以通過深度學習來實現羅素的理念,幫助人工智慧系統為減少不確定性而了解人類的偏好。「當然,還需要進行更多的研究工作,才能實現這一點,」他說。
羅素麵臨兩大挑戰。「一個事實是,我們的行為遠非理性,了解我們真正的基本偏好是很難的,」他說。AI 系統需要對長期、中期和短期目標的等級進行推理。只有知道我們潛意識中存在的欲望,機器人才能真正幫助我們(並避免犯嚴重的錯誤)。
在史丹福大學汽車研究中心的駕駛模擬器中,自動駕駛汽車正在了解人類駕駛員的喜好
第二個挑戰是人類偏好的改變。我們的思想會隨著我們生活的進程而改變,而且也會因為一些雞毛蒜皮的小事而改變,偏好可能會取決於我們的心情,而機器人可能難以適應這種改變。
當然,還有第三個問題:壞人的喜好是怎樣的?怎樣才能阻止機器人滿足其邪惡主人的邪惡目的?AI系統善於找到繞過禁令的方法,正如YouTube一直在努力修復的推薦算法一樣,該算法正在利用無處不在的人類衝動。
儘管如此,羅素還是感到樂觀。雖然需要更多的算法和博弈論研究,但他的直覺是,在教機器人「做好人」的同時,我們可能會找到一種方法來教導自己。他補充說,「我覺得這是一個機會,也許,事情正在朝著正確的方向發展。」
文字 | 黃一成
版面 | 田曉娜
互動話題:你認為AI執行目標會走向極端嗎?
每周評論區,被zan最多的評論者,將獲得造就送出的書籍一本。
▼