阿西莫夫機器人三定律已過時?「新三定律」解決了這樣一個重大難題

2020-12-01 騰訊網

強大的人工智慧就像阿拉丁神燈中的精靈。一個看似簡單的願望，比如「讓我家變得環保」——可能導致意想不到的後果。

現在，一位科學家正在教機器了解我們的「真實願望」，以避免機器在執行命令時可能帶來的災難性後果。

2017年羅素在TED上就AI的危害進行演講

加州大學伯克利分校的計算機科學家斯圖爾特·羅素（Stuart Russell）認為，儘管在完成特定任務，比如下圍棋、識別圖像和文字、甚至創作音樂和散文時取得了巨大成功，如今的目標導向型 AI 最終是有局限性的。

羅素認為，要求機器優化「獎勵功能」（即在增強學習問題中的目標，要求AI不斷優化總獎勵），將不可避免地導致AI的錯位，因為AI不可能在獎勵功能中囊括並正確地對所有目標、子目標、例外和警告事項進行權衡，它們甚至不知道正確的目標是什麼。將目標交給自由發展的「自主」機器人將變得越來越危險，因為隨著它們變得更加智能，機器人將「無情地」追求獎勵的最大化，並試圖阻止我們關閉它們。

《人類兼容》斯圖爾特·羅素著

新提出的邏輯，不是讓機器追求自己的目標，而是尋求讓它們滿足人類的偏好：AI唯一的目標應該是更多地了解我們的偏好。羅素認為，對人類偏好的不確定性、並需要向人類尋求指導，這兩點將保證AI系統對人類的安全。

在他最近出版的《人類兼容》（Human Compatible）一書中，羅素以三個「有益機器的原則」的形式闡述了他的觀點。這三個原則與艾薩克·阿西莫夫（Isaac Asimov）1942年的「機器人三定律」相呼應，但都成熟許多。羅素的版本是：

機器的唯一目標是最大限度地實現人類的偏好。

機器最初不確定這些是什麼。

關於人類偏好的信息的最終來源是人類的行為。

羅素教授認為，如果我們按照純理性目標構建人工智慧，就會出現很多麻煩，比如「你讓AI幫你買杯咖啡，並不是讓它不計一切代價去獲得一杯咖啡」。所以在他看來，發展AI的重點是調整研究方向。

在過去的幾年裡，羅素和來自伯克利大學、史丹福大學、德克薩斯大學等機構的同事，一直在開發創新的方法，為AI系統理解我們的偏好提供線索，但又永遠不必具體說明這些偏好是什麼。

強大的人工智慧就像阿拉丁神燈中的精靈

實驗室正在教機器人如何學習那些從未闡明、甚至不確定具體目標的人類偏好。機器人可以通過觀看不完美的演示來了解我們的欲望，甚至能夠學習如何理解人類的不確定性。這表明，AI可能出奇地善於推斷我們的心態和偏好，即使是那些我們在做某件事情時即時產生的偏好。

「這是首次嘗試使問題正式化，」薩迪說。「就在最近，人們開始意識到我們需要更仔細地看待人與機器人之間的互動。」

這些新嘗試，外加羅素的機器新三大原則，是否真正預示著AI發展的光明未來，尚還有待觀察。這種方法將衡量機器人表現的標準聚焦在它們理解人類真正喜歡什麼的能力上。OpenAI的研究員保羅·克裡斯蒂安諾（Paul Christiano）說，羅素和他的團隊已經大大地推動了這一進程。

如何理解人類？羅素的觀點仿佛來自於一種頓悟。2014年，他從伯克利到巴黎休假，「我突然想到，AI 最重要的關注是人類感受的總體質量」。

他意識到，機器人的目標不應該是「將觀看時間最大化」這樣的具體目標，它們應該試著改善我們的生活。其實只有一個問題：「如果機器的目標是試圖優化人類感受的總體質量，它們究竟如何知道應該怎麼做？」

雙子座的機器人正在學習如何在桌子中央放置一個花瓶

在德克薩斯大學奧斯汀分校的斯科特·尼庫姆（Scott Niekum）的實驗室裡，一個名叫雙子座的機器人正在學習如何在桌子中央放置一個花瓶。人類演示是模稜兩可的，因為機器理解的意圖可能是把花瓶放在綠色盤子的右邊，或者放在紅碗的左邊。但是，在經過幾次嘗試後，機器人的表現相當不錯。

羅素認為，人類不是理性的，我們不可能計算在一個特定時刻哪種行動將導致很長一段時間後的最佳結果，AI 也不能。羅素的理論認為，我們的決策是分層的，我們通過中期目標追求模糊的長期目標，同時最關注我們的眼前情況，從而表現出近似理性的狀態。他認為，機器人需要做類似的事情，或者至少了解我們是如何這樣做的。

他意識到，如果計算機不知道人類喜歡什麼，「它們可以做某種反向強化學習來學習更多這方面的知識」。

回到伯克利後，羅素開始與同事合作開發一種新的「合作逆向增強學習」，讓機器人和人類可以一起工作，通過各種「輔助遊戲」學習人類的真正偏好。遊戲中抽象的場景代表了現實世界的情況。

他們開發了一款「開關遊戲」，針對的就是自主機器人最可能與我們的真實意圖出現偏差之處：自主機器人可能會禁用自己的關閉開關。1951年，圖靈在BBC的一次廣播講座中提出，要「保持機器處於從屬地位，例如在某個特定時刻關閉電源」。

羅素在《人類兼容》一書中寫道，開關問題是「智能系統控制問題的核心。如果我們不能關閉一臺機器是因為它不讓我們關閉，那我們真的有大麻煩了。」

史丹福大學的計算機科學家多爾薩·薩迪（Dorsa Sadigh）正在教授機器人拾取各種物體的首選方法

人類偏好的不確定性可能是關鍵所在。

在「開關遊戲」中有兩個角色：一個是人類，叫哈裡特；另一個是機器人羅比。羅比需要代表哈裡特做決定——比如說，是否為她預訂一間漂亮但昂貴的酒店房間——但又不確定她更喜歡什麼。

這裡有三種情況：

羅比替哈裡特做出選擇：羅比預期哈裡特的回報可能在-40到60英鎊之間，平均數值10英鎊（羅比認為她可能會喜歡這個花哨的房間，但不確定）。

羅比什麼都不做：回報為 0。

羅比可以詢問哈裡特，她是否希望它繼續做決策，還是更希望「關閉它」——也就是說，不需要羅比再做酒店預訂的決策。如果她讓機器人繼續，平均預期回報將超過10。所以羅比將決定詢問哈裡特，如果她願意，可以讓她關掉它。

羅素和他的合作者證明，一般來說，除非羅比完全確定哈裡特自己會怎麼做，否則最好讓她決定。羅素在《人類兼容》中寫道：「事實證明，目標的不確定性對於確保我們關閉機器至關重要，即使它比我們更聰明。」

蒙特婁頂級AI研究機構Mila的科學主任約舒亞·本吉奧（Yoshua Bengio）說，羅素的想法正在「深入人心」。他說，可以通過深度學習來實現羅素的理念，幫助人工智慧系統為減少不確定性而了解人類的偏好。「當然，還需要進行更多的研究工作，才能實現這一點，」他說。

羅素麵臨兩大挑戰。「一個事實是，我們的行為遠非理性，了解我們真正的基本偏好是很難的，」他說。AI 系統需要對長期、中期和短期目標的等級進行推理。只有知道我們潛意識中存在的欲望，機器人才能真正幫助我們（並避免犯嚴重的錯誤）。

在史丹福大學汽車研究中心的駕駛模擬器中，自動駕駛汽車正在了解人類駕駛員的喜好

第二個挑戰是人類偏好的改變。我們的思想會隨著我們生活的進程而改變，而且也會因為一些雞毛蒜皮的小事而改變，偏好可能會取決於我們的心情，而機器人可能難以適應這種改變。

當然，還有第三個問題：壞人的喜好是怎樣的？怎樣才能阻止機器人滿足其邪惡主人的邪惡目的？AI系統善於找到繞過禁令的方法，正如YouTube一直在努力修復的推薦算法一樣，該算法正在利用無處不在的人類衝動。

儘管如此，羅素還是感到樂觀。雖然需要更多的算法和博弈論研究，但他的直覺是，在教機器人「做好人」的同時，我們可能會找到一種方法來教導自己。他補充說，「我覺得這是一個機會，也許，事情正在朝著正確的方向發展。」

文字 | 黃一成

版面 | 田曉娜

互動話題：你認為AI執行目標會走向極端嗎？

每周評論區，被zan最多的評論者，將獲得造就送出的書籍一本。

▼

相關焦點

機器人必須服從人類!阿西莫夫的機器人三定律,定義人機關係

1992年4月6日，「基地」系列、《我，機器人》的作者艾薩克阿西莫夫在美國紐約逝世。20年後再回望阿西莫夫，依然覺得其高不可及。今天讓我們的思維開拓一些，來設想一下如果沒有阿西莫夫，我們這個世界會變成什麼樣。假如沒有阿西莫夫，就沒有機器人三定律假如沒有阿西莫夫，就沒有機械倫理學。阿西莫夫的機器人三定律眾所周知，它通過三定律的形式，從倫理上規定了對人類的保護。如果沒有阿西莫夫，就沒有機械倫理學的定義和發展，人們也不會意識到機器會反過來傷害人類。
阿西莫夫機器人三定律或已過時?伯克利教授定義AI發展「新三原則」

斯圖爾特·羅素（Stuart Russell）是加州大學伯克利分校的電子工程和計算機科學教授，他的書《人工智慧：現代方法》（與谷歌研發總監彼得·諾維格合著）是人工智慧領域的標準書；它已被翻譯成13種語言，並在118個國家的1,300多所大學中使用。
機器人三定律

第一定律：機器人不得傷害人類個體，或者目睹人類個體將遭受危險而袖手不管。
為什麼有了機器人三定律,AI依舊有可能毀滅人類?

那為啥會有這個擔心呢，不可能是突發奇想妄加評論吧，何況我們還有著名的機器人三定律。AI毀滅人類我們就先從機器人三定律聊起，這個定律最早是由著名的科幻小說家阿西莫夫提出的，作為科幻界的頂級大佬，劉慈欣都是自愧弗如
機器人三大定律

「機器人三定律」在他於1942年發表的作品《Runaround》中第一次明確提出，並且成為他的很多小說，包含基地系列小說中機器人的行為準則和故事發展的線索。機器人被設計為遵守這些準則，違反準則會導致機器人受到不可恢復的心理損壞。但是在某些場合，這樣的損壞是不可避免的。
阿西莫夫「腦洞裝下整個銀河系」

[摘要]阿西莫夫早在1950年發表的作品《我，機器人》中，已經深入探討了「機器人學三定律」，他用「機器人學三定律」，在歷史上第一次為機器人規定出了生存的法則，後來成為當代機器人學的基本法則。不過說到科幻，有一個名字是繞不過去——「科幻教父」阿西莫夫（IsaacAsimov），他不僅是科幻小說三大巨頭之一，還提出了不少準確的科學預測。來自臺灣地區的理論物理博士葉李華，就被阿西莫夫筆下的科幻世界所吸引，走上了翻譯之路，成了阿西莫夫作品的中文版代言人。
愚蠢的人類,阿西莫夫AI三定律也救不了你們

不過幸運的是，我們還有「阿西莫夫三定律」。只要把這些定律作為標準寫入人工智慧的核心代碼程序就可以了，AI是不可能建立文明統治人類的！那麼，問題來了，所謂的阿西莫夫三定律在未來的世界構想上真的是非常必要，且牢不可破的嗎？
牛頓力學三定律

前言牛頓三定律，這屬於老朋友中的老朋友，從初中開始就與我們「形影不離」，儘管我們好像有時並不太喜歡它。牛頓三定律牛頓力學體系主要可以歸結為三部分：牛頓三定律+萬有引力定律+矢量分析，其核心概念有4個，分別為空間、時間、質量和力。所採用的是慣性參考系，認為力與物體間的相互作用是一種超距作用。
科幻大師阿西莫夫的「十大預言」丨壹起讀書

阿西莫夫這位「神一樣的人」一直被全世界粉絲尊崇和膜拜，他的傳奇之處是眾所周知的高產和廣博，但真正徵服讀者的，是他的恢弘想像力和超前的觀點。阿西莫夫早在幾十年前，就預言了當今很多熱門科技，如機器人、生物科技、納米手術、基因工程、太空殖民……數不勝數，是名副其實的「預言帝」。「有許多功成名就的科學家和工程師，當面感謝阿西莫夫對他們的啟蒙。而在D
克拉克三定律

來源 | 大腦早操（gh_d00b1f7aa854）文 | 老喻在加克拉克基本定律（英語：Clarke's three laws）是英國著名科幻作家亞瑟·查理斯·克拉克積累有關科學文化方面的經驗提出的：定律一
電車難題:自動駕駛汽車的道德難題

1、智能汽車的道德難題著名的科幻作家阿西莫夫，在他的《機器人系列》裡面，提出了影響力極大的機器人三定律。第一定律，機器人不得傷害人類，或者因不作為而使人類受到傷害。第二定律，除非違背第一定律，否則機器人必須服從人類的命令。
《上帝有時擲骰子：信息量子熱力學三定律的發現》

至此，偉大的熱力學三定律全部誕生！那麼，熱力學三定律具體內容是什麼呢？下面我們再具體重新表述一下。經典熱力學第一定律，又叫能量轉化和守恆定律。能量既不能憑空產生，又不能憑空消失，能量只能從一種形式轉化為另一種形式，或者從一個物體轉移到另一個物體，在能量轉化或者轉移的過程中，能量的總量保持不變。經典熱力學第二定律，又叫熵增定律。
福利｜100年來，我們仍活在他的預言之下 | 阿西莫夫誕辰

他還是美國門薩學會副會長，是「機器人之父」……而對於全世界的科幻迷來說，更為人津津樂道的稱號恐怕是這一個：神一樣的男人。如果沒有阿西莫夫，就沒有AI熱機器人學三定律：第一法則：機器人不得傷害人類，或袖手旁觀坐視人類受到傷害；第二法則：除非違背第一法則，機器人必須服從人類的命令；
天津雲哲智能學校機器人圖像識別身份證比對系統性能可靠-精準對應

天津雲哲智能學校機器人圖像識別身份證比對系統性能可靠-精準對應雲棽哲智能科技公司是以機器人技術和人工智慧技術為核心，致力於商務/政務機器人應用，人工智慧應用，機構專業性機器人定製、智慧城市建設的企業。雲棽哲-商務/政務機器人領域的領先企業。
從機器人的故事看未來

機器人等於奴隸嗎？這似乎是科幻小說的永恆主題。從阿西莫夫《我，機器人》到劉宇昆的《天堂戰爭》，以及科幻世界雜誌近幾年出版的《副本》《陶偶》《量子竊賊》《時砂之王》《廢園天使》等科幻作品，都對這個主題展開了深入探討。上世紀40年代，阿西莫夫在其短篇作品《轉圈圈》中提出了著名的機器人三定律，為後世的機器人思想帶來了深遠的影響，被稱作「現代機器人學的基石」。
從牛頓三定律中發現了成功定律,網友:腦洞真大

導語：從牛頓三定律中發現了成功定律，網友：腦洞真大。作為一名博士生我每天需要學習許多知識，生活中也經常突發奇想。在行走在圖書館的路上的時候，突然靈光一現我發現了牛頓三定律裡的成功定律。你肯定有過這樣的經歷，生活中的某個片段你正在保持努力學習或者工作的狀態。但是總會受到外界的幹擾，因而導致自己無法保持原有的奮鬥狀態。怎樣通過這一定律獲得成功呢？儘可能的避免外界事物對自己的幹擾。其實這運用的原理與兩耳不聞天下事，一生只讀聖賢書一樣。
阿西莫夫短文兩篇

小行星5020、《阿西莫夫科幻小說》雜誌和兩項阿西莫夫獎都是以他的名字命名。他提出的「機器人學三定律」被稱為「現代機器人學的基石」。阿西莫夫一生著述眾多。1979年2月，阿西莫夫出版了第200部作品。1985年突破300部。到了1987年8月，已上升到394部。在阿西莫夫逝世前不久，他曾自述出版過467部著作，但研究他的作品的專家稱，他至少出版過480部著作。
阿西莫夫:中譯本數量最多的外國作家?

不僅如此，在所有的外國作家中，其著作在中國內地的譯本達上百種之多的，似乎也就是阿西莫夫獨一家。若論中譯本數量最多的外國作家，也許並不是莎士比亞、託爾斯泰這樣的經典作家，也不是阿加莎·克裡斯蒂這樣的類型小說作家，而是以科學為主要題材的阿西莫夫。——這個判斷是否正確，有心人可以考證。
剛普拉深埋東京灣機器人奮戰無人區

有這樣一個美麗的傳說，日本為了發展，將買來的煤、石油、稀土、武器、儲備人才什麼的用水泥封箱沉入東京灣，準備在戰時撈出來用。如今面臨興邦級災難，不僅撈不出什麼東西還要向各處求援，曾經以機器人技術自豪，但在最前線，在連50死士也無法靠近的地方，卻出現了各式各樣的國外機器人。

阿西莫夫機器人三定律已過時?「新三定律」解決了這樣一個重大難題

相關焦點

機器人必須服從人類!阿西莫夫的機器人三定律,定義人機關係

阿西莫夫機器人三定律或已過時?伯克利教授定義AI發展「新三原則」

機器人三定律

為什麼有了機器人三定律,AI依舊有可能毀滅人類?

機器人三大定律

阿西莫夫「腦洞裝下整個銀河系」

愚蠢的人類,阿西莫夫AI三定律也救不了你們

牛頓力學三定律

科幻大師阿西莫夫的「十大預言」丨壹起讀書

克拉克三定律

電車難題:自動駕駛汽車的道德難題

《上帝有時擲骰子：信息量子熱力學三定律的發現》

福利｜100年來，我們仍活在他的預言之下 | 阿西莫夫誕辰

天津雲哲智能學校機器人圖像識別身份證比對系統性能可靠-精準對應

從機器人的故事看未來

從牛頓三定律中發現了成功定律,網友:腦洞真大

阿西莫夫短文兩篇

阿西莫夫:中譯本數量最多的外國作家?

剛普拉深埋東京灣 機器人奮戰無人區

剛普拉深埋東京灣機器人奮戰無人區