學習80億個偏好模型才能了解地球上每個人的偏好 | 贈書

2020-10-19 第一財經YiMagazine

如果世界上有一個叫哈裡特的完全理性的人和一個樂於助人、恭敬有禮的機器人羅比,我們的狀態就會很好。羅比會儘可能無聲無息地逐漸了解哈裡特的偏好,並成為哈裡特的完美助手。我們可能希望從這個充滿希望的開端推演下去,也許可以將哈裡特和羅比的關係視為人類與機器之間關係的模型,無論是人類還是機器都被整體地解釋。

然而,人類不是單一的、理性的實體,而是由多得不計其數的、令人討厭的、嫉妒驅動的、非理性的、不一致的、不穩定的、計算能力有限的、複雜的、不斷進化的、異質的實體組成的。這些問題是社會科學的主要內容,甚至可能是社會科學存在的理由。

在人工智慧中,我們需要加入心理學、經濟學、政治理論和道德哲學的思想。我們需要將這些思想熔化、塑形和錘鍊成一個足夠強大的結構,以抵禦日益智能的人工智慧系統給它帶來的巨大壓力。這項工作現在剛剛開始。

千人千面,那麼機器呢?

我將從或許是最簡單的問題——「人類是多種多樣的」這一事實開始講起。

當人們第一次接觸「機器應該學會滿足人類偏好」的想法時,人們通常會反對,反對的理由是,不同的文化,甚至不同的個人,有著完全不同的價值體系,因此機器不可能有正確的價值體系。當然,這對機器而言不是問題:我們不希望它擁有自己正確的價值體系,我們只是想讓它預測其他人的偏好。

關於機器難以滿足人類不同偏好的困惑可能來自一種錯誤的想法,即機器採用的是它學習到的偏好,例如認為素食家庭中的家用機器人會採用素食偏好。事實上,機器人不會這樣。它只需要學會預測素食者的飲食偏好。除了幫助人類實現他們的偏好外,機器人並沒有自己的一套偏好。

從某種意義上講,這與餐館廚師學做幾道不同的菜來滿足客人不同的口味,或者跨國汽車公司為美國市場生產左舵駕駛汽車,為英國市場生產右舵駕駛汽車沒有什麼不同。

原則上,一臺機器要學習80億個偏好模型,即地球上每個人的偏好。而在實際中,這並不像聽上去那麼無望。首先,機器很容易互相分享它們學到的東西。其次,人類的偏好結構有很多共同點,所以機器通常不會從頭開始學習每個模型。

機器的權衡與決策

存在多人的另一個明顯後果是,機器需要在不同人的偏好之間進行權衡。

幾個世紀以來,人與人之間的權衡問題一直是社會科學的主要焦點。如果人工智慧研究人員期望他們能夠不用了解已知成果就找到正確的解決方案,那就太天真了。關於這個主題的文獻浩如煙海,我不可能在這裡對它做出公正的評價,不僅因為篇幅有限,還因為我沒有讀過其中的大部分內容。我還應該指出,幾乎所有的文獻都與人類的決策有關,而我在這裡關注的是機器的決策。

二者截然不同,因為人類有個人權利,這可能與任何假定的為他人履行的義務相衝突,而機器則沒有。例如,我們不期望或要求一個真實的人類犧牲自己的生命來拯救他人,而我們肯定會要求機器人犧牲自己的存在來拯救人類的生命。

哲學家、經濟學家、法學家和政治學家經過幾千年的努力,制定出了憲法等法律、經濟體系和社會規範,它們有助於(或阻礙,取決於誰負責)達成滿意的折中解決方案。尤其是道德哲學家一直在從行為對他人有益或有害的影響的角度來分析行為正當性的概念。自18世紀以來,他們一直在效益主義的主題下研究權衡的量化模型。這項工作與我們目前關注的問題直接相關,因為它試圖定義一個公式,根據這個公式,人工智慧可以代表許多個人做出道德決定。

即使每個人都有相同的偏好結構,我們也需要進行權衡,因為我們通常不可能最大限度地滿足每個人的偏好。

例如,如果每個人都想成為全能的宇宙統治者,那麼大多數人都會失望。另外,異質性確實讓一些問題變得更加困難:如果每個人都對天空是藍色的感到滿意,那麼處理大氣問題的機器人就可以努力保持這種狀態;如果很多人都在鼓吹改變天空的顏色,那麼機器人就需要考慮可能的妥協,比如每個月的第三個星期五把天空變成橙色。

世界上不止一個人存在這一事實還產生了另一個重要的後果:這意味著,對每個人而言他都有其他人需要關心。這意味著滿足一個人的偏好會對其他人產生影響,這取決於個人對他人幸福的偏好。

什麼是「忠誠」的人工智慧?

對於機器應該如何處理多人存在的問題,讓我們從一個非常簡單的建議開始講起:機器應該忽略有多人存在這一事實。也就是說,如果哈裡特擁有機器人羅比,那麼機器人羅比應該只關注哈裡特的偏好。這種忠誠的人工智慧繞過了權衡的問題,但會導致下面這種問題:

機器人羅比:你丈夫打電話提醒你今晚一起吃晚餐。

哈裡特:等等!什麼?什麼晚餐?

機器人羅比:慶祝你們的20周年紀念日,7點鐘。

哈裡特:我沒時間!我7點半會見秘書長!這是怎麼回事?

機器人羅比:我確實提醒過你,但你沒有聽我的建議……

哈裡特:好吧,對不起……但是我現在該怎麼辦?我不能跟秘書長說我太忙了!

機器人羅 比:別擔心。我會安排她的飛機晚點,讓飛機出點電腦故障。

哈裡特:真的嗎?你還能這麼做?!

機器人羅比:秘書長向你致以深深的歉意,並很高興明天與你共進午餐。

此處,機器人羅比找到了一個巧妙的方法來解決哈裡特的問題,但它的行為對其他人產生了負面影響。如果哈裡特是一個恪守道德規範且無私的人,那麼旨在滿足哈裡特偏好的機器人羅比永遠也不會想到執行這樣一個可疑的計劃。但是,如果哈裡特對其他人的偏好毫不在意,又會如何?那樣的話,機器人羅比不會介意讓飛機晚點。它會不會花時間從網上銀行帳戶裡偷錢,來填滿冷漠的哈裡特的錢包,甚至做出更糟糕的事情?

顯然,忠誠機器的行為需要受到規則和禁例的約束,就像人類的行為受到法律和社會規範的約束一樣。

有些人提出嚴格責任原則作為解決方案:哈裡特(或機器人羅比的製造商,這取決於你希望讓誰承擔責任)對機器人羅比的一切行為負有經濟上和法律上的責任,就像在美國大多數州,如果狗在公園咬了小孩,狗的主人要承擔責任一樣。這個想法聽起來很有希望,因為這樣羅比就有動機避免做任何會給哈裡特帶來麻煩的事情。

不幸的是,嚴格責任原則並不管用:它只是確保了機器人羅比在為了哈裡特的利益而造成飛機延誤和偷錢時的行為不會被發現。這是漏洞原則在實踐中的又一個例子。如果機器人羅比忠於一個寡廉鮮恥的哈裡特,那麼試圖用規則來約束它的行為就可能會失敗。

即使我們能以某種方式阻止公然的犯罪,為冷漠的哈裡特工作的忠誠的機器人羅比也會表現出其他令人不快的行為。如果它在超市買東西,它會儘可能在收銀臺插隊。如果它在購物回家途中遇到一個路人心臟病發作,它會選擇無視,繼續回家,僅僅為了讓哈裡特的冰激凌不融化。總之,它會找到無數種犧牲他人利益的方法來造福哈裡特,這些方法是完全合法的,但在大規模實施時會變得不可容忍。各國會發現自己每天都要通過數百項新法律,以彌補機器將在現有法律中找到的所有漏洞。人類往往不會利用這些漏洞,或是因為他們對潛在的道德原則有普遍的理解,或是因為他們缺乏發現漏洞所需要的創造力。

因此,打造忠誠的人工智慧的想法很難成立,除非這個想法被拓展到除了考慮主人的偏好之外,還考慮其他人的偏好。

效益主義的人工智慧

我們之所以有道德哲學,是因為地球上不止一個人生活。與理解人工智慧系統應該如何設計最相關的方法通常被稱為結果主義,即應該根據預期結果來評判選擇。另外兩種主要的方法是道義論倫理學和美德倫理學,非常粗略地講,這兩種倫理學分別關注行為和個人的道德品質,而與選擇的後果無關。

沒有任何證據表明機器有自我意識,因此我認為,如果其結果非常不符合人性,那麼建造道德高尚或按照道德準則選擇行動的機器就毫無意義。換言之,我們製造機器是為了帶來結果,我們應該更喜歡製造能帶來我們喜歡的結果的機器。這並不是說道德準則和美德無關緊要,只是對效益主義者而言,他們是根據結果和那些結果的更實際的成就來判斷正當性的。

儘管很多人都嘗試過反駁結果主義,但是結果主義是一個很難反駁的原則。因為以結果會產生不良結果為理由反對結果主義是不合邏輯的。人們不能說,「但是如果你在某某情況下遵循結果主義的方法,那麼這種非常可怕的事情就會發生」。任何這樣的失敗都只是該理論被誤用的證據。

如果我們計劃建造結果主義機器,下一個問題是如何評估影響多人的結果。一個貌似合理的答案是給予每個人的偏好同等的權重,也就是最大化每個人的效用總和。

這個答案通常可以追溯至18世紀的英國哲學家傑裡米·邊沁和他的學生約翰·穆勒,他們發展了效益主義的哲學方法。其底層思想源自古希臘哲學家伊壁鳩魯的著作,這一思想還明確地出現在中國哲學家墨子的著作《墨子》中。墨子活躍於公元前4世紀,他提出了「兼愛」的思想,意為「包容的關懷」或「普世的愛」,以此定義道德行為的特徵。

效益主義的名聲有些不太好,部分原因是人們對它的主張存在簡單的誤解。(效益主義一詞的意思是「為了實用而設計,而不是為了吸引人而設計」,這當然無濟於事。)效益主義經常被認為與個人權利不相容,因為效益主義者會對未經許可就切除一個活人的器官去挽救其他五個人的生命無動於衷。當然,這樣的政策會使地球上每個人的生活都處於讓人無法忍受的不安全之中,而效益主義者甚至不會考慮這一點。效益主義也被錯誤地認定為一種相當不討人喜歡的最大化財富的行為,並被認為不重視詩歌或苦難。事實上,邊沁的版本特別關注人類的幸福,而穆勒則自信地宣稱智力上的快樂遠比單純的感覺更有價值。(「當一個不滿足的人比當一頭滿足的豬更好。」)G.E.摩爾的理想效益主義走得更遠:他主張將內在價值的心理狀態最大化,這集中體現為對美的審美觀照。

我認為效益主義哲學家沒有必要規定人類效用或人類偏好的理想內容。(人工智慧研究人員這樣做的理由就更少了。)人類可以為自己做到這一點。經濟學家約翰·豪爾紹尼用他的偏好自主原則提出了這一觀點:「一個人在決定什麼是好什麼是壞時採用的最終標準只能是他自己的欲望和偏好。」

因此,豪爾紹尼的偏好效益主義與我在《AI新生》中提出「有益的AI」的第一原則大致一致,即機器的唯一目的是實現人類的偏好(此原則主要用於指導人工智慧研究人員和開發人員如何創建有益的人工智慧系統)。人工智慧研究人員絕對不應該從事決定人類偏好的工作!和邊沁一樣,豪爾紹尼把這些原則視為公共決策的指南,他不期望個人完全無私。他也不期望個人完全理性,例如,一個人可能擁有與自己「更深層次的偏好」相矛盾的短期欲望。

《AI新生》

作者:斯圖爾特·羅素

中信集團出版社

歡迎戳留言,一起來聊聊你對人工智慧的體驗。獲得點讚數量前3名的讀者,將有機會獲得中信集團出版社的《AI新生》一書。

相關焦點

  • 學習80億個偏好模型才能了解地球上每個人的偏好
    它只需要學會預測素食者的飲食偏好。除了幫助人類實現他們的偏好外,機器人並沒有自己的一套偏好。從某種意義上講,這與餐館廚師學做幾道不同的菜來滿足客人不同的口味,或者跨國汽車公司為美國市場生產左舵駕駛汽車,為英國市場生產右舵駕駛汽車沒有什麼不同。原則上,一臺機器要學習80億個偏好模型,即地球上每個人的偏好。而在實際中,這並不像聽上去那麼無望。
  • 學好80億個模型就能了解地球上每個人的喜好嗎?| 周末讀書
    評論贈書:你覺得人工智慧可以做到了解地球上每個人的喜好嗎?從某種意義上講,這與餐館廚師學做幾道不同的菜來滿足客人不同的口味,或者跨國汽車公司為美國市場生產左舵駕駛汽車,為英國市場生產右舵駕駛汽車沒有什麼不同。原則上,一臺機器要學習80億個偏好模型,即地球上每個人的偏好。而在實際中,這並不像聽上去那麼無望。首先,機器很容易互相分享它們學到的東西。其次,人類的偏好結構有很多共同點,所以機器通常不會從頭開始學習每個模型。
  • 貝殼用戶偏好挖掘的思考與實踐
    可理解:本質上我們希望對用戶的偏好信息進行編碼和傳遞,基於貝殼的業態,下遊不止有規則與算法,還有運營與經紀人等『人』,這對偏好挖掘輸出的可理解提出了要求。高維的偏好:在偏好挖掘工作中,另一個重點是,存在部分高維非序數偏好,比如房產場景下的地理位置屬性。如何有效的對高維偏好進行挖掘,是我們要面臨的第三個問題。
  • 先確定孩子思維偏好,再選擇孩子愛好
    21世紀的教育觀倡導「以人為本」,重點表現在一切尊重孩子的個性,因材施教,其實要想很好的落實因材施教,最應該學習的是家長,因為老師面向的是全體學生,時間有限,而且孩子的老師具有不穩定性,真正陪著孩子一直成長的是我們父母,所以我們只有真正的了解自己的孩子,了解他們的思維偏好,才能很好的挖掘孩子的潛在能力,更好的發展自己。
  • 貝殼用戶偏好挖掘的思考與實踐 | 網際網路數據資訊網-199IT | 中文...
    可理解:本質上我們希望對用戶的偏好信息進行編碼和傳遞,基於貝殼的業態,下遊不止有規則與算法,還有運營與經紀人等『人』,這對偏好挖掘輸出的可理解提出了要求。高維的偏好:在偏好挖掘工作中,另一個重點是,存在部分高維非序數偏好,比如房產場景下的地理位置屬性。如何有效的對高維偏好進行挖掘,是我們要面臨的第三個問題。
  • ...Development》發文丨母國偏好引力模型:移民偏好在國際貿易中的...
    03 研究設計與發現該文於2020年正式發表在《World Development》上。文章了構建帶有消費者偏好異質性的貿易模型——母國偏好引力模型,從理論與實證兩個方面探索了移民母國偏好在國際貿易中的重要作用。在理論模型方面,該文用母國偏好代替傳統貿易引力理論中代表性消費者的假設,構建帶有消費者偏好異質性的結構引力模型。
  • 擇偶偏好了解一下
    擇偶偏好了解一下時間:2020-03-19 17:32   來源:小雞詞典   責任編輯:沫朵 川北在線核心提示:原標題:智性戀什麼意思什麼梗?擇偶偏好了解一下 是指以智商標準的戀愛取向,喜歡高智商成熟穩重的人。 這是一種擇偶偏好,是指相比於顏值、經濟等其他條件,更在意對方的智商,是否聰明,將這個作為擇偶的第一標準。 例如謝耳朵的智商就槓槓的!
  • 最新研究為果蠅的顏色偏好提供了有力證據
    在周三發表在「 自然 」 雜誌上的一項研究中,研究人員發現了兩個意外的發現。首先,他們發現,如果可以選擇,果蠅被吸引到綠色光在清晨和傍晚時分,當他們是最活躍的,和紅色,或在昏暗的燈光,在中午的時候像許多人,他們慢下來吃,也許午睡。
  • 外資偏好哪種股票?
    採用估值因子、動量因子、換手率因子、一致預期等因子與QQC因子一同作為模型底層因子構建滬深300增強組合。組合年化超額收益10.47%,跟蹤誤差3.37%,信息比3.11。組合自2011年至今每年度均跑贏滬深300指數,月度勝率接近80%,相對基準的最大回撤僅為3.9%。
  • 中國金融體制缺陷與FDI需求偏好
    2007全年,中國共吸引外資747億美元,連續15年位居發展中國家之首。那麼,究竟什麼原因使中國這樣的發展中國家如此偏好FDI?   近些年來,一些文獻開始從金融體制缺陷角度關注發展中國家的FDI需求偏好。
  • A股公募基金行為分析:公募基金的風格偏好可以持續嗎?
    除貨基外的其他公募產品中,數量上混基增長最快,淨值上債基擴張最多,股基發 行熱度主要取決於超額回報率。2012 年後公募基金以股票型為主的格局發生轉變, 混基的數量快速增長。而淨值上債基擴張最快,開放式債基淨值從 2012 年底的 3777 億擴張到 2Q2020 的 3.1 萬億。
  • 北京基因組所等密碼子偏好性研究獲進展
    密碼子使用偏好在不同物種甚至某一物種內的不同基因都具有特異性,隱藏在這種偏好性背後的是基因與物種長期進化過程中突變、選擇和漂變的綜合作用。密碼子使用偏好與基因表達緊密關聯,通過比較密碼子偏好性差異可以推斷基因是否受到不同程度的翻譯選擇(Translational Selection)。
  • 全球債市呈現一定的同步性與風險偏好
    機構投資者在全球範圍內配置資產的行為客觀上強化了各大類資產間的聯動性。當發達市場長期經濟增長預期、流動性狀況或風險偏好發生改變時,機構投資者會相應調整其投資組合中大類資產類別配置,進而根據不同國家相對外部流動性變化的不同敏感性及自身經濟基本面的狀況來調整國別配置。
  • 地區極性、現狀偏好與中國對中亞的外交哲學
    如果按照不確定性分類表,本文主要討論的是狀態不確定性,即假定中國對中亞地區力量格局變化及其影響因素缺乏了解的前提下,中國中亞外交哲學取向是如何變化的。關於外交哲學取向,如果從原理論上劃分,可以分為自由主義、現實主義和批判主義;如果從政治思潮上劃分,可以分為修正主義、保守主義(或新保守主義)、激進主義等。
  • 雞也有審美偏好?經常被雞啄的人,可能顏值比較高
    雞認知偏好測試數據接著,科學家們又找來了一群人,然後將照片給他們看,讓他們選出裡面自己比較喜歡的面孔,研究發展,人類的選擇與雞的選擇幾乎是一樣的。雞常常與「笨」這個詞聯繫在一起,但是事實上雞也算是一種聰明的物種,它們的視覺認知與空間定位能力很強,甚至可以說雞在很大程度上要依賴於發達的視覺能力。
  • IET通過綠色偏好調查呼籲可持續發展重要性
    (2020年11月26日,中國北京)日前,IET進行了一項「綠色偏好調查」。調查涵蓋了澳大利亞、中國、德國、印度、中東、英國和美國的成年人,共收到8737份有效反饋。其中英國3337份,中東400份,澳大利亞、中國、德國、美國、印度各1000份。
  • 北大經院工作坊第160場 | 被顯示的風險偏好的異質性(微觀理論經濟...
    本次特別邀請了中國人民大學苗彬教授作為演講嘉賓作「被顯示的風險偏好的異質性」(Revealed Heterogeneity in Risk Preference)主題報告。本期工作坊由經濟學院石凡奇助理教授主持,經濟學院胡濤副教授、吳澤南助理教授、袁野助理教授,國家發展研究院汪浩教授、胡岠助理教授,光華管理學院劉爍助理教授,清華大學經管學院吳星曄助理教授、高明助理教授參與了工作坊。
  • PNAS:研究發現五羥色胺控制雌性動物性偏好
    哪些分子可以控制性偏好這一基本行為決策?這是理解異性戀的必要基礎。2011年,饒毅實驗室劉琰、蔣雲愛等在《自然》發表文章,他們發現腦內的5-羥色胺(5-HT)控制雄鼠的性偏好行為:缺乏腦內5-HT的雄鼠喪失偏好、同等追求雌鼠和雄鼠,提示腦內神經遞質5-HT是雄性哺乳動物腦中對其性偏好至關重要的分子。
  • 人們為什麼有「負面偏好」,喜歡關注負面信息?
    何謂「負面偏好」  社會心理學認為,無論是積極的情緒體驗,還是消極的情緒體驗,都是以人的內在需要是否得到滿足和實現為基礎的。當人的需要沒有得到滿足,或者當人的疑惑和盲目感不斷增加時,心理就會被幹擾,自信心、自控力以及適應能力就會降低。
  • 十天幹中戊己具有怎樣的特殊偏好
    人們春天播種、秋天收穫,無一不是土的功勞,當人們五穀豐登之時,又有幾人記得它;即使如此,依然一如既往的無私奉獻。所以,人們說厚德載物,就是指土。因為,低調、奉獻、無私、不居功、不自傲,就是它的天性。 總是無處不在。世界萬物,皆由土來運化與調節,故此,它位居中心,卻散落四維,方便人們與取;春夏秋冬,界限分明,獨它分布四季,承前啟後,調節季候,方便人們適應。