「理性人假設」是對於人們決策行為的最好概括嗎?答案很可能是「no」。隨著2017年的諾貝爾經濟學獎花落Richard Thaler,已有三位(另兩位是Daniel Kahneman, 2002和Robert Shiller, 2013)研究人類「非理性行為」的學者獲得這一獎項。針對這一有趣又有料的話題,就讀於MIT斯隆商學院的楊朕同學將為我們帶來一系列深入淺出的科普,敬請關注。
(封面圖來源:路透社)
決策理論(decision theory)可能是社會科學領域最根本的研究課題。在深入的理解個體選擇的邏輯的前提下,我們才能更好的解釋各種更加宏觀的經濟和社會現象。決策行為可以從兩個角度來研究:規範(normative, 人應該如何決策)和實證(positive, 人實際上如何決策)。在這組文章裡,我對決策理論做一個簡短和不完整的綜述,並把重心放在行為決策(behavioral decision-making,強調決策行為裡對古典經濟理性假設的偏離)裡的重要理論和證據上。在I和II裡,我展示實驗證據來證明經典決策理論的公理會被違背,然後介紹一些重要的非常規偏好(nonstandard preferences)模型;在III和IV裡,我介紹一些非常規的概率估計(nonstandard beliefs)和近似(heuristics)模型,以及與行為決策相關的福利(welfare)和政策(policy)問題。文章的內容主要來自於行為經濟學的研究,也有一些來自認知心理學,神經科學和其他社會科學的補充。
規範的決策理論:Von Neumann–Morgenstern預期效用理論
Jeremy Bentham 在 Introduction to the Principles of Morals and Legislation 的開篇說:「自然把人類放在兩個主人的掌控之下,痛感和快感。它們完全決定了我們應該和需要做什麼。」 在這個趨利避害的過程中,我們受到各種外在資源(比如時間,預算,信息等)和內在資源(比如計算和推理的能力,注意力等)的限制,同時還要決定如何在時間軸上分配這些痛感和快感。決策理論在某種意義上講,就是研究這種對淨「幸福感」(快感減去痛感)的追求。更嚴格地講,單個經濟主體[1](single agent,在微觀經濟學裡通常是指消費者或者公司)的決策通常是通過約束條件下的最優化來模型的。這種最優化在最普遍的情況下,是具有不確定性(uncertain,決策者不確切地知道每個選擇所導致的結果(outcome))和動態的(dynamic,決策者做多次跨時間的選擇,並且現在的選擇可能會對將來的選擇造成影響)。
我們先從靜態的最優化開始然後拓展到動態的環境。要構建一個最優化模型,首先要找到一個目標函數來描述不同結果帶來的「幸福感」,在古典經濟學裡我們用效用函數(utility function)作為這個目標函數。效用函數是從一個抽象的選擇空間(choice space)到實數線(real line)的映射。這裡需要提到的是,和Bentham的觀點不同,在現代的決策理論中對效用的定義是序數性(ordinal)的(只有不同選項之間的排序(rank),排序之間的距離沒有實質意義)。也就是說效用函數沒有內在的度量單位,我們不能說效用代表了絕對的「幸福感「,也不能通過兩個不同結果帶來的效用函數值的差來描述決策者更加偏好一個結果的程度。一般來講[2],效用函數僅僅是一個用來代表決策者序數性偏好的一個更便於處理的數學工具(比如可導)。其次,我們要準確地描述決策者的信息環境以及她對每個選擇所帶來的不同結果的概率估計(belief)。這通常是通過一個在所有可能的結果(outcome space)上的概率分布來模型的(每個不同的選擇可能導致在所有結果上不同的概率分布),這個概率估計(belief)可能是客觀的(比如拋一枚均勻的硬幣),也可能是主觀的(比如拋一枚不均勻但屬性未知的硬幣)。
這個最優化的過程可以用簡單的公式來表示。這裡x是選擇,p(s|x)是不同結果上的條件概率分布 (可能因為做了不同的選擇而得到不同的分布),u是定義在每個確定結果上的效用函數。
Johnvon Neumann 和 Oskar Morgenstern 在他們1944年的著作 Theory of Games and Economic Behavior 中證明了如果決策者對於不同概率分布(可以把這個概率分布理解為一個彩票(lottery),有不同的概率贏得不同數量的獎金)的偏好滿足完整性(completeness),傳遞性(transitivity),連續性(continuity)和獨立性(independence)的公理,那麼這個決策者對於不同分布的偏好就可以用預期效用來代表(represent)。也就是說,對於每個決策者都存在這樣一個效用函數,通過它計算出來的所有分布的預期效用的排位(rank)和決策者對不同分布的偏好的排位是一致的。如果決策者的偏好是A>B,那麼E(A)>E(B),反之亦然。不僅如此,預期效用還是基數性(cardinal)的(我們可以通過預期效用之間的差來描述決策者對一個分布的偏好的程度,這是相對於最好和最壞的結果之間的相對效用來度量的[3])。但需要注意的是,因為每個決策者度量效用的尺度都是隨意的和相對的(因為前文提到效用不存在內在的絕對度量單位),我們還是不能用預期效用進行不同決策者之間的比較。
這個預期效用定理告訴我們,雖然每個決策者在做決定的時候並沒有真的在計算預期效用,但是如果她的偏好是「理性」的(rational,也就是說她的偏好滿足上文提到的4個公理),那麼我們就可以說她的選擇「好像」(as if)是在最大化預期效用。經濟學裡最著名的「好像」論點可能是來自 Milton Friedman (1953) 的Essays in Positive Economics:「想像一個頂級桌球手如何預測球移動的軌跡。我們似乎可以合理地做出如下的假設:這個運動員在擊球的時候好像已經知道了描述球運動軌跡的複雜的數學算式,並在瞬間解出算式的答案,知道擊球的最佳角度和位置,以及球最佳的運動方向等等。我們認為這個假設合理的原因並不在於我們認為這個運動員真的按照上述的步驟解出了算式的答案,而是在於我們相信,除非她按照經驗和本能選擇的擊球的角度和位置非常接近於數學算式的準確答案,她也不會成為一個頂級的桌球手」。
這個靜態的框架可以很容易地拓展到動態環境。在動態環境中,決策者除了對不同的選項有偏好之外,還對結果發生的時間點有偏好(比如今天的效用和明天的效用之間的比較)。另外,每一期(time period)在不同結果上的概率分布在原則上可能依賴於之前所有的選擇和實現(realized)的結果的歷史(history)。
相比於靜態模型,這裡只是把不同期的效用加權之後求和。這裡t是時間,delta(在[0,1]之間)是權重或者時間偏好,delta越接近1表示決策者越耐心(patient),因為決策者對未來效用(相對於今天)的折扣(discount)比較小。
Let’s be more positive:實證決策行為中對古典理性假設的偏離
如果人的決策行為真的和規範理論裡描述的一樣,那決策理論學者們就可以宣布勝利(就像理論物理裡已經完全得到實驗數據支持的理論)然後另外開闢一塊新的研究領域了。雖然其他的社會科學家們一直在從心理學和社會學角度批判「理性選擇理論」(rational choice theory),行為決策的研究直到1980年左右才開始慢慢得到經濟學界的廣泛注意。這期間最值得提到的經濟學家可能是 Richard Thaler[4],他在這期間開始發表了一系列的「不正常人類行為報告」(the anomaly series)來記錄經濟行為中很多不能被預期效用理論等經典模型解釋的現象,他也因為對行為經濟學做出的貢獻剛剛獲得了2017年的瑞典國家銀行經濟學獎[5](也就是所謂的諾貝爾經濟學獎)。
在行為決策研究綜述I裡,我主要把焦點集中在違背決策公理的行為。我會展示 Von Neumann–Morgenstern預期效用定理所依賴的4條公理在某些條件下不成立的實驗證據。我們在前文中提到 Von Neumann–Morgenstern’s 預期效用理論的4條公理:完整性是指決策者可以在任意兩個分布之間做出唯一的選擇(如果選擇不唯一那決策者必須同樣偏好兩個選項);傳遞性是指如果決策者的偏好是A>B, B>C,那麼決策者的偏好必須滿足A>C;連續性是指如果A>B,那麼A上發生的一個微小擾動(epsilon perturbation)並不會改變這個偏好;獨立性是指如果A>B, 那麼A+C > B+C,這裡+是指兩個分布的複合[6](compound)。雖然這些公理在規範性上都很合理(理性的決策應該滿足這些公理,尤其是完整性和傳遞性),但是在某些特定的決策環境裡它們都會被違背。
完備性:完整性僅僅是說決策者在任意兩個分布中存在一個偏好,但它同時意味著這種偏好的穩定性,也就是說,在決策者沒有得到新的信息的情況下,她在兩個分布中的偏好是穩定不變的。兩個違背完整性的經典例子是 framing effect 和 decoy effect,在這兩個例子中偏好依賴於選項中似乎並不相關的因素和變量。
Framing effect 是指偏好取決於選項被展示的方式(framing)。認知心理學家 Amos Tversky 和 Daniel Kahneman (下文中還會多次提及兩人)在1981年科學雜誌(Science)裡的論文中展示了下面的實驗:想像一個村莊裡的600人感染了一種致命疾病,有兩種可以選擇的治療方式。如果選擇方案A,那麼200人會得救;如果選擇方案B,那麼有⅓的概率600人會全部得救,有⅔的概率沒有任何人會得救。你會選擇哪個方案?現在設想如果變化一下這兩個方案的描述方式:如果選擇方案A,那麼400人會死;如果選擇方案B,那麼有⅓的概率沒有人會死,有⅔的概率600人全部會死。你又會選擇哪個方案?很明顯,除了描述的方式(正面或者負面)之外,這兩種情形沒有任何實質性的區別,所以你的選擇應該是一致。但是實驗數據顯示,當選項以正面的方式呈現的時候(200人會得救)72%的人選擇了方案A,但當選項以負面方式呈現的時候(400人會死)只有22%的人選擇了方案A(很明顯在兩種情形下顯示出的偏好都佔有絕對的優勢,所以決策人並不是同樣偏好兩個方案)。
Decoy effect 是指當決策人從菜單(menu){A,B} 中選擇的時候選擇了A,但當從 {A,B,C} 中選擇的時候卻選擇了B。選項C的存在就是所謂的decoy,因為它的作用並不是本身被選擇,而是促使決策人的偏好從A轉變成B。下面是經濟學人雜誌(The Economist)之前的訂閱頁面:
雜誌向讀者提供了三種訂閱選擇:電子版($59),紙質版($125)和電子加紙質版($125)。與紙質版相比,電子加紙質版明顯是更優的選擇(因為價格相同),但電子加紙質版與電子版相比就各有優劣(電子版的價格是電子加紙質版的一半)。Huber et al. (1982) 用實驗證明當decoy(紙質版)存在的時候,那個明顯優於decoy的選項(電子加紙質版)得到了比decoy不在的時候更多的票數。Decoy的存在強化了明顯優於它的那個選項的優點。這違背了完整性公理,因為決策者在電子版和電子加紙質版之間的偏好應該是唯一的,它不應該取決於菜單裡其他無關選項(紙質版)的存在與否。很有趣的是,在最近新一代蘋果手機推出的型號中(iPhone 8, iPhone X),我們似乎也可以看到這種decoy effect的存在。對於中等支付意願和對性能關注度不高的用戶來說,iPhone X的存在凸顯了iPhone 8的價格優勢,所以iPhone X(decoy)的存在使得他們更願意購買iPhone 8。相反的,對於高支付意願和對性能關注度高的用戶,iPhone 8(decoy)的存在更加凸顯了iPhone X的高性能和特殊性(因為8在性能和外觀上和7區別都很小),所以iPhone 8(decoy)的存在使得他們更願意購買iPhone X。
傳遞性:與 Tversky (1969) 中的例子相似,如果決策者有字典式偏好[7](lexicographic preference)並且區分能力或意願有限(limited discrimination),那麼傳遞性就可能被違背。字典式偏好是指決策者從多個維度衡量一個選項,她優先選擇在最重要的維度上取值最高的選項,如果在這個維度上出現了平局,她再選擇在第二重要的維度上取值最高的選項,以此類推。有限的區分能力或意願是指當兩個值足夠接近的時候,決策者就認為它們相等(儘管嚴格來講它們之間仍能區分大小),這在實際決策行為中非常常見,我們經常會把連續的變量離散化(discretize)之後分成不同的類別(category),然後在類別之間進行比較,但對一個類別之內的不作區分,比如身高。
考慮下面這個例子裡的三個候選人(比如決策人要從三位男士中選擇結婚對象),決策人從兩個維度來衡量候選人:她首先考慮第一維度(社會經濟地位,或者「門當戶對」),但她在第一維度上的區分能力或者意願有限,如果候選人在這個維度上的值在半分以內,那麼決策人就認為它們相等。當兩位候選人在第一維度上持平的情況下,她考慮第二維度(性格,相貌等),她在第二維度上有嚴格的偏好,會選擇在這個維度上取值更高的。
當決策人在C1和C2之間選擇的時候,她會選擇C1,因為他們在第一維度上的區分只有半分,所以被認為是持平,而C1在第二維度高於C2半分,因此決策人選擇C1。同樣的道理,當決策人在C2和C3之間選擇的時候,她會選擇C2。但當她在C1和C3之間選擇的時候,她卻會選擇C3,因為C3在第一維度上高於C1一分。所以決策人的偏好是違背傳遞性[8]的。
連續性:我們可以看出字典式偏好也同時違背了連續性:假設兩個選項在第一維度上持平,選項A在第二維度上優於選項B,所以 A>B 。這時如果選項A在第一維度上向負方向發生了微小的變化或者選項B在第一維度上向正方向發生了微小的變化,那麼偏好會瞬間轉變為 A<B。
獨立性:獨立性可能是4個公理裡最有爭議也最不明顯的一條。其中最著名的批判來自於 Maurice Allais (1953) 的實驗,這個實驗結果後來被命名為Allais 悖論(paradox)。考慮從下面的彩票1A和1B中選擇一個,再從2A和2B中選擇一個:
實驗數據表明大部分人選擇了1A和2B。如果我們把上面的表格重新排列一下,就可以看出為什麼這種選擇違背了獨立性。在兩組選擇(實驗1和實驗2)中,加粗的部分在兩個選項(A和)中是一樣的,因此我們應該把注意力集中在剩餘的部分,很快我們會發現,剩餘的部分在兩組選擇中是一樣的(實驗1和實驗2),因此滿足獨立性公理的決策者要麼會選擇1A和2A,要麼1B和2B,不會同時選擇1A和2B。同時我們也可以帶入預期效用的公式來證明1A和2B的選擇是相互矛盾的。
在行為決策研究綜述II裡,我會介紹基本的非常規偏好(Nonstandard Preferences),包括決策者的時間不一致性(time inconsistency),基於參照點的偏好(Reference-dependent Preference)和前景理論(Prospect Theory),以及這些模型可以如何被用來解釋不能被經典理性模型解釋的經濟現象。
參考文獻[9]和推薦閱讀:
海灘上的讀物:
Thinking: fast and slow,
Daniel Kahneman, Macmillan, 2011.
Misbehaving: The making of behavioral economics,
Richard H. Thaler, WW Norton & Company,2015.
Predictably Irrational,
Dan Ariely, New York: HarperCollins, 2008.
圖書管裡的讀物(主要因為太沉所以帶不到海灘上):
Psychology and economics: Evidence from the field,
Stefano Della Vigna, Journal of Economic Literature, 2009.
Choices,Values, and Frames,
Daniel Kahneman and Amos Tversky (eds.),Cambridge University Press, 2000.
The Foundations of Behavioral Economic Analysis,
Sanjit Dhami, Oxford University Press, 2016.
作者:麻省理工學院管理學博士在讀,主要研究信息科技與消費者行為。Twitter@jeremyzyang
[1]雖然這篇綜述是關於單個經濟主體的,所以不存在多個經濟主體間的博弈(game),但是這些模型也通常適用於描述博弈中的個體決策行為。
[2]我們很快會看到Von Neumann–Morgenstern預期效用理論如何放鬆這種序數性效用的限制。
[3]假設一個決策者在所有水果的分布中選擇,對她來說最好的結果是蘋果,最壞的結果是香蕉。我們可以構建這樣一個分布:得到蘋果的可能性是p,得到香蕉的可能性是(1-p)。我們可以讓決策者來比較這個分布和任意一個定義在所有水果上的分布,不論其他的分布是什麼,我們都可以找到一個p值讓這個決策者在這兩個分布之間達到偏好的無差異(indifferent),那麼這個p值就代表了決策者對那個任意選擇的分布的偏好程度,如果p值接近於1,就說明決策者非常喜歡那個分布,如果如果p值接近於0,就說明決策者非常不喜歡那個分布(因為p=1是決策者最喜歡的分布(一定會得到蘋果),p=0是她最不喜歡的分布(一定會得到香蕉))。
[4] Richard Thaler執教於芝加哥大學,並被認為是行為經濟學的奠基人之一。芝加哥是著名的固執堅守古典理性假設的經濟學派。有一個笑話說,如果你在芝加哥經濟系的走廊中間看到一張20美金的鈔票,你完全不用彎腰去撿,因為你不太可能是第一個看到那張鈔票的人,既然你不是,而那張鈔票還在那兒,那說明那張鈔票應該就不是真的。僅僅是 Thaler 能在這裡找到工作就是行為決策被逐漸作為經典模型的補充而納入主流研究範式的很有力證據。
[5]獎項的全稱是 The Sveriges Riksbank Prize in Economic Sciences in Memory of Alfred Nobel,所以是瑞典國家銀行為紀念諾貝爾而設置的獎項,並不和其他獎項(物理學,化學、生理學或醫學、文學及和平獎)一樣出自諾貝爾本人的遺囑和基金。
[6]假設A和C是兩張彩票,那麼A+C是指這樣一個新的彩票:有概率p的可能性我會得到彩票A,有概率(1-p)的可能性我會得到彩票C。所以複合彩票是一個在概率分布上的概率分布(a distributionof distributions)。
[7]這種偏好名字的由來是因為這是字典排序的方式,首字母是最主要的維度,所以先按首字母排序,只有出現平局的情況下再看第二個字母的排序,以此類推。
[8]我們在這裡討論的是單個經濟主體決策時對傳遞性的違背。在多個主體決策的情況下,最著名的違背傳遞性的例子可能是政治經濟學中 Arrow’s 不可能定理(impossibility theorem,1950):定理表明不存在一種把個體偏好匯集成社會偏好(societal preference)的方式使得這個社會偏好既滿足完備性也滿足傳遞性,同時符合一些基本的常規條件(regularity conditions)。
[9]文中已經引用並且說明的文獻除外。
版權聲明:
本文採用若干網絡圖片,版權歸原作者所有。本文版權歸作者楊朕(以下簡稱「作者」)所有,未經作者授權不得轉載、摘編或利用其它方式使用本文內容。已獲得作者本人授權使用作品的,應在授權範圍內使用,並註明「來源:微信公眾號 跨行業俱樂部」。違反上述聲明者,作者將追究其相關法律責任。
跨行業合作俱樂部致力於挖掘不同行業的大圖景和不同學科領域之間的相互聯繫,希望能夠為提高科研和產業的效率貢獻我們的洪荒之力!長按二維碼關注「跨行業合作俱樂部」。
加入我們或聯繫合作,歡迎致信 idc.club.2013@gmail.com