《模型思維》讀書筆記-Why How 以及多臂老虎機的案例分析

2020-12-12 巡洋艦人工智慧學堂

聖塔菲研究所外聘教授、密西根大學複雜性研究中心主任斯科特·佩奇（Scott E Page）在Coursera上開設了一門名叫 Model Thinking 的課程。這門課以複雜系統的視角研究社會和經濟學上的常見問題，介紹了十餘個可以定量推演的模型。佩奇教授還出版了多本暢銷書，例如《多樣性紅利》一書，佩奇教授創造性地提出：一個人是否聰明不是由智商決定的，而是取決於認知工具的多樣性。

密西根大學教授斯科特·佩奇（Scott E Page）

佩奇教授為他的課程撰寫了一本厚厚的教科書 The Model Thinker，在2018年11月份出版。全書分為29章，每一章都乾貨滿滿。書中不止列出了更多的模型，還系統性地展示了如何使用多種模型來分析現實社會中的問題。

Why？世界太複雜，我們需要模型

在從信息到智慧的每一步上，模型都可以成為上升的階梯。整理數據、提取信息，你需要通過建模來去偽存真；根據不同領域的信息，最終得出一個對大局、新情況或未來的判斷，你需要預測性的模型去產生知識；而要知道在何時何地該提取哪些知識，則需要通過模型讓隱藏的假設顯現出來。根據作者的總結，模型的7種作用包括推理、解釋、設計、溝通、指導行動、預測未來和探究可能性。

類似的書還有《Algorithm to live by》。這本書講的是用機器學習算法原理指導日程生活中的決策。關於如何決策，書中給出的回答是下圖。

這個框架沒問題，但由於日常生活中要解決的問題都與他人有關，而人是具有主觀能動性的，人的複雜性和多樣性決定了任何模型都需要對模型中的人予以簡化，從而使得模型不會像和真實國土一樣大的地圖那樣全面卻無用。而對人的簡化有多種不同的方式，從這個邏輯起點出發，可以推演出不同的模型。沒有一個模型適用於所有的壞境，但多樣化的模型可以帶來1+1 > 2的效應。

How ？如何建模，不至於過度簡化

模型學習

學習一個模型，要搞清楚其組成結構、生成邏輯與應用場合。

模型的組成結構除了實體和關係這些顯式的部分，還包括模型對人和壞境做的假設。關於人的假設，包括：有絕對的理性及記憶力還是只能服從既定的規則、是否能夠從過去的經驗中學習、是否具有多個目標等。而關於環境的假設，包括：環境是否有多個屬性、各個屬性間是否相關、是否存在局部最優解、是否隨著時間發生變化。

生成邏輯則是一串數學公式和推算，指出在模型給定的假設下，會出現怎樣的結論。至於應用場景，一個模型可以在多個領域重複應用，一個模型也可嵌套進其他模型中，組成更大的模型，從而捕捉現實中更多的複雜性。

人群建模

關於人群的模型，首先要討論是人的多樣性。通過三種概率分布（normal，lognormal，power），可以對人群的多樣性進行分類。三種分布對應著不同的假設，即不同時間點人獲得的收益是否具有相關性，也包含著對環境的假設，即對人的評價取決於之前收益的加和或乘積。上述組合會產生上述的三種分布，以及一個長尾效應比冪律分布更顯著的分布方式。

對人群的多樣性進行了分類，可以判定人群大小對其結果的影響，例如假設學習成績是服從正態分布的，那麼一個學校越小，其平均成績就越有可能超越全國的平均水平，這不是由於小學校容易培養出好學生，僅僅是統計上較大規模的學校普遍更靠近平均水平。

在考慮人與人的互動時，從個人的視角來看，可以根據外界對你決策反饋持續帶來的收益（正、負、或者零）將模型分成三類。如果長遠來看，外界沒有對你的決策給予反饋，那你就可以使用線性模型去估計你決策的影響，可以通過P值來判斷影響是否隨機產生，可以通過R square來評估影響的大小。如果外界總是滿足你，那正反饋就會帶來不穩定。反觀《黑鏡》的劇情，其中不少悲劇是由於科技進步帶來的心想事成。而負反饋則會帶來穩定和均衡。

人不是在和一群人互動，而是在和一個個具體的人互動。將人看成個體，就可以組成網絡模型或者網格模型。網格模型將人放置在一個一維或者二維的棋盤中，一個人只能和附近有限個人互動；最典型的網格模型是生命遊戲（game of life）。

而網絡模型則可以讓人與人之間自由連接，例如人際社交、網頁間的連結、論文間的引用。而如果人與人之間的互動有不同的類型，那就可以將做同一類的人抽象為一個整體，從而產生系統動態（system dynamic）模型，例如下圖所示：

圖中的麵包店和排隊的人可以看成網絡中的節點，其屬性是其當前的存量，受到已有消費者、麵包師、潛在的消費者這三個資源池的影響

網絡中的人不是孤立的，為了對其相互影響建模，可以先將人分成幾類，通過互動，人的分類會發生改變。例如疾病或者想法的傳播。為了引入人的不同，可以假定人有不同的閥值（threshold），只有影響足夠強烈，才會被身邊的人的影響。為了引入待傳播的思想的多樣性，可以將人的偏好分為spatial（離自己越近越好）和hedonic（越多越好），再結合上不同的網絡結構，就可以針對網絡上思想的傳播按照不同的方式進行建模。

如果是為了預測，可以建立一個足夠複雜的模型，但若是為了解釋現象，或者探索未來的可能性，那就可以使用簡單的模型，用足夠簡單的假設，讓模型的推演重現出一部分直覺告訴你對的，再推翻一部分你本以為理所應當的結論。

人與人不是只互動一次的，馬爾可夫鏈反映了不同次互動對個人的影響，而隨機遊走和路徑依賴則可以看成是人與人持續互動所產生的模式的兩個極端。互動的結果可能是合作，也可能相互的坑害，這其中就需要引入博弈論，引入經濟學中的信號傳遞模型（cost signal），引入群體選擇與名望來解釋為什麼合作是可能的。這其中有足夠多的模型，幾本書也講不完，這裡就只是蜻蜓點水的帶過。

人與人之間的交往不止是個人行為，還涉及到制度的建立。例如如何在一個團體內分配成功的果實，如何決定集體的行動，如何協調不同的偏好。你可以先列出你的規則需要滿足的條件，如同《幾何原本》中的公理系統，這些條件要簡單且符合常識，然後去判斷能不能找到一個滿足這樣要求的制度。

有時你可以證明找不到滿足全部條件的制度，那你就需要權衡到底要滿足怎樣的價值觀，而有時則可以構建出來。例如夏普利值（Shapley Value），就是假設一個成員加入這個團體的順序對其團隊貢獻度不應該有影響，因此對所有加入順序下各個成員的貢獻度進行加和平均。夏普利值可以用來解釋為什麼團隊中有的人應該拿的多。雖然看起來有些人完成的成就不多，但是他們補足了團隊的短板，例如下圖的例子。

每個人想出一個磚頭的其他用途，圖中A與C都想出了6個答案，但A應該從團隊的獎勵在獲得更多，因為不管ABC三人誰先說，A都會豐富團隊整體的創意

最關鍵的是，人是能夠從錯誤中學習的。The Model Thinker 這本書的最後也是最難的三章圍繞學習展開，先對比了強化學習和社交學習：前者根據之前的行動的收益來調整自己的認知，後者則根據他人的評價。不同的學習方式，可以導致囚徒困境中不同的納什均衡在人群中成為主流。而當收益不固定時，多臂賭博機模型則能指出你該怎麼平衡探索和收益。

從模型到現實

在這本書的最後一章，書中用十餘個模型解釋了現實生活中的貧富差距為何越演越烈：有的模型專注於富人為何越來越富，有的模型解釋了為何種族間的貧富差距越拉越大，還有的模型解釋了為何寒門難出貴子。

模型思維的優勢，不止體現在社會問題這樣的經世濟民中。對於年輕人來說，遊戲中的模型思維更有趣。閱讀這本書的時候，我一直在想書中的例子有哪些能夠應用到殺人遊戲中，例如馬爾可夫鏈可以分析前後發言之間的關係，信息傳播的模型可以預測投票的結果，如果能夠寫一本書，專門來講如何在桌遊中應用模型思維，那才真的有趣而有意義了！

模型思維範例：多臂老虎機模型與Gittins Index

假設一個賭場裡有多臺老虎機，你知道其中有幾臺被做過手腳，卻不知道是哪幾臺，你有玩老虎機一百次的本錢，這時你要怎麼做？要回答這個問題，你首先要假設人是理性的，他能記住每一次玩之後的結果，能夠根據此進行學習。還要假設人是遵守預先設定的假設，這個人說會玩100次，就一定會玩100次，一定會玩100次，不管其中輸贏的先後順序。在現實中，這倆點都是不滿足的，但作為建立模型的起點，可以先這樣假設。

當我們放寬關於玩家的假設，我們可以看看不同的目標會對模型造成怎樣的影響，假設賭場的目標可以是要在保證固定收益率的同時玩家儘可能的多玩，也可能是儘可能的提高利益率，在不同的目標下，可以探討賭城該怎樣設置被動手腳的老虎機的比例等更多問題。而將我們手機中的每個推送，每件新鮮事當成是一次老虎機的一次實驗，也可擴展模型的適用範圍。

回到最初的問題，最簡單的方法是先在賭場中的每臺機器上試驗幾次，之後找出收益最多的一個一直玩，這種策略被稱作sample-then-greedy，類似於年輕時嘗試幾個行業，之後就一直在這個行業做下去。更好的策略是adaptive exploration，先每個老虎機玩一次，之後根據收益的比例，在下一輪的嘗試中對各個老虎機分配相應的比例。這樣的做法像同時嘗試幾個職業，之後那個職業做的好就逐漸對其投入更多的精力，而將其他的當成兼職，但總會多少對其分配一些經歷。而更好的辦法是Gittins Index，其講的是多臂老虎機中該怎麼平衡探索與利用（explore vs exploit）的收益，其中利用了貝葉斯的思維，考慮到了不確定性對未來決策的影響。

假設你本來有一個穩定獲得500收益的機會，現在你多了一個抽獎選項，你有機會在接下來的回合獲得1000單位的收益，90%的機會什麼都得不到，請問你願意為了這個抽獎的機會付出多少？答案是假設你獲得了抽獎的機會，你會在第一回合抽獎。第一次抽獎中了，那你就一直選這個這樣你下一回合就能拿到1000單位的收益；如果沒抽中，那就下一回合選穩妥的，這樣你的預期收益是0.1×1000+0.9×500，因此你願意為這個抽獎機會付出550單位。至於如何將Gitten Index的思路用在多臂老虎機中，讀者可以自己思考。在強化學習中，多臂老虎機是一個經典的問題，還有更多的解放，這裡只是藉此展示模型思維的具體案例。

更多閱讀

強化學習最小手冊

《模型思維》讀書筆記-Why How 以及多臂老虎機的案例分析

相關焦點

強化學習初探 - 從多臂老虎機問題說起

知識整理 | 思維模型1.0

77思維模型:5why分析法

學習中的why、how、what、who及網絡價值

學習三問 what why how

「讀書筆記」模型思維

用思維導圖教你分析《童年》內容,做讀書筆記

如何提煉思維模型並將其用於實戰?成甲老師梳理了這些方法

10個提升學習力的思維模型解析，提升個人能力必備

學習筆記:基於核心素養的英語課堂教學案例分析

讀書筆記怎麼寫?教你繪製思維導圖製作讀書筆記

喜歡讀書，卻不知如何做筆記？兩種筆記方法，讓你學以致用

透過《奇葩說》論點,看背後的多元思維模型

讀懂《K-12英語閱讀行業報告》:文本解讀的what、why、how這麼寫才...

《三國演義》讀書筆記思維導圖怎麼畫?從繪製角度學習製作

如何寫讀書筆記?——不會寫讀書筆記等於不會讀書

論「批判性思維」——讀書筆記263

讀書筆記思維導圖模板分享,知識梳理小幫手

寫讀書筆記的人,往往思維周密到了極致

筆記我的讀書筆記整理術