《模型思維》讀書筆記-Why How 以及多臂老虎機的案例分析

2020-12-12 巡洋艦人工智慧學堂

聖塔菲研究所外聘教授、密西根大學複雜性研究中心主任斯科特·佩奇(Scott E Page)在Coursera上開設了一門名叫 Model Thinking 的課程。這門課以複雜系統的視角研究社會和經濟學上的常見問題,介紹了十餘個可以定量推演的模型。佩奇教授還出版了多本暢銷書,例如《多樣性紅利》一書,佩奇教授創造性地提出:一個人是否聰明不是由智商決定的,而是取決於認知工具的多樣性。

密西根大學教授斯科特·佩奇(Scott E Page)

佩奇教授為他的課程撰寫了一本厚厚的教科書 The Model Thinker,在2018年11月份出版。全書分為29章,每一章都乾貨滿滿。書中不止列出了更多的模型,還系統性地展示了如何使用多種模型來分析現實社會中的問題。

Why? 世界太複雜,我們需要模型

在從信息到智慧的每一步上,模型都可以成為上升的階梯。整理數據、提取信息,你需要通過建模來去偽存真;根據不同領域的信息,最終得出一個對大局、新情況或未來的判斷,你需要預測性的模型去產生知識;而要知道在何時何地該提取哪些知識,則需要通過模型讓隱藏的假設顯現出來。根據作者的總結,模型的7種作用包括推理、解釋、設計、溝通、指導行動、預測未來和探究可能性。

類似的書還有《Algorithm to live by》。這本書講的是用機器學習算法原理指導日程生活中的決策。關於如何決策,書中給出的回答是下圖。

這個框架沒問題,但由於日常生活中要解決的問題都與他人有關,而人是具有主觀能動性的,人的複雜性和多樣性決定了任何模型都需要對模型中的人予以簡化,從而使得模型不會像和真實國土一樣大的地圖那樣全面卻無用。而對人的簡化有多種不同的方式,從這個邏輯起點出發,可以推演出不同的模型。沒有一個模型適用於所有的壞境,但多樣化的模型可以帶來1+1 > 2的效應。

How ?如何建模,不至於過度簡化

模型學習

學習一個模型,要搞清楚其組成結構、生成邏輯與應用場合。

模型的組成結構除了實體和關係這些顯式的部分,還包括模型對人和壞境做的假設。關於人的假設,包括:有絕對的理性及記憶力還是只能服從既定的規則、是否能夠從過去的經驗中學習、是否具有多個目標等。而關於環境的假設,包括:環境是否有多個屬性、各個屬性間是否相關、是否存在局部最優解、是否隨著時間發生變化。

生成邏輯則是一串數學公式和推算,指出在模型給定的假設下,會出現怎樣的結論。至於應用場景,一個模型可以在多個領域重複應用,一個模型也可嵌套進其他模型中,組成更大的模型,從而捕捉現實中更多的複雜性。

人群建模

關於人群的模型,首先要討論是人的多樣性。通過三種概率分布(normal,lognormal,power),可以對人群的多樣性進行分類。三種分布對應著不同的假設,即不同時間點人獲得的收益是否具有相關性,也包含著對環境的假設,即對人的評價取決於之前收益的加和或乘積。上述組合會產生上述的三種分布,以及一個長尾效應比冪律分布更顯著的分布方式。

對人群的多樣性進行了分類,可以判定人群大小對其結果的影響,例如假設學習成績是服從正態分布的,那麼一個學校越小,其平均成績就越有可能超越全國的平均水平,這不是由於小學校容易培養出好學生,僅僅是統計上較大規模的學校普遍更靠近平均水平。

在考慮人與人的互動時,從個人的視角來看,可以根據外界對你決策反饋持續帶來的收益(正、負、或者零)將模型分成三類。如果長遠來看,外界沒有對你的決策給予反饋,那你就可以使用線性模型去估計你決策的影響,可以通過P值來判斷影響是否隨機產生,可以通過R square來評估影響的大小。如果外界總是滿足你,那正反饋就會帶來不穩定。反觀《黑鏡》的劇情,其中不少悲劇是由於科技進步帶來的心想事成。而負反饋則會帶來穩定和均衡。

人不是在和一群人互動,而是在和一個個具體的人互動。將人看成個體,就可以組成網絡模型或者網格模型。網格模型將人放置在一個一維或者二維的棋盤中,一個人只能和附近有限個人互動;最典型的網格模型是生命遊戲(game of life)。

而網絡模型則可以讓人與人之間自由連接,例如人際社交、網頁間的連結、論文間的引用。而如果人與人之間的互動有不同的類型,那就可以將做同一類的人抽象為一個整體,從而產生系統動態(system dynamic)模型,例如下圖所示:

圖中的麵包店和排隊的人可以看成網絡中的節點,其屬性是其當前的存量,受到已有消費者、麵包師、潛在的消費者這三個資源池的影響

網絡中的人不是孤立的,為了對其相互影響建模,可以先將人分成幾類,通過互動,人的分類會發生改變。例如疾病或者想法的傳播。為了引入人的不同,可以假定人有不同的閥值(threshold),只有影響足夠強烈,才會被身邊的人的影響。為了引入待傳播的思想的多樣性,可以將人的偏好分為spatial(離自己越近越好)和hedonic(越多越好),再結合上不同的網絡結構,就可以針對網絡上思想的傳播按照不同的方式進行建模。

如果是為了預測,可以建立一個足夠複雜的模型,但若是為了解釋現象,或者探索未來的可能性,那就可以使用簡單的模型,用足夠簡單的假設,讓模型的推演重現出一部分直覺告訴你對的,再推翻一部分你本以為理所應當的結論。

人與人不是只互動一次的,馬爾可夫鏈反映了不同次互動對個人的影響,而隨機遊走和路徑依賴則可以看成是人與人持續互動所產生的模式的兩個極端。互動的結果可能是合作,也可能相互的坑害,這其中就需要引入博弈論,引入經濟學中的信號傳遞模型(cost signal),引入群體選擇與名望來解釋為什麼合作是可能的。這其中有足夠多的模型,幾本書也講不完,這裡就只是蜻蜓點水的帶過。

人與人之間的交往不止是個人行為,還涉及到制度的建立。例如如何在一個團體內分配成功的果實,如何決定集體的行動,如何協調不同的偏好。你可以先列出你的規則需要滿足的條件,如同《幾何原本》中的公理系統,這些條件要簡單且符合常識,然後去判斷能不能找到一個滿足這樣要求的制度。

有時你可以證明找不到滿足全部條件的制度,那你就需要權衡到底要滿足怎樣的價值觀,而有時則可以構建出來。例如夏普利值(Shapley Value),就是假設一個成員加入這個團體的順序對其團隊貢獻度不應該有影響,因此對所有加入順序下各個成員的貢獻度進行加和平均。夏普利值可以用來解釋為什麼團隊中有的人應該拿的多。雖然看起來有些人完成的成就不多,但是他們補足了團隊的短板,例如下圖的例子。

每個人想出一個磚頭的其他用途,圖中A與C都想出了6個答案,但A應該從團隊的獎勵在獲得更多,因為不管ABC三人誰先說,A都會豐富團隊整體的創意

最關鍵的是,人是能夠從錯誤中學習的。The Model Thinker 這本書的最後也是最難的三章圍繞學習展開,先對比了強化學習和社交學習:前者根據之前的行動的收益來調整自己的認知,後者則根據他人的評價。不同的學習方式,可以導致囚徒困境中不同的納什均衡在人群中成為主流。而當收益不固定時,多臂賭博機模型則能指出你該怎麼平衡探索和收益。

從模型到現實

在這本書的最後一章,書中用十餘個模型解釋了現實生活中的貧富差距為何越演越烈:有的模型專注於富人為何越來越富,有的模型解釋了為何種族間的貧富差距越拉越大,還有的模型解釋了為何寒門難出貴子。

模型思維的優勢,不止體現在社會問題這樣的經世濟民中。對於年輕人來說,遊戲中的模型思維更有趣。閱讀這本書的時候,我一直在想書中的例子有哪些能夠應用到殺人遊戲中,例如馬爾可夫鏈可以分析前後發言之間的關係,信息傳播的模型可以預測投票的結果,如果能夠寫一本書,專門來講如何在桌遊中應用模型思維,那才真的有趣而有意義了!

模型思維範例: 多臂老虎機模型與Gittins Index

假設一個賭場裡有多臺老虎機,你知道其中有幾臺被做過手腳,卻不知道是哪幾臺,你有玩老虎機一百次的本錢,這時你要怎麼做?要回答這個問題,你首先要假設人是理性的,他能記住每一次玩之後的結果,能夠根據此進行學習。還要假設人是遵守預先設定的假設,這個人說會玩100次,就一定會玩100次,一定會玩100次,不管其中輸贏的先後順序。在現實中,這倆點都是不滿足的,但作為建立模型的起點,可以先這樣假設。

當我們放寬關於玩家的假設,我們可以看看不同的目標會對模型造成怎樣的影響,假設賭場的目標可以是要在保證固定收益率的同時玩家儘可能的多玩,也可能是儘可能的提高利益率,在不同的目標下,可以探討賭城該怎樣設置被動手腳的老虎機的比例等更多問題。而將我們手機中的每個推送,每件新鮮事當成是一次老虎機的一次實驗,也可擴展模型的適用範圍。

回到最初的問題,最簡單的方法是先在賭場中的每臺機器上試驗幾次,之後找出收益最多的一個一直玩,這種策略被稱作sample-then-greedy,類似於年輕時嘗試幾個行業,之後就一直在這個行業做下去。更好的策略是adaptive exploration,先每個老虎機玩一次,之後根據收益的比例,在下一輪的嘗試中對各個老虎機分配相應的比例。這樣的做法像同時嘗試幾個職業,之後那個職業做的好就逐漸對其投入更多的精力,而將其他的當成兼職,但總會多少對其分配一些經歷。而更好的辦法是Gittins Index,其講的是多臂老虎機中該怎麼平衡探索與利用(explore vs exploit)的收益,其中利用了貝葉斯的思維,考慮到了不確定性對未來決策的影響。

假設你本來有一個穩定獲得500收益的機會,現在你多了一個抽獎選項,你有機會在接下來的回合獲得1000單位的收益,90%的機會什麼都得不到,請問你願意為了這個抽獎的機會付出多少?答案是假設你獲得了抽獎的機會,你會在第一回合抽獎。第一次抽獎中了,那你就一直選這個這樣你下一回合就能拿到1000單位的收益;如果沒抽中,那就下一回合選穩妥的,這樣你的預期收益是0.1×1000+0.9×500,因此你願意為這個抽獎機會付出550單位。至於如何將Gitten Index的思路用在多臂老虎機中,讀者可以自己思考。在強化學習中,多臂老虎機是一個經典的問題,還有更多的解放,這裡只是藉此展示模型思維的具體案例。

更多閱讀

強化學習最小手冊

相關焦點

  • 強化學習初探 - 從多臂老虎機問題說起
    ▌背景和問題定義2018年我開始了機器學習相關領域的博士生涯,相比於目前流行的深度學習以及類似的需要大量訓練數據來生成模型的監督學習方法導師提供了一個有趣的問題作為切入點來深入理解「強化學習」,那就是多臂老虎機問題(multi-armed bandit)。多臂老虎機實驗本質上是一類簡化的強化學習問題,這類問題具有非關聯的狀態(每次只從一種情況輸或贏中學習),而且只研究可評估的反饋。
  • 知識整理 | 思維模型1.0
    在這篇演講稿中查理逐步向我們解釋如何通過各種「思維模型」進行決策和解決問題。他巧妙地問聽眾如何白手起家創辦一個資產高達2萬億美元的財富,並用可口可樂作為經典案例給出了答案。 這裡並不對這篇演講的案例作深入剖析,事實上,這是一篇難懂的演講,甚至人們將演講稿仔細讀過兩遍之後還是覺得很費解。在查理看來這些結果有著「微妙的教育意義」。感興趣的朋友可以找來讀一讀。
  • 77思維模型:5why分析法
    「5why分析法」就是其中之一。一、什麼是5why分析法?5why分析法又稱為「五問」或「五個為什麼」,5why首創自豐田公司的前社長大野耐一,源於一次新聞發布會,有人問:「豐田公司的汽車質量怎麼會這麼好?」他回答說:「我碰到問題至少要問5個為什麼。」
  • 學習中的why、how、what、who及網絡價值
    2020是很懶的一年,看的書加起來不到10本,但今年對學習有了新的理解和認識,概括為幾個關鍵詞:why、how、what、who。每天背單詞10分鐘,堅持一周便放棄,每天運動30分鐘,練兩天覺得太累便作罷,類似的事情還有很多。為什麼?因為沒有明確這件事的why,我為什麼需要做這件事,也就是說,做這件事只是你覺得應該做,而不是你想做。
  • 學習三問 what why how
    >我喜歡學習之前先問自己三個問題,what;why;how。最後才是how方法。當你確定上面兩個問題之後才去考慮如何做的問題。這個問題可以參考前面有效學習的相關方法。首先確定適合你的學習方法,以教為學,找準切入點直奔大師,設定小目標,製造反饋,等等這裡不再贅述。
  • 「讀書筆記」模型思維
    「模型思維課」的主講人。這堂課的學生已經超過120萬。這本書,就是這門課的精華濃縮。《模型思維》講解了24種模型,從線性回歸到隨機漫步,從博弈論到合作,涵蓋學習、工作、生活等方方面面——這些有趣的模型可以把任何人變成天才。印象深刻的書中觀點有:要想成為一個有智慧的人,你必須擁有多個模型。而且,你必須將你的經驗,無論是間接的,還是直接的,都放到構成這些模型的網格上。
  • 用思維導圖教你分析《童年》內容,做讀書筆記
    以往為了更好地記憶書籍的片段或整理文章脈絡,會將整個段落摘抄下來製作讀書筆記,伴隨著思維導圖工具的出現不少小夥伴更加熱衷於藉助思維導圖來製作讀書筆記。思維導圖製作筆記的方式相比於傳統段落式摘抄可以更好地展現文章中存在關係的內容,使各內容之間的關係更加清晰明了,幫助閱讀和理解內容。但我們該如何用思維導圖做童年讀書筆記呢?
  • 如何提煉思維模型並將其用於實戰?成甲老師梳理了這些方法
    以OODA為核心的深度思考型思維模式:認為成長是站在巨人的肩膀上想問題。這樣的人善於吸收前人總結出來的思想養分,能主動去分析問題的本質,並深入探討解決這個問題的客觀規律。從短期來看,積累經驗型思維模式方便學習,也能帶來突破式的成長,不失為一種高效的成長策略。
  • 10個提升學習力的思維模型解析,提升個人能力必備
    個人能力提升的40種思維模型,最強總結來啦!耗時3天搜羅各類書籍,將40種思維模型分為以下7大類一:學習力提升模型二:創造力提升模型三:設計力提升模型四:共情力提升模型五:故事力提升模型六:領導力提升模型七:整合力提升模型接下來我會分7篇文章細說這40個思維模型
  • 學習筆記:基於核心素養的英語課堂教學案例分析
    今天學習的是明師學院王路老師的講座《基於核心素養的英語課堂教學案例分析》。首先王路老師告訴我們什麼是英語學科核心素養。英語學科核心素養是學生在接受相應學段英語課程教育的過程中,逐步形成和提升的適應終身發展和社會發展需要的正確的價值觀念、必備品格和關鍵能力,由語言能力、文化意識、思維品質和學習能力這四大要素構成。
  • 讀書筆記怎麼寫?教你繪製思維導圖製作讀書筆記
    傳統的讀書筆記指讀書時把文中精彩的部分整理出來,或把認為對自己有讀書心得的內容記錄下來。適當的做一些讀書筆記可以幫助自己理解書籍內容和訓練自身閱讀能力,還能從側面加深對書籍的記憶力。你可曾想過用思維導圖製作讀書筆記?
  • 喜歡讀書,卻不知如何做筆記?兩種筆記方法,讓你學以致用
    我認為,讀書的同時,需要先把書中的知識內化成為自己的知識,構建自己的知識體系,這就需要做讀書筆記,形成讀書——筆記——運用——讀書的良性循環,讓知識真正發揮它的效能。這就是一種人生的習慣,當好習慣多了,人生也會有更多好習慣,那麼擁有一個自己想要的人生,就不是沒有可能。當然,你可以結合自己的經歷來將這段話進行更好的拆解,讓你的筆記幫助你更好的踐行。
  • 透過《奇葩說》論點,看背後的多元思維模型
    一個問題,原來可以通過經驗、方法論以及學科原理等不同層次角度去思考,層度越深,越能掌握看待事物的底層邏輯,越能更有效的解決更多複雜問題。本文將分享多元次思維模型的概念,以及如何訓練思維模型,提高解決問題的能力。一、什麼是多元思維模型什麼是思維模型?
  • 讀懂《K-12英語閱讀行業報告》:文本解讀的what、why、how這麼寫才...
    結合上述內容,報告解讀近期將從培養學生思維品質入手,談一談如何通過文本解讀、讀後活動設計以及利用教材插圖教學等方法來培養學生的思維品質,本期我們先將目光聚焦到文本解讀。【how】本文是一篇介紹美國人如何迎接新年的描述性文章。本課的重點詞彙涉及描寫性詞彙,如sparkling,strike,以及動詞短語,如give up,take up;句式主要涉及表示意圖和打算的be going to do。【why】本文的價值取向在於學生通過本文的學習,意識到比起許下新年決心,更重要的是堅持努力去實現,並在實際生活中將這一點付諸實踐。
  • 《三國演義》讀書筆記思維導圖怎麼畫?從繪製角度學習製作
    以往在看《三國演義》時為了深化印象會記錄一些讀書筆記便於後續理解或回味。隨著思維導圖工具的出現,更多人會選擇使用思維導圖的方式製作三國演義讀書筆記。思維導圖相比傳統段落式的讀書筆記可以針對性的記錄重點內容,而非成段式記錄,以減少記錄所需時間。通過思維導圖發散性的特點還能加深對文章內容的記憶。然而我們該如何利用思維導圖來製作《三國演義》讀書筆記呢?
  • 如何寫讀書筆記?——不會寫讀書筆記等於不會讀書
    通過主動的思考,鍛鍊我們多種思維能力,包括歸納、分析、總結、評價、聯想、理解、記憶甚至創造性。從多種角度,把書裡面的知識串聯起來,散落的知識變成體系,這才是讀書高手。閱讀和寫讀書筆記,其實是輸入和輸出的同時鍛鍊。老話很有藥:不動筆墨不讀書。
  • 論「批判性思維」——讀書筆記263
    【論「批判性思維」——讀書筆記263】轉載改寫一篇關於批判性思維的文章:我們對「批判性思維」認知的一大誤區,就是本能地將之與批評甚至是反對畫上等號。美國哲學家約翰·杜威,最早提出「批判性思維」,他稱之為「反思性思維」。「批判性思維」是一種評估、比較、分析、探索和綜合信息的能力,其中「批判」指的是審慎地判斷。在西方的教育體系中,「批判性思維」被普遍確立為高等教育的基本目標。
  • 讀書筆記思維導圖模板分享,知識梳理小幫手
    利用思維導圖對讀書筆記進行整理歸納是很常見的操作,思維導圖以結構清晰所被大家青睞。不僅可以完整將書中內容進行總結,更保證在繪製的過程中思維圍繞該主題進行飛速的運轉,對思維開發也有很大益處,下面分享幾款讀書筆記思維導圖模板,希望能給大家帶來幫助。
  • 寫讀書筆記的人,往往思維周密到了極致
    導語:寫讀書筆記的人,往往思維周密到了極致。大多數人在閱讀書籍時都沒有寫筆記的習慣,但是在生活中有些人卻顯得截然不同,做什麼事情都有寫筆記的習慣,這些人的思維通常周密到了極致。讀書的價值在於把知識弄懂並儘可能延長知識在大腦裡的儲存時間,只有這樣學習的知識才會有意義。我閒著沒事看了各種各樣的書籍,發現這些書籍的一個共同點,這些書籍裡的事情會使人有似曾相識之感,可能就是藝術來源於生活並高於生活。許多事情的確是這樣,同樣的原因通常會產生相差不多的結果。
  • 筆記我的讀書筆記整理術
    在寶貴的閱讀時間如何讓筆記做到極致,就需要有的放矢,尋找適合自己的筆記方法。接下來,我會談談我的讀書筆記方法。專業書籍一般都是厚而多的,要在短時間內可以快速了解不是所有的書籍都適合思維導圖,一般來說專業書籍,以及你可以從中概括出一個主題的書籍甚至是名人都可以進行思維導圖。先看書名頁和序,基本了解書籍的主題和作者的意圖。