首页 > 网游 > 网游新闻
《模型思维》读书笔记-Why How 以及多臂老虎机的案例分析
2019-05-11 17:46:09 作者:佚名

博鸿娱乐原标题:《模型思维》读书笔记-Why How 以及多臂老虎机的案例分析

《模型思维》读书笔记-Why How 以及多臂老虎机的案例分析

圣塔菲研究所外聘教授、密歇根大学复杂性研究中心主任斯科特·佩奇(Scott E Page)在Coursera上开设了一门名叫 Model Thinking 的课程。这门课以复杂系统的视角研究社会和经济学上的常见问题,介绍了十余个可以定量推演的模型。佩奇教授还出版了多本畅销书,例如《多样性红利》一书,佩奇教授创造性地提出:一个人是否聪明不是由智商决定的,而是取决于认知工具的多样性。

《模型思维》读书笔记-Why How 以及多臂老虎机的案例分析

密西根大学教授斯科特·佩奇(Scott E Page)

佩奇教授为他的课程撰写了一本厚厚的教科书 The Model Thinker,在2018年11月份出版。全书分为29章,每一章都干货满满。书中不止列出了更多的模型,还系统性地展示了如何使用多种模型来分析现实社会中的问题。

Why? 世界太复杂,我们需要模型

在从信息到智慧的每一步上,模型都可以成为上升的阶梯。整理数据、提取信息,你需要通过建模来去伪存真;根据不同领域的信息,最终得出一个对大局、新情况或未来的判断,你需要预测性的模型去产生知识;而要知道在何时何地该提取哪些知识,则需要通过模型让隐藏的假设显现出来。根据作者的总结,模型的7种作用包括推理、解释、设计、沟通、指导行动、预测未来和探究可能性。

《模型思维》读书笔记-Why How 以及多臂老虎机的案例分析

类似的书还有《Algorithm to live by》。这本书讲的是用机器学习算法原理指导日程生活中的决策。关于如何决策,书中给出的回答是下图。

《模型思维》读书笔记-Why How 以及多臂老虎机的案例分析

这个框架没问题,但由于日常生活中要解决的问题都与他人有关,而人是具有主观能动性的,人的复杂性和多样性决定了任何模型都需要对模型中的人予以简化,从而使得模型不会像和真实国土一样大的地图那样全面却无用。而对人的简化有多种不同的方式,从这个逻辑起点出发,可以推演出不同的模型。没有一个模型适用于所有的坏境,但多样化的模型可以带来1+1 > 2的效应。

How ?如何建模,不至于过度简化

模型学习

博鸿娱乐学习一个模型,要搞清楚其组成结构、生成逻辑与应用场合。

博鸿娱乐模型的组成结构除了实体和关系这些显式的部分,还包括模型对人和坏境做的假设。关于人的假设,包括:有绝对的理性及记忆力还是只能服从既定的规则、是否能够从过去的经验中学习、是否具有多个目标等。而关于环境的假设,包括:环境是否有多个属性、各个属性间是否相关、是否存在局部最优解、是否随着时间发生变化。

生成逻辑则是一串数学公式和推算,指出在模型给定的假设下,会出现怎样的结论。至于应用场景,一个模型可以在多个领域重复应用,一个模型也可嵌套进其他模型中,组成更大的模型,从而捕捉现实中更多的复杂性。

人群建模

关于人群的模型,首先要讨论是人的多样性。通过三种概率分布(normal,lognormal,power),可以对人群的多样性进行分类。三种分布对应着不同的假设,即不同时间点人获得的收益是否具有相关性,也包含着对环境的假设,即对人的评价取决于之前收益的加和或乘积。上述组合会产生上述的三种分布,以及一个长尾效应比幂律分布更显著的分布方式。

《模型思维》读书笔记-Why How 以及多臂老虎机的案例分析

博鸿娱乐对人群的多样性进行了分类,可以判定人群大小对其结果的影响,例如假设学习成绩是服从正态分布的,那么一个学校越小,其平均成绩就越有可能超越全国的平均水平,这不是由于小学校容易培养出好学生,仅仅是统计上较大规模的学校普遍更靠近平均水平。

在考虑人与人的互动时,从个人的视角来看,可以根据外界对你决策反馈持续带来的收益(正、负、或者零)将模型分成三类。如果长远来看,外界没有对你的决策给予反馈,那你就可以使用线性模型去估计你决策的影响,可以通过P值来判断影响是否随机产生,可以通过R square来评估影响的大小。如果外界总是满足你,那正反馈就会带来不稳定。反观《黑镜》的剧情,其中不少悲剧是由于科技进步带来的心想事成。而负反馈则会带来稳定和均衡。

人不是在和一群人互动,而是在和一个个具体的人互动。将人看成个体,就可以组成网络模型或者网格模型。网格模型将人放置在一个一维或者二维的棋盘中,一个人只能和附近有限个人互动;最典型的网格模型是生命游戏(game of life)。

《模型思维》读书笔记-Why How 以及多臂老虎机的案例分析

博鸿娱乐而网络模型则可以让人与人之间自由连接,例如人际社交、网页间的链接、论文间的引用。而如果人与人之间的互动有不同的类型,那就可以将做同一类的人抽象为一个整体,从而产生系统动态(system dynamic)模型,例如下图所示:

《模型思维》读书笔记-Why How 以及多臂老虎机的案例分析

图中的面包店和排队的人可以看成网络中的节点,其属性是其当前的存量,受到已有消费者、面包师、潜在的消费者这三个资源池的影响

网络中的人不是孤立的,为了对其相互影响博鸿娱乐建模,可以先将人分成几类,通过互动,人的分类会发生改变。例如疾病或者想法的传播。为了引入人的不同,可以假定人有不同的阀值(threshold),只有影响足够强烈,才会被身边的人的影响。为了引入待传播的思想的多样性,可以将人的偏好分为spatial(离自己越近越好)和hedonic(越多越好),再结合上不同的网络结构,就可以针对网络上思想的传播按照不同的方式进行建模。

如果是为了预测,可以建立一个足够复杂的模型,但若是为了解释现象,或者探索未来的可能性,那就可以使用简单的模型,用足够简单的假设,让模型的推演重现出一部分直觉告诉你对的,再推翻一部分你本以为理所应当的结论。

人与人不是只互动一次的,马尔可夫链反映了不同次互动对个人的影响,而随机游走和路径依赖则可以看成是人与人持续互动所产生的模式的两个极端。互动的结果可能是合作,也可能相互的坑害,这其中就需要引入博弈论,引入经济学中的信号传递模型(cost signal),引入群体选择与名望来解释为什么合作是可能的。这其中有足够多的模型,几本书也讲不完,这里就只是蜻蜓点水的带过。

人与人之间的交往不止是个人行为,还涉及到制度的建立。例如如何在一个团体内分配成功的果实,如何决定集体的行动,如何协调不同的偏好。你可以先列出你的规则需要满足的条件,如同《几何原本》中的公理系统,这些条件要简单且符合常识,然后去判断能不能找到一个满足这样要求的制度。

有时你可以证明找不到满足全部条件的制度,那你就需要权衡到底要满足怎样的价值观,而有时则可以构建出来。例如夏普利值(Shapley Value),就是假设一个成员加入这个团体的顺序对其团队贡献度不应该有影响,因此对所有加入顺序下各个成员的贡献度进行加和平均。夏普利值可以用来解释为什么团队中有的人应该拿的多。虽然看起来有些人完成的成就不多,但是他们补足了团队的短板,例如下图的例子。

《模型思维》读书笔记-Why How 以及多臂老虎机的案例分析

每个人想出一个砖头的其他用途,图中A与C都想出了6个答案,但A应该从团队的奖励在获得更多,因为不管ABC三人谁先说,A都会丰富团队整体的创意

最关键的是,人是能够从错误中学习的。The Model Thinker 这本书的最后也是最难的三章围绕学习展开,先对比了强化学习和社交学习:前者根据之前的行动的收益来调整自己的认知,后者则根据他人的评价。不同的学习方式,可以导致囚徒困境中不同的纳什均衡在人群中成为主流。而当收益不固定时,多臂赌博机模型则能指出你该怎么平衡探索和收益。

从模型到现实

在这本书的最后一章,书中用十余个模型解释了现实生活中的贫富差距为何越演越烈:有的模型专注于富人为何越来越富,有的模型解释了为何种族间的贫富差距越拉越大,还有的模型解释了为何寒门难出贵子。

模型思维的优势,不止体现在社会问题这样的经世济民中。对于年轻人来说,游戏中的模型思维更有趣。阅读这本书的时候,我一直在想书中的例子有哪些能够应用到杀人游戏中,例如马尔可夫链可以分析前后发言之间的关系,信息传播的模型可以预测投票的结果,如果能够写一本书,专门来讲如何在桌游中应用模型思维,那才真的有趣而有意义了!

模型思维范例: 多臂老虎机模型与Gittins Index

假设一个赌场里有多台老虎机,你知道其中有几台被做过手脚,却不知道是哪几台,你有玩老虎机一百次的本钱,这时你要怎么做?要回答这个问题,你首先要假设人是理性的,他能记住每一次玩之后的结果,能够根据此进行学习。还要假设人是遵守预先设定的假设,这个人说会玩100次,就一定会玩100次,一定会玩100次,不管其中输赢的先后顺序。在现实中,这俩点都是不满足的,但作为建立模型的起点,可以先这样假设。

当我们放宽关于玩家的假设,我们可以看看不同的目标会对模型造成怎样的影响,假设赌场的目标可以是要在保证固定收益率的同时玩家尽可能的多玩,也可能是尽可能的提高利益率,在不同的目标下,可以探讨赌城该怎样设置被动手脚的老虎机的比例等更多问题。而将我们手机中的每个推送,每件新鲜事当成是一次老虎机的一次实验,也可扩展模型的适用范围。

回到最初的问题,最简单的方法是先在赌场中的每台机器上试验几次,之后找出收益最多的一个一直玩,这种策略被称作sample-then-greedy,类似于年轻时尝试几个行业,之后就一直在这个行业做下去。更好的策略是adaptive exploration,先每个老虎机玩一次,之后根据收益的比例,在下一轮的尝试中对各个老虎机分配相应的比例。这样的做法像同时尝试几个职业,之后那个职业做的好就逐渐对其投入更多的精力,而将其他的当成兼职,但总会多少对其分配一些经历。而更好的办法是Gittins Index,其讲的是多臂老虎机中该怎么平衡探索与利用(explore vs exploit)的收益,其中利用了贝叶斯的思维,考虑到了不确定性对未来决策的影响。

假设你本来有一个稳定获得500收益的机会,现在你多了一个抽奖选项,你有机会在接下来的回合获得1000单位的收益,90%的机会什么都得不到,请问你愿意为了这个抽奖的机会付出多少?答案是假设你获得了抽奖的机会,你会在第一回合抽奖。第一次抽奖中了,那你就一直选这个这样你下一回合就能拿到1000单位的收益;如果没抽中,那就下一回合选稳妥的,这样你的预期收益是0.1×1000+0.9×500,因此你愿意为这个抽奖机会付出550单位。至于如何将Gitten Index的思路用在多臂老虎机中,读者可以自己思考。在强化学习中,多臂老虎机是一个经典的问题,还有更多的解放,这里只是借此展示模型思维的具体案例。

强化学习最小手册★End★

责任编辑:

相关专题
相关下载
相关文章

玩家评论