淘客熙熙

主题:【原创】雷锋是这样死掉的 -- 淮夷

共:💬53 🌺553 🌵1
全看树展主题 · 分页首页 上页
/ 4
下页 末页
家园 【原创】雷锋是这样死掉的

点看全图

外链图片需谨慎,可能会被源头改

最近坐火车往肇庆,途中读一本书《Paradigms Regained》,作者John Casti是加州大学的数学家。作者讲到自然界存在大量“利他主义”现象,很多动物互利合作,令人难解。

例如有一种鸟叫阿拉伯鸫鹛(babbler),形如麻雀。它们喜欢无私奉献,帮同类搓澡、照看病鸟、给别人家幼鸟喂食,等等。甚至,它们为争夺主动奉献的机会而发生冲突。称它们是“雷锋式”小鸟也不为过。

事实上,吸血蝠、猿猴、獴类、荆鱼、海象、甚至病毒,都在某种程度上呈现出类似的利他行为。你很难把这些行为归结于动物的高风亮节或者利益计算,因为动物既不知何为道德,也不懂成本效益分析。

在进化论学者看来,这种模式完全是自然选择的结果。遗传基因中含有“合作和付出”的因素,我给它起了个也许不太贴切的名字叫“雷锋基因”。相比自私行为,雷锋基因使某些动物在演化中获得优势,所以自然选择会朝着有利它们的方向发展,使这种遗传类型得到传递。

那么,人类也有雷锋基因的吧?

我想应该是有的。在我读的一些书中,我发现很多历史事件皆可借此解释。

譬如一战时期,欧洲西线出现壕沟对峙,英军德军躲在各自的战壕后面,战局长期僵持。对于英德壕沟之战,描述最多的词汇是“惨烈”,10%士兵战死,伤者不计其数。但是历史学家Tony Ashworth写过一本书《Trench Warfare》,披露了另外一面。

他写道(大意):英德壕沟战普遍存在一种“表演”的性质,交战士兵定期互相开枪开炮,假装很忙。这种假打不仅蒙骗了自己的上级,而且向敌人表露出合作的意图。

双方显然都在发扬某种“雷锋式”精神。比如,绝不袭击对方开到壕沟边的运饭车,尽管打掉运饭车一点都不难,但大家都主动给对方留出吃饭时间。再比如,督战的英国军官发现,德国士兵就在英军射程范围来回走动,而英军对射击敌人的大好机会往往无动于衷。

这种离奇的现象在1914年的圣诞节达到顶峰,英德士兵甚至走出战壕,互致问候,还踢了一场球赛,史称“圣诞停战事件”。类似的事件在一战时的法德战场和东线战场也曾相继上演。

在博弈论看来,阿拉伯小鸟和英德大兵面对的都是经典“囚徒困境问题”。意即,当你的对手做雷锋时,你的最优策略其实就是欺骗他、利用他、攻击他。当然,对方也不傻,也会同样选择。是以,最终的均衡解只能是:欺骗vs欺骗。

现实中,小鸟和士兵并没陷入双输之局,而是选择合作vs合作的策略。这是因为双方面对重复次数的“非零和博弈”。在这种设定下,发挥雷锋精神是很有好处的。

针对此种类型的博弈,密歇根大学的Robert Axelrod在70年代组织过两次大赛,目的是寻找到最优策略。

第一轮大赛中,人们提交了一些复杂策略,这些策略捉对厮杀,最终胜者是一个超级简单的策略tit-for-tat,只有4行程序组成,由多伦多大学的数学家Anatol Rapoport设计。

第二轮大赛吸引了62名学者,涵盖经济学、物理学、数学、计算机、进化生物学各个领域,tit-for-tat继续胜出。

字面上,tit-for-tat的意思是“以牙还牙”,这个策略的全部规则只有两条:1)第一轮主动合作,2)此后的所有轮次,均跟随对手上一轮的策略。

这个策略有何特别呢?简单的说,它是一种“先礼后兵”的策略,既有合作意愿(雷锋基因),又不容许别人沾光。你若合作我也合作;你若欺骗我也绝不饶恕。这像圣经旧约讲的“以眼还眼,以牙还牙”,而非圣经新约所讲“左脸被打,右脸送上”。

一战时英德壕沟对峙其实便是一种真实世界的tit-for-tat。双方假装打枪,彼此大增活命概率。可如果一方突然来下真的,敌人也必全力报复。

在密歇根大赛一枝独秀的tit-for-tat,是否也是真实世界的最优策略呢?

其实你很难在真实世界寻到答案。小到一个人的处事待人,大到两国外交纷争,都要大量重复性的可控实验才能证明出,tit-for-tat是否最管用的一招。此种大规模社会实验显然很难落实。

不过,计算机程序模拟出一些有趣的演化博弈,给人们寻找最优策略提供了新思路。

1997年,瑞典物理学家Kristian Lindgren创设了一个“丛林博弈程序”。这个程序类似于“大糖帝国”,在一个128X128的棋盘上展开。

点看全图

外链图片需谨慎,可能会被源头改

棋盘上有16,384个单元格,一个单元格代表一个独立决策的个体(agent),不妨想象为社会中的每个人。

规则是这样的:

1)每个格子与相邻格进行一对一的囚徒困境博弈,意即人人都有“欺骗”动机,但是合则两利,骗则双输。

2)平均获益最高的格子成为赢家,它用的策略在下一轮扩充到相邻格。从进化论角度来说,该策略得到了成功的繁殖。

不难想象,这就像是一个达尔文式的丛林,人们使用着不同的竞争策略,而目标都是一样的:追求个体最大获益和最终的生存繁衍。

Lindgren的模型用00、01、10、11指代四种不同策略。程序初始,单元格被随机性分配其中的一个策略,这包括1) tit-for-tat;2)anti-tit-for-tat (反跟随,对手合作我就欺骗,对手欺骗我就合作);3)永远合作;4)永远欺骗。

为了模拟真实世界的复杂性,Lindgren为这些彼此竞争的策略设计了一些类似基因进化的特性。比如,某个单元格可偶然犯错,背离当前的最佳策略。再比如,01可进化为011(基因复制),意味着记忆力提升,可以分析历史上的交手步数来决定如何行事。再比如,一个策略也许已进化为011011000110001的复杂度,但是它也可能突然拦腰折断为011011(基因变异),这意味着记忆力大减。

Lindgren按动启动键,于是这些获得生命的单元格按照各自策略,厮杀起来。

那么,tit-for-tat又赢了吗?

下面是程序模拟了26,000轮之后的结果。

点看全图

外链图片需谨慎,可能会被源头改

横轴是时间,纵轴是不同策略的人口分布占比。占比越高,这策略越成功。

一个明显的结果就是:在这个复杂性的进化系统里,不存在所谓的“最优策略”。

某些简单策略最初也曾大占优势(例如01),随着时间演进,一些复杂策略(例如1101)开始进化出来,晋身市场主流。而在模拟的最后阶段,更复杂的策略例如1001000101011001异军突起,搞掉了大部分曾经很成功的策略。

你可以重启程序无数次,每一次模拟结果都看到不同的细节,但大趋势上,结论是类似的:没有任何单一策略可以长期管用。你若喜欢用tit-for-tat行事,也许能成功一时,但是终究别人会弄出更聪明的策略,把你搞死。

其实观察这个模型的结果,和观察自然丛林中的物种进化,得到的启发是差不多的:任一时点上,活下来的物种,都可称是一个赢者,因为别的物种都被淘汰掉了。

既然没有永远的最佳策略,不妨回到一个直面人性的问题:我现在该怎样行事?做一个雷锋,还是做一个恶人?

也许下面的一个实验,可以给人一些选择上的启发。

1992年,牛津大学数学家Martin Nowak和Robert May合作设计出一个著名的空间博弈。

游戏规则类似于Lindgren的丛林程序:相邻单元格进行一对一的囚徒困境博弈,得分最高策略得到繁衍。不同在于,现在你只有两个策略可选:合作或欺骗。每个格子可在两个策略之间随意转圜。

这等于是说,你要么做一个善人,要么做一个恶人。而且,你可以在善恶之间跳来跳去。你相信“人性本善”还是“人性本恶”呢?考验的时候到了。

在初始设定中,人群中的善恶比例是50:50,随机的撒布在棋盘上,就像下图显示(蓝格代表合作策略或曰善人,红色代表欺骗策略或曰恶人)。

点看全图

外链图片需谨慎,可能会被源头改

随着模拟轮次的推进,善恶边界不断变化,逐渐演化成下面模样。

点看全图

外链图片需谨慎,可能会被源头改

这个图基本算是一个善恶共处的国度。顽固的欺骗者(红色)与顽固的合作者(蓝色)皆有各自生存空间。夹在二者之间的黄绿二色,代表“变节者”,它们由善转恶或由恶转善。

一个值得注意的现象是,善恶分布已从最初的随机撒播,演化为岛屿状的各自群聚。

譬如图中有很多蓝色小岛,岛上居民都是坚定的善人,不妨称它为雷锋岛。雷锋岛居民彼此合作,获得了高于彼此欺骗的获益,这使他们的合作策略得以占有一块地盘,集体防御了欺骗者。与此类似,若把一个善人丢进红色小岛,它很快就被周围的欺骗策略吞噬,合作策略无法生存到下一轮。

现在,一个有趣的问题是,假如把初始设定改一下,大幅提高好人的比重,结果会不会更好?

这个问题并没有固定答案。实际上,这最终取决于在博弈程序的payoff matrix中,你如何设定合作策略与欺骗策略的获益参数。当欺骗带来获益高过一个门槛值时,你会看到下面的结果。

在下面的初始设定里,超过99%的人口都是活雷锋,只有零星的欺骗者。你不妨想象这是一个人性本善的“好社会”。

点看全图

外链图片需谨慎,可能会被源头改

下面显示,程序执行了1000轮的演化之后,欺骗者可以不断的从大片雷锋人口中获益。这种获益很高,欺骗作为一个管用的策略开始繁衍和扩大地盘。

点看全图

外链图片需谨慎,可能会被源头改

模拟到5000轮的样子:

点看全图

外链图片需谨慎,可能会被源头改

模拟到1万轮,雷锋已经所剩无几:

点看全图

外链图片需谨慎,可能会被源头改

最终结果你大概已经猜到了:

点看全图

外链图片需谨慎,可能会被源头改

在这个版本的虚拟世界,欺骗策略最终大获全胜,所有的雷锋都死掉了。

回顾Lindgren和Nowak的模拟程序,人们看到“好”社会和“坏”社会的兴与衰,它们此起彼伏,无法预料。每个身在局中的人,都很难寻得一个稳定的最优策略。最要命的是,你根本无从得知,你如今身在第1000轮的乌托邦,还是在第1万轮的黑暗社会?

我觉得人和许多动物一样,都具有合作利他的基因,但是,此类基因能否得到成功繁衍,不单纯是发扬雷锋精神那么简单,而是取决于其他人的选择、善恶的奖惩机制、以及每个人所处的局部环境。

因之,18大之后提倡“学雷锋活动要常态化”,我觉得这算是一个政治正确的号召,尽管这句口号也许完全抓错了重点。

通宝推:马哥,sixue,左手拈花,钓者任公子,bluesknight,az09,王小棉她妈,玉垒关2,猪啊猪,切地雷,曲道自然,dashanji,平淡是真,tt086071,王敏,混天球,猪头大将,天涯睡客,西瓜子,等明天,东张西望,franky9,上古神兵,山远空寒,文化体制,龙城,月下,咦咦咦,联储主席,

本帖一共被 1 帖 引用 (帖内工具实现)
家园 抢淮夷兄的沙发
家园 最后一个例子,如果反过来,把少量好人,放进坏人组成的世界

结果会如何啊?

TFT的策略,在赵南元的书里看到过介绍。据说还有些小的细节,就是大多数耍“小聪明”的策略,比如以10%概率背叛的设计,最后都挂了。看来赵并没有引用全部的实验结果,有筛选数据的嫌疑

家园 最后部分整个过程接近尾声时,就是这个场景呀:好人寥寥

结果最后欺骗者一统天下

关键还是在原文里面有提及的欺骗收益参数,前面50vs50时的欺骗收益肯定还是较低的,否则避免不了红色天下

如果欺骗收益参数继续调低,是否能实现蓝色天下,我比较关心这个。我的想法,只要欺骗有收益,那么必然能有一席之地,所以蓝色天下除非在欺骗收益为0甚至负数才有可能

家园 上面的所有实验里都没看到对一个重要变量的设定,即获益的总

量,是否假定获量总量不变?或许,雷锋在一个僵化守旧如满清那样的社会里,真是一定会死掉的,但如果我们把眼光跳出棋盘,把竞争看作是人类社会的整体面对外物的竞争和利用、面对未知的科学世界的竞争时,结论就完全不同了。中国有那么多秘方,最终不还是被英国打破了大门?难以想象一个人人相互提防而缺乏进取精神的社会,能在开拓新边疆时有所成就。

用句聊以自嘲的话来收尾,中国人不是没有创新能力,而是有太多创新能力,以至于我们要用其中的大部分,来抑制更多这种能力的出现。

家园 过年了雷锋冷笑话一则

刚刚听来的,请勿过度解读...

雷锋出差,在沈阳站看见围了一圈人。原来是个妇女没票硬要上车。雷锋说:"你怎么没有票呢?"大嫂着急说:"我是到吉林看丈夫,不小心把车票和钱丢了。"雷锋说:"跟我来。"

他领着大嫂到售票处,用自己的津贴费买了张车票,对大嫂说:“看到没,有票才能上车的。” 说完,拿着票上车走了。

家园 博弈论的研究成果,前提是大家长期共处。
家园 是啊,“雷锋基因”更可能来自于与自然环境的搏斗

在进化过程中,远古人类除了部落内部成员间的欺骗与合作,以及部落间的联合与仇杀外,还有很大一部分的是人类作为一个新兴物种,为了生存与扩展,与其他物种及残酷的自然界间的斗争。“雷锋”基因应有很大部分产生于创新与发展的需要。

拿掉创新来模拟内部博弈,就像拿掉创新来分析资本主义一样,结果必然是走向极端。

家园 真知灼见
家园 政府与其号召学雷锋,不如设置专项资金重赏见义勇为者

中国什么时候扶起摔倒老人反被赖上的人士,能够被法律所保护,并给予一定奖金作为安慰和鼓励,什么时候才会有诞生新雷锋的社会基础

家园 【商榷】不太同意最后的一个例子

要形成最后一个样子必然在博弈设计上有一点问题,比如没有对欺骗者碰上欺骗者作出惩罚。如果欺骗者碰上欺骗者,没有对两者互相欺骗给出惩罚,也就是说欺骗没有成本,诚实却是有成本的,那么这个结果并不出奇。如果一开始就规定了,欺骗的成本很高,比如西方的个人信用制度,那么相对来说欺骗的产生就少一点。如果,像中国个人信用制度不健全,骗子自然就多了一点。这就是策略后果(payoff)造成的社会变化。我是强烈支持个人信用制度的,就是要让骗子生活的比诚实的人差。

家园 人类来源于合作基因的出现

240万年前的一次基因突变,使得一些古猿的下颚咬合肌退化。但这种个体劣势的基因突变却使得这些古猿不得不更加依赖合作生存;同时咬合肌退化也使得其附着的脑脊骨不再坚硬,这使大脑得以扩大容量,为语言的诞生提供了基础。这些古猿便是人类的祖先。

家园 人与动物既有社会性,又有个体性

从心理学层面,人的善恶在一定条件下可以转化。在基因层面上,基因也可以突变,所以固化善恶并不能真正模拟社会的演变。

譬如,一个和谐小区内出现一个品德不好的人,短期他可以今天在左边邻居家偷棵菜,明天拔右边邻居的自行车气门芯。但时间一长,大家对他深恶痛绝,必然使得他作恶的成本上升,可能都无法在本地立足。

前一阵子,看动物世界,对动物善恶的本能变化有了新的认识,在某期讲一群狮子在非洲大草原的发展时,一般狮子是合作抚育小狮子的,即母狮去捕猎时,小狮子或由它的阿姨或姐姐照顾,可是这群狮子已经有三年没有小狮子长成了,什么原因?经过长时间观察,终于发现其中一只母狮子“变态”,会乘当保姆时咬死小狮子,这违反了狮子群落正常的现象。

家园 对惩罚的解释

我理解欺骗的成本就是"双输”,这是囚徒困境内含的惩罚机制:双输的payoff低于彼此合作的payoff。按照程序设定的规矩,输者的策略被淘汰,这就是最直接的惩罚了。当然,最终结果不仅取决于双输payoff数值,也要看双赢能赢多少,以及双输损失是否可被偶然骗到好人的高额回报抵消。

家园 星星之火

谢谢您的思路。尝试了几个模拟,贴图很麻烦就不弄了。结果是这样,有一个初始设定99%是恶人而1%是合作者的模拟,但是如果做恶获益维持在正常模拟的参数,这1%好人用不了多少轮次都会变节,最后是红色天下。我觉得这是最可能的结果。

但是如果把好人的撒播提高到总人口比如5%,并调低作恶获益参数,那么在多次的模拟中有可能偶然出现的一个结局是:好人抱团繁衍,最终蓝色天下。

星星之火可以燎原大概就是这个情况。历史上有一些部落因为成员之间陷入彼此欺骗困局,无法合作渔猎或者从事互惠交易。卢梭讲的那个“5人合作猎鹿而其中1人偷偷猎兔”的故事,其实在历史上不乏对应,这样的部落最终停滞直到灭绝。如有一些成员基因突变,变成雷锋式人物,那整个部族是可能改变命运的。

我读过一本书《Nonzero》用博弈论角度讲到北美印第安人部落的衰败与兴起案例,对看待此类现象也许有帮助,您可找来看看。

通宝推:花大熊,
全看树展主题 · 分页首页 上页
/ 4
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河