美国密执根大学的Robert Axelrod为了研究有关合作的问题，在1979年组织了一场特殊的计算机比赛。这场比赛的设计非常简单：要求每个参赛的博奕论专家根据“囚徒困境博弈”规则，各自设计一种计算机程序，然后用单循环赛的方式将参赛程序两两博弈，以找出得分最高的策略。Axelrod在比赛开始之前，先设定了两个前提：每个人都是自私的；没有权威干预个人决策。也就是说，个人可以完全按照自己最大化利益进行决策。他要研究的主要问题是：人为什么要合作？人什么时候合作，什么时候不合作？如何使别人与自己合作？第一轮博弈有14个程序参加，再加上Axelrod自己的一个随机程序（即以50%的概率选取合作或不合作），运转了300次。结果得分最高的是加拿大学者Anatol Rapoport编写的“一报还一报”（Tit for Tat）程序。这个程序的特点是，第一次对局采取合作的策略，以后每一次对局都采用和对手上一次相同的策略，即对手上一次合作，我这次就合作，对手上一次不合作，我这次就不合作。Axelrod发现，得分排在前面的程序有三个特点：“善良的”（be nice），即不首先背叛；“反击的”（be reactive），对于对方的背叛行为一定要报复，也搞一次背叛；“宽恕的”（forgive），不怀恨在心，只要对手以后改为合作，我们也要与之合作。

　　为了进一步验证上述结论，Axelrod决定邀请更多的人再进行一次比赛。第二次他征集到了62个程序，加上他自己的随机程序，一共是63个程序。比赛结果获冠军的仍是“一报还一报”程序。

Axelrod总结这次比赛的结论是：“一报还一报”仍是最优策略；前面提到的三个特点仍然有效。除此之外，Axelrod认为占优的策略还必须具有的一个特点是“不过于‘聪明’”，也就是说要“简单”，以便对手能够理解，可以使对方很快就发现规律，从而与你采取合作的态度。

具有讽刺意味的是，除了“随机程序”以外，得分最差的一个程序恰恰是设计得最复杂的一种程序。15种战略中，有8种是首先选择“合作”，被列为“善战略”，另外7种战略是首先选择“背叛”，而且总想诱使对方受骗，被列为“恶”战略。最后，“善战略”总分均高于“恶战略”。

“一报还一报”不仅善良，而且不刻意追求高分，又能宽容（一开始虽然报复对方，但对方态度变好了，就不再记仇）。宽容心差，就容易陷入双方老是“彼此背叛”的状态。“一报还一报”是15种战略中最简易又最善良的一种，它最后得分最高，是许多人所未想到的。“一报还一报”的特点：一是“善良”，决不首先“背叛”。二是“反应快”，对方若“背叛”，马上就以“背叛”还击，决不犹豫。三是“宽容”，对方若是态度变为“合作”，就不记前仇，立即回应以“合作”。四是“无忌妒之心”，不因对方玩弄心计一时得分高而自己也玩弄心计。五是“简便易行”，始终坚持“一报还一报”，易于坚持到底，态度明朗，对方明白了也会照样做。

阿克塞尔罗德总结了第一轮比赛的结果，宣布举行第二轮比赛。这次参赛的程序有63个，其中包括那个“随机程序”，还有约翰·史密斯提出的一种更宽厚的“一报还两报”，即遭到对方两次“背叛”后才予以还击。这一轮的场次不加限制，阿克塞尔罗德在他于1984年出版的《合作的进化》一书中指出这样做是因为对未来的关注可以促进合作。有些人读了阿克塞尔罗德对第一轮比赛的分析以后，研究了怎样利用那些“善战略”和“宽容战略”的方案，提出了一些新的“恶战略”，但最后还是输了。拉波波特的“一报还一报”再次获胜。得分最高的前15名中，有14名都是“善”的，而得分最少的15名当中，则有14名都是“恶”的。“一报还两报”的战略未能获胜，因为许多“恶战略”都费尽了心机来利用对方的宽容。

这一事实导致一个重要的发现：一种战略的成功取决于它与之较量的那些战略的性质。理查德·道金斯在他那本深受读者欢迎的《自私的基因》（1974年初版，1990年、2006年再版）一书中指出，阿克塞尔罗德举办的比赛是像橄榄球联赛一样采用了循环赛制。参赛的每一战略都需要跟别的战略交锋，全赢者才胜出。“一报还两报”若在第一轮推出，可能胜出，但是它在第二轮推出就不行了，因为第二轮“善”者比例低于第一轮。“一报还一报”能胜出，是因为“善”者在第二轮毕竟也还多于“恶”者，否则它也会败。循环制不同于道金斯所说的“进化上的稳定策略”（ESS），道金斯说，凡是种群的大部分成员采用某种策略，而这种策略的好处为其他策略所比不上的，这种策略便是进化上的稳定策略。

阿克塞尔罗德仍然用第二轮参赛的63种战略进行了第三轮比赛，以寻找一种能反映达尔文学说“自然选择”原则的“进化稳定策略”。在这新的一轮比赛中，63种电脑程序被列为“第一代”。“第一代”比赛结束时，记录下每一种电脑程序及其“后裔”的百分比。几代之后，有些程序比例减少，到了“第200代”，多数“恶战略”已遭淘汰，别的战略继续比赛。到了“第1000代”左右时，每一战略在总数中所占百分比停止变化，终于达到了稳定状态。在6场比赛中，“一报还一报”胜了5场。另5种类似的战略成绩也不错，其中一种在第六场获胜。有一种叫做“哈林顿”的“恶战略”熬过了“第200代”，但随后一些“善”的和“宽容”的战略败出了比赛以后，这一“恶战略”找不到它易于击败的靶子，终于在接近“第1000代”时败亡。

通宝推：jungleford,西望长安,

复【原创】新年政治经济展望之二：中美博弈（一）

家园

通宝馅上

谢谢：作者意外获得【通宝】一枚

鲜花已经成功送出，可通过工具取消

提示：此次送花为此次送花为【有效送花赞扬，涨乐善、声望】。

今天手气佳，所以到处献花。

俺真是慧眼呀，能透视地下的藏宝。

复【原创】新年政治经济展望之二：中美博弈（一）

家园

最近风云变幻，好文不断……