博弈论的诡计(1)-第5部分
按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
照这个低的价格赔偿,但是对讲真话的旅客奖励2元钱,对讲假话的旅客罚
款2元。
为了获取最大赔偿,甲乙两位旅客最好的策略就是都写100元,这样两
人都能够获赔100元。
可是甲很聪明.他想:如果我少写l元变成99元,而乙会写100元,这
样我将得到101元。何乐而不为?所以他准备写99元。可是乙更加聪明,他
算计到甲要算计自己而写99元,“人不犯我,我不犯人,人若犯我.我必犯
人”.于是他准备写98元。想不到甲又聪明一层.算计出乙要这样写98元来
坑他,“来而不往非礼也”.他准备写97元…
下象棋的时候,不是说要多“看”几步吗7看得越远,胜算越大。你多
博彝论的鹾}舻
看两步,我比你更强多看三步,你多看四步。我比你更老谋深算多看五步。
在花瓶索赔的例子中.如果两个人都“彻底理性”,都能看透十几步甚至几十
步、上百步,那么上面那样“精明比赛”的结果,最后将落到什么田地?事
实上,在彻底理性的假设之下,这个博弈唯一的纳什均衡,是两位旅客都写0。
对于这个演进了的囚徒困境,巴罗教授称之为“旅行者困境”。一方面.
它启示人们在为私利考虑的时候不要太精明,因为精明不等于高明.太精明
往往会坏事;另一方面。它对于理性行为假设的适用性也提出了警告。
对执法者也有启示
唐敬宗时,李德裕曾任浙西观察史。当地甘露寺的和尚向官府控告前任
主事僧贪污寺里的钱。他们说.过去寺里历届主事僧办交接时,账面上记载
的金子数目都很清楚。但这个主事僧办交割时。却不见金子。他们众口一词
地指控这主事僧把金子藏起来私用了。经过审讯.案子成立,主事僧也明确
认罪了。但是在审理过程中,并没有进一步交代他把金子用在什么地方了。
李德裕怀疑这案子还没查完,就想办法对被告进行试探。于是。那个主
事僧向李德裕申诉了自己的冤枉说:“多年以来,寺里都是空交账本,实际上
设有金子。寺里的人们孤立我.想借此把我排挤走。”李德褡说:“这事不难
搞清楚。”他召米了历届主事僧来对证。僧人们各自被打发进一乘轿中,轿门
都面向墙壁.不让他们相见。然后给每人一团黄泥,让他们各自捏出上届交
付下来的金块的模样,声称要以之作为给案犯定罪的证据。那些僧人并不知
金子的形状.都捏不出来。这样,寺里以前的这几届主事僧,都承认了自己
的诬陷罪。
当囚徒困境中的各方在博彝之中处于不对等地位的时候,博弈的局势很
容易发生偏移,即从合作型的博弈走向非台作型博弈。不过,这种偏移并非
岿然发生,因为影响博弈走向的,不但是双方的地位对比,还有局面的变化。
这就给我们一种启发,通过设计改变博奔参与者的格局,造成一种压力.
那么他们很有可能改变原来通谨共犯的合作,改而与“警察”合作。能够达
成这种局面的设计可能有很多种,但是最常用也最为有效的一种.就是有意
I 22
囚徒困境:自愿坐牢的嫌疑人
地制造信息的不对称。
在北美学生的电子邮件交流组中.有这样一个小故事流传甚广。
两位交往甚密的学生在杜克大学修化学课。两人在小考、实验和中期考
中都表现甚优,成绩一直是A。在期末考试前的周末,他们非常自信,于是
去参加弗吉尼亚大学的一场聚会。聚会太尽兴,结果周日这天就睡过了头,
来不及准备周一上午的化学期末考。他们投有参加考试.而是向教授撒了个
谎,说他们本已从弗吉尼亚大学往回赶.并安排好时间复习准备考试,但途
中轮胎爆了。由于没有备用胎,他们只好整夜呆在路边等待救援。现在他们
实在太累了,请求教授允许他们隔天补考。教授想了想,同意了。两人利用
周一晚上好好准备了一番,胸有成竹地来参加周二上午的考试。教授安排他
们分别在两间教室做答。第一个题目在考卷第一页,占了10分.非常简单。
两人都写出了正确答案,心情舒畅地翻到第二页。第二页只有一个问题,占
了90分。题目是:“请同破的是哪只轮胎?”结果不占而喻,两个学生只好
乖乖地向教授认错。
2。l
第3章
第…二)章
重复博弈:一夜情与地老天荒
月落鸟啼总是千年的风霜
涛声依旧不见当初的夜晚
夸天的你我怎样重复昨天的故事
——《涛声依旧》歌词
没有未来必然背叛
在车站和旅游点这些人群流动性大的地方,不但商品和服务质量差,而
且假货横行,因为在商家和顾客之间“没有下一次”——旅客因为商品质优价
廉而再次光『临的可能性微乎其微,因而正常情况下的理性选择是:一锤子买
卖,不赚白不赚。
在公共汽车上,两个陌生人会为一个座位争吵,可如果他们相互认识,
就会相互谦让。在社会联系紧密的人际关系中,人们普遍比较注意礼节和道
德,因为他们需要长期交往,并且对未来的交往存在预期。
上面这两个例子说明,对未来的预期是影响我们行为的重要因素。一种
是预期收益:我这样做,将来有什么好处;一种是预期风险:我这样做可能
将来面lI卣问题。这都将影响个人的策略。
当下屡见不鲜的一夜情现象。更能说明这种预期对行为的影响。事实上,
这个对局与经典的囚徒困境如出一辙:出轨的感情本来就是为了满足欲望而
进行的冒险。上一章中两个盗窃犯的相互背叛,其原理也照样适用于“偷情”
重复博奔:一夜情与地老天荒
的男女。
素昧平生的一对男女,偶尔在旅游中相遇,接着在宾馆里春梦一场,天
一亮就各自扬长而去,谁也不会忠于谁,彼此也不会为对方今后的不忠实而
产生任何不快。其根本原因就在于这种一夜情,本身就是“一次性”的博弈。
可是,如果男女双方由此一见钟情,决定发展成为恋人的关系,那么他
们彼此的忠心就会有一定程度的增加。原因在于他们今后还要常常碰面,还
有机会重复博弈。他们会像正常的恋人之间一样,在接下来的重复博弈中.
有无数次的机会来对背叛行为做出惩罚。
这就是一夜情与爱情之间的区别。
现代博弈论的发展在上述问题上提供了更深入的解释:每一次人际交往
其实都可以简化为两种基本选择:合作还是背叛。在人际交往中普遍存在囚
徒困境:双方明知合作带来双赢,但理性的自私和信任的缺乏导致合作难以
产生。而且,如果博奔是一次性的,那么这必然加剧双方进行坦白的决心.
选择相互背叛。
在这样的博弈中,背叛是个人的理性选择。但却直接导致集体的非理性。
似乎没有任何方法能够让我们逃脱两败俱伤的局面。难道人类注定要承受这
个无法摆脱的噩梦吗?
答案是否定的。资深的博弈论专家罗伯特…奥曼在1959年指出,人与人
的长期交往是避免短期冲突、走向协作的重要机制。拥有以色列和美国双重
国籍的奥曼于1955年获美国麻省理工学院数学博士,当时正是博弈论方兴来
艾之际,在以后50年的时间里.他一直在寻找避免囚徒困境式的纳什均衡的
机制,实际上是从理论上探索协调人们利益冲突,增进社会福利的道路。
在任何博奔中,表现最好的策略直接取决于对方采用的策略.特别是取
决于这个策略为发展双方合作留出多大的余地。这个原则的基础是下一步对
于当前一步的影响足够大,即未来是重要的。总的来说,如果你认为今后将
难以与对方相遇,或者你不太美心自己未来的利益,那么,你现在最好背叛.
而不用担心未来的后果。
而现实生活中反复交往的人际关系,则是一种“不定次数的重复博弈”。
奥曼通过自己的推导十分严密地证明,在较长的视野内,人与人交往关系的
壤
涵譬拦
重复所造成的“低头不见抬头见”的关系,可以使自私的主体之间走向合作。
这可以解释许多商业行为。一次性的买卖往往发生在双方以后不再有买
卖机会的时候,特点是尽量谋取暴利并且带欺骗性。而靠“熟客”、“回头客”
便是通过薄利行为使得双方能继续合作下去。
事实上,重复博弈也更逼真地反映了日常人际关系。在重复博弈中,合作
契约的长期性能够纠正人们短期行为的冲动。这在日常生活里是具有普遍性的。
如何破解迟到困局
我们已经知道,由于一次性博弈的大量存在.引发了很多不合作的行为。
而且,即便是在重复博弈中,合作的一方在遭到对方背叛之后,往往没有机
会也没有还手之力去进行报复。比如,资本积累阶段的违约行为,国家之间
的核威慑。在这些情况下,要使交易能够进行,并且防止不合作行为,必须
设置严格的惩罚背叛行为的机制。
有人曾经在网上提供了这样一个集体活动迟到的问题。
王老师是某班的班主任,他经常组织本班同学参加集体活动,比如郊游。
但在组织的过程中。他遇到了一个棘手的问题。在一次集体活动中,王老师
通知全班同学早上8:oo到校门口集合。结果有几个同学拖拖拉拉.导致大
家8:15才出发,从而白白耽误了一刻钟。
在此后的集体活动中,王老师改变了策略,虽然真实的集合时间仍是8:00,
但是他通知大家7:45集合,结果最晚的几个同学也在8:00赶到.从而准
时出发。王老师对自己的策略根满意。
但是好景不长。时间久了.同学们都发现了王老师通知的集合时间故意
提前,甚至可以根据王老师的通知猜测出真实的集合时间。因此.每当王老
师通知7:45集合时,大家仍然按照真实的集合时间.也就是8:00来做安
排,从而导致几个同学在B:00后才赶来。而那些准时即7:45到达集合地
点的同学都开始抱怨,进而也变得不那么守时了。
王老师的目标是通知合适的集合时间。从而达到准时出发且避免同学因
为等待而有所抱怨。那么应当制定怎样的策略。才能使活动准时开始并使大
126
重复博弈;一夜慵与地老天荒
家都满意呢?
在这个问题中.存在着老师与学生、学生与学生之间的博弈。实际上也
是一种多人的囚徒困境。因为每个学生都知道,其他学生的占优策略是选择
到达集合地点的时间,既不能太早,以免白白浪费等待的时间;又不能太晚,
以免承担耽误大家时间的责任。
要破解这个困境,老师有两个策略选择:一是只要过了集合的时间,就
不再等下去,让迟到的同学独自承担责任。这种责任和相应的惩罚对同学会造
成很大的损失,他们就不会再迟到了。二是如果迟到的学生比较多。那么等
某个数量的学生到齐以后马上出发,而让迟到时间过长的那些同学承担责任。
一般说来,博弈中双方合作时得益最大,但若一方不遵守台作约定.必
定是另一方合作者吃亏。所以需要引入惩罚机制:谁违约,就要处罚他,使
他不敢违约。一位玩家之所以会与另外一位合作,只是因为他知道,如果他
今天被骗.明天还能对欺骗实施惩罚。奥曼先生把这一洞察结论称之为“无
名氏定理”。
只有对迟到的学生进行惩罚,迟到问题才能解决,一句话,也就是实行
一份带剑的契约。从囚徒困境中我们可以悟出一条真理:合作是有利的“利
己策略”。但它必须符合以下定律:按照你希望别人对你的方式来对别人,但
只有他们也按同样方式行事才行。
带剑的契约才有效
在每一个鼓励合作的方案里,通常都会包古某种惩罚作弊者的机制。
一个坦白且供出合作伙伴的囚徒可能遭到对方朋友的报复。若是知道外
面会有什么报应等着自己,尽快逃脱牢狱之灾的前景也就不会显得那么诱人
了。人人都知道,警察会威胁毒品贩子说如果不坦白就要释放他们。这种威
胁的作用在于,一旦他们被释放,卖毒品给他们的人就会认定他们一定是招
供了而加以报复。
在最初博弈之上增加惩罚机制的做法,其目的就是为了减少作弊的动机。
在博奔的结构里还存在其他类型的惩罚。一般而言,这种机制生效的原因在
27 l
女☆∞j}舻
于博弈反复进行,这一回合作弊所得将导致其他回合所失。
归纳起来,在一次性的博弈当中没有办法达成互惠合作。只有在一种持
续的关系中才能够体现惩罚的力度.并因此成为督促合作的”术棒”。合作破
裂自然就会付出代价.这一代价会以日后损失的形式出现。假如这个代价足
够大,作弊就会受到遏制,合作就会继续。事实上,法国哲学家卢梭早就指
出了这一点,他曾经有一本《社会契约论》,认为契约是整个人类社会存在的
前提条件之一。
前面已经分析过,如果囚徒困境只是一次性的博弈,那么签订协议是毫
无意义的,其纳什均衡点并不会改变。可以签订协议的一个最基本的条件,
就是博奔需要重复若干次,至少大于一次。
重复博弈与一般性的动态博弈是不同的。多轮动态博弈中,参与者能够
了解到博弈的每一步中其他参与者的在自己选择某种策略下的行动,而重复
博奔的参与者无法了解到在任何一步中,其他参与者的策略选择。
在重复型的囚徒困境中.签订合作协议并不困难,困难的是协议对博弈
各方是否具有很强的约束力。任何协议签订之后,博弈参与者都有作弊的动
机,因为至少在作弊的这一轮博弈中,可以得到更大的收益。
霍布斯对合作协议的观点是:“不带剑的契约不过是一纸空文。它毫无力
量去保障一个人的安全。”这就是说,没有权威的协议并不能导致民主.而是
导致无政府状态。
囚徒困境扩展为多人博弈时,暴露了一个更广泛