八喜电子书 > 经管其他电子书 > 博弈论的诡计(1) >

第5部分

博弈论的诡计(1)-第5部分

小说: 博弈论的诡计(1) 字数: 每页4000字

按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!



照这个低的价格赔偿,但是对讲真话的旅客奖励2元钱,对讲假话的旅客罚
款2元。
    为了获取最大赔偿,甲乙两位旅客最好的策略就是都写100元,这样两
人都能够获赔100元。
    可是甲很聪明.他想:如果我少写l元变成99元,而乙会写100元,这
样我将得到101元。何乐而不为?所以他准备写99元。可是乙更加聪明,他
算计到甲要算计自己而写99元,“人不犯我,我不犯人,人若犯我.我必犯
人”.于是他准备写98元。想不到甲又聪明一层.算计出乙要这样写98元来
坑他,“来而不往非礼也”.他准备写97元…
    下象棋的时候,不是说要多“看”几步吗7看得越远,胜算越大。你多
博彝论的鹾}舻
看两步,我比你更强多看三步,你多看四步。我比你更老谋深算多看五步。
在花瓶索赔的例子中.如果两个人都“彻底理性”,都能看透十几步甚至几十
步、上百步,那么上面那样“精明比赛”的结果,最后将落到什么田地?事
实上,在彻底理性的假设之下,这个博弈唯一的纳什均衡,是两位旅客都写0。
    对于这个演进了的囚徒困境,巴罗教授称之为“旅行者困境”。一方面.
它启示人们在为私利考虑的时候不要太精明,因为精明不等于高明.太精明
往往会坏事;另一方面。它对于理性行为假设的适用性也提出了警告。
对执法者也有启示
    唐敬宗时,李德裕曾任浙西观察史。当地甘露寺的和尚向官府控告前任
主事僧贪污寺里的钱。他们说.过去寺里历届主事僧办交接时,账面上记载
的金子数目都很清楚。但这个主事僧办交割时。却不见金子。他们众口一词
地指控这主事僧把金子藏起来私用了。经过审讯.案子成立,主事僧也明确
认罪了。但是在审理过程中,并没有进一步交代他把金子用在什么地方了。
    李德裕怀疑这案子还没查完,就想办法对被告进行试探。于是。那个主
事僧向李德裕申诉了自己的冤枉说:“多年以来,寺里都是空交账本,实际上
设有金子。寺里的人们孤立我.想借此把我排挤走。”李德褡说:“这事不难
搞清楚。”他召米了历届主事僧来对证。僧人们各自被打发进一乘轿中,轿门
都面向墙壁.不让他们相见。然后给每人一团黄泥,让他们各自捏出上届交
付下来的金块的模样,声称要以之作为给案犯定罪的证据。那些僧人并不知
金子的形状.都捏不出来。这样,寺里以前的这几届主事僧,都承认了自己
的诬陷罪。
    当囚徒困境中的各方在博彝之中处于不对等地位的时候,博弈的局势很
容易发生偏移,即从合作型的博弈走向非台作型博弈。不过,这种偏移并非
岿然发生,因为影响博弈走向的,不但是双方的地位对比,还有局面的变化。
    这就给我们一种启发,通过设计改变博奔参与者的格局,造成一种压力.
那么他们很有可能改变原来通谨共犯的合作,改而与“警察”合作。能够达
成这种局面的设计可能有很多种,但是最常用也最为有效的一种.就是有意
I 22
囚徒困境:自愿坐牢的嫌疑人
地制造信息的不对称。
    在北美学生的电子邮件交流组中.有这样一个小故事流传甚广。
    两位交往甚密的学生在杜克大学修化学课。两人在小考、实验和中期考
中都表现甚优,成绩一直是A。在期末考试前的周末,他们非常自信,于是
去参加弗吉尼亚大学的一场聚会。聚会太尽兴,结果周日这天就睡过了头,
来不及准备周一上午的化学期末考。他们投有参加考试.而是向教授撒了个
谎,说他们本已从弗吉尼亚大学往回赶.并安排好时间复习准备考试,但途
中轮胎爆了。由于没有备用胎,他们只好整夜呆在路边等待救援。现在他们
实在太累了,请求教授允许他们隔天补考。教授想了想,同意了。两人利用
周一晚上好好准备了一番,胸有成竹地来参加周二上午的考试。教授安排他
们分别在两间教室做答。第一个题目在考卷第一页,占了10分.非常简单。
两人都写出了正确答案,心情舒畅地翻到第二页。第二页只有一个问题,占
了90分。题目是:“请同破的是哪只轮胎?”结果不占而喻,两个学生只好
乖乖地向教授认错。
2。l
第3章
第…二)章
重复博弈:一夜情与地老天荒
月落鸟啼总是千年的风霜
涛声依旧不见当初的夜晚
夸天的你我怎样重复昨天的故事
——《涛声依旧》歌词
没有未来必然背叛
    在车站和旅游点这些人群流动性大的地方,不但商品和服务质量差,而
且假货横行,因为在商家和顾客之间“没有下一次”——旅客因为商品质优价
廉而再次光『临的可能性微乎其微,因而正常情况下的理性选择是:一锤子买
卖,不赚白不赚。
    在公共汽车上,两个陌生人会为一个座位争吵,可如果他们相互认识,
就会相互谦让。在社会联系紧密的人际关系中,人们普遍比较注意礼节和道
德,因为他们需要长期交往,并且对未来的交往存在预期。
    上面这两个例子说明,对未来的预期是影响我们行为的重要因素。一种
是预期收益:我这样做,将来有什么好处;一种是预期风险:我这样做可能
将来面lI卣问题。这都将影响个人的策略。
    当下屡见不鲜的一夜情现象。更能说明这种预期对行为的影响。事实上,
这个对局与经典的囚徒困境如出一辙:出轨的感情本来就是为了满足欲望而
进行的冒险。上一章中两个盗窃犯的相互背叛,其原理也照样适用于“偷情”
重复博奔:一夜情与地老天荒
的男女。
    素昧平生的一对男女,偶尔在旅游中相遇,接着在宾馆里春梦一场,天
一亮就各自扬长而去,谁也不会忠于谁,彼此也不会为对方今后的不忠实而
产生任何不快。其根本原因就在于这种一夜情,本身就是“一次性”的博弈。
    可是,如果男女双方由此一见钟情,决定发展成为恋人的关系,那么他
们彼此的忠心就会有一定程度的增加。原因在于他们今后还要常常碰面,还
有机会重复博弈。他们会像正常的恋人之间一样,在接下来的重复博弈中.
有无数次的机会来对背叛行为做出惩罚。
    这就是一夜情与爱情之间的区别。
    现代博弈论的发展在上述问题上提供了更深入的解释:每一次人际交往
其实都可以简化为两种基本选择:合作还是背叛。在人际交往中普遍存在囚
徒困境:双方明知合作带来双赢,但理性的自私和信任的缺乏导致合作难以
产生。而且,如果博奔是一次性的,那么这必然加剧双方进行坦白的决心.
选择相互背叛。
    在这样的博弈中,背叛是个人的理性选择。但却直接导致集体的非理性。
似乎没有任何方法能够让我们逃脱两败俱伤的局面。难道人类注定要承受这
个无法摆脱的噩梦吗?
    答案是否定的。资深的博弈论专家罗伯特…奥曼在1959年指出,人与人
的长期交往是避免短期冲突、走向协作的重要机制。拥有以色列和美国双重
国籍的奥曼于1955年获美国麻省理工学院数学博士,当时正是博弈论方兴来
艾之际,在以后50年的时间里.他一直在寻找避免囚徒困境式的纳什均衡的
机制,实际上是从理论上探索协调人们利益冲突,增进社会福利的道路。
    在任何博奔中,表现最好的策略直接取决于对方采用的策略.特别是取
决于这个策略为发展双方合作留出多大的余地。这个原则的基础是下一步对
于当前一步的影响足够大,即未来是重要的。总的来说,如果你认为今后将
难以与对方相遇,或者你不太美心自己未来的利益,那么,你现在最好背叛.
而不用担心未来的后果。
    而现实生活中反复交往的人际关系,则是一种“不定次数的重复博弈”。
奥曼通过自己的推导十分严密地证明,在较长的视野内,人与人交往关系的

涵譬拦
重复所造成的“低头不见抬头见”的关系,可以使自私的主体之间走向合作。
    这可以解释许多商业行为。一次性的买卖往往发生在双方以后不再有买
卖机会的时候,特点是尽量谋取暴利并且带欺骗性。而靠“熟客”、“回头客”
便是通过薄利行为使得双方能继续合作下去。
    事实上,重复博弈也更逼真地反映了日常人际关系。在重复博弈中,合作
契约的长期性能够纠正人们短期行为的冲动。这在日常生活里是具有普遍性的。
如何破解迟到困局
    我们已经知道,由于一次性博弈的大量存在.引发了很多不合作的行为。
而且,即便是在重复博弈中,合作的一方在遭到对方背叛之后,往往没有机
会也没有还手之力去进行报复。比如,资本积累阶段的违约行为,国家之间
的核威慑。在这些情况下,要使交易能够进行,并且防止不合作行为,必须
设置严格的惩罚背叛行为的机制。
    有人曾经在网上提供了这样一个集体活动迟到的问题。
    王老师是某班的班主任,他经常组织本班同学参加集体活动,比如郊游。
但在组织的过程中。他遇到了一个棘手的问题。在一次集体活动中,王老师
通知全班同学早上8:oo到校门口集合。结果有几个同学拖拖拉拉.导致大
家8:15才出发,从而白白耽误了一刻钟。
    在此后的集体活动中,王老师改变了策略,虽然真实的集合时间仍是8:00,
但是他通知大家7:45集合,结果最晚的几个同学也在8:00赶到.从而准
时出发。王老师对自己的策略根满意。
    但是好景不长。时间久了.同学们都发现了王老师通知的集合时间故意
提前,甚至可以根据王老师的通知猜测出真实的集合时间。因此.每当王老
师通知7:45集合时,大家仍然按照真实的集合时间.也就是8:00来做安
排,从而导致几个同学在B:00后才赶来。而那些准时即7:45到达集合地
点的同学都开始抱怨,进而也变得不那么守时了。
    王老师的目标是通知合适的集合时间。从而达到准时出发且避免同学因
为等待而有所抱怨。那么应当制定怎样的策略。才能使活动准时开始并使大
126
重复博弈;一夜慵与地老天荒
家都满意呢?
    在这个问题中.存在着老师与学生、学生与学生之间的博弈。实际上也
是一种多人的囚徒困境。因为每个学生都知道,其他学生的占优策略是选择
到达集合地点的时间,既不能太早,以免白白浪费等待的时间;又不能太晚,
以免承担耽误大家时间的责任。
    要破解这个困境,老师有两个策略选择:一是只要过了集合的时间,就
不再等下去,让迟到的同学独自承担责任。这种责任和相应的惩罚对同学会造
成很大的损失,他们就不会再迟到了。二是如果迟到的学生比较多。那么等
某个数量的学生到齐以后马上出发,而让迟到时间过长的那些同学承担责任。
    一般说来,博弈中双方合作时得益最大,但若一方不遵守台作约定.必
定是另一方合作者吃亏。所以需要引入惩罚机制:谁违约,就要处罚他,使
他不敢违约。一位玩家之所以会与另外一位合作,只是因为他知道,如果他
今天被骗.明天还能对欺骗实施惩罚。奥曼先生把这一洞察结论称之为“无
名氏定理”。
    只有对迟到的学生进行惩罚,迟到问题才能解决,一句话,也就是实行
一份带剑的契约。从囚徒困境中我们可以悟出一条真理:合作是有利的“利
己策略”。但它必须符合以下定律:按照你希望别人对你的方式来对别人,但
只有他们也按同样方式行事才行。
带剑的契约才有效
    在每一个鼓励合作的方案里,通常都会包古某种惩罚作弊者的机制。
    一个坦白且供出合作伙伴的囚徒可能遭到对方朋友的报复。若是知道外
面会有什么报应等着自己,尽快逃脱牢狱之灾的前景也就不会显得那么诱人
了。人人都知道,警察会威胁毒品贩子说如果不坦白就要释放他们。这种威
胁的作用在于,一旦他们被释放,卖毒品给他们的人就会认定他们一定是招
供了而加以报复。
    在最初博弈之上增加惩罚机制的做法,其目的就是为了减少作弊的动机。
在博奔的结构里还存在其他类型的惩罚。一般而言,这种机制生效的原因在
27 l
女☆∞j}舻
于博弈反复进行,这一回合作弊所得将导致其他回合所失。
    归纳起来,在一次性的博弈当中没有办法达成互惠合作。只有在一种持
续的关系中才能够体现惩罚的力度.并因此成为督促合作的”术棒”。合作破
裂自然就会付出代价.这一代价会以日后损失的形式出现。假如这个代价足
够大,作弊就会受到遏制,合作就会继续。事实上,法国哲学家卢梭早就指
出了这一点,他曾经有一本《社会契约论》,认为契约是整个人类社会存在的
前提条件之一。
    前面已经分析过,如果囚徒困境只是一次性的博弈,那么签订协议是毫
无意义的,其纳什均衡点并不会改变。可以签订协议的一个最基本的条件,
就是博奔需要重复若干次,至少大于一次。
    重复博弈与一般性的动态博弈是不同的。多轮动态博弈中,参与者能够
了解到博弈的每一步中其他参与者的在自己选择某种策略下的行动,而重复
博奔的参与者无法了解到在任何一步中,其他参与者的策略选择。
    在重复型的囚徒困境中.签订合作协议并不困难,困难的是协议对博弈
各方是否具有很强的约束力。任何协议签订之后,博弈参与者都有作弊的动
机,因为至少在作弊的这一轮博弈中,可以得到更大的收益。
    霍布斯对合作协议的观点是:“不带剑的契约不过是一纸空文。它毫无力
量去保障一个人的安全。”这就是说,没有权威的协议并不能导致民主.而是
导致无政府状态。
    囚徒困境扩展为多人博弈时,暴露了一个更广泛

返回目录 上一页 下一页 回到顶部 0 0

你可能喜欢的