| 哪种策略更能赢? | |
| 潘天群 | |
|
连载:博弈生存 出版社:中央编译出版社 作者:潘天群 | |
| 假定我们的社会已经形成约束行动者的道德规范。如果对不道德的行为不能产生即时的惩罚,不道德的行为在社会中往往能给行为者带来好处。这表现在一次性的非合作的博弈中,行为者理性地选取对自己有利的行动。但是,如果存在重复博弈,参与者之间对不合作行为就会形成惩罚机制。 对囚徒困境进行无限次的重复博弈,什么样的策略会赢? 甲乙不合作合作不合作(1,1)(4,0)合作(0,4)(2,2) 假定第一步双方均采取合作的策略,第二步有人采取不合作策略,而对方采取合作策略,采取不合作策略的人将有支付4,采取合作策略的人将有支付0。采取合作策略的人感觉自己不合算,他在第三步也会采取不合作策略。此时双方有可能进入均采取不合作策略的重复性的囚徒困境。因此,在第二步,采取不合作策略的人会考虑这样的结果。 这里涉及参与者以什么样的态度对待对方的不合作策略。在博弈论里,有两个著名的策略。 如果一方采取不合作的策略另一方随即也采取不合作策略并且永远采取不合作策略,在博弈论里面称之为触发策略,或称冷酷策略,英文叫trigger strategy。 如果对方知道你的策略是触发策略,那么对方将不敢采取不合作策略,因为一旦他采取了不合作策略,双方便永远进入不合作的困境。因此,只要有人采取触发策略,那么双方均愿意采取合作策略。但是这个策略面临着这样一个问题:如果双方存在误解,或者由于一方发生选择性的错误,这个错误是无意的,那么结果将是双方均采取不合作的策略。也就是说,这种策略不给对方一个改正错误或解释错误的机会。 第二种策略是,若你采取不合作策略,我也采取不合作策略,但是如果你采取了合作策略,我也采取合作策略。这叫“一报还一报”策略,或者称之为“针锋相对”,英文叫tit-for-tat。美国密执安大学的罗伯特·埃克斯罗德(Robert Axerold)主持了一次计算机比赛,看谁写出来的程序能够赢。参加者有政治学家、数学家、经济学家、社会学家,他们都详细研究过囚徒困境。获胜者是加拿大多伦多大学的拉波波特写出的tit-for-tat策略。这个程序非常简单:第一步采取合作,接着对方采取什么策略,他便跟着做什么。 当然有多种策略,如对方采取了不合作,但自己永远采取合作策略,这个策略可以叫做“以德报怨”策略。这个策略对行动者最为不利,因为对方知道你采取这种策略,他会永远采取不合作的策略,因而理性的人是不会采取这种“以德报怨”策略的。然而,极端道德的人是超越理性的限制的,此时他会采取“以德报怨”策略。佛说:“我不入地狱,谁入地狱?”基督说:“爱你的敌人。”他们爱一切人而不会计算他爱的行动会给他带来利益或灾难,而是希望他的行动感化众生。 如果是有限次的囚徒困境,那么情况就不同于上述无限次的囚徒困境的重复博弈。当临近博弈的终点时,采取不合作策略的可能性加大,如果参与人以前的所有策略均为合作策略,并且被告知下一次博弈是最后一次,那么双方肯定采取不合作的策略。 这可以解释许多商业行为。一次性的买卖往往发生在双方以后不再有买卖机会的时候,尽量谋取高利并且带欺骗性是其特点。而靠“熟客”、“回头客”便是通过薄利行为使得双方能继续合作下去。 |




