- API介绍
- API接口
- 定价


囚徒困境计算器
通过我们的囚徒困境计算器,您将学习博弈论的基础知识。博弈论是一个处理决策及其结果的数学框架。博弈是两个或多个代理(玩家)需要做出决策的情况。博弈论可以预测这些代理的行为和行动的后果,制定玩家的策略:导致明确结果的理想选择。
博弈论是数学的一个复杂分支:从两个玩家的简单博弈,我们可以达到多个玩家在不同程度的知识下做出决策的复杂情况,这些情况越来越多地模拟现实世界的场景。在本文中,我们将保持内容的可访问性和可理解性!
什么是囚徒困境?
想象两名罪犯因轻罪被捕。在审讯期间,他们被分开关押,警察给他们两个选择:
- 保持沉默(合作)
- 坦白(背叛)
这是每个玩家的两种可能策略。在博弈论中,决策过程由每种策略组合的结果控制。这个结果被称为收益。每个玩家都有与每对策略相关的收益。
让我们考虑其中一个玩家。我们叫她爱丽丝:如果她坦白而另一个玩家(鲍勃)也坦白,他们都会受到严厉的惩罚。这个收益用P标记,代表惩罚。如果她保持沉默,鲍勃也保持沉默,缺乏证据使他们能够逃脱,获得合作奖励R。如果她坦白而另一个玩家保持沉默,她将无罪释放(背叛者的收益T),而她的同伙则受到最重的惩罚(受骗者的收益S)。如果爱丽丝保持沉默而她的同伙坦白,最后一种情况会反过来发生。
囚徒困境的收益矩阵
T = 背叛诱惑(0分)
R = 合作奖励(-1分)
P = 惩罚(-5分)
S = 受骗损失(-10分)
如果我们想让博弈成为囚徒困境博弈,上面确定的四个收益必须满足不等式 T>R>P>S。其他收益之间的关系将导致其他具有截然不同的获胜策略和结果的博弈。
数学家为这种设置创建了一个有用的符号,即收益矩阵。在这种符号中,玩家的可能策略和相对收益被整齐地排列。
计算囚徒困境:单轮博弈
让我们为前面章节中确定的收益分配数字。遵循不等式,我们可以决定每个变量的值将是一定数量的监禁时间。监禁时间越短越好(理想的最佳收益是0),因此我们将为变量分配负数或0。一个可能的组合是:
收益值分配:
• T = 0(背叛者无需入狱)
• R = -1(如果两名囚犯合作,他们在监狱中度过的时间最少)
• P = -5(双方坦白的情况下都会受到实质性惩罚)
• S = -10(保持沉默而另一方背叛的玩家受到最严厉的惩罚)
现在将这些收益排列在矩阵中,并确定两个玩家的策略变化如何影响他们的收益。从这些场景中我们得到的共同图景是什么?两个玩家都会背叛以试图最大化他们的收益。
纳什均衡与迭代博弈
纳什均衡是我们上面呈现的形式的博弈的解决方案。根据定义,纳什均衡对应于一组策略(每个玩家一个),其中每个代理假设另一个玩家采用均衡策略,不会通过改变策略来增加其收益。
单轮博弈的结果:纳什均衡往往不是最优的。在囚徒困境的情况下,它对应于两名囚犯都坦白罪行的情况。在这种情况下,如果其中一人改变策略,他将获得受骗者的收益;因此,没有改变的动机。
考虑到两个玩家都合作的最优解决方案,我们可以看到每个人都可以通过改变策略来增加收益(因此他们都会这样做!)。一个博弈可以没有纳什均衡(石头、剪刀、布就是这种情况的例子),一个或多个均衡。
迭代囚徒困境:幸运的是,答案是否定的。囚徒困境的单一实例导致我们得出这个看似违反直觉的解决方案。但是,一旦我们开始重复玩这个游戏,根据其他玩家的行为创建和调整重复策略,结果就会发生显著变化。我们现在正在处理迭代囚徒困境。
设置与以前相同,但这次我们计算累积收益。如果没有指定的时间限制,我们引入一个系数来减少比赛进行时的收益。从数学上讲,我们将第n轮的收益乘以δⁿ,其中δ是介于0(收益快速减少)和1(收益缓慢减少)之间的数字。
迭代博弈中的策略
迭代囚徒困境中的策略描述了"自动机"如何根据其规则行动。自动机可以对其他策略做出反应,例如友善(合作)、报复、宽恕等。
描述囚徒困境博弈原始结果的策略称为AllD(全部背叛)。无论初始状态和对手的策略如何,AllD自动机总是背叛。令人惊讶的是,这并不是迭代囚徒困境的最佳策略。
如果一个玩家暂时保持友善,但一旦对手背叛就用背叛进行报复,并且永远不会再改变其策略,那么它使用的是严厉或触发策略。这种策略略好于AllD,但仍远非最优。
这场囚徒困境锦标赛的真正赢家是一种带有报复暗示的宽恕策略。这个自动机的名字是以牙还牙(tit for tat),它只是复制对手的最后一步。如果对手背叛,以牙还牙就背叛,并继续这样做,直到对手改变主意。在这种情况下,以牙还牙最后一次背叛(因为决策是同时进行的),获得更高的收益并宽恕。如果两个以牙还牙的自动机相互对抗,它们将保持彼此的友善行为,并在锦标赛结束时最大化他们的累积收益:这促进了友善策略的出现。
常见问题
囚徒困境中的获胜策略是什么?
囚徒困境中的获胜策略并不是导致玩家最优结果的策略。由于背叛给了玩家获得最大收益的机会,两名囚犯都会坦白他们的罪行,导致两人的收益都远非最优的情况。直觉上,我们会认为合作策略会更好,但事实并非如此。
如果囚徒困境重复多次会怎样?
如果囚徒困境博弈被多次迭代,重复的背叛策略往往表现不佳,因为它们经常导致重大损失。合作会得到更温和的惩罚:在迭代博弈的情况下,合作策略倾向于通过相互协议获得更高的收益。这种友善的出现模拟了现实生活中通常看到的行为。
囚徒困境的单次迭代是否现实?
囚徒困境的单次迭代并不总是现实的。只有在满足多个条件时,两个玩家都坦白并受到严厉惩罚的结果才可能发生:玩家是自私和理性的(因此他们试图最大化他们的收益);玩家拥有完整的信息;没有沟通。一旦满足这些条件,自私行为可能比合作行为更好,但在现实生活中,看到某种程度的合作更为常见。
参数名 | 参数类型 | 默认值 | 是否必传 | 描述 |
---|---|---|---|---|
playerOneStrategy | string | cooperate | 否 | 玩家一的策略选择 |
gameMode | string | single | 否 | 选择单轮博弈或迭代博弈 |
playerTwoStrategy | string | cooperate | 否 | 玩家二的策略选择 |
参数名 | 参数类型 | 默认值 | 描述 |
---|---|---|---|
finalPayoffs+playerTwoPayoff | number | 玩家二的最终收益值 | |
finalPayoffs+playerOnePayoff | number | 玩家一的最终收益值 | |
strategyAnalysis | string | 对博弈结果的策略分析说明 | |
nashEquilibrium+playerTwoAction | string | 纳什均衡下玩家二的策略 | |
nashEquilibrium+playerOneAction | string | 纳什均衡下玩家一的策略 |
错误码 | 错误信息 | 描述 |
---|---|---|
FP00000 | 成功 | |
FP03333 | 失败 |
参考上方对接示例