延迟满足的骗局

我们来玩一个游戏:

扔硬币,如果扔出的是正面则重复扔硬币,直到扔出反面为止,一次游戏结束。一次游戏的奖金是根据扔硬币的次数决定的,即:
如果第 1 次就扔出反面,奖金 2 块;
如果第 2 次才扔出反面,奖金 4 块;

如果第 n 次才扔出反面,奖金 2^n;

问:你最多愿意每次花多少钱玩这个游戏?

很显然,这个游戏的期望是

E = 2*(1/2) + 4*(1/2)(1/2) + … + 2^n(1/2)^n + …
= 1 + 1 + 1 + …
= ∞

所以理论上我们花费任意有限的价格去参与游戏应该都是划算的。但是,这个结论明显与人们的直觉相悖。事实上,现实中几乎没有人愿意花费 20 以上的价格去玩这个游戏,更不用说花费任意有限的价格了。

然而,在现实中人们精力有限、生命有限,只能进行有限次游戏。这时,使用基于“无限次”游戏假设计算出的“期望值”来进行决策,是否会存在问题呢?

我们再仔细观察一下游戏的规则,发现无穷大的期望,来自于在时间的无穷远方,将一个高阶无穷大的奖励压缩进了一个无穷小的概率。对任何现实中的人来说,高阶无穷大和无穷大没有什么区别,因此没有人能够拿到最终的这个所谓无穷大的收益。

这使我们不得不反思,延迟满足是否总是那么行之有效?如果把一个超级巨大的奖励放在一个非常漫长的延时之后,真的会有人实现吗?延迟满足在此时真的还有意义吗?

我又想到了强化学习中的 Q-learning,距离当前时刻越近,所得到的 reward 越高(我没有仔细研究过 RL,不清楚是否大部分的 reward 都是这么设置的)。这看起来也很有道理:在实现一个目标的开始阶段,你得到的 reward 越高,你越可能保持在正确的道路上。而如果是越往后 reward 越高,你更有可能在开始阶段走了一条奇怪的路子摆烂,直到最后一步,虽然 reward 奇大无比,但是你因为开始偏离得太多,几乎完全不可能得到这个 reward 了。

所以我在想,也许我们应该给自己在更近的阶段设置更多的奖励,我们才能 keep motivated,而不是把一个巨大的奖励藏在无穷远处,画饼充饥。延迟满足并不总是有效,因为人的生命与精力并不是无穷的。一味欺骗自己、麻痹自己,相信那个无穷远处的高阶无穷大奖励,恰恰是不理性的,反而容易让人堕入虚无的深渊。

6 Likes

某种意义上讲人类社会就是个 Ponzi scheme,前面的人靠后面的人工作挣钱来养老

严谨地说,reward 不是距离当前 timestep 越近越高。reward 是 MDP 中当前状态下采取某动作转移到另一个状态时获得的值, r(s, a, s') ,和 timestep 无关。

只是在计算 return (expected sum of reward) 的时候,可以在 reward 前面加个折扣 \gamma 。这个折扣还可以理解为:MDP 有 1-\gamma 的概率转移到死亡状态,从而后面什么奖励都没有。

1 Like

搞到一万亿以上的钱可能没区别了,所以可以想象一万亿以上都是一万亿封顶,则可能期望是 40 元左右

1 Like

结论是:如果玩 n 次,总收益依概率为 n \log_{2}{n} ,平均一局赚 \log_{2}{n} 元,只要价格低于 \log_{2}{n} 元就可以考虑去玩。
如果你愿意付 40 元去玩一局,那么你需要玩一万亿次,你的期望才能回本,大概需要四十万亿的本金。

1 Like

是,我是想给个比较松的上界。。