延迟满足的骗局

Ogiso_Setsuna · 2023 年8 月 29 日 06:27

我们来玩一个游戏：

扔硬币，如果扔出的是正面则重复扔硬币，直到扔出反面为止，一次游戏结束。一次游戏的奖金是根据扔硬币的次数决定的，即：
如果第 1 次就扔出反面，奖金 2 块；
如果第 2 次才扔出反面，奖金 4 块；
…
如果第 n 次才扔出反面，奖金 2^n；

问：你最多愿意每次花多少钱玩这个游戏？

很显然，这个游戏的期望是

E = 2*(1/2) + 4*(1/2)(1/2) + … + 2^n(1/2)^n + …
= 1 + 1 + 1 + …
= ∞

所以理论上我们花费任意有限的价格去参与游戏应该都是划算的。但是，这个结论明显与人们的直觉相悖。事实上，现实中几乎没有人愿意花费 20 以上的价格去玩这个游戏，更不用说花费任意有限的价格了。

然而，在现实中人们精力有限、生命有限，只能进行有限次游戏。这时，使用基于“无限次”游戏假设计算出的“期望值”来进行决策，是否会存在问题呢？

我们再仔细观察一下游戏的规则，发现无穷大的期望，来自于在时间的无穷远方，将一个高阶无穷大的奖励压缩进了一个无穷小的概率。对任何现实中的人来说，高阶无穷大和无穷大没有什么区别，因此没有人能够拿到最终的这个所谓无穷大的收益。

这使我们不得不反思，延迟满足是否总是那么行之有效？如果把一个超级巨大的奖励放在一个非常漫长的延时之后，真的会有人实现吗？延迟满足在此时真的还有意义吗？

我又想到了强化学习中的 Q-learning，距离当前时刻越近，所得到的 reward 越高（我没有仔细研究过 RL，不清楚是否大部分的 reward 都是这么设置的）。这看起来也很有道理：在实现一个目标的开始阶段，你得到的 reward 越高，你越可能保持在正确的道路上。而如果是越往后 reward 越高，你更有可能在开始阶段走了一条奇怪的路子摆烂，直到最后一步，虽然 reward 奇大无比，但是你因为开始偏离得太多，几乎完全不可能得到这个 reward 了。

所以我在想，也许我们应该给自己在更近的阶段设置更多的奖励，我们才能 keep motivated，而不是把一个巨大的奖励藏在无穷远处，画饼充饥。延迟满足并不总是有效，因为人的生命与精力并不是无穷的。一味欺骗自己、麻痹自己，相信那个无穷远处的高阶无穷大奖励，恰恰是不理性的，反而容易让人堕入虚无的深渊。

anonymous_coward_old · 2023 年8 月 29 日 06:31

某种意义上讲人类社会就是个 Ponzi scheme，前面的人靠后面的人工作挣钱来养老

anonymous_coward_old · 2023 年8 月 29 日 08:53

严谨地说，reward 不是距离当前 timestep 越近越高。reward 是 MDP 中当前状态下采取某动作转移到另一个状态时获得的值， r(s, a, s') ，和 timestep 无关。

只是在计算 return (expected sum of reward) 的时候，可以在 reward 前面加个折扣 \gamma 。这个折扣还可以理解为：MDP 有 1-\gamma 的概率转移到死亡状态，从而后面什么奖励都没有。

3ee28fe1a60c95b89d29317f122c70 · 2023 年8 月 29 日 12:11

搞到一万亿以上的钱可能没区别了，所以可以想象一万亿以上都是一万亿封顶，则可能期望是 40 元左右

Ogiso_Setsuna · 2023 年8 月 29 日 14:09

结论是：如果玩 n 次，总收益依概率为 n \log_{2}{n} ，平均一局赚 \log_{2}{n} 元，只要价格低于 \log_{2}{n} 元就可以考虑去玩。
如果你愿意付 40 元去玩一局，那么你需要玩一万亿次，你的期望才能回本，大概需要四十万亿的本金。

3ee28fe1a60c95b89d29317f122c70 · 2023 年8 月 29 日 15:37

是，我是想给个比较松的上界。。

anonymous_warrior · 2025 年3 月 4 日 14:52

占资本市场最大块的债券定价也是这样
拿的是未来的现金流折现

anonymous_warrior · 2025 年3 月 4 日 15:03

金融工具最初的目的就是为了保障财富能够穿越时间和空间的限制
用高地填平低地，减少人生的波动

话题		回复	浏览量
[破事氵] 你为什么喜欢二次元闲聊吹水	37	177	2025 年4 月 20 日
想了很久，感觉仍旧被人生的意义困扰闲聊吹水人生探讨	14	173	2024 年5 月 6 日
想问问大家对新出的《网络游戏管理办法》看法游戏 / 娱乐	18	256	2023 年12 月 29 日
打入少儿编程机构，了解当下“最火”课外补习班！闲聊吹水	19	188	2023 年10 月 2 日
门友如何学习经济相关知识闲聊吹水	12	165	2025 年4 月 14 日
【音乐】交兵的听胶之旅游戏 / 娱乐 music , vinyl	11	300	2025 年4 月 11 日
怎么样才算志存高远，脚踏实地闲聊吹水	13	205	2024 年4 月 1 日
人如何找到认知自我的锚点闲聊吹水	7	129	2025 年1 月 5 日
单点故障—— @admin 是你站最大的 SPOF 网站	3	91	2024 年1 月 9 日
大家上了大学以后有“文化体力”狂掉的现象吗？闲聊吹水	12	343	2023 年10 月 19 日

延迟满足的骗局

相关话题