从成功人士学到的

从生理学的视角来看,人具有趋利避害的本能(条件反射的学习机制)
因此 reward 的正确设计比用前额叶矫正 value function 要轻松得多