从生理学的视角来看,人具有趋利避害的本能(条件反射的学习机制)
因此 reward 的正确设计比用前额叶矫正 value function 要轻松得多
Related topics
| 話題 | 回覆 | 觀看 | 活動 | |
|---|---|---|---|---|
| [Wait But Why] 无宗教信仰者的宗教 | 0 | 29 | 2025年02月27日 | |
| [破事氵] 你为什么喜欢二次元 | 37 | 187 | 2025年04月20日 | |
| [Wait But Why] 你可能属于以下 10 种奇怪的友谊 | 0 | 53 | 2025年02月27日 | |
| [Wait But Why] 职业选择 How to Pick a Career (That Actually Fits You) | 6 | 95 | 2025年02月25日 | |
| “性别对立”诸问题 | 82 | 465 | 2025年05月12日 | |
| 喜欢变得可爱 | 31 | 374 | 2024年05月09日 | |
| 单点故障—— @admin 是你站最大的 SPOF | 3 | 97 | 2024年01月09日 | |
| CS323_I_2024_I_The_Age_of_AI,_Eric_Schmidt.txt | 1 | 83 | 2024年08月19日 | |
| 当我们不再理解这个世界 | 0 | 80 | 2025年01月22日 | |
| The Bitter Lesson(惨痛的教训)Rich Sutton | 4 | 96 | 2025年01月17日 |