数据挖掘 - 未来取决于过去事件时使用的“学习”算法（未满足 MDP 属性） - 吾爱随笔录

我国有大约 5 种不同的退休计划可供选择。人们可以自由地从中挑选。我想创建一个解决方案，尝试在给定一组特定的初始条件（代表一个人的当前情况）的情况下预测最佳计划。

我的计划是为此使用 Q-learning，但我遇到的问题是未来的奖励似乎取决于过去的行动：

我相信我可以通过仅根据最后一个决定计算奖励来解决第二个问题，但我认为没有办法绕过第一个案例。

我的问题是：我是否正确认为 q-learning 或任何其他强化学习算法将无法考虑这些条件（尤其是第一个条件）？如果是这样，您对可以在这种情况下找到最佳解决方案的 AI 算法有什么建议吗？

我非常感谢您的帮助！