我国有大约 5 种不同的退休计划可供选择。人们可以自由地从中挑选。我想创建一个解决方案,尝试在给定一组特定的初始条件(代表一个人的当前情况)的情况下预测最佳计划。
我的计划是为此使用 Q-learning,但我遇到的问题是未来的奖励似乎取决于过去的行动:
- 某些福利(例如在退休开始时“提现”期间降低税率)只有在代理人过去选择投资特定计划至少 X 次时才可用。
- 投资回报将取决于过去在特定计划中投资了多少。
我相信我可以通过仅根据最后一个决定计算奖励来解决第二个问题,但我认为没有办法绕过第一个案例。
我的问题是:我是否正确认为 q-learning 或任何其他强化学习算法将无法考虑这些条件(尤其是第一个条件)?如果是这样,您对可以在这种情况下找到最佳解决方案的 AI 算法有什么建议吗?
我非常感谢您的帮助!