未来取决于过去事件时使用的“学习”算法(未满足 MDP 属性)

数据挖掘 q学习 马尔科夫过程
2022-02-24 12:41:57

我国有大约 5 种不同的退休计划可供选择。人们可以自由地从中挑选。我想创建一个解决方案,尝试在给定一组特定的初始条件(代表一个人的当前情况)的情况下预测最佳计划。

我的计划是为此使用 Q-learning,但我遇到的问题是未来的奖励似乎取决于过去的行动:

  1. 某些福利(例如在退休开始时“提现”期间降低税率)只有在代理人过去选择投资特定计划至少 X 次时才可用。
  2. 投资回报将取决于过去在特定计划中投资了多少。

我相信我可以通过仅根据最后一个决定计算奖励来解决第二个问题,但我认为没有办法绕过第一个案例。

我的问题是:我是否正确认为 q-learning 或任何其他强化学习算法将无法考虑这些条件(尤其是第一个条件)?如果是这样,您对可以在这种情况下找到最佳解决方案的 AI 算法有什么建议吗?

我非常感谢您的帮助!

0个回答
没有发现任何回复~