我正在尝试学习如何自己进行强化学习,但我不确定如何针对特定问题实施神经网络。
游戏进行了大约 100 万步。在每一步,我都有 36 个可用的连续特征(未知规则)和 4 个动作可供选择。之后环境会告诉我下一步的36个特征是什么,我的分数是多少。我一直在创建和查看数据,有时只能在很久以后才清楚一个动作是好还是坏(大约 10 个动作)。
所以涉及到两件事。
1)我必须“学习”,给定一个动作,世界将如何从 pre_state 变为 post_state,并且
2)我必须学习优化给定状态的奖励并从 4 个动作中进行选择。
所以我想只记录 state_before,state_after,很多随机动作的奖励。我也许可以只使用 36 * 10 的最后一步作为预测指标。但话又说回来,也许我应该只对州之间的差异感兴趣?
问题在于我看过马尔可夫决策过程,但它们假设一个离散的搜索空间(而这里它是连续的)。
任何帮助都有助于尝试了解应该涉及哪些层来解决这个问题,也许最合乎逻辑的方式是对数据进行采样。
我真的希望人们能指出我正确的方向。我基本上愿意在 Python 中使用任何神经网络框架。