我知道这可能特定于不同的问题,但有谁知道是否有任何经验法则或关于什么构成大型状态空间的参考?
我知道,根据多篇论文,表格 Q 学习不适用于这些具有大状态空间的问题,但我找不到任何迹象表明什么会构成大状态空间
我一直在解决我的状态空间约为 30x30 的问题,并且使用表格方法更新我的 Q-learning 运行良好。100x100 会开始变得太大还是 400x400?
我知道这可能特定于不同的问题,但有谁知道是否有任何经验法则或关于什么构成大型状态空间的参考?
我知道,根据多篇论文,表格 Q 学习不适用于这些具有大状态空间的问题,但我找不到任何迹象表明什么会构成大状态空间
我一直在解决我的状态空间约为 30x30 的问题,并且使用表格方法更新我的 Q-learning 运行良好。100x100 会开始变得太大还是 400x400?
我知道这可能特定于不同的问题,但有谁知道是否有任何经验法则或关于什么构成大型状态空间的参考?
不是真的,都是相对的。值表的比例可能太大有两种主要方式:
表示表所需的内存。对于任何尺寸,计算都相对简单。
用准确的估计值填充表格所需的时间。这取决于您如何收集这些数据,以及在相同的状态、动作选择下有多少差异。
如果您使用操作值,则需要考虑到表大小不仅仅是, 但.
如果你运行速度很快,对环境进行本地模拟,那么一百万甚至一亿的表大小并不是不合理的。用于模拟和代理的软件语言或库选择可以在这些更大规模的情况下产生重大影响。
如果状态描述中的任何一个是连续变量,那么理论上表的大小将变为无限大,因此任何可以在计算机上实际实现的有限表都无法完全捕获它。您必须使用某种形式的近似来获得实际结果。但是,即使这样,当近似涉及直接离散状态变量时,您仍然可以使用表格方法 - 机器学习中使用了几种不同的方法来做到这一点 - 例如平铺编码。您还可以在大的离散空间中使用平铺编码。
我一直在解决我的状态空间约为 30x30 的问题,并且使用表格方法更新我的 Q-learning 运行良好。100x100 会开始变得太大还是 400x400?
它也取决于动作空间,但 400x400 给出了 160,000 的状态空间。假设 < 10 个动作,那么这仍然在表格方法的范围内。对于表格方法,您可能需要处理的参数少于 1,000,000 个,与中等大小的神经网络相比,它具有更好的稳定性和创建完全最优代理的可能性的优势。如果模拟环境速度很快,那么以表格形式完全优化这种规模的东西可能只需要几分钟到几个小时。
不过,与大多数机器学习一样,如果您关心一些优化,例如代理的内存大小、解决问题的速度或其他一些指标,那么您将需要尝试使用不同的方法进行实验。然后,根据您对“最佳代理”的定义,您将对解决问题的最佳方法有一些了解。您从中获得的经验可能会延伸并适用于将来的类似问题。