据我所知,强化算法适用于网格或二维环境。当我有来自光传感器的一维信号时,我将如何设置问题以获得近似解决方案。传感器离灯塔有一段距离。目的是从传感器获取读数以确定灯塔光束的方向。
环境是灯塔光束,状态是传感器在给定方向上看到的亮度,代理是近似的亮度/方向?奖励会是什么?在给定传感器亮度的情况下,我将使用什么强化学习算法来近似灯塔方向?
据我所知,强化算法适用于网格或二维环境。当我有来自光传感器的一维信号时,我将如何设置问题以获得近似解决方案。传感器离灯塔有一段距离。目的是从传感器获取读数以确定灯塔光束的方向。
环境是灯塔光束,状态是传感器在给定方向上看到的亮度,代理是近似的亮度/方向?奖励会是什么?在给定传感器亮度的情况下,我将使用什么强化学习算法来近似灯塔方向?
据我所知,强化算法适用于网格或二维环境。
许多教材使用“网格世界”演示来演示基本的强化学习 (RL)。然而,基本的马尔可夫决策过程 (MDP) 理论适用于连接状态的任意图。该图可以基于将任何维度的度量空间细分为相同维度的网格(并使用在该维度中工作的任何形状的图块)。然而,不限于此,状态空间不需要是表示距离或物理属性的度量。
在实践中,状态集可以是任意对象,通过状态转换以任何一致的方式连接。提供转移概率函数是一致的,该环境可以用于 RL 问题。
一个非常常见的状态描述是状态是一个数字向量,它捕获了与问题相关的所有变量。然后,环境可以是在这些变量的真实世界中进行的测量,或者是模拟提供的相同数量。该状态向量可以是任意大小,并且对各个组件具有任意约束。这与其他机器学习问题的数值表示没有什么不同,例如神经网络的输入。
环境是灯塔光束,状态是传感器在给定方向上看到的亮度,代理是近似的亮度/方向?
那里的描述不太对劲。代理似乎没有采取任何行动。
奖励会是什么?
这将是达到目标或保持适合该问题的“良好”结果的任何措施。您没有在描述中提供有关目标的任何信息。
如果您的目标是点亮具有最高亮度的移动传感器,那么在传感器处测量的亮度,转换为合适的单位,似乎是奖励函数的一个很好的候选者(您还需要状态来提供关于目标 - 例如最后一次出现的地方)。假设问题是连续的,您还需要一个折扣因子。
在给定传感器亮度的情况下,我将使用什么强化学习算法来近似灯塔方向?
通常,RL 算法会估计奖励或生成策略。如果灯塔方向是您想要采取的行动,那么几乎所有 RL 算法都可以做其中一种或另一种来让您做到这一点。不同之处在于算法的复杂性或速度,您愿意采用的近似值等。
您没有提供有关该问题的足够信息,甚至几乎无法提出“最佳”算法。在开始之前,您需要确定对状态、动作和奖励的更全面的描述,这将定义问题。一旦你对问题有了更正式的描述,这可能会表明哪些算法是好的起点。