将动作识别重构为强化学习问题

数据挖掘 机器学习 深度学习 分类 图像分类 强化学习
2022-03-10 02:36:46

鉴于强化学习的重大进步,我想知道是否可以将动作识别、对象跟踪或图像分类等问题重铸为强化学习问题。

1个回答

鉴于强化学习的重大进步

值得注意的是,最近的许多进步是由于用作函数逼近器的神经网络的改进,以及了解如何将它们与强化学习 (RL) 集成以帮助解决涉及视觉或其他从状态到最佳状态的复杂非线性映射的 RL 挑战行动。

因此,至少当前强化学习的一些改进是由于研究人员提出了相反的问题“鉴于神经网络的重大进步......”

我想知道是否可以将动作识别、对象跟踪或图像分类等问题重铸为强化学习问题。

一般来说,在顶层,答案是肯定的,但它没有任何好处,而且性能可能会更差

这是因为在典型的监督学习场景中,没有什么能与修改状态的动作的概念相匹配。在示例分类器中,您可以拥有状态(要分类的输入)、动作(类别的选择)和奖励(选择是否与标签匹配)的等价物。但是采取行动不会导致另一个状态,奖励在特定环境或“情节”内的多个行动中不是稀疏或累积的。没有时间步长。

RL 算法是通用MDP 求解器- 他们可以了解状态、动作和可能的下一个状态之间的关系,并在给定当前状态的情况下,在可能的时间步长上优化长期目标。当这些关系在您要解决的问题中无效或不重要时,这也会使他们的学习效率降低。如果您在典型的图像分类数据集上训练例如 Q-learning,并添加时间步长,它将花费大量时间/资源来确定其动作选择不会影响随后呈现哪些图像,或者它的容易程度是从后来的图像而不是早期的图像中获得奖励,具体取决于状态的变化。如果您确实允许选择动作来确定下一张图像,那么您将训练 RL 来做除分类之外的其他事情。

您可以将分类器构建为上下文强盗,这可能更匹配。但是,这仍然会丢弃您对分类问题的了解,取而代之的是通用奖励系统。例如,上下文强盗求解器会故意猜测错误的类,以检查有时是否有很小的机会获得高回报。

如果你对如何表示动作和奖励非常小心,并设置其他超参数,那么你可能能够重新创建与正常监督学习类似的梯度设置,并且通过使用 RL 或你的问题的上下文强盗框架。但是,您仍然会增加一些不必要的复杂性。

如果您搜索,您可能会发现一些将 RL 与监督学习相结合的方法,例如在本文中,作者建议使用 RL 来改进生成 RNN然而,这些目前似乎是小众的,并不旨在改进或取代监督学习。

最后,理论上您可以允许 RL 控制摄像机平移/缩放,作为活动识别(或任何其他视频或多图像分类任务)的一部分。是一个完整的 RL 问题,因为代理的行为确实会影响后来的状态,并有望提高识别的准确性。为了提高学习效率,您最初可能希望将其与已经接受过训练以识别受监督数据集上的动作的网络结合起来。与 RL 部分相比,您需要试验识别部分的训练量(因为它将开始收集正常数据集之外的数据)。当然,组合系统的设置和培训可能是一项主要工作项目。您也许可以在早期阶段在游戏引擎中对其进行模拟。