我正在尝试制定和解决以下图像突变问题。假设我试图将一个对象图像插入到几个对象的“背景”图像中,我需要寻找一个“最佳位置”来插入图像:
我正在尝试将问题表述为强化学习过程,其中包含以下元素:
0.初始阶段:
背景图像,其中标记了图像中对象的位置(假设我们有一个完美的对象检测器)
另一个新对象的图像,比方说,一个人
1.动作空间:
- 要插入的对象图像的位置(x,y);从这个意义上说,动作空间是相当 大的。
2.环境:
每一步我都会有一个新的形象来“学习”。
oracle 函数F返回 1 或 0(大约F的一次计算需要 30 秒)。这个函数告诉我最新的合成图像是否击中了“甜蜜点”(1 表示击中)。如果是这样,我将停止搜索并返回图像。
3.约束:
新插入的对象不应与图中的原始对象重叠。
虽然我的直觉是这个问题在某种程度上类似于经典的“迷宫逃生”问题,可以通过强化学习很好地解决,但这个问题的动作空间似乎相当大。
所以这是我的问题:
如果我想将这个“美化”图像问题转化为“深度”强化学习问题,我该如何从如此大的动作空间中学习?或者它真的适合强化学习过程吗?
我可以以某种方式将“非重叠”约束包含到 oracle 函数F中吗?如果是这样,我应该如何决定奖励分数?有任何原则性或经验性的决定方式吗?