一种常见的对象检测场景涉及在任意场景中查找经过训练的模型。例如,我们可以通过提供过去见过的各种自行车图像来训练模型以了解“自行车”的外观。然后,我们可以检查一个繁忙的十字路口的任意场景,以确定它是否包括像我们的“自行车”这样的东西。
我试图达到完全相反的效果。在这个问题中,我有一个静态场景,如下所示:
现在,我试图通过提供如下图所示的图像来查看场景中是否有类似的东西。我可能会提供无限多的“测试”图像,但我对它们的内容一无所知:
在这种情况下,应该有接近 100% 的匹配,因为测试图像实际上是从场景中删除的。
在一般情况下,如果图像中有任何合理的紧密匹配,我想知道它的位置和置信区间:
{
"matches": [
{
"id": "first_match",
"bounds": [
{
"x": 345,
"y": 955
},
{
"x": 370,
"y": 1000
}
{
"x": 400,
"y": 800
}
],
"confidence": "0.1"
}
]
}
或者,直观地表示,此示例中的匹配将出现在此处:
我查看了一些工具,例如 Amazon Rekognition。但是,Rekognition 主要专注于解决逆问题(给定一些经过训练的模型,它们是否存在于任意场景中)?
我可以使用什么方法或工具来解决这个问题?


