假设我有这样的屏幕截图:
我希望能够检测/定位地板上的每个项目,但是,1)图像中可以有任意数量的项目,2)每个项目都是不同的
我有所有可能项目的候选清单。实际上,每一个都被标记并分成单独的图像文件:
我曾考虑过训练类似卷积网络的东西,但感觉可能会很慢,因为我需要用多个滑动窗口分割每个屏幕截图,并通过网络向前馈送每个屏幕截图。为每个屏幕截图创建这些滑动窗口段可能需要很长时间。我希望快速完成整个检测过程(<1sec)
执行此检测任务的最有效方法是什么?我将使用 Javascript 来实现它
主要问题是:
- 项目数量未知。屏幕截图中可能有 0 个项目,也可能有很多
- 有很多可能的目标,每一个在形状、颜色和结构上都不同
- 对于这类工作,Javascript 并不是最快的语言。这是一个半严格的要求,除非使用 JS 绝对不可能做到这一点。备用语言是 Python

