对于对象检测,我有以下关于 You Only Look Once (YOLO) 算法的问题。
我必须开发一个神经网络来识别 Web 应用程序中的 Web 组件——例如,登录表单、文本框等。在这种情况下,我必须考虑页面上对象的位置可能会有所不同,例如,当您向上或向下滚动时。
问题是,YOLO 是否能够检测到“不同”位置的物体?这些变化会影响识别精度吗?换句话说,如何实现平移不变性?另外,部分遮挡怎么办?
我的猜测是,这取决于数据集中示例的相关性:如果存在足够多的翻译/部分遮挡示例,它应该可以正常工作。
如果可能的话,我会很感激关于这个问题的论文或参考资料。
(PS:如果有人知道这个任务的标记数据集,如果你让我知道,我真的很感激。)