为监督学习任务收集和标记训练数据非常耗时且成本高昂。
例如,假设您编写了一个在 Google 图片上运行的脚本,并为 10 个类中的每个类获取了 5000 张图片。然后,您使用无监督算法对它们进行聚类。然后,您使用来自刮板的标签作为基本事实来训练监督算法。显然,您的网络将比具有完美标记数据的网络表现更差,但有没有办法猜测多少?
每个类别中可能有 50 个错误标记的图像。这很可能比 500 张贴错标签的图像要好,但我想知道是否有办法预测多少(即使它是根据某人的经验法则或类似规则)。
为监督学习任务收集和标记训练数据非常耗时且成本高昂。
例如,假设您编写了一个在 Google 图片上运行的脚本,并为 10 个类中的每个类获取了 5000 张图片。然后,您使用无监督算法对它们进行聚类。然后,您使用来自刮板的标签作为基本事实来训练监督算法。显然,您的网络将比具有完美标记数据的网络表现更差,但有没有办法猜测多少?
每个类别中可能有 50 个错误标记的图像。这很可能比 500 张贴错标签的图像要好,但我想知道是否有办法预测多少(即使它是根据某人的经验法则或类似规则)。
我认为这里的关键点正是您所指的mislabelled。谷歌的图像分类器可能会在检索包含给定主题的图像方面做得“相当不错”,但你的课程要求有多严格或宽松是非常重要的。例如,如果您的课程之一是“狗”,则可能有数百张从抓取中获取的图像可以显示(示例在我的脑海中,但您可以获得更多创意):
此外,您的计算工具也会对此产生影响。如果您使用的是神经网络,则可以在一定程度上解决上述问题,但线性分类器可能难以采用更广泛/灵活的类视图。
我会用非常简单的话为你分解。当您将它们标记为错误时,准确性会下降。简而言之,准确性与数据标记的完美程度成正比。如果您考虑一下,假设您有 2 个类别——猫和狗,并且您有一个包含 10,000 张图片的数据集。其中 50 个被错误标记。准确度将低于完美标记但不会那么低,因为构建的神经网络不会那么糟糕。但是假设现在你有 1000 个错误标记,占数据集的 1/10,那么 NN 将有更突然的结果。