错误标记的训练数据有什么影响?

人工智能 神经网络 机器学习 数据集 标记数据集 数据标签
2021-10-19 06:42:34

为监督学习任务收集和标记训练数据非常耗时且成本高昂。

例如,假设您编写了一个在 Google 图片上运行的脚本,并为 10 个类中的每个类获取了 5000 张图片。然后,您使用无监督算法对它们进行聚类。然后,您使用来自刮板的标签作为基本事实来训练监督算法。显然,您的网络将比具有完美标记数据的网络表现更差,但有没有办法猜测多少?

每个类别中可能有 50 个错误标记的图像。这很可能比 500 张贴错标签的图像要好,但我想知道是否有办法预测多少(即使它是根据某人的经验法则或类似规则)。

2个回答

我认为这里的关键点正是您所指的mislabelled谷歌的图像分类器可能会在检索包含给定主题的图像方面做得“相当不错”,但你的课程要求有多严格或宽松是非常重要的。例如,如果您的课程之一是“狗”,则可能有数百张从抓取中获取的图像可以显示(示例在我的脑海中,但您可以获得更多创意):

  • 古代犬类化石
  • 狼队
  • 毛绒动物狗
  • 硬模式狗(即部分遮挡、可变照明模式、背景颜色变化、类内/物种变化)

此外,您的计算工具也会对此产生影响。如果您使用的是神经网络,则可以在一定程度上解决上述问题,但线性分类器可能难以采用更广泛/灵活的类视图。

我会用非常简单的话为你分解。当您将它们标记为错误时,准确性会下降。简而言之,准确性与数据标记的完美程度成正比。如果您考虑一下,假设您有 2 个类别——猫和狗,并且您有一个包含 10,000 张图片的数据集。其中 50 个被错误标记。准确度将低于完美标记但不会那么低,因为构建的神经网络不会那么糟糕。但是假设现在你有 1000 个错误标记,占数据集的 1/10,那么 NN 将有更突然的结果。