人工智能 - 错误标记的训练数据有什么影响？ - 吾爱随笔录

错误标记的训练数据有什么影响？

人工智能神经网络机器学习数据集标记数据集数据标签

2021-10-19 06:42:34

为监督学习任务收集和标记训练数据非常耗时且成本高昂。

例如，假设您编写了一个在 Google 图片上运行的脚本，并为 10 个类中的每个类获取了 5000 张图片。然后，您使用无监督算法对它们进行聚类。然后，您使用来自刮板的标签作为基本事实来训练监督算法。显然，您的网络将比具有完美标记数据的网络表现更差，但有没有办法猜测多少？

每个类别中可能有 50 个错误标记的图像。这很可能比 500 张贴错标签的图像要好，但我想知道是否有办法预测多少（即使它是根据某人的经验法则或类似规则）。

2个回答

我认为这里的关键点正是您所指的mislabelled。谷歌的图像分类器可能会在检索包含给定主题的图像方面做得“相当不错”，但你的课程要求有多严格或宽松是非常重要的。例如，如果您的课程之一是“狗”，则可能有数百张从抓取中获取的图像可以显示（示例在我的脑海中，但您可以获得更多创意）：

古代犬类化石
狼队
毛绒动物狗
硬模式狗（即部分遮挡、可变照明模式、背景颜色变化、类内/物种变化）

此外，您的计算工具也会对此产生影响。如果您使用的是神经网络，则可以在一定程度上解决上述问题，但线性分类器可能难以采用更广泛/灵活的类视图。

我会用非常简单的话为你分解。当您将它们标记为错误时，准确性会下降。简而言之，准确性与数据标记的完美程度成正比。如果您考虑一下，假设您有 2 个类别——猫和狗，并且您有一个包含 10,000 张图片的数据集。其中 50 个被错误标记。准确度将低于完美标记但不会那么低，因为构建的神经网络不会那么糟糕。但是假设现在你有 1000 个错误标记，占数据集的 1/10，那么 NN 将有更突然的结果。

其它你可能感兴趣的问题

上一篇与对手的深度 Q 网络有哪些好的学习策略？下一篇神经网络分类器如何从仅绘制决策平面进行分类？