自动数据清洗

机器算法验证 数据预处理
2022-03-14 13:26:57

ML 的一个常见问题是数据质量差:特征值错误、错误分类实例等。

解决这个问题的一种方法是手动检查数据并检查,但还有其他技术吗?(我打赌有!)

哪些更好,为什么?

3个回答

通过诸如 PCA 之类的降维将有助于了解对表示数据至关重要的维数。

要检查错误分类的实例,您可以对数据进行基本的 k-means 聚类,以了解原始数据与您提议的类别的匹配程度。虽然不是自动的,但在这个阶段进行可视化会很有帮助,因为你的视觉大脑本身就是一个强大的分类器。

对于完全缺失的数据,统计学已经有许多技术可以处理这种情况,包括插补、从现有集合或其他集合中获取数据来填补空白。

您不能真正将知识渊博的人从循环中移除并期望得到合理的结果。这并不意味着该人必须单独查看每个项目,但最终需要一些实际知识才能知道数据摘要/图表是否合理。(例如:变量 A 是否可以为负数,变量 B 是否大于变量 A,或者分类变量 C 有 4 或 5 个选项?)

一旦您对数据进行了知识渊博的人类观察,您可能可以制定一系列规则,用于自动测试数据。问题是,可能会出现您没有想到的其他错误。(例如,将变量 A 复制到变量 C 的数据收集过程中的编程错误。)

如果您知道您的数据不太好,那么检查异常值总是好的。大多数时候都会出现异常情况。

如果你有很多特征,降维是必须的。PCA 对此非常有效。

如果您有缺失的数据,您可以使用插补或插值,但如果您的需要允许,获胜的案例是使用协同过滤。