我正在阅读 Han,Kamber,Pei 的数据挖掘书,偶然发现了一个名为“数据清洗”的部分。它告诉我们可以使用像“unknown”或“-∞”这样的全局常量来替换缺失的属性。我明白到这里。然后它说:
挖矿程序可能会错误地认为它们形成了一个有趣的概念,因为它们都有共同的价值,即“未知”。
这是什么意思?
我正在阅读 Han,Kamber,Pei 的数据挖掘书,偶然发现了一个名为“数据清洗”的部分。它告诉我们可以使用像“unknown”或“-∞”这样的全局常量来替换缺失的属性。我明白到这里。然后它说:
挖矿程序可能会错误地认为它们形成了一个有趣的概念,因为它们都有共同的价值,即“未知”。
这是什么意思?
任何学习算法都是通过在数据中找到一些模式来工作的。在无监督学习中,这通常意味着找到一组实例,这些实例组的某些特征具有相似的值。因此,该unknown值可能会被算法用作模式的一部分,这可能是一个问题,因为它不代表有关数据的真实语义信息。
这就是作者的意思,但这个问题不太可能发生在一个像样的数据集上:如果数据集足够大,那么其他特征可能在实例子集中是不同的(有很多不同的值)unknown对于特征 X。在这种情况下,算法不太可能将它们视为共享模式。如果它确实依赖于这个弱模式,那么就意味着数据中没有其他更强的模式可以依赖,因此无论如何任务不太可能非常成功。