关于零相关特征的聚类特征选择

数据挖掘 聚类 特征选择 相关性
2022-02-23 15:35:54

我想对 5 个特征数据集进行聚类。首先,为了探索数据,我做了一个相关矩阵,看看是否有一些特征高度相关,这样我就可以减少它们。然后我看到一个特征与所有其他特征的相关性接近于零。这让我想知道是否应该排除此参数,因为相对于所有其他功能,它充当一种“噪音”。你怎么看?

1个回答

与其他特征缺乏相关性并不是省略一个特征的理由。相反,保留该功能通常是一个理由,因为它可能提供独特的信息。通常,高度相关的特征提供冗余信息,而特征缩减技术(例如,主成分分析)用于去除冗余。

虽然不相关的特征可能是噪声,但您不应该做出这样的假设。可能是不相关的特征是唯一包含信息的特征,而其他 4 个特征都是相关的噪声。