相关矩阵对二元分类任务有意义吗?

数据挖掘 分类 相关性 二进制
2021-09-24 00:41:54

在使用二进制目标 (y) 变量检查我的数据集时,我想知道相关矩阵是否有助于确定每个变量的预测能力。

我的预测变量 (X) 包含一些数字变量和一些因子变量。

2个回答

井相关性,即皮尔逊系数,是为连续数据建立的。因此,当应用于二进制/分类数据时,您将获得不必正确和/或精确的关系度量。

关于这个主题的统计交换有很多答案——例如这个这个

这取决于。假设您有许多特征,比如 20 个,用于二元分类任务。在这 20 个特征中,某些特征可能是高度相关的。这可能会在您的特征空间中引入某种冗余特征,因此您可能会开始弄清楚要删除哪些特征并仍然取得良好的结果。

在某些情况下,该任务仍然是一个二元分类任务,并且没有一个特征可能是相关的,在这种情况下,您希望合并所有特征来训练您的模型和进行预测。

如果您使用 Python,那么为了找出哪些特征相关以及相关程度如何,使用 pandas 绘制散点矩阵总是有用的,它显示每个特征如何与其他特征相关。通过在 seaborn 库提供的“热图”上绘制特征,可以更清楚地查看相同的内容。