在使用二进制目标 (y) 变量检查我的数据集时,我想知道相关矩阵是否有助于确定每个变量的预测能力。
我的预测变量 (X) 包含一些数字变量和一些因子变量。
在使用二进制目标 (y) 变量检查我的数据集时,我想知道相关矩阵是否有助于确定每个变量的预测能力。
我的预测变量 (X) 包含一些数字变量和一些因子变量。
这取决于。假设您有许多特征,比如 20 个,用于二元分类任务。在这 20 个特征中,某些特征可能是高度相关的。这可能会在您的特征空间中引入某种冗余特征,因此您可能会开始弄清楚要删除哪些特征并仍然取得良好的结果。
在某些情况下,该任务仍然是一个二元分类任务,并且没有一个特征可能是相关的,在这种情况下,您希望合并所有特征来训练您的模型和进行预测。
如果您使用 Python,那么为了找出哪些特征相关以及相关程度如何,使用 pandas 绘制散点矩阵总是有用的,它显示每个特征如何与其他特征相关。通过在 seaborn 库提供的“热图”上绘制特征,可以更清楚地查看相同的内容。