相关性、p 值和特征选择

数据挖掘 分类 特征选择 相关性
2022-03-10 03:54:57

通过使用相关矩阵,我得到了一些结果:

Count_words          -0.098857
Count_numbers        -0.008305
Count_symbols        -0.025853
Count_question       -0.031649
Count_equal           0.224223
Count_characters      0.09

我使用了这行代码(如果你熟悉 Python): df.drop("Target", axis=1).apply(lambda x: x.corr(df.Target))

如果我理解正确,上述结果应该表明所考虑的变量之间没有相关性。由于我想在已经使用其他特征(文本)构建的模型中添加上述变量(或其中一些变量),我想知道是否可以根据它们与每个变量不相关的事实来包含所有变量其他且 p 值小于 0.05。我怀疑上述结果是否没有意义,并且不建议这些变量可以在模型中使用。我希望你能给我一些建议。谢谢

1个回答

一个特征与目标变量的相关性较低这一事实表明,它本身并不是一个好的指标,但这并不意味着它在与其他特征结合时对模型没有用处。

了解这些功能是否有用的唯一方法是使用它们来训练模型,然后在验证集上进行评估,看看它是否能提高性能。

p 值小于 0.05

这是相关显着性检验的结果吗?这取决于测试,但通常 p 值低于 0.05 意味着存在显着差异,即在这种情况下,它可能意味着相关性确实不为零。无论如何,恕我直言,这并不能证明是否使用这些功能。