通过使用相关矩阵,我得到了一些结果:
Count_words -0.098857
Count_numbers -0.008305
Count_symbols -0.025853
Count_question -0.031649
Count_equal 0.224223
Count_characters 0.09
我使用了这行代码(如果你熟悉 Python): df.drop("Target", axis=1).apply(lambda x: x.corr(df.Target))
如果我理解正确,上述结果应该表明所考虑的变量之间没有相关性。由于我想在已经使用其他特征(文本)构建的模型中添加上述变量(或其中一些变量),我想知道是否可以根据它们与每个变量不相关的事实来包含所有变量其他且 p 值小于 0.05。我怀疑上述结果是否没有意义,并且不建议这些变量可以在模型中使用。我希望你能给我一些建议。谢谢