我有一个数据集,需要从 9 个变量中进行预测,哪些变量对预测 10 号最重要。
我第一次尝试使用selectKBest
from 的方法,sklearn.feature_selection
看起来 4、5、6 和 8 是最好的。
然后我尝试使用pearsonr
从 1 到 9 和数字 10 的每个变量之间的线性相关性来查看,我得到 2、4、5、8 是最相关的。
然而,当我用PCA
从sklearn.decomposition
和计算pca.explained_variance_
我得到这些值[2.13128046e + 01 3.44315766e-01 3.26052258e-01 2.67148345e-01 1.85871921e-01 1.55241540e-01 1.31994073e-01 9.34982387e-02 1.03297667e-02 ]
第一个变量比其他所有变量高得多,这不是问题吗?这是什么意思?