如何检查数据集是否包含足够的信息来预测连续变量

数据挖掘 回归 监督学习
2022-02-24 13:23:23

有没有办法检查数据集是否通常包含足够的信息来预测目标变量?换句话说,你能计算出所有特征 X 和目标 y 之间的相关系数,而不是训练模型吗?

只是为了估计你可能会得到多好,或者 X 中是否存在与 y 相关的特征群?

2个回答

我建议运行基本模型,例如使用逐步选择标准的线性/逻辑回归。我发现 R 中的 stepAIC 函数(来自 MASS 包)非常有用。相关性很有用,但也可能具有误导性,如果所有特征都与目标变量相关但存在多重共线性怎么办?

library(MASS)
lm. fit <- lm(y~. ,data=df)
step <- stepAIC(lm. fit)
step$anova

您正在描述可以为其创建一系列散点图的东西。保持因变量不变,然后针对所有可能的特征运行散点图,看看结果如何。您可以直观地确定什么是有意义的(或者至少是什么是有意义的起点),然后从那里开始。

另外,不要忘记,在这里您还需要应用一些关于转换的自己的知识。散点图不明显并不意味着它不能被使用