数据挖掘 - 如何检查数据集是否包含足够的信息来预测连续变量 - 吾爱随笔录

数据挖掘回归监督学习

2022-02-24 13:23:23

有没有办法检查数据集是否通常包含足够的信息来预测目标变量？换句话说，你能计算出所有特征 X 和目标 y 之间的相关系数，而不是训练模型吗？

只是为了估计你可能会得到多好，或者 X 中是否存在与 y 相关的特征群？

2个回答

我建议运行基本模型，例如使用逐步选择标准的线性/逻辑回归。我发现 R 中的 stepAIC 函数（来自 MASS 包）非常有用。相关性很有用，但也可能具有误导性，如果所有特征都与目标变量相关但存在多重共线性怎么办？

library(MASS)
lm. fit <- lm(y~. ,data=df)
step <- stepAIC(lm. fit)
step$anova

您正在描述可以为其创建一系列散点图的东西。保持因变量不变，然后针对所有可能的特征运行散点图，看看结果如何。您可以直观地确定什么是有意义的（或者至少是什么是有意义的起点），然后从那里开始。

另外，不要忘记，在这里您还需要应用一些关于转换的自己的知识。散点图不明显并不意味着它不能被使用

其它你可能感兴趣的问题