有没有办法检查数据集是否通常包含足够的信息来预测目标变量?换句话说,你能计算出所有特征 X 和目标 y 之间的相关系数,而不是训练模型吗?
只是为了估计你可能会得到多好,或者 X 中是否存在与 y 相关的特征群?
有没有办法检查数据集是否通常包含足够的信息来预测目标变量?换句话说,你能计算出所有特征 X 和目标 y 之间的相关系数,而不是训练模型吗?
只是为了估计你可能会得到多好,或者 X 中是否存在与 y 相关的特征群?
我建议运行基本模型,例如使用逐步选择标准的线性/逻辑回归。我发现 R 中的 stepAIC 函数(来自 MASS 包)非常有用。相关性很有用,但也可能具有误导性,如果所有特征都与目标变量相关但存在多重共线性怎么办?
library(MASS)
lm. fit <- lm(y~. ,data=df)
step <- stepAIC(lm. fit)
step$anova
您正在描述可以为其创建一系列散点图的东西。保持因变量不变,然后针对所有可能的特征运行散点图,看看结果如何。您可以直观地确定什么是有意义的(或者至少是什么是有意义的起点),然后从那里开始。
另外,不要忘记,在这里您还需要应用一些关于转换的自己的知识。散点图不明显并不意味着它不能被使用