逻辑回归 - 系数的 p 值大于 alpha(0.05)

数据挖掘 机器学习 r 回归 逻辑回归
2022-03-07 21:54:39

我对机器学习领域非常陌生,并且一直在少数样本数据集上练习逻辑回归。我已经使用逻辑回归算法建立了一个模型。很少有系数的 p 值超过 0.05(这是我正在考虑的 alpha)。

这是我的数据集的片段

用于构建模型的 R 代码和模型摘要如下所示。

model.bank.1 <- glm(y~., data=bankfull, family="binomial")

摘要(model.bank.1)

在此处输入图像描述

现在,在考虑 AIC、Residual/Null Deviance、混淆矩阵和 ROC 进行评估之前。我观察到一些自变量的 p 值超过 0.05(年龄的 p 值非常高,这是什么意思?)。在这种情况下,应该怎么办?我应该立即从我的模型中删除所有这些预测变量吗?有什么方法可以使这些预测变量的 p 值小于 0.05 吗?

在继续使用 AIC、偏差、混淆矩阵和 ROC 度量评估模型之前需要检查哪些内容?

编辑1:我已经尝试标准化数字列,但模型根本没有变化。

1个回答

p 值总结了一个系数在统计上不为零的统计检验所以基本上,当 p 值 > 5% 时,估计的系数可以是正的或负的(置信区间包括正值和负值)。

通常这被解释为某些变量对模型没有可靠的贡献。这通常与因果建模有关。但这并不意味着该变量对模型没有贡献,应该被排除在外。遗漏的变量偏差可能是一个大问题!!!(参见:计量经济学理论和方法,Davidson/Mackinnon,OLS 案例的第 3.2 章 - 非常有趣的东西)。同样在联合显着性检验中,非显着变量仍然可能是相关的。

特别是如果您对预测感兴趣,那么 p 值就不是什么大问题了。在趋势中,您可以说模型的过度规范比规范不足的危害要小。如有疑问,请在模型中保留非显着变量(它可能只是一个弱预测变量)。

但是,如果您的预测变量较弱,您也可以查看Lasso 或 Ridge-Regression在这种回归类型中,对预测贡献很小或没有贡献的变量被“缩小”。这是一件非常酷的事情,可能是您接下来要看的第一件事:https ://web.stanford.edu/~hastie/glmnet/glmnet_alpha.html#log

我喜欢 Lasso/Ridge,因为在这种情况下,模型选择(至少在某种程度上)是数据驱动的。

也可以看看“An Introduction to Statistical Learning with Applications in R”(第 6.2 章)。你可以在网上找到这本书的副本。书中的 R 代码示例非常有启发性。