机器算法验证 - 为什么我的 p 值这么高？ - 吾爱随笔录

为什么我的 p 值这么高？

机器算法验证回归 p 值物流

2022-03-29 22:49:45

对于逻辑回归模型中的所有系数，我得到了天文数字般的高 p 值。我不知道他们为什么这么高：

0.7096
0.4441
0.9783
0.7826
0.6890
0.7538
0.8017
0.9332
0.9564

老实说，我不知道为什么他们这么高。我的因变量由 0 和 1 之间的比率组成，我的自变量在连续数据、有序数据和分类数据之间变化。

只需添加更多信息。我正在创建一个模型来预测撤离到某个地区剩余人口的比例。例如，10% 的人撤离 / 90% 的人离开，以此类推，超过 37 小时。数据是连续的，其中之前的每个小时都会影响其之后的每个小时的值。在文献中，他们称之为顺序 logit 模型。目前我正在使用 Matlab 的广义线性模型函数，该函数使用与 logit 链接的二项分布。我正在使用 9 个独立（预测）变量和一个在 0 和 1 之间连续的因变量。

更多信息！正在开发的模型仅适用于已经做出撤离决定的人。所以我不是在测试他们是否会离开，而是他们何时会离开。希望这能澄清我正在尝试做的事情。

我下载了 R 并进行了逻辑测试。这是我得到的

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-0.41146  -0.12817  -0.00301   0.10222   0.47937  

Coefficients:
                   Estimate Std. Error z value Pr(>|z|)
(Intercept)       -36.87241  570.55243  -0.065    0.948
Hour               -0.27353    1.00636  -0.272    0.786
LN.TU.             -3.96075    8.57513  -0.462    0.644
as.factor(Evac1)1   3.34697   13.38238   0.250    0.803
as.factor(Evac2)1   1.42544    3.51690   0.405    0.685
Pressure            0.04122    0.59701   0.069    0.945
WindSpeed          -0.01583    0.23526  -0.067    0.946
as.factor(Time1)1  10.11888   11.22222   0.902    0.367
as.factor(Time2)1   9.89199   10.45510   0.946    0.344
as.factor(Time3)1  10.72968    9.48993   1.131    0.258

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 14.5671  on 36  degrees of freedom
Residual deviance:  1.5175  on 27  degrees of freedom
AIC: 27.927

Number of Fisher Scoring iterations: 9

我的 p 值仍然非常不吸引人。我开始认为，与其试图解决这个问题，我应该相信我所做的事情是错误的并采取另一种方法。感谢所有回答和帮助的人！

3个回答

有许多可能的解释，但一些最常见的解释是：

解释变量与您的回答无关。所以这里没问题，你只是有一个负面的发现。
部分或全部变量是相关的，但它们高度相关，因此您对“方差膨胀因子”有疑问。如果您删除了一些变量，您可能会发现其余变量似乎确实做出了重大贡献。然而，这并不是找到最终模型的解决方案——搜索“多重共线性”以找到一些问题和可能的解决方案。
您的样本量太小。
您的模型以其他方式错误指定，例如连续数据实际上与您的响应的 logit 具有非线性关系。
由于某种原因，您的数据分散不足或过度分散，超过了二项式变量的预期（在这种情况下，您可以通过拟合准似然模型来解决问题）。
在将数据加工成适合模型的形状时，您以某种方式对其进行了加扰。

可能还有更多，但这些是显而易见的。

由于您的响应是 0 和 1 之间的比率，因此数据之间可能存在异构（偏度）。在这种情况下，逻辑回归不能很好地考虑到这种异质性。另一种模型是 beta 回归。Beta 分布是考虑数据之间的异质性和偏度的不错选择。此外，还有一个 R 包可以执行此回归。

我在普通最小二乘法中看到非常接近 1.0 的 p 值。一个可能的解释是省略了一个重要的解释变量。这夸大了误差项，使其他变量看起来“可疑地微不足道”。接下来是一个快速构建的模拟，但我看到的真实案例更具戏剧性。

Omitted Included Omitted + in Model N(0,1)/10 1 1 1.21268754 0 1 0.22398027 1 1 1.15664332 0 1 -0.0321136 1 1 0.84352449 0 1 -0.0770372 1 1 1.01447926 0 1 0.00845824 1 1 0.97894666 0 1 -0.160745 1 2 0.91627849 0 2 0.04907199 1 2 1.05989843 0 2 0.09999067 1 2 0.86461229 0 2 -0.0017369 1 2 0.9341983 0 2 0.03245005 1 2 1.09566388 0 2 0.2288

其它你可能感兴趣的问题

上一篇如何在 SPSS 中关联序数和名义变量？下一篇集成（提升）会导致过度拟合吗？