为什么我的 p 值这么高?

机器算法验证 回归 p 值 物流
2022-03-29 22:49:45

对于逻辑回归模型中的所有系数,我得到了天文数字般的高 p 值。我不知道他们为什么这么高:

  • 0.7096
  • 0.4441
  • 0.9783
  • 0.7826
  • 0.6890
  • 0.7538
  • 0.8017
  • 0.9332
  • 0.9564

老实说,我不知道为什么他们这么高。我的因变量由 0 和 1 之间的比率组成,我的自变量在连续数据、有序数据和分类数据之间变化。

只需添加更多信息。我正在创建一个模型来预测撤离到某个地区剩余人口的比例。例如,10% 的人撤离 / 90% 的人离开,以此类推,超过 37 小时。数据是连续的,其中之前的每个小时都会影响其之后的每个小时的值。在文献中,他们称之为顺序 logit 模型。目前我正在使用 Matlab 的广义线性模型函数,该函数使用与 logit 链接的二项分布。我正在使用 9 个独立(预测)变量和一个在 0 和 1 之间连续的因变量。

更多信息!正在开发的模型仅适用于已经做出撤离决定的人。所以我不是在测试他们是否会离开,而是他们何时会离开。希望这能澄清我正在尝试做的事情。

我下载了 R 并进行了逻辑测试。这是我得到的

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-0.41146  -0.12817  -0.00301   0.10222   0.47937  

Coefficients:
                   Estimate Std. Error z value Pr(>|z|)
(Intercept)       -36.87241  570.55243  -0.065    0.948
Hour               -0.27353    1.00636  -0.272    0.786
LN.TU.             -3.96075    8.57513  -0.462    0.644
as.factor(Evac1)1   3.34697   13.38238   0.250    0.803
as.factor(Evac2)1   1.42544    3.51690   0.405    0.685
Pressure            0.04122    0.59701   0.069    0.945
WindSpeed          -0.01583    0.23526  -0.067    0.946
as.factor(Time1)1  10.11888   11.22222   0.902    0.367
as.factor(Time2)1   9.89199   10.45510   0.946    0.344
as.factor(Time3)1  10.72968    9.48993   1.131    0.258

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 14.5671  on 36  degrees of freedom
Residual deviance:  1.5175  on 27  degrees of freedom
AIC: 27.927

Number of Fisher Scoring iterations: 9

我的 p 值仍然非常不吸引人。我开始认为,与其试图解决这个问题,我应该相信我所做的事情是错误的并采取另一种方法。感谢所有回答和帮助的人!

3个回答

有许多可能的解释,但一些最常见的解释是:

  1. 解释变量与您的回答无关。所以这里没问题,你只是有一个负面的发现。

  2. 部分或全部变量是相关的,但它们高度相关,因此您对“方差膨胀因子”有疑问。如果您删除了一些变量,您可能会发现其余变量似乎确实做出了重大贡献。然而,这并不是找到最终模型的解决方案——搜索“多重共线性”以找到一些问题和可能的解决方案。

  3. 您的样本量太小。

  4. 您的模型以其他方式错误指定,例如连续数据实际上与您的响应的 logit 具有非线性关系。

  5. 由于某种原因,您的数据分散不足或过度分散,超过了二项式变量的预期(在这种情况下,您可以通过拟合准似然模型来解决问题)。

  6. 在将数据加工成适合模型的形状时,您以某种方式对其进行了加扰。

可能还有更多,但这些是显而易见的。

由于您的响应是 0 和 1 之间的比率,因此数据之间可能存在异构(偏度)。在这种情况下,逻辑回归不能很好地考虑到这种异质性。另一种模型是 beta 回归。Beta 分布是考虑数据之间的异质性和偏度的不错选择。此外,还有一个 R 包可以执行此回归。

我在普通最小二乘法中看到非常接近 1.0 的 p 值。一个可能的解释是省略了一个重要的解释变量。这夸大了误差项,使其他变量看起来“可疑地微不足道”。接下来是一个快速构建的模拟,但我看到的真实案例更具戏剧性。

Omitted Included Omitted + in Model N(0,1)/10 1 1 1.21268754 0 1 0.22398027 1 1 1.15664332 0 1 -0.0321136 1 1 0.84352449 0 1 -0.0770372 1 1 1.01447926 0 1 0.00845824 1 1 0.97894666 0 1 -0.160745 1 2 0.91627849 0 2 0.04907199 1 2 1.05989843 0 2 0.09999067 1 2 0.86461229 0 2 -0.0017369 1 2 0.9341983 0 2 0.03245005 1 2 1.09566388 0 2 0.2288