在多项逻辑回归中解释预测变量的显着性与预测系数的显着性

机器算法验证 物流 统计学意义
2022-04-01 13:28:41

我有一个多项逻辑回归,其因变量值为 {-1,0,1}(参考类别为 0)以及许多连续和离散的预测变量。运行回归后,感兴趣的连续预测变量(“大小”)的 3 类效应分析 p 值为 0.0683,两个系数(对应于 -1 和 1 的结果)的 p 值分别为 0.8786 和 0.0220 .

我在某处读到,如果预测变量本身在所选水平上显着,则应该只查看系数的显着性。这是正确的吗?我天真的感觉是预测变量是临界的(为了论证而采用 alpha=0.05),并且“大小”与结果 = 1 有显着关系,但与结果 = -1 无关。我会说与结果 = 1 的关系的重要性并不是非常强,但这对于考虑到应用程序来说是可以的(或者至少,对于我被迫使用的间接数据)

1个回答

p值本身无法告诉您这种关系有多强,因为p受样本大小等因素的影响很大。但是假设你的 N 大约是 100-150,我会说大小有相当强的影响,随着大小的增加,Y 为 1 的几率的对数与 Y 的几率的对数显着不同为0。正如您所指出的,对于-1和0的Y值的比较不能说同样的话。

您正确地认为所有这些都因 Size 的整体不显着性而有些无效(取决于您的alpha或重要性标准)。如果您简单地将 Size 声明为非因素,因为它的p很高,您不会得到太多参数。但话又说回来,如果你的 N 足够小——可能低于 80 或 100——那么你的设计提供了低功率来检测效果,你可能会认真对待无论如何都设法出现的特定效果。

解决依赖p值问题的方法包括两个步骤。首先,确定什么范围的优势比将构成值得关注或值得称其为实质性的影响。(诀窍在于足够容易地识别它们对于更直观的概率度量的含义。)然后为与每个系数相关的优势比构建一个置信区间,并根据您的假设范围考虑它。不考虑统计显着性,效果有实际意义吗?