Pr(Z>|z|) 值和显着性水平

机器算法验证 r 回归
2022-04-10 10:51:53

如果您的逻辑回归拟合具有具有以下属性的系数,您是否查看Pr(Z>|z|)小于 0.95 的值以确定在 5% 的显着性水平上是否需要该变量?

IE。如果Pr(>|z|)为 0.964,则在 5% 显着性时不需要此变量。

在此处输入图像描述

3个回答

首先,为 Z 统计量给出的 p 值必须解释为在原假设下出现极端或更极端的结果的可能性有多大。即 0.96 原则上意味着数据提供的证据很少表明需要该变量(而较小的值,例如,p0.05正如其他人已经指出的那样,将为变量的可能相关性提供证据)。但是,缺乏明确的证据表明模型中需要该变量来解释该特定数据集并不意味着不需要该变量的证据。这将需要一种差异方法,并且标准误差非常大,通常不能说该变量没有影响。此外,根据 p 值决定将哪些变量包含在模型中,然后在有或没有它们的情况下拟合模型,就好像没有发生模型选择一样,这是一个非常糟糕的主意。

其次,正如其他人也指出的那样,当你得到这个巨大的系数时(对应于优势比e14.29) 和逻辑回归的标准误差,您通常会遇到一些问题。例如,算法没有收敛或数据中存在完全分离。如果你的模型真的只包含一个截距,那么也许根本就没有事件,所有的记录都没有结果?如果是这样,那么标准逻辑回归可能无法告诉您很多信息。对于这种稀疏数据情况有一些替代方案(例如,包括可用先验信息的贝叶斯分析)。

您正在使用正态近似值,特别是 Wald 检验,因此您可以执行常规 t 检验中的操作。也就是说,如果事件的概率为{Z|z|}低于传统的阈值0.05. 或者,如果您的 p 值不够小,您将无法拒绝原假设。

系数的值及其大的标准误差表明我们在这里看到的是分离或 Hauck-Donner 效应,它有自己的标签其中有一个清晰而有用的维基摘录。因此,我认为关于t相对z是一条红鲱鱼。配置文件可能性将是解决问题或重新制定问题的方法。