比较模型之间的逻辑回归系数?

机器算法验证 回归 物流 spss 回归系数
2022-03-08 02:46:39

我开发了一个 logit 模型,可应用于六组不同的横截面数据。我试图揭示的是,给定自变量 (IV) 对因变量 (DV) 的实质性影响是否会发生变化,以控制不同时间和跨时间的其他解释。

我的问题是:

  • 如何评估 IV 和 DV 之间关联的大小增加/减少?

  • 我可以简单地查看模型中系数的不同大小(大小),还是需要经过其他一些过程?

  • 如果我需要做其他事情,它是什么,可以完成/如何在 SPSS 中完成?

    此外,在单个模型中,

  • 如果所有变量都编码为 0-1,我可以根据非标准化分数比较自变量的相对大小,还是需要将它们转换为标准化分数?

  • 标准化分数是否存在问题?

4个回答

我将主要关注你的前三个问题。简短的回答是:(1)您需要比较每个时间段的 IV 对 DV 的影响,但是(2)仅比较幅度会导致错误的结论,并且(3)有很多方法可以做到这一点,但哪个是正确的没有共识。

下面我描述了为什么你不能简单地比较系数大小并指出一些迄今为止已经想到的解决方案。

根据 Allison (1999),与 OLS 不同,逻辑回归系数会受到未观察到的异质性的影响,即使这种异质性与感兴趣的变量无关。

当您拟合逻辑回归时,例如:

(1)

ln(11pi)=β0+β1x1i

您实际上是在拟合一个预测潜在变量值的方程y表示每个观察值的潜在倾向1在二元因变量中,如果y高于某个阈值。等式是(Williams,2009):

(2)

y=α0+α1x1i+σε

术语ε假设独立于其他项并遵循逻辑分布 - 或在 probit 的情况下为正态分布,在互补对数对数的情况下为对数逻辑分布,在 cauchit 的情况下为柯西分布。

根据威廉姆斯(2009)的说法,α等式 2 中的系数与β等式 1 中的系数通过:

(3)

βj=αjσj=1,...,J.

在等式 2 和 3 中,σ是未观察到的变化的比例因子,我们可以看到估计的大小β系数取决于σ,这是没有观察到的。基于此,Allison (1999)、Williams (2009) 和 Mood (2009) 等人声称,您不能天真地比较不同组、国家或时期估计的逻辑模型之间的系数。

这是因为如果未观察到的变化在组、国家或时期之间存在差异,则比较可能会得出错误的结论。使用不同模型和在同一模型中使用交互项的比较都存在这个问题。除了 logit,这也适用于它的表亲 probit、clog-log、cauchit,并且通过扩展,也适用于使用这些链接函数估计的离散时间风险模型。有序 logit 模型也受其影响。

Williams (2009) 认为,解决方案是通过异构选择模型(又名位置尺度模型)对未观察到的变化进行建模,并提供了一个oglm 为此要求的 Stata 插件(Williams 2010)。在 R 中,异构选择模型可以与包的hetglm()功能相匹配glmx,这可以通过 CRAN 获得。这两个程序都非常易于使用。最后,Williams (2009) 提到了 SPSSPLUM用于拟合这些模型的例程,但我从未使用过它,也无法评论它的易用性。

但是,至少有一篇工作论文表明,如果方差方程指定错误或存在测量误差,则使用异质选择模型进行的比较可能会更加偏颇。

Mood (2010) 列出了其他不涉及对方差建模,但使用预测概率变化比较的解决方案。

显然这是一个尚未解决的问题,我经常在我所在领域(社会学)的会议上看到论文提出不同的解决方案。我建议你看看你所在领域的人做什么,然后决定如何处理它。

参考

Guilherme 在这里很赚钱。虽然其他响应很有用,但请注意逻辑回归(以及所有非线性回归,如泊松,就此而言)与线性回归根本不同。在对六个不同的数据集运行相同的分析然后对组合的数据集运行该分析时,logit 比例因子可能存在严重问题。系数的变化可能与有意义的差异无关(即使在统计上显着或实质性重要)。他们可能与样本中未观察到的异质性有关。您绝对必须对此进行测试。社会和政策科学领域的许多(如果不是大多数)研究人员忽略了这一点。Guilherme 给出了关于这方面的开创性文章,我建议大家看看。彼得斯的建议很实用,但简单地为数据来源的样本编码一个虚拟变量并不能解决比例因子中的这种异质性。您可以在线性回归中做到这一点,并且异质性不应该影响您的系数,但在这里可能。

logit 与线性回归所特有的未观察到的异质性影响的另一个方面是每个数据集中不同回归量的影响。如果您没有相同的变量,或者如果它们的测量方式不同,那么您就有了一种遗漏变量偏差。与线性回归不同,与您的关键回归量正交的遗漏变量仍然会使您的估计产生偏差。正如克莱默所说:

因此,即使使用正交回归器,省略的变量也会将压向零,相对于其在完整方程中的值。换句话说,离散模型的与未观察到的异质性程度成反比。实际结果是,在这方面不同的样本的估计值不能直接比较。( http://dare.uva.nl/document/2/96199 )β^β^

Cramer 还指出,尽管在省略变量时系数估计值会向下偏斜,但偏导数不会。这是相当复杂的,您应该阅读这篇文章以获得更清晰的解释——总体而言,不要只看对数赔率或赔率比。考虑预测的概率和导数;有关详细信息,请参阅 Stata 中的边距命令。JD Long 有一篇论文在这里进行了详细介绍。

最后,您可以在 Google 上找到许多讨论 logit 模型中的交互术语的论文。我的理解是,将交互的 logit 系数作为指导,但不是确定的,特别是如果您更喜欢将系数视为指数优势比。查看预测概率和平均边际效应更好(再次,查找有关 Logit 的 Stata 边际命令的文档,即使您使用 SPSS,这仍然会有所帮助)。

我对 SPSS 不够熟悉,不知道该软件包如何处理这些问题,但我会这样说:当您遇到像这样的更深层次的统计问题时,这表明您是时候转向更深层次的统计问题了。灵活、复杂的软件包,如 Stata 或 R。

数据集之间是否有变化?不用看数据我也能回答!是的。有。他们多大?这是关键。对我来说,看的方法就是看。您将为每个数据集的每个自变量提供优势比——它们在人们感兴趣的方式上是否不同?现在,确实每个都会有一个标准误差等等,并且可能有一些方法可以查看它们在统计上是否存在显着差异,但这真的是一个有趣的问题吗?如果是,那么用软件轻松测试它的一种方法是将所有研究结合起来,并将“研究”作为另一个自变量。如果你愿意,你甚至可以测试交互。您是否要这样做取决于您的实质性问题。

至于比较模型中的变量,标准化分数的主要问题是它们在您的特定样本上是标准化的。因此,参数估计等是根据您的特定样本中变量的标准偏差。即使您的样本确实是来自某个总体的随机样本,它与其他随机样本的标准偏差也会(略微)不同。这使事情变得混乱。

另一个问题是“相对大小”的问题甚至意味着什么。如果您的 IV 是易于理解的东西,您可以比较有意义的范围内的 OR。

另一个可能有用的工具是标准化回归系数,或者至少是一个粗略的伪版本。您可以通过将获得的系数乘以预测变量的标准偏差来获得一个这样的版本。(还有其他版本和一些关于最佳版本的争论,例如参见 Menard 2002,Applied Logistic Regression Analysis ( Google 书籍))。这将为您提供一种评估跨研究效果强度的方法。