多项 Logistic 回归的正确假设是什么?使用 SPSS 18 满足这些假设的最佳测试是什么?
多项逻辑回归假设
MNL 中的关键假设是误差独立同分布,服从 Gumbel 极值分布。测试这个假设的问题在于它是先验的。在标准回归中,您拟合最小二乘曲线,并测量残差。在 logit 模型中,您假设误差已经在点的测量中,并根据该假设计算似然函数。
一个重要的假设是样本是外生的。如果它是基于选择的,则需要进行更正。
至于对模型本身的假设,Train描述了三个:
- 系统的、非随机的味道变化。
- 替代品之间的比例替代(IIA 属性的结果)。
- 误差项(面板数据)中没有序列相关性。
第一个假设你大多只需要在你的问题的背景下进行辩护。第三个基本相同,因为误差项完全是随机的。
然而,第二个在一定程度上是可测试的。如果您指定一个嵌套的 logit 模型,并且事实证明嵌套间替换模式是完全灵活的 ( ),那么您可以使用 MNL 模型,并且 IIA 假设是有效的。但请记住,嵌套 logit 模型的对数似然函数具有局部最大值,因此您应该确保始终得到。
至于在 SPSS 中执行这些操作,除了建议您改用mlogit
R 中的包外,我无能为力。对不起。
假设:
- 结果遵循分类分布(http://en.wikipedia.org/wiki/Categorical_distribution),它通过链接函数链接到协变量,就像在普通逻辑回归中一样
- 观测单位的独立性
- 协变量与结果的(链接转换)期望之间的线性关系
为了满足假设 1,您的结果类别需要是排他性的(不重叠)和详尽的(涵盖结果可以采取的所有可能形式)。
我真的不知道假设 2 是否有任何适当的统计检验。对于时间序列数据,有一个称为 Durbin-Watson 检验的自相关检验。对于其他形式的相关数据,我认为您宁愿根据理论考虑做出该决定(例如,如果您的数据来自集群抽样程序,您会期望集群内的数据是相关的)。
至于假设 3,在二元逻辑回归中,您可以根据估计概率绘制分箱残差,以查看在整个估计概率范围内平均残差是否约为 0。我想这可以通过制作(k-1)个这样的图来推广到多项回归,而不是针对具有 k 个类别的结果的不同类别。
编辑:
关于替代模型:假设 1 很容易实现。您可能会遇到麻烦,因为您必须估计大量参数(k-1 组不同的截距和斜率参数)。在这种情况下,您可以例如将结果折叠成二元结果并进行简单的逻辑回归。
如果违反假设 2,您可以使用混合模型,它允许您指定依赖结构 -
至于假设 3,您可以转换您怀疑它们具有非线性效应的变量。例如,一个常见的转变是将年龄平方纳入健康相关结果。
多项式逻辑的最重要的实际假设之一是的最小频率类别中的观察数量很大,例如模型右侧的参数数量的 10 倍。
@h_bauer 提供了一个很好的答案。让我补充一点:您还可以通过添加曲线项和执行嵌套模型测试来测试曲线关系。例如,假设您将作为解释变量,但您不确定它与链接转换期望之间的关系是否是一条直线。您可以通过添加和来形成一个新模型,然后测试您的新模型是否比原始模型更适合。
广义线性模型的另一个假设,如多项逻辑,是链接函数是正确的。严格来说,多项式逻辑回归仅使用 logit 链接,但还有其他多项式模型的可能性,例如多项式概率。许多人(有些草率地)将任何此类模型称为“逻辑”,仅表示响应变量是分类的,但该术语实际上仅正确地指代了 logit 链接。有关链接的更多信息,它可能会帮助您在这里阅读我的答案: logit 和 probit 模型之间的差异。
关于解决违反这些假设的问题,这主要是不言自明的。如果观察结果不是独立的,您可以添加相关的固定或随机效应来使它们独立。如果与预测变量的关系不是线性的,您可以添加转换后的变量,使其在增强的预测变量空间中是线性的。如果链接不合适,您可以更改它等。通常,多项逻辑回归不会做出非常约束的假设。