使用一组具有多项选择分类响应变量的二元逻辑回归

机器算法验证 回归 物流 多项分布
2022-03-13 14:35:00

我有来自 13 个国家的关于人们对某个政策领域的态度的分类调查数据。响应变量是分类的,包括 4 个无法排序的不同答案。

我想建立一个多级随机截距和随机斜率多项式模型。问题是,2 级案例的数量只有 13 个,并且模型不收敛,至少在多项式形式下不收敛。

因此,作为次优选择,我正在考虑将响应变量重新编码为二进制形式,运行一系列多级逻辑回归,然后使用预测概率来显示选择某个感兴趣类别的概率取决于关于我的解释变量。显然,这只是次优选择。我想知道采用这种方法可能存在哪些风险,以及我应该期待哪些反对意见(来自审阅者、主管等)。

2个回答

在大多数情况下,在一个多项式和一系列逻辑回归之间进行选择是相对人为的。由于在这两种方法中,您都选择了一个基线类别(参考),所有其他类别的优势比都根据该基线类别(参考)表示,如果参考类别保持相等,您是否拥有一个或另一个通常无关紧要。最大的缺点是您无法测试逻辑模型中的同时参数限制,这在多项式情况下相当简单。

不过,我建议不要对 13 个国家/地区(2 级单位)使用随机效应,请参阅例如https://www.statmodel.com/download/SRM2012.pdf

另一种方法是使用固定效应模型,其中每个国家包含一个虚拟变量(减 1)。这个过程的最大缺点是测试宏观层面的影响是不可行的。如果您在这方面没有任何假设,我会选择固定效应多项式模型。

我鼓励您在一个模型中运行此分析(在 AMOS 中),我认为您的数据结构没有问题(参见例如:Maas, CJM & Hox, JJ (2005) Sufficient sample sizes for multilevel modeling. Methodology, 1 , 86-92.)。当您在同一个数据集上运行多个模型时,您会增加犯 I 类错误的机会(至少您需要使用 Bonferroni 校正;这被认为是一种保守的技术)。