带有(太多?)分类自变量的有序 logit

机器算法验证 回归 分类数据 有序的logit
2022-04-08 12:55:12

我正在对一些有序的因变量(大约 70 个)进行一些推理分析。它们的量表范围为 4-10 个可能的(有序)响应。给出一些背景信息,这都是社会数据——幸福感、对少数族裔的感情等等——我的推论问题是关于大学学位的社会回报。

对于我的二元和连续因变量(不是这个问题的一部分),我有一组很好的控件。其中不少是分类的(你上过私立高中吗?你的婚姻状况如何?),还有一些是连续的或虚拟的。

我的问题是,当我对有序变量使用相同的控件时,我会得到大量空的结果级别/分类自变量组合。例如,没有鳏夫给自己的幸福评分为 2。由于这种情况很多,R 函数 polr 和 lrm 不起作用(如果不是这种情况,请告诉我)。

那么,选择似乎(对我来说)是:

a) 减少控制集以消除空单元格,或

b)在ols中做。

我知道对于我的分类数据,不满足 ols 的假设。但是鉴于我的任务,我想知道这两种解决方案都会损失多少?

2个回答

使用普通最小二乘法 (OLS) 并不能解决您面临的问题。它只是假设它消失了。如果您使用的是 OLS,则您隐含地假设您的比例上的不同点是等距的。如果您对这个假设感到满意,请按下 OLS 按钮并尝试说服您的听众。

我会以不同的方式解决这个问题。您已经提到了解决方案。事实上,重新编码控制变量并减少类别数量可能是有意义的。人口稀少的类别可以合并到其他类别。使用您的主题知识来合并和重新定义类别。

您也可以尝试重新编码因变量。即使在 10 分制上,反应通常也集中在某些形式上。同样,在主题知识的指导下,您可以重新定义因变量。

这个话题在 CrossValidated 上并不新鲜。李克特标签下,您会发现很多您可能感兴趣的讨论。

经过很多拖延,我最终解决了这个问题。我以为我会发布我的解决方案,所以没有人会犯同样的(愚蠢的!)错误。

我的问题根本不是分类变量。问题在于,在我的自变量中,我的家庭收入没有正确缩放。这意味着 polr 和 bayespolr 在计算 Hessian 时都倒下了。

所以,当遇到这样的问题时,只要记住第一年的统计课:缩放你的变量。记录收入之类的东西。