在 R 中学习序数回归?

数据挖掘 r 逻辑回归
2021-09-15 06:20:17

我正在做一个项目,需要资源让我跟上进度。

该数据集包含大约 30 个变量的 35000 个观测值。大约一半的变量是分类变量,其中一些具有许多不同的可能值,即如果将分类变量拆分为虚拟变量,您将拥有超过 30 个变量。但仍然可能最多几百个。(n>p)。

我们想要预测的响应是具有 5 个级别 (1,2,3,4,5) 的序数。预测变量是连续变量和分类变量的混合体,各占一半。到目前为止,这些是我的想法/计划: 1. 将响应视为连续并运行香草线性回归。2. 运行名义和有序逻辑和概率回归 3. 使用 MARS 和/或其他形式的非线性回归

我熟悉线性回归。Hastie 和 Tibshirani 对 MARS 的描述已经足够好。但是当谈到序数 logit/probit 时,我不知所措,尤其是在有这么多变量和大数据集的情况下。

r 包glmnetcr似乎是迄今为止我最好的选择,但是文档不足以让我到达我需要的地方。

我可以去哪里了解更多信息?

4个回答

我建议这个关于有序 logit 的教程:http: //www.ats.ucla.edu/stat/r/dae/ologit.htm

它展示了包中的使用polrMASS还解释了假设以及如何解释结果。

CRAN 上的 VGAM 是一个相当强大的具有有序分类响应的回归 R 包。小插图包含一些序数回归的示例,但不可否认,我从未在如此大的数据集上尝试过它,所以我无法估计可能需要多长时间。您可以在作者的页面上找到一些关于 VGAM 的附加材料或者,您可以查看 Laura Thompson 的Agresti 著作“分类数据分析”的同伴。Thompson 书中的第 7 章描述了累积 logit 模型,这些模型经常与序数响应一起使用。

希望这可以帮助!

如果您对序数回归完全不熟悉,我会先尝试阅读有关该主题的 Tabachnick / Fidell ( http://www.pearsonhighered.com/educator/product/Using-Multivariate-Statistics-6E/0205849571.page ) 章节- 虽然不是为 R 写的,但这本书非常擅长传达一般逻辑以及“做”和“不做”。

作为一个问题:您的响应类别到底是什么?如果它们是某种规模,例如“好 - 坏”,则可以使用线性回归(市场研究一直这样做......),但如果项目更加分离,序数回归可能会更好. 我依稀记得一些关于结构方程建模的书提到线性回归在好的尺度上优于概率——我现在不记得这本书了,抱歉!

最严重的问题可能是虚拟变量的数量——几百个虚拟变量会使分析变得缓慢、难以解释并且可能不稳定——每个虚拟/虚拟组合是否有足够的案例?

从社会科学角度编写的一个标准参考是J Scott Long 的有限因变量书。它比 Tabachnik 在另一个答案中建议的要深入得多:Tabachnik 充其量只是一本食谱,几乎没有解释“为什么”,而且您似乎可以从 Long's 中找到的更详细的解决方案中受益书。大多数介绍性计量经济学课程(Wooldridge 的横截面和面板数据是一本很棒的研究生水平的书)以及定量社会科学课程(社会学、心理学)都应该涵盖序数回归,尽管我想后者会循环回来到龙的书。

鉴于您的变量数量远低于样本量,您应该寻找的 R 包可能ordinal不是glmnetcr. 另一个答案提到您可以在更主流的MASS软件包中找到此功能。