我正在做一个项目,需要资源让我跟上进度。
该数据集包含大约 30 个变量的 35000 个观测值。大约一半的变量是分类变量,其中一些具有许多不同的可能值,即如果将分类变量拆分为虚拟变量,您将拥有超过 30 个变量。但仍然可能最多几百个。(n>p)。
我们想要预测的响应是具有 5 个级别 (1,2,3,4,5) 的序数。预测变量是连续变量和分类变量的混合体,各占一半。到目前为止,这些是我的想法/计划: 1. 将响应视为连续并运行香草线性回归。2. 运行名义和有序逻辑和概率回归 3. 使用 MARS 和/或其他形式的非线性回归
我熟悉线性回归。Hastie 和 Tibshirani 对 MARS 的描述已经足够好。但是当谈到序数 logit/probit 时,我不知所措,尤其是在有这么多变量和大数据集的情况下。
r 包glmnetcr似乎是迄今为止我最好的选择,但是文档不足以让我到达我需要的地方。
我可以去哪里了解更多信息?