给定一个连续的因变量y和包括序数变量X 1的自变量,我如何拟合线性模型R
?有关于这种模型的论文吗?
具有序数自变量的连续因变量
@Scortchi在Coding for an ordered covariate上为您提供了这个答案。我已经重复了我对两个人口统计 IV 对调查答案的影响(李克特量表)的回答的建议。具体来说,建议使用Gertheiss 的(2013) ordPens 包,并参考Gertheiss 和 Tutz (2009a)的理论背景和模拟研究。
您可能想要的特定功能是ordSmooth
*。这实质上平滑了有序变量级别的虚拟系数,使其与相邻等级的差异较小,从而减少了过度拟合并改善了预测。当数据实际上是有序的时,它通常与连续(或用它们的术语,度量)数据的回归模型的最大似然估计(即,在这种情况下为普通最小二乘)估计一样好或(有时好得多)。它似乎与各种广义线性模型兼容,并允许您将名义和连续预测变量作为单独的矩阵输入。
下面列出了 Gertheiss、Tutz 和同事的一些其他参考资料。其中一些可能包含替代方案——甚至 Gertheiss 和 Tutz (2009a)也将山脊重新粗加工作为另一种替代方案。我自己还没有深入研究,但可以说这解决了@Erik 关于序数预测变量的文献太少的问题!
参考
- Gertheiss, J.(2013 年 6 月 14 日)。ordPens:序数预测变量的选择和/或平滑,版本 0.2-1。取自http://cran.r-project.org/web/packages/ordPens/ordPens.pdf。
- Gertheiss, J.、Hogger, S.、Oberhauser, C. 和 Tutz, G. (2011)。选择按顺序缩放的自变量应用于功能核心集的国际分类。皇家统计学会杂志:C 系列(应用统计),60 (3), 377–395。
- Gertheiss, J. 和 Tutz, G. (2009a)。带有序数预测变量的惩罚回归。国际统计评论,77 (3), 345–365。取自http://epub.ub.uni-muenchen.de/2100/1/tr015.pdf。
- Gertheiss, J. 和 Tutz, G. (2009b)。基于质谱的蛋白质组学分析中的监督特征选择 生物信息学, 25 (8), 1076–1077。
- Gertheiss, J. 和 Tutz, G. (2009c)。可变缩放和最近邻方法。化学计量学杂志,23 (3),149–151。- Gertheiss, J. & Tutz, G. (2010)。分类解释变量的稀疏建模。
应用统计年鉴,4,2150-2180。
- Hofner, B.、Hothorn, T.、Kneib, T. 和 Schmid, M. (2011)。基于 boosting 的无偏模型选择框架。计算和图形统计杂志,20 (4), 956–971。取自http://epub.ub.uni-muenchen.de/11243/1/TR072.pdf。
- Oelker, M.-R., Gertheiss, J. 和 Tutz, G. (2012)。在广义线性模型中使用分类预测变量和效应修饰符进行正则化和模型选择。统计部:技术报告,第 122 号。取自http://epub.ub.uni-muenchen.de/13082/1/tr.gvcm.cat.pdf。
- Oelker, M.-R. 和 Tutz, G. (2013)。在广义结构化模型中组合不同类型的惩罚的一般惩罚系列。统计部:技术报告,第 139 号。取自http://epub.ub.uni-muenchen.de/17664/1/tr.pirls.pdf。
- Petry, S.、Flexeder, C. 和 Tutz, G. (2011)。成对融合的套索。统计局:技术报告,第 102 号. 取自http://epub.ub.uni-muenchen.de/12164/1/petry_etal_TR102_2011.pdf。
- Rufibach, K. (2010)。一种主动集算法,用于估计具有有序预测变量的广义线性模型中的参数。计算统计与数据分析,54 (6),1442–1456。取自http://arxiv.org/pdf/0902.0240.pdf?origin=publication_detail。
- Tutz, G.(2011 年 10 月)。分类数据的正则化方法。慕尼黑:路德维希-马克西米利安大学。取自http://m.wu.ac.at/it/departments/statmath/resseminar/talktutz.pdf。
- Tutz, G. 和 Gertheiss, J. (2013)。评级量表作为预测因子——量表水平的老问题和一些答案。心理测量学,1-20。
当有多个预测变量并且感兴趣的预测变量是序数时,通常很难决定如何对变量进行编码。将其编码为分类会丢失顺序信息,而将其编码为数字则会对有序类别的影响施加线性,这可能与它们的真实影响相去甚远。对于前者,已提出等渗回归作为解决非单调性的一种方法,但它是一种数据驱动的模型选择过程,与许多其他数据驱动的过程一样,需要仔细评估最终拟合模型和显着性其参数。对于后者,样条曲线可以部分缓解刚性线性假设,但仍然必须将数字分配给有序类别,并且结果对这些选择很敏感。在我们的论文中(Li and Shepherd,2010,引言,第 3-5 段),
令 $Y$ 为结果变量,$X$ 为感兴趣的序数预测变量,$\bf Z$ 为其他协变量。我们建议拟合两个回归模型,一个在 $\bf Z$ 上拟合 $Y$,另一个在 $\bf Z$ 上拟合 $X$,计算两个模型的残差,并评估残差之间的相关性。在 Li 和 Shepherd (2010) 中,我们研究了当 $Y$ 是序数时的这种方法,并表明只要 $X$ 类别的影响是单调的,它就可以是一种非常好的鲁棒方法。我们目前正在评估这种方法在其他结果类型上的表现。 be an outcome variable, be the ordinal predictor of interest, and be the other covariates. We have proposed to fit two regression models, one for on and the other on , calculate the residuals for the two models, and evaluate the correlation between the residuals. In Li and Shepherd (2010), we studied this approach when is ordinal and showed that it can be a very good robust approach as long as the effect of the categories is monotonic. We are currently evaluating the performance of this approach on other outcome types.
这种方法需要一个适当的残差,用于序数 $X$ 在 $\bf Z$ 上的回归。我们在 Li 和 Shepherd (2010) 中提出了序数结果的新残差,并用它来构建检验统计量。我们在另一篇论文中进一步研究了这种残差的性质和其他用途(Li 和 Shepherd,2012 年)。 on . We proposed a new residual for ordinal outcomes in Li and Shepherd (2010) and used it to construct a test statistic. We further studied the properties and other uses of this residual in a separate paper (Li and Shepherd, 2012).
我们开发了一个 R 包PResiduals,可从 CRAN 获得。该包包含用于执行我们的线性和有序结果类型方法的函数。我们正在努力添加其他结果类型(例如,计数)和功能(例如,允许交互)。该软件包还包含用于计算各种回归模型的残差(概率尺度残差)的函数。
参考
Li, C. & Shepherd, BE (2010)。在调整协变量时测试两个序数变量之间的关联。JASA, 105, 612–620。
Li, C. & Shepherd, BE (2012)。序数结果的新残差。生物计量学 99, 473–480。
一般来说,有很多关于序数变量作为因变量的文献,很少使用它们作为预测变量。在统计实践中,它们通常被假定为连续的或分类的。您可以通过检查残差来检查将预测变量作为连续变量的线性模型是否看起来很合适。
它们有时也被累积编码。例如,对于级别为 1,2 和 3 的序数变量 x1,x1>1 有一个虚拟二进制变量 d1,x1>2 有一个虚拟二进制变量 d2。那么 d1 的系数是当您将序数从 2 增加到 3 时得到的效果,而 d2 的系数是当您将序数从 2 增加到 3 时得到的效果。
这使得解释通常更容易,但等效于将其用作实际目的的分类变量。
Gelman甚至建议可以将序数预测变量用作分类因子(用于主效应)和连续变量(用于交互作用),以增加模型的灵活性。
我个人的策略通常是看是否将它们视为连续的是否有意义并产生合理的模型,并且仅在必要时将它们用作分类。