以等级顺序作为因变量的回归

机器算法验证 回归 多重回归 序数数据 排行
2022-04-02 02:01:32

我有 44 家公司的数据,这些公司都经过专家排名。“最好”的公司排名第 1,第二好的公司排名第 2,...,最后一家排名 44。我有一堆解释变量,想根据这些变量来解释公司的排名. 我倾向于使用回归模型,但我担心因变量是有限的,它只能是一个正离散数。

我曾考虑过序数回归,但这似乎是不可能的,因为我将拥有与我观察到的一样多的类别。

什么回归模型是可能的?(最好在 R 中运行)

3个回答

在我看来,序数回归是解决这个问题的理想选择。除了具有与观测值引起的计算负担之外,没有其他问题。R包的功能使用特殊的稀疏矩阵表示来解决计算负担问题。有关示例,请参阅我应该使用哪种模型来拟合我的数据?序数和非序数,非正态和非均方差Yrmsorm

原则上,您担心响应是有限的是正确的。在实践中,使用这种数据,您不太可能得到超出观察数据范围的预测。这不是你的错,而只是公司层面数据的高度不可预测性的影响。

这么说吧:你能得到的最糟糕的情况是没有预测变量真正有帮助,在这种情况下,模型将预测每家公司的平均排名,至少是一个很好的初步近似值。在实践中,您希望自己能做得更好,但没有理由期望预测会超出观察范围。(或者有吗?)

但是为什么要预测排名呢?为什么不尝试预测一些性能指标,然后对预测进行排名,然后与专家的排名进行比较?这听起来问题不大。

我听说过使用统计量,然后与卡方表进行比较。(任何人都可以支持我吗?)您所要做的就是将所有数据转换为等级,通过常规的旧多元回归运行它,然后使用统计量找到您的值。L(N1)r2Lp

但是,我觉得推理在您的情况下不会太有用。不太确定数据的上下文,但简单地使用 Spearman 相关性或散点图可能更能说明问题。