预测排名的回归方法

机器算法验证 多重回归 排名
2022-03-20 11:39:51

是否有用于预测响应等级的规范回归方法?

我想将回归拟合到一个数据集,其中响应非常不正常,异常值非常大。大约有 10 个预测变量。我在转换方面没有取得多大成功(最好的方法是添加一个常量,然后记录两次响应,但这不是很容易解释)。

但是,我只关心响应的等级。响应实际上只是一个分数,用作对观察结果进行排名的工具。我真正想知道的是哪些预测变量解释了排名中最大的变化。

我的方法如下:

  1. 计算响应的等级。即对于每个观察,计算iR(Yi)
  2. 假设是观察次数。然后,近似地,NUi=R(Yi)NUnif(0,1)
  3. 通过概率积分变换,Zi=Φ1(Ui)N(0,1)
  4. 对预测变量的回归中使用作为我的响应ZZ

由于这些秩和逆 CDF 变换是单调的,因此保持秩,我认为这种回归方法将帮助我确定哪些协变量最能预测秩。

这种方法有效吗?有没有更好或更标准的方法来预测一组协变量的排名?谷歌搜索,我发现了这篇论文,但我不知道这种方法是如何被接受或广为人知的:https ://journal.r-project.org/archive/2012-2/RJournal_2012-2_Kloke+McKean.pdf

谢谢!

1个回答

据我所知,本文所指的基于秩的估计与您感兴趣的略有不同。请注意,最小二乘估计是基于应该选择这不适合您的情况,因为的分布不是很好,而且也不是很有趣。然而,本文的重点仍然是预测作为的线性函数。唯一的区别是它估计的方式:在他们的情况下,他们选择来最小化基于等级的规范β||yXβ||2yyXββ这仍然适用于因此,这种方法仍然很大程度上依赖于的分布。yXβy

您提到您只关心响应变量的等级。换句话说,您最好使用来建模而不是本身。被限制为的事实意味着通常的线性回归方法可能不起作用。您最终可能会得到单位区间之外的预测,或者您甚至可能在之间没有线性关系。但这真的不是问题。在这种情况下,通常的建模方法是采用广义线性模型。拟合此模型的唯一附加步骤是选择适当的链接函数。XR(Y)YR(Y)[0,1]XR(Y)

例如,假设然后使用对具有 GLM 和 logit 或 probit 链接的进行建模是合适的。XNormal(0,1)Y|XNormal(β0+β1X,σ2)XR(Y)