分位数回归与在分位数处进行变量拆分的逻辑回归相比如何?

机器算法验证 物流 分位数回归
2022-03-26 14:30:29

我用谷歌搜索了一下,但没有找到任何关于此的内容。

假设您对因变量的第 q 个分位数进行分位数回归。

然后在第 q 个分位数处拆分 DV 并将结果标记为 0 和 1。然后对分类的 DV 进行逻辑回归。

我正在寻找有关此的任何蒙特卡洛研究或偏爱其中一个的理由等。

4个回答

为简单起见,假设您有一个连续的因变量 Y 和一个连续的预测变量 X。

逻辑回归

如果我正确理解您的帖子,您的逻辑回归将根据 Y 的(无条件)分布的分位数将 Y 分类为 0 和 1。具体而言,将计算观察到的 Y 值分布的第 q 个分位数,并且 Ycat 将如果 Y 严格小于此分位数,则定义为 0,如果 Y 大于或等于此分位数,则定义为 1。

如果以上内容符合您的意图,那么逻辑回归将模拟 Y 超过或等于(无条件)Y 分布的(观察到的)第 q 分位数作为 X 的函数的几率。

分位数回归

另一方面,如果您在 X 上执行 Y 的分位数回归,您将专注于建模给定 X 的 Y 的条件分布的第 q 个分位数如何作为 X 的函数变化。

逻辑回归与分位数回归

在我看来,这两个过程的目标完全不同,因为第一个过程(即逻辑回归)侧重于 Y 的无条件分布的第 q 个分位数,而第二个过程(即分位数回归)侧重于Y 的条件分布的第 q 个分位数。

The unconditional distribution of Y is the 
distribution of Y values (hence it ignores any 
information about the X values). 

The conditional distribution of Y given X is the 
distribution of those Y values for which the values 
of X are the same.  

说明性示例

出于说明目的,假设 Y = 胆固醇,X = 体重。

然后逻辑回归将具有“高”胆固醇值(即,大于或等于观察到的胆固醇值的第 q 个分位数)的几率建模为体重的函数,其中“高”的定义没有体重的关系。换句话说,构成“高”胆固醇值的标志与体重无关。在这个模型中随着体重的变化是胆固醇值超过这个标记的几率。

另一方面,分位数回归正在研究“标志”胆固醇值如何随着体重的变化而变化。您可以将这些胆固醇值视为确定哪些胆固醇值“高”的标记 - 但在这种情况下,每个标记都取决于相应的体重;此外,假设标记随着 X 值的变化而以可预测的方式变化(例如,标记倾向于随着 X 的增加而增加)。

他们不会平等,原因很简单。

使用分位数回归,您希望对自变量的分位数条件进行建模。您的逻辑回归方法适合边际分位数。

有人问“对因变量分布的第 n 个分位数有什么影响?” 另一个问题是“对因变量落入其无条件分布的第 n 个分位数的概率有什么影响?”

即,他们都有“分位数”这个词的事实让他们看起来比他们更相似。

我想如果您首先估计一个条件分位数函数,将其用于拆分并从那里开始,这两种方法会变得更加相似。但我看不出你会从这样的迂回中获得什么。.

如果我正确地转录了这些,这大致是交易。参阅https://en.wikipedia.org/wiki/Quantile_regressionρp.

逻辑回归:

p(ythresh)=argminpiJlogistic(p,yi<ythresh)

分位数回归

y(pthresh)=argminyiρp(yiy)

问题是(我不记得了)这些变分问题的得分函数是 MLE 唯一可能的吗?如果没有,是否有一个配对可以保证在生成相同配对的意义上是等价的?(p,y)