在线性回归中,为什么响应变量必须是连续的?

机器算法验证 回归 线性的
2022-02-28 01:18:08

我知道在线性回归中,响应变量必须是连续的,但为什么会这样?我似乎无法在网上找到任何解释为什么我不能使用离散数据作为响应变量的东西。

4个回答

没有什么能阻止你对你喜欢的任何两列数字使用线性回归。有时它甚至可能是一个非常明智的选择。

然而,你得到的属性不一定有用(例如,不一定是你想要的)。

通常,通过回归,您试图拟合 Y 的条件平均值与预测变量之间的某种关系——即某种形式的拟合关系 E(Y|x)=g(x); 可以说,对条件期望的行为进行建模就是“回归” [线性回归是当您对 g 采取一种特定形式时]

例如,考虑离散性的极端情况,即一个响应变量,其分布为 0 或 1,取值为 1,其概率随着某些预测变量 (x) 的变化而变化。E(Y|x)=P(Y=1|X=x)

如果你用线性回归模型拟合这种关系,那么除了一个狭窄的区间外,它将预测 E(Y) 的值是不可能的——低于 0 美元或高于 1 美元:

0-1 数据和最小二乘拟合

实际上,还可以看到,随着期望值接近边界,值必须越来越频繁地取该边界处的值,因此它的方差比期望值接近中间时要小——方差必须减小到 0 . 所以一个普通的回归得到了错误的权重,在条件期望接近 0 或 1 的区域中低估了数据。如果你有一个在 a 和 b 之间有界的变量,例如(例如每个观察都是离散计数),就会出现类似的效果在该观察的已知总可能计数中)

此外,我们通常期望条件均值向上限和下限渐近,这意味着关系通常是弯曲的,而不是直线的,因此我们的线性回归也可能在数据范围内出错。

当您靠近该边界时,仅在一侧有界的数据(例如没有上边界的计数)也会出现类似问题。

可能(如果很少见)具有两端不受限制的离散数据;如果变量取许多不同的值,那么只要模型对均值和方差的描述是合理的,那么离散性的影响就可能相对较小。

这是一个使用线性回归完全合理的示例:

绘图显示离散 y 作为 x 的函数,其中线性回归有意义

即使在任何细长的 x 值条带中,可能只观察到几个不同的 y 值(对于宽度为 1 的区间,可能约为 10),但可以很好地估计期望值,甚至可以很好地估计标准误差和 p-在这种特殊情况下,值和置信区间都或多或少是合理的。预测区间的效果往往不太好(因为在这种情况下,非正态性往往会产生更直接的影响)

--

如果要执行假设检验或计算置信区间或预测区间,通常的程序会假设正态性。在某些情况下,这可能很重要。但是,可以在不做出特定假设的情况下进行推断。

我无法评论,所以我会回答:在普通线性回归中,响应变量不必连续的,你的假设不是:

y=β0+β1x

但是:

E[y]=β0+β1x.

普通线性回归源自平方残差的最小化,这是一种被认为适用于连续和离散变量的方法(参见 Gauss-Markof 定理)。当然,通常使用的置信区间或预测区间和假设检验基于正态分布假设,就像 Glen_b 正确指出的那样,但参数的 OLS 估计没有。

在线性回归中,我们需要连续响应的原因是结合了我们所做的假设。如果自变量 $x$ 是连续的,那么我们假设 $x$ 和 $y$ 之间的线性关系是x is continuous, then we assume the linear relationship between x and y is

y=β0+β1x+ϵ

其中,残差 $\epsilon$ 是正常的。并形成我们知道 $y$ 是连续的公式。ϵ are normal. And form the formula we know y is continuous.

另一方面,在广义线性模型中,响应变量可以是离散的/分类的(逻辑回归)。或计数(泊松回归)。


编辑地址 mark999 和 remapt 的评论。

线性回归是一个通用术语,人们可能会以不同的方式使用它。没有什么可以阻止我们在离散变量上使用它,或者自变量和因变量不是线性的。

如果我们什么都不做假设并运行线性回归,我们仍然可以获得结果。如果结果满足我们的需求,那么整个过程就OK了。然而,正如 Glan_b 所说

如果要执行假设检验或计算置信区间或预测区间,通常的程序会假设正态性。

我有这个答案是因为我假设 OP 是从经典统计书中询问线性回归,我们在教授线性回归时通常会有这个假设。

它没有。如果模型有效,谁在乎?

从理论的角度来看,上面的答案是正确的。但是,实际上,这完全取决于数据的领域和模型的预测能力。

一个真实的例子是旧的 MDS 破产模型。这是消费信贷机构用来预测借款人宣布破产可能性的早期风险评分之一。该模型使用借款人信用报告中的详细数据和二进制 0/1 标志来指示预测期内的破产情况。然后将这些数据输入......是的......你猜对了。

一个普通的旧线性回归

我曾经有机会和一个建立这个模型的人交谈。我问他违反假设的问题。他解释说,即使它完全违反了关于残差等的假设,他也不在乎。

结果...

这个 0/1 线性回归模型(当标准化/缩放到易于阅读的分数并与适当的截止值配对时)针对保留的数据样本进行了干净的验证,并且作为破产的好/坏判别器表现得非常好。

该模型多年来一直被用作第二信用评分,与 FICO 的风险评分(旨在预测 60 天以上的信用拖欠)并列防止破产。