线性回归的通常假设是什么?
它们是否包括:
- 自变量和因变量之间的线性关系
- 独立错误
- 误差的正态分布
- 同方差
还有其他人吗?
线性回归的通常假设是什么?
它们是否包括:
还有其他人吗?
答案在很大程度上取决于您如何定义完整和通常。假设我们用以下方式编写线性回归模型:$ \newcommand{\x}{\mathbf{x}} \newcommand{\bet}{\boldsymbol\beta} \DeclareMathOperator{\E}{\mathbb{E}} \DeclareMathOperator{\Var}{Var} \DeclareMathOperator{\Cov}{Cov} \DeclareMathOperator{\Tr}{Tr} $
$$y_i = \x_i'\赌注 + u_i$$
其中$\mathbf{x}_i$是预测变量的向量,$\beta$是感兴趣的参数,$y_i$是响应变量,$u_i$是干扰。$\beta$的一种可能估计是最小二乘估计: $$ \hat\bet = \textrm{argmin}_{\bet}\sum(y_i-\x_i\bet)^2 = \left(\总和 \x_i \x_i'\right)^{-1} \sum \x_i y_i .$$
现在几乎所有的教科书都处理假设,当这个估计$\hat\bet$具有理想的属性时,例如无偏性、一致性、效率、一些分布属性等。
这些属性中的每一个都需要某些假设,这些假设并不相同。因此,更好的问题是询问 LS 估计的所需属性需要哪些假设。
我上面提到的属性需要一些概率模型来进行回归。在这里,我们遇到了在不同应用领域使用不同模型的情况。
最简单的情况是将$y_i$视为一个独立的随机变量,其中$\x_i$是非随机的。我不喜欢通常这个词,但我们可以说这是大多数应用领域的常见情况(据我所知)。
以下是统计估计的一些理想属性的列表:
存在
存在属性可能看起来很奇怪,但它非常重要。在$\hat\beta$的定义中,我们反转矩阵 $\sum \x_i \x_i'.$
不能保证对于$\x_i$的所有可能变体都存在此矩阵的逆矩阵。所以我们立即得到我们的第一个假设:
矩阵$\sum \x_i \x_i'$应该是满秩的,即可逆的。
不偏不倚
我们有 $$ \E\hat\bet = \left(\sum \x_i \x_i' \right)^{-1}\left(\sum \x_i \E y_i \right) = \bet, $$ if $ $\E y_i = \x_i \bet.$$
我们可以将它编号为第二个假设,但我们可能已经直截了当地说明了它,因为这是定义线性关系的自然方式之一。
请注意,为了获得无偏性,我们只要求所有$i$的$\E y_i = \x_i \bet$,并且$\x_i$是常数。不需要独立财产。
一致性
为了获得一致性假设,我们需要更清楚地说明$\to$的含义。对于随机变量序列,我们有不同的收敛模式:在概率上,几乎可以肯定,在分布和$p$ -th 矩意义上。假设我们想要获得概率收敛。我们可以使用大数定律,或者直接使用多元切比雪夫不等式(利用$\E \hat\bet = \bet$的事实):
$$\Pr(\lVert \hat\bet - \bet \rVert >\varepsilon)\le \frac{\Tr(\Var(\hat\bet))}{\varepsilon^2}.$$
(这种不等式的变体直接来自将马尔可夫不等式应用于$\lVert \hat\bet - \bet\rVert^2$,注意到 $\E \lVert \hat\bet - \bet\rVert^2 = \Tr \Var(\hat\bet)$ .)
由于概率收敛意味着对于任何作为$n\to\infty$的$\varepsilon>0$,左侧项必须消失,因此我们需要$\Var(\hat\bet)\to 0$ as $n\to \infty$。这是完全合理的,因为随着数据的增多,我们估计$\bet$的精度应该会提高。
我们有 $$ \Var(\hat\bet) =\left( \sum \x_i \x_i' \right)^{-1} \left( \sum_i \sum_j \x_i \x_j' \Cov(y_i, y_j ) \right) \left(\sum \mathbf{x}_i\mathbf{x}_i'\right)^{-1}.$$
独立性确保$\Cov(y_i, y_j) = 0$,因此表达式简化为 $$ \Var(\hat\bet) = \left( \sum \x_i \x_i' \right)^{-1} \左( \sum_i \x_i \x_i' \Var(y_i) \right) \left( \sum \x_i \x_i' \right)^{-1} .$$
现在假设$\Var(y_i) = \text{const}$,然后 $$ \Var(\hat\beta) = \left(\sum \x_i \x_i' \right)^{-1} \Var(y_i ) .$$
现在,如果我们另外要求$\frac{1}{n} \sum \x_i \x_i'$对于每个$n$有界,我们立即得到 $$\Var(\bet) \to 0 \text{ as } n \to \infty.$$
因此,为了获得一致性,我们假设没有自相关($\Cov(y_i, y_j) = 0$),方差$\Var(y_i)$是恒定的,并且$\x_i$不会增长太多。如果$y_i$来自独立样本,则满足第一个假设。
效率
经典的结果是高斯-马尔可夫定理。它的条件正是一致性的前两个条件和不偏不倚的条件。
分布特性
如果$y_i$是正常的,我们立即得到$\hat\bet$是正常的,因为它是正常随机变量的线性组合。如果我们假设先前的独立性、不相关性和恒定方差假设,我们得到 $$ \hat\bet \sim \mathcal{N}\left(\bet, \sigma^2\left(\sum \x_i \x_i' \right )^{-1} \right)$$ 其中$\Var(y_i)=\sigma^2$。
如果$y_i$不是正态的,而是独立的,由于中心极限定理,我们可以得到$\hat\bet$的近似分布。为此,我们需要假设 某个矩阵$A$的 $$\lim_{n \to \infty} \frac{1}{n} \sum \x_i \x_i' \to A$$。如果我们假设$$\lim_{n \to \infty} \frac{1}{n} \sum \x_i \x_i' \Var(y_i) \to B.$$,则不需要渐近正态的恒定方差
请注意,在$y$的恒定方差下,我们有$B = \sigma^2 A$。然后中心极限定理给我们以下结果:
$$\sqrt{n}(\hat\bet - \bet) \to \mathcal{N}\left(0, A^{-1} BA^{-1} \right).$$
因此,由此我们可以看到$y_i$的独立性和恒定方差以及$\mathbf{x}_i$的某些假设为我们提供了 LS 估计$\hat\bet$的许多有用属性。
问题是这些假设可以放宽。例如,我们要求$\x_i$不是随机变量。这种假设在计量经济学应用中是不可行的。如果我们让$\x_i$是随机的,如果使用条件期望并考虑$\x_i$的随机性,我们可以获得类似的结果。独立性假设也可以放宽。我们已经证明,有时只需要不相关性。即使这可以进一步放宽,仍然有可能表明 LS 估计将是一致的和渐近正态的。有关更多详细信息,请参见例如White 的书。
这里有很多很好的答案。我突然想到,有一个假设尚未说明(至少没有明确说明)。具体来说,回归模型假设 $\mathbf X$(解释/预测变量的值)是固定且已知的,并且情况中的所有不确定性都存在于 $Y$ 变量中。此外,假设这种不确定性只是抽样误差。
这里有两种思考方式:如果您正在构建一个解释模型(模拟实验结果),您确切地知道自变量的水平是什么,因为您操纵/管理了它们。此外,您在开始收集数据之前就决定了这些级别。因此,您正在将关系中的所有不确定性概念化为存在于响应中。另一方面,如果您正在构建预测模型,情况确实会有所不同,但您仍然将预测变量视为它们是固定的并且是已知的,因为在将来,当您使用该模型对 $y$ 的可能值进行预测时,您将有一个向量 $\mathbf x$,并且该模型旨在处理那些值,就好像它们是正确的一样。也就是说,您会将不确定性视为 $y$ 的未知值。
这些假设可以在原型回归模型的方程中看到: $$ y_i = \beta_0 + \beta_1x_i + \varepsilon_i生成过程,但估计的模型如下所示: $$ y_i = \hat\beta_0 + \hat\beta_1(x_i + \eta_i) + \hat\varepsilon_i, $$ 其中 $\eta$ 表示随机测量误差。(像后者这样的情况导致了变量模型中的误差;一个基本的结果是,如果 $x$ 中存在测量误差,那么朴素的 $\hat\beta_1$ 将被衰减——比其真实值更接近 0 ,并且如果 $y$ 中存在测量误差,则 $\hat\beta$ 的统计测试将被低估,但在其他方面是无偏的。)
典型假设中固有的不对称性的一个实际后果是,在 $x$ 上回归 $y$ 与在 $y$ 上回归 $x$ 不同。(请参阅我的回答:用 x 对 y 进行线性回归与使用 y 对 x 进行线性回归有什么区别?有关此事实的更详细讨论。)
下图显示了在有限和渐近场景中需要哪些假设才能获得哪些含义。
一般来说,假设可以分解为我们需要的系数估计器
我们希望我们的系数平均是正确的(无偏的),或者如果我们有很多数据(一致),至少是正确的。
如果你想要无偏系数,关键假设是严格的外生性。这意味着给定回归中使用的协变量,回归中误差项的平均值为 0。
对于一致的系数,关键假设是“预先确定的回归量”,这意味着:如果回归中包含常数,则“误差项与回归的任何协变量之间没有相关性”。
严格来说,如果不随机分配您希望其系数正确的协变量,就无法确认这些假设是否正确。如果没有随机分配,您必须提出满足假设的定性论据。但是,如果您在 y 轴上绘制残差散点图,在 x 轴上绘制预测结果值,并且存在远离 0 的系统趋势,则表明该假设(或线性假设)未得到满足。
假设对于理解系数估计的精度也很重要。
无偏/一致的系数不需要同方差性和正态性。如果您想了解使用快捷方法(例如 F 检验)测量系数的精度,您只需要这些额外的假设。但是,您始终可以使用异方差稳健标准误差、自举或随机推理来理解精度(后面这些过程的描述和示例可以在我的帖子中找到)。
经典线性回归模型的假设包括:
尽管此处的答案已经很好地概述了经典 OLS 假设,但您可以在此处找到对经典线性回归模型假设的更全面的描述:
https://economictheoryblog.com/2015/04/01/ols_assumptions/
此外,本文还描述了违反某些假设时的后果。