机器算法验证 - 零条件均值假设（怎么可能不成立？） - 吾爱随笔录

零条件均值假设（怎么可能不成立？）

机器算法验证最小二乘条件期望

2022-04-15 06:56:03

误差项的条件均值为零是回归系数无偏的关键条件之一。

我的问题是：如果误差等于 Y 的实际观察值减去它们的条件均值（由相同的 X 值描述的样本切片的均值），那么如何完全违反这个假设？

此类错误的条件期望值（对于由相同 X 值描述的样本切片）不应该总是等于零吗？

2个回答

我相信你的问题是更技术性的说法，是严格的外生性假设曾经被违反过。严格的外生假设是……

E (ϵ | X) = 0

$E(\epsilon|X)=0$

在实践中，这种情况一直都在发生。事实上，计量经济学领域的大多数人都集中在这一假设的失败上。这什么时候发生...

让我们假设 $\epsilon \sim N(0,1)$ ，所以 $E(\epsilon) = 0$ . 我们知道，如果 $\epsilon$ 和 $X$ 那么独立 $E(\epsilon|X) = E(\epsilon) = 0$ . 然而，如果 $X$ 和 $\epsilon$ 是相关的，使得 $Cov(X,\epsilon) = E(X'\epsilon) - E(X)E(\epsilon) = E(X'\epsilon) \neq E(\epsilon) = 0$ . 这意味着 $E(\epsilon|X) \neq 0$

显然，如果严格的外生性假设失败 $X$ 和 $\epsilon$ 是相关的。问题是，这曾经发生过吗？答案是肯定的。事实上，在实验设置之外，它发生的频率更高而不是没有。最常见的例子是遗漏变量偏差。Matthew Gunn 的帖子讨论了这一点。另一个教学示例如下，假设您对冰淇淋销量随时间推移对穿短裤的人数进行回归。您可能会得到一个非常大且重要的参数估计值。但是，您不会跑到哈根达斯的高管那里，告诉他们应该开始为夏季服装投放广告。很明显，缺少一个变量，温度。这违反了严格的外生假设，因为穿短裤的人数（ $X$ ) 与我们省略的变量温度相关，该变量温度包含在误差项 ( $\epsilon$ )

请注意，在我们的简单冰淇淋销售中，短裤数量模型中的参数估计是有偏差的。一旦我们在模型中包含温度，短路参数的数量就会改变。更正式地说：

\hat{β} = (X^{'} X)^{- 1} X^{'} Y = β + (X^{'} X)^{- 1} X^{'} ϵ

$\hat \beta = (X'X)^{-1}X'Y = \beta + (X'X)^{-1}X'\epsilon$ 如果

X

$X$ 和

ϵ

$\epsilon$ 是相关的，然后...

E (\hat{β}) = β + (X^{'} X)^{- 1} E (X^{'} ϵ)

$E(\hat \beta) = \beta + (X'X)^{-1}E(X' \epsilon)$

所以偏差是 $(X'X)^{-1}E(X' \epsilon)$ 如果 $E(X' \epsilon)=0$

在美式足球中，总分由下式给出：

足球总得分 = 6 * (达阵) + 1 * (ExtraPoints) + 2 * (TwoPointConversions) + 2 * (安全) + 3 * 射门得分。

但如果你运行回归：

TotalFootBallScore = b1 * 达阵 + b2 * 射门得分 + e

您不会估计 b1 的值为 6。将足球总得分回归到达阵数和射门得分上，您几乎可以肯定地估计达阵的价值超过 7 分或更多而不是 6 分。在这种情况下，您的错误项 e 包含从额外得分和两分转换中获得的得分，而且在知道达阵次数的情况下，这些几乎肯定不是零。

其它你可能感兴趣的问题

上一篇是否有 3D 神经网络以及如何在 R 中对其进行编码？下一篇如何在 logit、probit 或线性概率模型之间进行选择？