机器算法验证 - 为什么回归中预测区间的末端更宽？ - 吾爱随笔录

为什么回归中预测区间的末端更宽？

机器算法验证预测区间

2022-04-18 20:08:34

通常，预测区间在图像中具有这种形状。

我不知道为什么区间的末端比中心宽。

3个回答

执行线性回归时，预测中有两种类型的不确定性。

首先是对估计的整体平均值的预测（即拟合的中心）。二是估计计算斜率的不确定性。
因此，当您结合预测的两种不确定性时，高估计值和低估计值之间存在差异。然后随着远离中心，斜率的不确定性成为一个更大且更明显的因素，因此限制扩大了。

希望这能回答你的问题。

确定数据的预测区间非常容易。

Var (y) = Var (β_{0} + β_{1} x) + Var (ε) = σ_{β_{0}}^{2} + σ_{β_{1}}^{2} x^{2} + 2 x Cov (β_{0}, β_{1}) + σ_{ϵ}^{2}

$\operatorname{Var}(y) = \operatorname{Var}(\beta_0 + \beta_1 x) + \operatorname{Var}(\varepsilon) = \sigma^2_{\beta_0} + \sigma^2_{\beta_1}x^2 + 2x \operatorname{Cov}(\beta_0, \beta_1)+ \sigma^2_{\epsilon}$

如您所见，这是 x 中的二次函数，这意味着对于较大的值 $x$ （嗯......与样本平均值相比更大 $x$ )，预测的方差会更大。

例如，该参考资料清楚地给出了简单线性回归模型的预测区间公式，其中包含以下表达式：

$\sqrt{({1/n + (x_p - x_m)^2}/{(n-1){s_x}^2}}$

所以，作为解释变量的预测 $x_p$ 变得更加远离它的平均值 $x_m$ ，区间变宽。

在实践中，我会谨慎地应用远离平均值的预测区间，特别是未包含在观察到的数据范围内的点估计，因为结构方程本身可能不再准确/有效。

其它你可能感兴趣的问题

上一篇通过积分获得随机变量的期望值1 - C东风_1−CDF当下限a ≠ 0a≠0? 下一篇当有人说：“有 % 的可能性发生某事时，这应该是什么意思？7070