我将线性模型应用于我的数据:
我想使用引导方法,有两种方法可以应用引导方法:
样本配对响应预测器:随机重新采样对,并对每次运行应用线性回归。在次运行之后,我们获得了估计系数的集合。最后,计算的分位数。
样本误差:首先对原始观测数据应用线性回归,从这个模型中我们得到和误差。然后,随机重新采样误差并用和 。再次应用线性回归。在次运行之后,我们获得了一组估计的系数。最后,计算的分位数。
我的问题是:
- 这两种方法有何不同?
- 这两种方法在哪个假设下给出相同的结果?
我将线性模型应用于我的数据:
我想使用引导方法,有两种方法可以应用引导方法:
样本配对响应预测器:随机重新采样对,并对每次运行应用线性回归。在次运行之后,我们获得了估计系数的集合。最后,计算的分位数。
样本误差:首先对原始观测数据应用线性回归,从这个模型中我们得到和误差。然后,随机重新采样误差并用和 。再次应用线性回归。在次运行之后,我们获得了一组估计的系数。最后,计算的分位数。
我的问题是:
如果响应-预测变量对是通过随机样本从总体中获得的,则使用 case/random-x/your-first 重采样方案是安全的。如果预测变量受到控制,或者预测变量的值由实验者设置,您可以考虑使用残差/基于模型/固定 x/您的第二次重采样方案。
两者有何不同? Davison 和 Kounen 对R 中应用程序的引导程序的介绍与该问题相关(参见第 9 页)。另请参阅John Fox 在本附录中的 R 代码,特别是针对 random-x 方案的第 5 页上的 boot.huber 函数和针对固定 x 方案的第 10 页上的 boot.huber.fixed 函数。虽然在Shalizi 的讲义中,这两种方案适用于不同的数据集/问题,但 Fox 的附录说明了这两种方案通常可能产生的差异很小。
什么时候可以期望两者提供几乎相同的结果?一种情况是当正确指定回归模型时,例如,没有未建模的非线性并且满足通常的回归假设(例如,独立同分布误差、没有异常值)。请参阅Fox 的书的第 21 章(上述附录与 R 代码间接属于其中),特别是第 598 页的讨论和练习 21.3。题为“回归中的随机与固定重采样”。从书中引用
By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be
reflected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.
您还将从该讨论中了解到为什么固定 x 引导程序隐含地假设模型的函数形式是正确的(即使没有对误差分布的形状做出任何假设)。
另请参阅Derek Bain 为爱尔兰精算师协会所做的演讲幻灯片 12 。它还说明了应该被视为“相同结果”的内容:
The approach of re-sampling cases to generate pseudo data is the more usual form of
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.
The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are
equivalent.