Bootstrap 与其他模拟数据方法

机器算法验证 引导程序 模拟
2022-04-08 14:23:25

在混合效应模型中,许多统计学家希望模拟或引导数据以创建固定效应参数和随机效应参数的经验置信区域。

重采样(即自举)对我来说似乎很直观,因为它对数据的性质几乎没有假设。

作为替代方案,有些人确定一组变量的多元分布,并从该分布中随机抽取。

我的问题是:是否有一种原则可以在其中一种方法之间做出决定?其中之一总是更好吗?

1个回答

要在混合效应线性模型中进行引导,您需要以保持模型结构的方式进行替换采样。因此,您的数据被分成几组,您不希望将一组数据混合到另一组数据中。对于任何特定组,假设您有 m 个观察值,那么您将从这些 m 个观察值中进行替换并采样 m 次。您对所有其他组重复此过程(但 m 的值可能会改变)。完成此操作后,您将获得一个引导示例。您将模型拟合到这个 bootstrap 样本,然后重复 bootstrap,然后多次拟合模型。这将为您提供一组估计的模型参数(如果您愿意,每个参数的直方图)。任何时候你有一个估计的引导直方图,你都可以从这个估计集合中构建引导置信区间。最简单的是 Efron 的百分位方法,它将这些有序引导估计中的 2.5 个百分位和 97.5 个百分位作为 95% 置信区间的端点。有关这方面的更多详细信息,您可以阅读 Efron 和 Tibshirani 的 An Introduction to Bootstrap (1993) Chapman 和 Hall、我的书 Bootstrap Methods 2n​​d ed (2007) Wiley 或 Efron 和 Tibshirani 在统计科学中的文章 (1986)。

现在,在没有数据的情况下,您可能想了解模型的工作原理。然后您可以对数据进行模拟,并以类似于我为引导程序描述的方式查看结果。不同之处在于,当您进行采样时,您必须指定一个或多个分布,而不是从数据的经验分布中采样。