机器算法验证 - 引导方法 - 缺点 - 吾爱随笔录

引导方法 - 缺点

机器算法验证引导程序

2022-03-14 01:00:47

你能告诉我引导方法什么时候不起作用吗？我知道这可能是异常值，但是当它不起作用时是否有任何特定的分布？

1个回答

有两种不同的方式来解释这个问题：

1.) 是否有任何类型的数据会导致自举标准估计器导致无效推理？

2.) 是否有任何非标准估计器，例如引导导致无效推理？

这两个问题的答案都是肯定的。

在第一种情况下，正如您在评论中提到的那样，Cauchy 分布在比较简单均值方面会引起问题，任何具有自由度分布也会出现问题。这是因为这些情况下的方差（在真实总体中）是无限的。bootstrap 的有效性取决于采样数据与真实总体大致相同的分布情况。但当然不会有方差无限的情况，因为任何样本的方差都是有限的。 $t$ $\leq 2$

然而，这些的实际意义是难以想象的。在实践中，我们通常不会考虑从具有无限方差的总体中抽样数据。

更好的经验法则是考虑您需要将样本作为您感兴趣的人群的良好代表。因此存在异常值的问题：如果样本中的异常值非常少且影响很大，则需要认识到估计量的分布受分布尾部的影响很大，而分布尾部的数据非常少。因此，引导程序告诉您的估计量分布可能不准确，因为它高度依赖于您凭经验知之甚少的总体分布方面。

就案例 2 而言，也许最著名的引导失败示例是均匀分布的 MLE 案例。

假设你知道 uniform(0, )。那么基于样本的 MLE是。但很明显，如果您尝试基于重新采样进行非参数引导 CI，则重新采样的最大值必然小于或等于。概率为 1，。因此，您的非参数 CI 将不包含。 $X_i \sim$ $\theta$ $x_1, ..., x_n$ $\max(x_i)$ $x_i$ $\max(x_i)$ $\max(x_i) < \theta$ $\theta$

一个不太重要的例子是 Grenander 估计器（或严格单调密度估计器）。见http://arxiv.org/abs/1010.3825。类似地，区间删失数据的非参数最大似然估计量（或 NPMLE，更广为人知的 Kaplan Meier 曲线的推广）也存在类似问题。见http://arxiv.org/pdf/1312.6341.pdf。

其它你可能感兴趣的问题

上一篇如果决策树的熵已经很低，我们还需要随机森林吗下一篇回归系数的科恩d？