假设一个人执行所谓的非参数引导程序,方法是从原始的个大小为的样本并进行替换。我相信这个过程相当于通过经验 cdf 估计累积分布函数:
http://en.wikipedia.org/wiki/Empirical_distribution_function
然后通过从估计的 cdf次连续
如果我在这方面是对的,那么就必须解决过度拟合的问题,因为经验 cdf 有大约 N 个参数。当然,它渐近收敛到总体 cdf,但是有限样本呢?例如,如果我告诉您我有 100 个观察值,并且我将使用两个参数将 cdf 估计为,您不会感到惊慌。但是,如果参数的数量增加到 100 个,这似乎根本不合理。
同样,当使用标准多元线性回归时,误差项的分布估计为。如果一个人决定切换到引导残差,他必须意识到现在大约有参数用于处理误差项分布。
您能否指导我找到一些明确解决此问题的来源,或者如果您认为我弄错了,请告诉我为什么这不是问题。