我知道这是一个相当热门的话题,没有人能给出简单的答案。不过,我想知道以下方法是否有用。
仅当您的样本或多或少(准确地读取)与原始总体相同的分布时,引导方法才有用。为了确定是这种情况,您需要使您的样本量足够大。但是什么是足够大的呢?
如果我的前提是正确的,那么在使用中心极限定理来确定总体均值时,您也会遇到同样的问题。只有当您的样本量足够大时,您才能确定样本均值的总体是正态分布的(围绕总体均值)。换句话说,您的样本需要足够好地代表您的总体(分布)。但同样,什么是足够大的?
在我的情况下(管理流程:完成需求所需的时间与需求量)我有一个多模式分布的人口(所有在 2011 年完成的需求),我 99% 确信它甚至更少正态分布比人口(现在和过去一天之间完成的所有需求,理想情况下这个时间跨度尽可能小)我想研究。
我 2011 年的人口没有足够的单位来制造样本量的样本. 我选择一个值 , 认为()。现在我使用反复试验来确定一个好的样本量。我拿一个,并使用 Kolmogorov-Smirnov 查看我的样本平均总体是否呈正态分布。如果是这样,我重复相同的步骤,但样本大小为,如果不重复,样本大小为(ETC。)。
过了一会儿,我得出结论是获得或多或少很好地代表我的 2011 年人口的绝对最小样本量。因为我知道我感兴趣的人群(在今天和过去一天之间完成的所有需求)的方差较小,所以我可以安全地使用样本量引导。(间接地,决定了我的时间跨度:完成所需的时间需要。)
简而言之,这是我的想法。但由于我不是统计学家,而是工程师,他的统计学课程发生在那个年代,我不能排除我刚刚产生了很多垃圾的可能性:-)。你们有什么感想?如果我的前提是有道理的,我是否需要选择一个比大,还是更小?根据您的回答(我是否需要感到尴尬?:-) 我将发布更多讨论想法。
对第一个答案的回复感谢您的回复,您的回答对我非常有用,尤其是书籍链接。
但我担心在我试图提供信息的过程中,我完全模糊了我的问题。我知道引导样本接管了总体样本的分布。我完全跟随你,但是...
您的原始人口样本需要足够大,以适度确定您的人口样本的分布对应(等于)人口的“真实”分布。
这只是关于如何确定原始样本量需要多大才能合理确定样本分布与总体分布相对应的一个想法。
假设您有一个双峰人口分布,并且一个顶部比另一个大很多。如果您的样本量为 5,则所有 5 个单位的值都非常接近大顶部的可能性很大(随机抽取一个单位的机会最大)。在这种情况下,您的样本分布将看起来是单峰的。
对于一百个样本大小,您的样本分布也是双峰的机会要大得多!!引导的问题在于您只有一个样本(并且您在该样本上进一步构建)。如果样本分布确实与总体分布不符,那么您就有麻烦了。这只是一个想法,可以使“不良样本分布”的机会尽可能低,而不必使样本量无限大。