从小样本量可以得出什么结论?

机器算法验证 推理 小样本
2022-03-20 17:35:16

我刚刚进行了一项测试,客户希望看到从基线射孔器的射孔长度提高 20%。基线穿孔器尚未在客户最终将要穿孔的特定条件下进行测试。

客户计划未来射孔40,000个。我不确定那一点信息是否重要,但我想确保人们理解穿孔长度的真实总体平均值尚不存在。

在为客户量身定制的特定条件下,基线射孔器被射击 3 次,结果如下:[7.68, 8.72, 8.08] 英寸。

构建了三种新的射孔器设计,希望能够超越基线射孔器,每种设计都进行了 3 次射击,结果如下:

  • D1 [8.04, 8.93, 10.05] 英寸
  • D2 [11.15, 6.91, 9.21] 英寸
  • D3 [7.1, 7.6, 7.02] 英寸

由于我对统计数据比较陌生,我想知道你们中的一些专业人士是否可以帮助我从这些测试结果中获得哪些信息。如果您能指出正确的方向,例如在获得这些见解时我应该参考什么方法,那么您的建议将大有帮助。

我知道我鼓励努力,所以我想包括我在推论统计方面的一些初步尝试,也许你可以纠正我的错误,或者包括我应该/可以做的更多事情。

估计样本量要求:求解样本量需要总体标准偏差大多数情况下,我们不知道它,因此我们必须使用估计值或“计划值”来代替它。这里有几个选项:σ

  1. 使用相同的感兴趣人群从以前的研究中估计 σ
  2. 进行试点研究以选择初步样本。使用来自试点研究的样本标准差
  3. 使用判断或“最佳猜测” 一个常见的“猜测”是数据范围(高值 - 低值)除以 4σ

我问的问题是:“要产生 95% 的置信度(假设是正态分布)样本均值是真实总体均值的 1 英寸,那么需要多大的最小±μ

由于我们没有从以前的研究中得到的估计值,我们将采用选项 2 并将我们的信息视为试点研究。σ

测试电荷设计 2 穿孔长度数据如下:[11.15, 9.21, 6.91] 英寸。样本平均值为 9.09 英寸,样本标准偏差为 2.12 英寸。假设总体标准偏差等于样本标准偏差,应该拍摄多大的样本才能提供 95% 的置信区间和 1 英寸的误差 (E)?

n=(zα/2)2(σ)2E2

n=(1.96)2(2.12)2(1)2

n=17

解释:要让 95% 的样本均值包含真实的总体均值,我们需要 17 个样本的样本量。或者,由 17 个射孔镜头组成的 100 次测试中有 95 次将在其平均长度 1 英寸内包含射孔设计的真实平均射孔长度。 μ±

然而,我不清楚如何推进这一结果。这是否意味着我需要额外拍摄 17 张照片作为它自己的样本,或者我需要再拍摄 14 张照片以添加到原来的 3 张照片中?如何处理新信息?我怀疑平均值的标准误差会随着更多的测量而变窄,从而调整所需的样本量?

如果我们不假设总体标准差等于样本标准差,我们可以将总体标准差的计划值设置为我们观察到的穿孔长度范围除以 4(选项 3)。从那里我们可以估计在 1 英寸的误差范围内应拍摄的最小数量,以包含 95% 的时间平均值。

测试电荷设计 2 穿孔长度数据如下:[11.15, 9.21, 6.91] 英寸。

Planning Value for Std. Dev.=Range4

PV=(11.156.91)4=1.06

n=(zα/2)2(σ)2E2

n=(1.96)2(1.06)2(1)2

n=4.3

解释:要让 95% 的样本均值包含真实的总体均值,我们需要 4 个样本的样本大小。或者,100 次测试中有 95 次由 4 次穿孔射孔组成,其平均长度 1 英寸内包含穿孔设计的真实平均穿孔长度。 μ±

那么哪种方法更合适(选项 2 或 3)?应该如何使用这些信息?在这两种情况下,都需要更多的镜头。但是,如果相反的情况发生,它会告诉我什么?例如,对于充电设计 3,同时使用选项 2 和 3 方法,我分别获得了 n = 0.37 个镜头和 n = 0.08 个镜头。

最后,我试图估计新装药设计的真实总体平均穿孔长度达到所需改进的几率。将基线射门的平均值设为 8.16 英寸并增加 20%,我发现球门长度英寸。通过获取每个设计的样本均值,我们发现它们都没有平均满足所需的长度。但是,我发现使用设计 2 的 t 分布的 95% 置信区间为 [3.81 到 14.36] 英寸。使用 excel Goal Seek 我相信设计 2 的真实穿孔平均长度有 31% 的机会满足 9.792 英寸的要求。我不确定我的方法是否正确,但也许你可以告诉我我是对还是错,或者如果有兴趣,我会详细说明我是如何进行估计的。9.792

1个回答

我没有检查你的计算,但从非常小的试点研究中发现差异很大的标准偏差/样本量估计并不奇怪。就像样本均值一样,样本标准差是对其总体对应物的噪声估计。这就是为什么使用小型试点研究来计算能力或决定样本量并不是一个好主意(即使它是,正如你所说的,标准建议)。在这些评论中进一步讨论了这个问题,并且间接地在这个不相关问题的答案中讨论了这个问题

至于试点数据是否会包含在最终数据集中,通常的答案是否定的,但考虑到这一点,我不确定我是否能找到一个令人信服的理由,至少如果你不使用平均值或差异,但只是样本量计算中的标准偏差。在相关说明中,收集数据并在 CI 达到一定宽度时停止实际上是合理的(而在平均值与某个值显着不同时重复测试和停止是一个很大的禁忌)。它似乎与参数估计方法的准确性有关,这可能与您有关。

PS:请注意,您关于置信区间的一些陈述有时似乎有点不清楚。例如,通过构造,它们中的 95% 应该包含真实均值,增加样本量所做的是减小它们的宽度,而不是改变这个频率。