配对 t 检验和统计显着性所需的最小样本量

机器算法验证 r 统计学意义 t检验 样本量 统计能力
2022-04-15 08:31:14

我想测试新技术机器是否可以使人们在家中消耗更少的水。

我有大约 150 台这样的机器,它们可以分为 3 种技术(A、B、C),即每种 50 种。

我想对这 150 个人进行配对 t 检验,即测量他们在机器安装前后的平均用水量。

我考虑过进行 3 个单独的配对 t 检验,每种技术一个来测试每种技术。但也是对所有 150 的配对 t 检验(不考虑类型)。

但是,我想确保最终,我有统计上显着的结果。我希望最终有一个置信区间和误差范围。50 的样本量是否足以进行配对 t 检验?

我知道我必须假设平均差异将遵循正态分布。我搜索了有关获得最小样本量的信息,发现我们需要将平均差的标准差以及总体平均值的差的估计值作为输入。

由于我不知道用水量到底是多少,我该怎么做?也许有一些试点研究可以让我得到标准偏差估计,但这是否足够?

我看到这篇文章什么是配对 t 检验的最小样本量,如果数据不正常,什么是非参数等价物?,但我的问题仍然存在。

另外,如果正态分布假设最终被证明是错误的,我最终可以转向 Wilcoxon 符号秩吗?

另一个困扰我的问题是,与双向 ANOVA(例如)等测试相比,为什么配对 t 检验中的样本量要低得多?我看到大小为 30 的配对 t 检验,而双向 ANOVA(与对照组)大约 > 200?

编辑 1:我应该像我描述的那样进行配对 t 检验,还是应该对对照组(150 人)和我的测试组(150 人)进行 ANOVA 检验?对于他们两个,由于我只有 150 台机器,我猜我的样本量是预定义的,但我如何确保我的测试具有意义,即 95% 的置信度和一定的误差范围?

编辑2:我是否必须考虑效果大小或测试的力量?我读过,如果我与几个人(例如 8 人)进行试点研究,研究表明安装这些机器之前和之后(配对)的消耗,我可以计算效果大小

Effect size=(MeanH1MeanH0)/SDpooled

然后我可以继续使用软件 R,例如,确定样本量。例如,如果效果大小 = 0.47,显着性水平 = 0.05,功效为 80%,我会得到:

 pwr.t.test (d=0.47, sig.level =0.05, power=0.80, type="paired", alternative="greater")

返回n=29.3930对。

所以我猜这真的取决于效果大小,为此,我需要一个试点研究。

3个回答

什么是最小样本量取决于问题:“完成什么的最小样本量?”。

如果唯一的目标是能够进行一些计算并获得答案(并且您不关心答案的质量),则可以对少至 2 对进行配对 t 检验。

如果问题是中心极限定理需要多大的样本量才能允许您在总体不正常时使用基于正态的检验,如配对 t?那么这取决于您的差异群体有多不正常。介绍性统计课程和教科书使用诸如 30 之类的数字的经验法则,但除了在介绍性课程中保持简单之外,这些并不是真正合理的。在某些情况下 6 足够大,在其他情况下 10,000 不够大。要记住的重要一点是,对于配对测试,重要的是差异中的偏度/异常值的数量,而不是原始值。这是使用配对测试的原因之一。

我在您的描述中没有看到有人问或回答的一个问题是,您要测量前后多长时间的用水量?与之前和之后的一天相比,我预计之前 3 个月和之后 3 个月的数据的平均每日使用量会有更多的正常性和更低的可变性。

如果您的问题是具有一定能力来检测给定效应量的最小样本量,那么这实际上取决于您想要查看的效应量以及您期望的变化量(差异的标准偏差)。如果您不知道这些可能是什么,那么您需要做更多的研究,与专家交谈,或者进行某种形式的试点研究(或者更好,全部 3)。想想什么影响大小会有意义,一项足够大的研究可以显示减少 1 汤匙的用水量,但我怀疑很多人会关心这么小的变化。

如果您可以获得有关当前用水量的一些信息,那么探索其中一些问题的一种方法是根据您可以获得的数据和一些关于可能发生变化的假设(尝试不同的影响大小等)来模拟一些数据,然后分析你的模拟数据,看看它是否能给你带来有意义的结果(置信区间足够精确,有用、强大等)。

另一个需要考虑的问题是收集数据的季节性。感兴趣区域的家庭在不同季节消耗的水量是否不同(如果用于浇灌草坪/花园的水包含在您的测量值中,那么这可能是肯定的)。如果您之前的时间点在天气/温度/等方面可能与您之后的时间点有很大差异。那么你应该努力在你的实验设计和分析中解决这个问题。一种选择是包括另外 50 个“控制”家庭,这些家庭没有收到任何设备,但在前后进行了测量,以估计前后时期之间的自然差异。

对于分析,您可以进行配对 t 检验,但最好进行随机区组 ANOVA 设计或混合效应模型(或贝叶斯分层模型),将家庭作为区组/随机效应仍然给您配对还允许您比较不同的机器(和控制)并查看其他因素。

您还问为什么配对测试需要的样本量小于非配对测试。简单地说,样本量很大程度上取决于残差的多少(考虑其他因素后的变异),如果配对是自然的,那么它也会减少残差。在您的情况下,您将有家庭之间的差异(一个 4 口之家可能会比一个人消耗更多的水),在一项非配对研究中,家庭之间的差异将包含在残差标准差中,但是适当的配对将消除/调整大多数家庭之间的差异,因此配对样本量的计算将基于比未配对等值的标准差小得多的标准差。

据我所知,t检验没有最小样本量。事实上,t 检验适用于n样本量为:3 个或更多。

甚至n=2会工作。

对观测值的配对 t 检验{X1i}i=1n{X2i}i=1n 对差异的单样本 t 检验相同。*

你很好地选择了 t 检验,因为你不知道σ人口,即 z 检验不适用于您的情况,除非您以某种方式与上帝互动并获得σ从中。

换句话说,你应该像你一样做 t 检验,其中 t 分布是抽样背后的样本分布。此分布进一步假设您在样本 SD 上进行中继S(样本的标准偏差)。

自从S带来不确定性,除非n很大(我们通常假设σS) 我们降低了自由度。

x¯μσ/nzx¯μs/ntn1

一旦我们计算出样本均值X¯我们可以估计置信区间。

X¯±tSn

在哪里t您可以通过 95% 置信区间规则进入 R:

t = qt(0.975,df=n-1)

如果正态分布假设最终被证明是错误的,我最终可以转向 Wilcoxon 符号秩吗?

如果您的样本数量相对较少,例如小于 30,则您需要具有正态分布或接近正态分布。

有人说我不应该对 30 个数字感到害怕,但现在我假设如果我有至少 30 个样本,则样本遵循基于中心极限定理的正态分布。

我计划很快计算出为什么 30 是统计数据中的重要数字,但目前我没有能力提出更多问题 :)。

基于 KL 散度,这将是可能的,但现在说n=30我们有足够的能力说 t 分布接近正常。

为了计算功率,我找到了这个 R 代码:

power.t.test(n = 20, delta = 1)
power.t.test(power = .90, delta = 1)

第一个应该回答 20 个样本的幂是多少,第二个是需要多少个样本才能获得 0.9 的幂。

我不知道这里的 delta 是什么,但它一定对我很重要,文档缺少一些详细的事实,所以我需要检查。

因此,对于 30 多个样本,您将拥有正态分布假设,无需进行秩检验。

与双向方差分析(例如)等测试相比,为什么配对 t 检验中的样本量要小得多?我看到大小为 30 的配对 t 检验,而双向 ANOVA(与对照组)约为 >200

简化的方差分析必须与 t 检验相同,但我们比较了 3 个或更多样本。因此,如果您有一些奇怪的结果,您可以共享 R 或 Python 代码进行复制。


参考

注意:这个问题经过了多轮编辑,中间还有其他答案。这个答案是在编辑 2 发布后做出的,并且避免处理 Wilcoxon 和 ANOVA 上的部分,因为它不太可能添加现有答案的内容。


在实验设计的世界中,涉及t-测试,需要对以下五件事有一个粗略的了解:

  • 所需的显着性水平(α)
  • 所需的测试功率(πmin)
  • 效果大小(实际上,θ=consumptionafterconsumptionbefore
  • 响应的分布( - 它可以是合并方差);σ2
  • 样本量 ( )n

在实践中,假设正态性假设和/或 CLT 确定最小样本量的(粗略)公式实际上适用 [1]:

nmin=(z1αz1πminθ)2σ2,

其中个分位数,如果您指定上述五个数量中的四个,则您基本上被限制在左侧。通常,被假定为具有特定值(在我的领域中为 0.05 和 0.8),并且您提到样本量或多或少是固定的。这使得效应大小和传播成为未知数。zqqαπmin

然后你问:

由于我不知道用水量到底是多少,我该怎么做?也许有一些试点研究可以让我得到标准偏差估计,但这是否足够?

这向我表明,估计方差/标准偏差比估计效应大小更容易。此外,我(作为水技术领域的外行)会想象,影响设备平均节水量比影响节水量的分布更容易。

因此,如果您可以获得标准偏差估计,该公式将能够告诉您获得统计显着结果所需的效应大小。(附带说明,这里我的效果大小是实际值,即水装置可以节省一天的平均升数,而不是你的问题中引用的科恩的 d。)我个人会尝试改变两者的估计值方向一点,看看它如何影响效果大小。

这又回到了你的关键问题:

50 的样本量是否足以进行配对 t 检验?

看看从上面得出的效果大小 - 您的机器平均可以节省的水量是真实的吗?如果是这样,是的。

如果不是,即您期望较小的效果大小,您可能需要考虑:

  1. 拥有更多样本(您说这非常受限制);
  2. 满足于较低的测试能力(即,如果确实有节省,则看到显着结果的机会较低);
  3. 选择更高的显着性水平(即当 p<0.1 而不是 0.05 时拒绝 H_0,有更多误报的风险);或者
  4. 祈祷并希望测试对象的用水行为(以及因此的节水)更加一致,从而减少反应的传播。

以上所有只是平衡显示五个量之间关系的系统/方程的方法。关键的一点是,在设计实验时,样本量并不是唯一的考虑因素,尽管它通常是最容易操纵的参数。


[1] 来自我之前的一项工作(第 3 节)的背景材料 - 不幸的是,我无法足够快地把它拿出来,因此它仍然是预印本:https ://arxiv.org/pdf/1803.06258.pdf