我有一些来自研究的百分比减少数据,即 -%,我希望能够总结我的 n = 20 个样本的平均减少百分比,并提供一个置信区间。我认为这样做的一种方法是使用人们进行的通常方式,即
其中是减少百分比的平均值,是减少百分比的标准偏差。但是,我很犹豫以这种方式计算置信区间,因为这不是仅在数据正态分布时才有效吗?我知道我的数据不是因为它被限制在值上,所以不是整个实线。
是否有另一种方法来计算平均值的间隔?或者上面的方法好吗?
我有一些来自研究的百分比减少数据,即 -%,我希望能够总结我的 n = 20 个样本的平均减少百分比,并提供一个置信区间。我认为这样做的一种方法是使用人们进行的通常方式,即
其中是减少百分比的平均值,是减少百分比的标准偏差。但是,我很犹豫以这种方式计算置信区间,因为这不是仅在数据正态分布时才有效吗?我知道我的数据不是因为它被限制在值上,所以不是整个实线。
是否有另一种方法来计算平均值的间隔?或者上面的方法好吗?
让我看看我是否正确理解了你的问题。
您有一个 n = 20 的样本;
对于此样本中的每个观察结果,您已经计算出由于某种处理而导致的百分比减少:即
其中是处理后样本中的第 i 个观测值,是处理前样本中的第 i 个观测值。
估计总体中的参数:作为治疗结果的总体平均减少百分比。你感兴趣的是计算这个 RATIO 的置信区间(我没有意识到这是我写这篇文章时估计的两个随机变量的比率)。
如果这是正确的,那么我建议您使用配对样本 t 检验:https ://en.wikipedia.org/wiki/Student%27s_t-test#Dependent_t-test_for_paired_samples
的值是一个随机变量,因为它会因样本而异。如果样本足够大(通常 n > 30),那么在许多简单随机样本上的分布将根据中心极限定理呈正态分布。这个样本有点小,因此您可能对总体方差没有非常可靠的估计(这是未知的),因此您使用 T 分布,这对于大样本来说是近似正态的。
使用配对 T 检验的原因是您的观察不是独立的。如果我理解正确,通过比较治疗前后的第 i 个观察值来计算减少百分比。但是,如果您要比较两组,则可以进行普通的 T 检验。
希望这会有所帮助!
编辑:我(愚蠢地!)在这里忘记提到你有一个比率估计器。这给使用 T 检验带来了一些问题。是两个随机变量的商。此外,您的估计也会有偏差。请参阅此处https://en.wikipedia.org/wiki/Ratio_estimator。那里解释了如何为此进行调整。
数据量很小,所以我推荐引导置信区间。
从您的数据集中重新采样 20 个观察值并进行替换,计算该重新采样的减少百分比,然后重复 1000 次。您的 x% 置信区间就是您的集合的分位数到分位数。
这种方法的一个好处是您的 CI 将“自动”合并问题中固有的不对称性。您的集合中不会有任何统计数据,例如小于零,因为您计算统计数据的方式使这成为不可能。根据众所周知的标准误差做任何事情都会给你一个基于正态分布的 CI,它对于 p 的所有值都将具有非零密度,即使是不可能的值,例如 -1。
一种非常合理的方法是对数据(最终值和预值)进行对数转换,对对数转换后的数据执行线性回归/ANCOVA。然后你将(简单地 exp(x))反向转换为原始比例。
结果可以解释为几何平均值与预值的比值。然后,我通常会将 0.8 之类的东西解释为减少 20%。
这通常比分析计算的百分比变化值表现得更好(特别是标准偏差在不同的值和各种其他问题中并不趋于恒定),并且还确保置信区间位于可能的百分比变化范围内(即不能降低值超过 100%)。
一种常见的方法是使用风险比并围绕记录的风险比创建置信区间。风险比是两个比例的比值,可以计算为