如何计算百分比的平均值和 CI

机器算法验证 置信区间 意思是
2022-04-09 14:57:16

我有一些来自研究的百分比减少数据,即 -%,我希望能够总结我的 n = 20 个样本的平均减少百分比,并提供一个置信区间。我认为这样做的一种方法是使用人们进行的通常方式,即

(p¯zα/2×σn,p¯+zα/2×σn)

其中是减少百分比的平均值,是减少百分比的标准偏差。但是,我很犹豫以这种方式计算置信区间,因为这不是仅在数据正态分布时才有效吗?我知道我的数据不是因为它被限制在值上,所以不是整个实线。p¯σ[100,0]

是否有另一种方法来计算平均值的间隔?或者上面的方法好吗?

4个回答

让我看看我是否正确理解了你的问题。

  1. 您有一个 n = 20 的样本;

  2. 对于此样本中的每个观察结果,您已经计算出由于某种处理而导致的百分比减少:即

pi=xi,txi,t1xi,t1

其中是处理后样本中的第 i 个观测值,是处理前样本中的第 i 个观测值。xi,txi,t1

  1. 您已采取并平均的这些百分比减少:

p^=120i=120pi

估计总体中的参数:作为治疗结果的总体平均减少百分比。你感兴趣的是计算这个 RATIO 的置信区间(我没有意识到这是我写这篇文章时估计的两个随机变量的比率)。p

如果这是正确的,那么我建议您使用配对样本 t 检验:https ://en.wikipedia.org/wiki/Student%27s_t-test#Dependent_t-test_for_paired_samples

的值是一个随机变量,因为它会因样本而异。如果样本足够大(通常 n > 30),那么在许多简单随机样本上的分布将根据中心极限定理呈正态分布。这个样本有点小,因此您可能对总体方差没有非常可靠的估计(这是未知的),因此您使用 T 分布,这对于大样本来说是近似正态的。p^p^

使用配对 T 检验的原因是您的观察不是独立的。如果我理解正确,通过比较治疗前后的第 i 个观察值来计算减少百分比。但是,如果您要比较两组,则可以进行普通的 T 检验。

希望这会有所帮助!

编辑:我(愚蠢地!)在这里忘记提到你有一个比率估计器。这给使用 T 检验带来了一些问题。是两个随机变量的商。此外,您的估计也会有偏差。请参阅此处https://en.wikipedia.org/wiki/Ratio_estimator那里解释了如何为此进行调整。p^

数据量很小,所以我推荐引导置信区间。

从您的数据集中重新采样 20 个观察值并进行替换,计算该重新采样的减少百分比,然后重复 1000 次。您的 x% 置信区间就是您的集合的分位数到分位数。1x2100x2

这种方法的一个好处是您的 CI 将“自动”合并问题中固有的不对称性。您的集合中不会有任何统计数据,例如小于零,因为您计算统计数据的方式使这成为不可能。根据众所周知的标准误差做任何事情都会给你一个基于正态分布的 CI,它对于 p 的所有值都将具有非零密度,即使是不可能的值,例如 -1。p^

一种非常合理的方法是对数据(最终值和预值)进行对数转换,对对数转换后的数据执行线性回归/ANCOVA。然后你将(简单地 exp(x))反向转换为原始比例。

结果可以解释为几何平均值与预值的比值。然后,我通常会将 0.8 之类的东西解释为减少 20%。

这通常比分析计算的百分比变化值表现得更好(特别是标准偏差在不同的值和各种其他问题中并不趋于恒定),并且还确保置信区间位于可能的百分比变化范围内(即不能降低值超过 100%)。

一种常见的方法是使用风险比并围绕记录的风险比创建置信区间。风险比是两个比例的比值,可以计算为

RR=p1p2
在哪里p1是第 1 组的比例,并且p2是组 2 的比例。从 2 x 2 频率表工作,单元频率由表示a,b,c, 和d(那是,ac分别是第 1 组和第 2 组的成功次数,以及bd分别是第 1 组和第 2 组的失败次数),我们可以将风险比计算为
RR=a/(a+b)c/(c+d)
记录风险比的标准误差计算为
se=ba(a+b)+dc(c+d)
因此,我们可以计算 95% 置信区间为
ln(RR)±1.96(se)
取置信上限和下限的指数将为您提供风险比的置信区间
RR=eln(RR)
您可以使用以下方法将风险比转换为您原来的百分比减少问题(假设风险比小于 1)
% reduction=(1RR)×100
您可以将此应用于置信区间的限制。请注意,如果风险比大于 1,您将确定增加百分比为
% increase=(RR1)×100