机器算法验证 - 如何计算百分比的平均值和 CI - 吾爱随笔录

如何计算百分比的平均值和 CI

机器算法验证置信区间意思是

2022-04-09 14:57:16

我有一些来自研究的百分比减少数据，即 -%，我希望能够总结我的 n = 20 个样本的平均减少百分比，并提供一个置信区间。我认为这样做的一种方法是使用人们进行的通常方式，即

(\bar{p} - z_{α / 2} \times \frac{σ}{\sqrt{n}}, \bar{p} + z_{α / 2} \times \frac{σ}{\sqrt{n}})

$(\bar p-z_{\alpha/2}\times\frac{\sigma}{\sqrt{n}},\,\bar p+z_{\alpha/2}\times\frac{\sigma}{\sqrt{n}})$

其中是减少百分比的平均值，是减少百分比的标准偏差。但是，我很犹豫以这种方式计算置信区间，因为这不是仅在数据正态分布时才有效吗？我知道我的数据不是因为它被限制在值上，所以不是整个实线。 $\bar p$ $\sigma$ $[-100,0]$

是否有另一种方法来计算平均值的间隔？或者上面的方法好吗？

4个回答

让我看看我是否正确理解了你的问题。

您有一个 n = 20 的样本；
对于此样本中的每个观察结果，您已经计算出由于某种处理而导致的百分比减少：即

p_{i} = \frac{x_{i}, t - x_{i, t - 1}}{x_{i, t - 1}}

$\begin{equation}p_i =\frac{x_i,t - x_{i,t-1}}{x_{i,t-1}}\end{equation}$

其中是处理后样本中的第 i 个观测值，是处理前样本中的第 i 个观测值。 $x_{i,t}$ $x_{i,t-1}$

您已采取并平均的这些百分比减少：

\hat{p} = \frac{1}{20} \sum_{i = 1}^{20} p_{i}

$\begin{equation} \hat{p} = \frac{1}{20}\sum_{i=1}^{20} p_i\end{equation}$

估计总体中的参数：作为治疗结果的总体平均减少百分比。你感兴趣的是计算这个 RATIO 的置信区间（我没有意识到这是我写这篇文章时估计的两个随机变量的比率）。 $p$

如果这是正确的，那么我建议您使用配对样本 t 检验：https ://en.wikipedia.org/wiki/Student%27s_t-test#Dependent_t-test_for_paired_samples

的值是一个随机变量，因为它会因样本而异。如果样本足够大（通常 n > 30），那么在许多简单随机样本上的分布将根据中心极限定理呈正态分布。这个样本有点小，因此您可能对总体方差没有非常可靠的估计（这是未知的），因此您使用 T 分布，这对于大样本来说是近似正态的。 $\hat{p}$ $\hat{p}$

使用配对 T 检验的原因是您的观察不是独立的。如果我理解正确，通过比较治疗前后的第 i 个观察值来计算减少百分比。但是，如果您要比较两组，则可以进行普通的 T 检验。

希望这会有所帮助！

编辑：我（愚蠢地！）在这里忘记提到你有一个比率估计器。这给使用 T 检验带来了一些问题。是两个随机变量的商。此外，您的估计也会有偏差。请参阅此处https://en.wikipedia.org/wiki/Ratio_estimator。那里解释了如何为此进行调整。 $\hat{p}$

数据量很小，所以我推荐引导置信区间。

从您的数据集中重新采样 20 个观察值并进行替换，计算该重新采样的减少百分比，然后重复 1000 次。您的 x% 置信区间就是您的集合的分位数到分位数。 $\frac{1 - x}{2}$ $\frac{100 - x}{2}$

这种方法的一个好处是您的 CI 将“自动”合并问题中固有的不对称性。您的集合中不会有任何统计数据，例如小于零，因为您计算统计数据的方式使这成为不可能。根据众所周知的标准误差做任何事情都会给你一个基于正态分布的 CI，它对于 p 的所有值都将具有非零密度，即使是不可能的值，例如 -1。 $\hat{p}$

一种非常合理的方法是对数据（最终值和预值）进行对数转换，对对数转换后的数据执行线性回归/ANCOVA。然后你将（简单地 exp(x)）反向转换为原始比例。

结果可以解释为几何平均值与预值的比值。然后，我通常会将 0.8 之类的东西解释为减少 20%。

这通常比分析计算的百分比变化值表现得更好（特别是标准偏差在不同的值和各种其他问题中并不趋于恒定），并且还确保置信区间位于可能的百分比变化范围内（即不能降低值超过 100%）。

一种常见的方法是使用风险比并围绕记录的风险比创建置信区间。风险比是两个比例的比值，可以计算为

R R = \frac{p_{1}}{p_{2}}

$RR = \frac{p_1}{p_2}$ 在哪里

p_{1}

$p_1$ 是第 1 组的比例，并且

p_{2}

$p_2$ 是组 2 的比例。从 2 x 2 频率表工作，单元频率由表示

a

$a$ ,

b

$b$ ,

c

$c$ ，和

d

$d$ （那是，

a

$a$ 和

c

$c$ 分别是第 1 组和第 2 组的成功次数，以及

b

$b$ 和

d

$d$ 分别是第 1 组和第 2 组的失败次数），我们可以将风险比计算为

R R = \frac{a / (a + b)}{c / (c + d)}

$RR = \frac{a/(a+b)}{c/(c+d)}$ 记录风险比的标准误差计算为

s e = \sqrt{\frac{b}{a (a + b)} + \frac{d}{c (c + d)}}

$se = \sqrt{\frac{b}{a(a+b)} + \frac{d}{c(c+d)}}$ 因此，我们可以计算 95% 置信区间为

l n (R R) \pm 1.96 (s e)

$ln(RR) \pm 1.96(se)$ 取置信上限和下限的指数将为您提供风险比的置信区间

R R = e^{l n (R R)}

$RR = e^{ln(RR)}$ 您可以使用以下方法将风险比转换为您原来的百分比减少问题（假设风险比小于 1）

% r e d u c t i o n = (1 - R R) \times 100

$\%~reduction = (1-RR) \times 100$ 您可以将此应用于置信区间的限制。请注意，如果风险比大于 1，您将确定增加百分比为

% i n c r e a s e = (R R - 1) \times 100

$\%~increase = (RR-1) \times 100$

其它你可能感兴趣的问题

上一篇前后模型选择：什么是起始模型？下一篇为什么经验风险最小化容易过拟合？