机器算法验证 - “误差范围”和“标准误差”有什么区别？ - 吾爱随笔录

“误差范围”和“标准误差”有什么区别？

机器算法验证标准错误定义

2022-01-24 19:41:23

“误差范围”与“标准误差”相同吗？

一个（简单的）例子来说明差异会很棒！

4个回答

简短回答：它们的不同之处在于参考分布（通常是标准正态分布）的分位数。

长答案：您正在估计某个人口参数（例如，红头发的人的比例；它可能要复杂得多，从逻辑回归参数到成就分数增益的第 75 个百分位数等等）。你收集你的数据，你运行你的估计程序，你看到的第一件事就是点估计，这个数量近似于你想要了解的关于你的人口的数量（红发的样本比例是 7%）。由于这是一个样本统计量，因此它是一个随机变量。作为一个随机变量，它有一个（抽样）分布，可以用均值、方差、分布函数等来表征。虽然点估计是您对总体参数的最佳猜测，但标准误差是您对估计量的标准偏差的最佳猜测（或者，在某些情况下，均方误差的平方根，MSE = 偏差 $^2$ + 方差）。

对于大小样本 $n=1000$ , 你的比例估计的标准误是 $\sqrt{0.07\cdot0.93/1000}$ $=0.0081$ . 误差范围是相关置信区间的半宽度，因此对于 95% 的置信水平，您将有 $z_{0.975}=1.96$ 导致误差幅度 $0.0081\cdot1.96=0.0158$ .

这是针对比例问题的扩展（或@StasK答案的解释扩展）尝试。

标准错误：

抽样分布的标准误差 ( SE )比例 $p$ 定义为：

$\text{SE}_p=\sqrt{\frac{p\,(1-p)}{n}}$ . 这可以与一个比例的 抽样分布的标准差 ( SD )进行对比 $\pi$ ： $\sigma_p=\sqrt{\frac{\pi\,(1-\pi)}{n}}$ .

置信区间：

置信区间估计总体参数 $\pi$ 基于采样分布和允许正态近似的中心极限定理 (CLT)。因此，给定一个 SE 和一个比例， $95\%$ 置信区间将计算为：

p \pm Z_{α / 2} SE

$p\,\pm\,Z_{\alpha/2}\,\text{SE}$

鉴于 $Z_{\alpha/2}=Z_{0.975}=1.959964\sim1.96$ ，CI 将是：

p \pm 1.96 \sqrt{\frac{p (1 - p)}{n}}

$p\,\pm\,1.96\,\sqrt{\frac{p\,(1-p)}{n}}$ .

即使我们真的不知道总体 SD，这也提出了一个关于使用正态分布的问题 - 在估计均值的置信区间时，如果使用 SE 代替 SD，则 $t$ 由于尾部较粗，分布通常被认为是更好的选择。但是，在比例的情况下，只有一个参数， $p$ ，被估计，因为伯努利方差的公式完全取决于 $p$ 作为 $p\,(1-p)$ . 这在这里得到了很好的解释。

误差范围：

误差幅度只是特定统计量的置信区间的“半径”（或宽度的一半），在本例中为样本比例：

$\text{ME}_{\text{@ 95% CI}}=1.96\,\sqrt{\frac{p\,(1-p)}{n}}$ .

从图形上看，

误差幅度是置信区间中添加和减去的量。如果我们可以抽取许多相同大小的样本，则标准误差是样本统计量的标准偏差。

抽样误差衡量样本统计量与被估计参数的差异程度，另一方面标准误差试图量化从同一总体中抽取的样本统计量之间的变化

其它你可能感兴趣的问题

上一篇累积风险函数的直觉（生存分析）下一篇泊松回归与对数最小二乘回归？