使用中值绝对偏差的误差线

机器算法验证 标准差 错误
2022-04-19 07:42:13

我试图在谷歌上找到我的问题的解决方案,但我似乎找不到关于误差线和中值绝对偏差的太多信息,而且我对统计误差分析了解不多,因此非常感谢任何帮助。

我正在为我的天文学研究创建一个半对数图,它将数据分成 5 个以对数为底的 10(x 轴)等间隔的 bin,并绘制每个 bin(y 轴)的平均值。因此,随着 x 轴的增加,每个 bin 具有更大的样本量。由于这是一项统计研究,因此存在很大的不确定性,并且存在大量异常值(非高斯误差分布)。因此,我想使用中值绝对偏差 (MAD) 误差线,因为 MAD 不太容易受到异常值的影响。

所以我的问题是:很像标准偏差和标准误差,其中标准误差只是 stdev/sqrt(N) 而 N 是样本的大小——中值绝对偏差是否有类似的情况?当我使用 MAD/sqrt(N) 时得到的误差线看起来是正确的,但我没有信心解释我使用这种方法的理由。将 MAD 除以样本大小的平方根是产生误差线的可接受方法吗?如果没有,您还有其他建议吗?此外,根据我所做的研究,中值绝对偏差似乎是比平均绝对偏差更好的估计量……你同意吗?

更新:

这是我的原始图,带有来自中值绝对偏差/sqrt(N) 的误差线(注意:标题应该是中值,而不是平均值!)第一个 bin 包含 39 个样本,第二个包含 146 个,第三个 454,第四个 1287,第五个 2371 个样本. 看起来不错,但产生误差线的方法似乎不太准确。 在此处输入图像描述

我使用@Glen_b 建议的引导方法创建了误差线(附在下面)。这对我来说看起来不错,但我的顾问认为这种方法中的误差线被高估了。

在此处输入图像描述

3个回答

听起来您在谈论有时称为回归图的东西,带有对数缩放的 x 变量。

这里有许多问题,不一定按逻辑顺序排列:

  • 你绘制的数量是一个平均值,所以如果你想绘制中值绝对偏差,它就是你想要的平均值的 MAD

  • 您的建议导致了一个问题“平均值的 MAD 何时等于数据的 MAD 除以MAD/nn

  • 当您说“似乎中值绝对偏差是比平均绝对偏差更好的估计量”时……这取决于我们在说什么-更好的估计量是什么?在什么情况下?


那么,“什么时候均值的 MAD 等于数据的 MAD 除以n

答案是,与标准偏差的情况不同,通常情况并非如此。平均值的标准差按比例缩放的原因是独立随机变量的方差相加(更准确地说,总和的方差是变量独立时的方差之和),而与分量的分布无关(如只要方差都存在)。正是这种特殊的性质在很大程度上解释了方差和标准偏差的流行。

一般而言,中值偏差和平均偏差都没有该属性。

但是,当数据正常时,它们实际上会继承该属性,因为总体平均偏差或中值偏差与法线标准偏差的比率将是一个常数,法线在卷积下是闭合的,标准偏差缩放方法。

如果数据合理地接近正常值,它可能就足够了。


还能做什么?估计统计量标准误差的一种方法是通过 bootstrap;对于平均偏差 - 作为平均值 - 这在大样本中应该做得很好。不幸的是,中位数在引导下表现不佳,这个问题将延续到中位数绝对偏差。

如果您的数据有一些概率模型,那么还有模拟作为解决问题的一种方式。

标准错误意味着什么您不只是采用任何旧的统计数据并除以 sqrt(n)。为什么不只绘制您的 MAD 并让您的误差线表示数据的可变性?如果您想要一些东西来代表您的中位数估计的质量,那么只需计算中位数的置信区间

无论你做什么,绘制你的原始数据或以某种方式使它们可用。

如果您选择中值绝对偏差 (MAD),请务必明确说明它是偏离均值还是中值,因为我已经看到 MAD 被用作两者的缩写,并且在任何情况下,任何歧义都不会对任何人有利。

将 +/- MAD 绘制为误差线与广泛使用的箱线图有松散的联系,箱线图中的中位数和四分位数显示在一个框中,并且对于框外显示的内容有各种不同的配方。

MAD 大约是 |四分位数中位数| 在对称分布中。对于对称分布,MAD 是来自中位数还是来自均值的 MAD 或“四分位数”是上四分位数还是下四分位数并不重要。MAD 将类似于(上 q.中位数)和(中位数较低的 q.) 即使在许多不对称分布中。四分位数有各种略有不同的规则,可能会引起一些小问题,但不是这里的中心。

一个更大的问题是:如果异常值使您的标准错误变得可疑,那么您为什么要显示均值,因为它们也会受到影响?正如@John 暗示的那样,中位数显然是一种可能性。另外,你的 y 变量在对数或其他转换尺度上会更好吗?