为什么离散度的度量不如中心度那么直观?

机器算法验证 方差 分散
2022-03-19 16:59:47

在我们人类的理解中,似乎有些东西在直觉上难以理解方差的概念。在狭义上,答案是立竿见影的:平方使我们脱离了我们的反身理解。但是,只是差异带来了问题,还是数据传播的整个想法?我们在范围内寻求庇护,或者只是说明最小值和最大值,但我们只是在避免真正的困难吗?在平均值(众数或中位数)中,我们找到了中心,总结……简化;差异会传播事物并使他们感到不舒服。原始人肯定会通过对祈祷进行三角测量来利用平均值来猎杀动物,但我想是很久以后我们才觉得有必要量化事物的传播。事实上,早在 1918 年,罗纳德·费舍尔(Ronald Fisher)在“孟德尔遗传假设上的亲属之间的相关性”一文中首次引入了方差这个术语。

大多数关注新闻的人都会听说拉里萨默斯关于性别数学能力的不幸演讲的故事,这可能与他离开哈佛有关。简而言之,他建议男性与女性相比,数学能力的分布存在更广泛的差异,尽管两性享有相同的平均值。无论适当性或政治含义如何,这似乎在科学文献中得到证实

更重要的是,也许普通民众对气候变化等问题的理解——请原谅我提出可能导致完全没有必要讨论的话题——可以通过提高对方差概念的熟悉程度来帮助。

当我们试图掌握协方差时,问题变得更加复杂,如本文所示, @whuber在这里提供了一个很棒的、丰富多彩的答案。

认为这个问题太笼统可能很诱人,但很明显,我们是在间接讨论它,就像在这篇文章中一样,数学是微不足道的,但这个概念仍然难以捉摸,掩盖了对范围作为更舒适的接受反对更细微的想法差异

费舍尔写给 EBFord 的一封信中,提到了他对孟德尔实验的怀疑引起的争议,我们读到:“现在,当数据被伪造时,我非常清楚人们普遍低估了大概率偏差的频率,因此趋势总是让他们与预期非常吻合……[孟德尔数据中的]偏差非常小。” 伟大的 RA 费舍尔非常热衷于怀疑小样本中的微小差异,以至于他写道:“孟德尔仍然有可能被某个非常了解预期结果的助手欺骗了。”

这种对低估或误解传播的偏见完全有可能在今天仍然存在。如果是这样,有什么解释为什么我们更喜欢中心性概念而不是分散性?我们能做些什么来内化这个想法吗?

一些概念我们在一瞬间“看到”,然后我们没有,但我们接受它们并继续前进。例如,但我们甚至不需要知道这些身份就可以在日常生活中做出决定。方差也不一样。那么,不应该更直观吗?eiπ+1=0E=mc2

纳西姆·塔勒布 (Nassim Taleb) 将他(嗯,真的是Benoit Mandelbrot 的)对方差的错误理解的理解应用于利用危机时期,并试图通过诸如“方差的方差在认识论上是, 衡量对中值知识缺乏了解的一种衡量标准”——是的,这嘴里有更多的背景……值得称赞的是,他还通过感恩节火鸡的想法让它变得更简单。有人可能会争辩说,投资的关键是理解方差(和协方差)。

那么为什么会这么滑,如何补救呢?没有公式......只是多年处理不确定性的直觉......我不知道答案,但它不是数学的(必然是):例如,我想知道峰度的想法是否会干扰方差。在下图中,我们有两个重叠的直方图,方差几乎相同;然而,我的下意识反应是尾巴最长的那个,最高的峰(更高的峰度)更“分散”:

4个回答

我同意你的感觉,即方差稍微不那么直观。更重要的是,作为度量的方差针对某些分布进行了优化,并且对于非对称分布的价值较小。在我看来,平均值与平均值的绝对差并不直观,因为它需要选择平均值作为集中趋势的度量。我更喜欢 Gini 的平均差——所有观察值对的平均绝对差。它直观、强大且高效。在效率方面,如果数据来自高斯分布,则应用适当的重新缩放因子的 Gini 平均差是样本标准差的 0.98。对数据进行排序后,有一个有效的 Gini 均值差计算公式。R代码如下。

w <- 4 * ((1:n) - (n - 1)/2)/n/(n - 1)
sum(w * sort(x - mean(x)))

以下是我的一些想法。它并没有解决您可以从各个角度看待您的问题,事实上,它没有解决很多问题(这个问题确实有点宽泛)。

为什么外行人很难理解方差的数学计算?

方差本质上是事物的分散程度。这很容易理解,但它的计算方式对于外行来说似乎违反直觉。

问题是与平均值的差异被平方(然后平均),然后平方根以获得标准偏差。我们理解为什么这种方法是必要的 - 平方是使值成为正数,然后将它们平方根以获得原始单位。但是,外行人可能会对为什么数字是平方和平方根感到困惑。这看起来像它自己取消(它没有)所以看起来毫无意义/奇怪。

对他们来说更直观的是通过简单地平均平均值和每个点之间的绝对差(称为平均绝对偏差)来找到分布。这种方法不需要平方和平方根,因此更加直观。

请注意,仅仅因为平均绝对偏差更直接,并不意味着它“更好”。关于是使用平方还是绝对值的争论已经持续了一个世纪,涉及许多著名的统计学家,所以像我这样的随机人不能只是出现在这里并说一个更好。(求方差的平均平方当然更受欢迎)

简而言之:对于那些会发现平均绝对差异更直接的外行来说,寻找方差的平方似乎不太直观。但是,我认为人们在理解传播本身的想法方面没有问题

这是我对你的问题的看法。

我将从质疑上述答案开始,然后尝试说明我的观点。

对先前假设的问题:

真的是平方使诸如均方偏差之类的分散度量难以理解吗?我同意平方通过带来数学复杂性使其变得更难,但如果答案只是平方,平均绝对偏差将很容易理解和衡量中心性。

观点:

我认为让我们难以理解色散量度的原因在于色散本身是一种二维信息。试图在一个度量中总结二维信息意味着信息的部分丢失,从而导致混淆。

例子:

下面是一个可以帮助解释上述概念的例子。让我们获取 2 组不同的数据:

  1. 服从高斯分布
  2. 遵循未知且不对称的分布

我们还假设标准偏差方面的离散度为 1.0。

我的大脑倾向于对集合 1 的离散度进行比集合 2 更清晰的解释。在这种特定情况下,解释了我更好理解的原因,提前知道分布的二维形状可以让我理解分布度量围绕集中高斯均值的概率项。换句话说,高斯分布给了我二维提示,我需要更好地从色散度量中进行转换。

结论:

总之,没有切实的方法可以在一个偏差度量中捕获所有二维信息。我通常在不直接查看分布本身的情况下理解离散度的方法是结合许多解释某个分布的度量。它们将为我的思想设置背景,以便更好地掌握分散度量本身。如果我可以使用图表,那么箱形图对于可视化它确实很有用。

很棒的讨论让我对这个问题思考了很多。我很高兴听到你的意见。

我认为人们很难处理可变性(无论是方差、标准差、M​​AD 还是其他)的一个简单原因是,在您了解中心的概念之前,您无法真正理解可变性。这是因为变异性的度量都是基于到中心的距离来测量的。

平均值和中位数等概念是平行概念,您可以先学习其中一个,有些人可能对其中一个有更好的理解,而其他人会更好地理解另一个。但是传播是从中心测量的(对于中心的一些定义),所以不能首先真正理解。