均值对多峰概率分布的描述有多好?

机器算法验证 可能性 分布 意思是 中位数
2022-03-12 09:06:06

当您有高度偏斜、不规则或多峰分布时:

在此处输入图像描述 在此处输入图像描述

在此处输入图像描述

在这些情况下,使用中位数而不是均值来推断这些分布的属性是否更有利?在这些例子中使用平均值是否变得不那么有利了?

谢谢

4个回答

意思是什么意思

每当您计算一个描述分布的某个方面的单个实数值时——无论这是平均值、众数、标准差、峰度、特定分位数还是其他任何东西——该数量衡量的是它所测量的内容,而不是它所测量的内容不测量。因此,无论分布是单峰、双峰、三峰等,均值始终衡量均值。现在,您要问均值是否适合“推断这些分布的属性”。这引出了一个自然的问题,哪些属性如果您感兴趣的属性是分布的“中心”,那么显然平均值将非常好地代表该属性。另一方面,如果您感兴趣的属性是其他东西(例如,众数),那么平均值可能会非常糟糕。

所有这些只是另一种说法,即从分布计算的实际量通常只代表分布的一个方面,并且在从分布转换为描述量时会丢失信息。因此,如果您想使用描述性数量来表示分布的属性,您需要具体说明您感兴趣的属性。没有单一数量(分布本身除外)可以为您提供分布的“属性”。

平均值作为创建分布的过程的有用描述符

通常,平均值很重要,因为它通常与分布所描述的基础过程的参数有关。

这也适用于偏态分布,例如均值等于速率参数的泊松分布。

另一方面,在双峰或多峰分布的情况下,您通常会处理混合分布,每个分布都有自己的平均值。在这种情况下,混合的平均值不是一个非常有用的描述符,有助于理解分布。

平均值在分布的应用中是有用的。

即使平均值与创建分布的过程背后的机制几乎没有关系,平均值可能仍然有用的情况是平均值在应用程序中发挥作用。

例如,如果您的应用程序涉及变量总和,那么总和的分布是有意义的(这将遵循以均值为中心的具有单一模式的近似正态分布)。

示例:假设分布是为游轮上的自助餐购买多少食物,而双峰分布描述了船上个人的饮食模式,那么总和的分布是有意义的。


一个突出显示此答案中拆分的两种情况之间差异的示例是优化中涉及的不同成本函数(一个成本函数用于拟合过程,一个成本函数作为实际优化目标)。例如,应用程序可能需要平均值(例如,它最小化平方误差损失函数),但分布中样本的中位数可以更好地估计分布形状: http: //stats.stackexchange.com/一个/492143

当涉及应用时,与均值描述分布的用处的类比是物理学中的质心。假设你想描述小行星在太阳系中的运动,那么小行星的确切形状并不重要,我们用质心进行计算。(有一些影响使形状有点重要,例如潮汐力和辐射压力)。与统计数据一样,概率质量中心(平均值)可能无法很好地描述某些概率分布的形状,但它可能是应用程序中唯一重要的事情。

  • 您的第一个图显示了接近对称的双峰分布,因此平均值很可能接近或等于中位数。平均值或中位数只是一个数字,它总结了有关分布的某种信息。一个数字永远不会告诉您有关分发的所有信息,因此很难回答“它的效果如何”,因为答案取决于对您来说重要的是什么。它没有告诉您有关多模态的任何信息,但中位数也不会。

  • 对于您的第二个图,很难说分布是否“不规则”,或者您只是为内核密度估计器使用了错误的参数在核密度估计中,使用较小的带宽总是会导致卷曲的形状,而高带宽会使这些形状更加平滑。这同样适用于直方图:大箱子会更平滑,而小箱子会更平滑。这将是峰的集合。

  • 第三幅图显示了偏态分布。同样,在均值和中值之间进行选择将取决于您要总结的信息类型。If 均值如此敏感,为什么要首先使用它线程详细讨论了我们为什么使用手段以及背后的想法是什么。TL;DR您实际上可能希望均值受到极值的影响,因此它可以更好地总结“整个分布”。

这里有很多很好的答案。我将在这里添加要说明的一般要点。您可以用一个数字、平均值(甚至两个,比如标准差)来总结值的分布,但您始终必须记住,这样做会丢失信息。这就是为什么您在总结之前查看直方图的原因。

所以查看了这些直方图之后,你会

  • 第一张图,采用两种分布的模式,想象中间有一个切口,并报告两者的四分位数范围。
  • 第二个图,报告平均值(或中位数)和四分位距
  • 第三个图,要么报告中位数和四分位数范围,要么先对数图,看看是否有第二个最大值 - 似乎有一个。如果是这样,请报告第一个第二个峰值周围的中位数和四分位数范围。您将需要选择任意值来说明第一个分发开始的位置和第二个结束的位置

PS 对于多峰分布,更好的方法是为每个分量假设一个参数形式,并使用最大似然来估计相关分量。但在你的情况下,这可能有点过头了