从最小值、平均值和最大值计算分布

机器算法验证 分布 标准差 意思是 极值
2022-03-05 06:53:43

假设我有一些数据集的最小值、平均值和最大值,比如 10、20 和 25。有没有办法:

  1. 根据这些数据创建分布,以及

  2. 知道有多少百分比的人口可能高于或低于平均值

编辑:

根据 Glen 的建议,假设我们的样本量为 200。

3个回答

我有一些数据集的最小值、平均值和最大值,比如 10、20 和 25。有没有办法:

根据这些数据创建分布,以及

有无数种可能的分布与这些样本数量一致。

知道有多少百分比的人口可能高于或低于平均值

在没有一些可能不合理的假设的情况下,一般来说不是 - 至少没有多大意义认为它是有意义的。结果将在很大程度上取决于您的假设(值本身没有太多信息,尽管一些特定的安排确实提供了一些有用的信息 - 见下文)。

不难想出比例问题的答案可能非常不同的情况。当有与信息一致的非常不同的可能答案时,您如何知道您所处的情况?

更多细节可能会提供有用的线索,但就目前而言(甚至没有样本量,尽管如果平均值不在端点之间的中间,它可能至少为 2 或 3*)你不一定会在这个问题上获得太多价值. 您可以尝试获得界限,但在许多情况下,它们不会缩小很多范围。

* 实际上,如果平均值接近一个端点,您可以获得样本量的一些下限。例如,如果您的最小值/平均值/最大值不是 10,20,25,而是 10 24 25,那么必须至少为 15,这也表明大多数人口都在 24 岁以上;那是什么。但如果是 10、18、25,就很难对样本量有什么有用的了解,更不用说低于平均值的比例了。n

正如Glen_b已经指出的那样,有无限多的可能性。看看下面的图,它们显示了八个不同的分布,它们具有相同的最小值、最大值和平均值。

八种不同的分布

请注意,它们彼此非常不同。第一个是均匀的,第四个是三角形分布的双峰混合,第七个有大部分概率质量集中在中心附近,但仍然可能有极小概率的最小值和最大值,八是离散的并且在最小值和最大值处只有两个值,等等.

由于它们都符合您的标准,您可以使用它们中的任何一个进行模拟。但是,您的主观选择会对模拟结果产生非常深远的影响。我想说的是,如果 min、max 和 mean 真的是你对分布的唯一了解,那么如果你想让它真正模拟真实的(未知的)分布,那么你就没有足够的信息来进行模拟。

所以你需要问问自己对分布了解多少?它是离散的还是连续的?对称还是倾斜?单峰还是双峰?有很多事情需要考虑。如果它是连续的、非均匀的和单峰的,并且你只知道最小值、最大值和平均值,那么一个可能的选择是三角分布——现实生活中的任何事物都不太可能有这样的分布,但至少你使用的是简单的东西并且不对它的形状强加太多假设。

用于计算标准差的基于范围的规则在统计文献中被广泛引用(这里有一个参考... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard -偏差.htm )。基本上,它是 (max-min)/4。众所周知,这是一个非常粗略的估计。

鉴于该信息和假设正态分布数据的意愿,可以从两个数字生成正态偏差,即均值和基于范围的标准偏差。也就是说,只要该分布植根于第一或第二时刻,就可以从这两条信息中生成任何一个或两个参数分布。

粗略的变异系数也可以通过取 SD/Mean 的比率来产生。这将为数据中的无单位可变性提供代理。

误差更恰当地是指总体的抽样分布,并且需要说明样本大小n来进行估计。您的描述未提供此详细信息。