当原始数据基于频率类别时,如何计算计数变量的均值和标准差?

机器算法验证 意思是
2022-03-21 20:45:11

我问了 312 个人,他们在一个月内光顾了他们喜欢的当地超市多少次

结果如下:

  • 5% 根本没有访问
  • 7% 每月访问一次
  • 33% 每月访问两次
  • 22% 每月访问 3 次
  • 15% 每月访问四次
  • 18% 的人每月访问五次以上

在没有实际访问次数的情况下(我只有上述顾客的百分比),您如何计算平均值和标准偏差以进行报告。

2个回答

您需要有创造力,因为这些数据与任何超过 =的平均值以及任何超过的标准差(假设没有人获得)一致每月访问超过五次)。0×.05+1×.07++5×.182.891.38

出于报告目的,只需将原始数据制成表格或图表:

条形图

如果您必须对位置和分布进行总结,请使用可以从这些数据中唯一找到的替代措施。位数在 2 到 3 之间,因为 45% 的访问次数不超过 2 次,而 67% 的访问次数不超过 3 次。您可以简单地进行线性插值,并报告每月访问的中位数为 2.3 次。对于价差,使用(比如说)一个四分位数范围,也是用线性插值计算的。我发现 Q1 为 1.4,Q3 为 3.3,IQR 为 1.9。

除此之外,您需要使用分布拟合数据,这需要假设,因此不仅仅是报告。但它可能很有用。然而,这些数据难以捉摸:它们不适合像二项式或泊松这样的标准模型。(我建议不要尝试拟合连续分布的离散版本,例如对数正态分布,因为很难找到它们应该拟合的任何理由它们没有形成用于比较的信息基础。此外,由于这里只有六个值,它在建模中使用多个参数几乎毫无价值:两个或多个参数提供了太多的灵活性。)

作为简单分布拟合可能提供的洞察力的一个示例,假设访问是由个人随时间随机进行的,并且每个人具有相同的访问概率(每单位时间)。这可能是一个有用且有趣的框架,可以用来比较这些数据。它导致泊松分布。每月 3.185 的强度达到最佳拟合(在卡方意义上);这也是方差(由此标准差为 =)。3.1851.8

数据和泊松拟合

这不太合适(卡方检验会显示,但眼睛可以清楚地看到):报告 2 次访问的人太多,而报告 1 次访问的人太少。也许是这次分析中最有趣的事情。您可以像这样宣布这些结果:

受访者每月访问的中位数为 2.3(IQR 为 1.9)。数据显着偏离(最佳拟合)泊松分布,平均每月访问次数为 3.18,其中 19 人比预期少报告一次访问,37 人比预期多报告两次访问。

顺便说一句,泊松拟合暗示性地填充了“5 次或更多访问”的上尾,提供了可以在后续调查中检验的定量假设:

泊松拟合

其他分布会对这个上限给出不同的推断。

您绝对必须将数值与“每月访问五次及以上”的课程相关联。

顺便说一句,我会以通常的方式计算平均值和标准差。实际上,是您的值,而是它们在样本上估计的经验频率。在你的情况下 (你应该决定 因此 并重新调整所有 可能会很有趣xipi

x0=0 x1=1 x2=2 x3=3 x4=4 x5=6
x5
p0=0.05 p1=0.07 p2=0.33 p3=0.22 p4=0.15 p5=0.18

x¯=i=05xipi
σ=i=05(xix¯)2pi
x0p0pi为了他们的总和是1。所以你可以计算一个人去超市的平均去超市的次数。