我已经阅读了这样一个事实,即方差依赖于计数数据的平均值。在大多数情况下,他们将方差稳定转换作为数据建模的预处理步骤。
我想知道,为什么方差取决于基于计数的数据的平均值?换句话说,计数数据的哪些属性使这种情况发生?
我已经阅读了这样一个事实,即方差依赖于计数数据的平均值。在大多数情况下,他们将方差稳定转换作为数据建模的预处理步骤。
我想知道,为什么方差取决于基于计数的数据的平均值?换句话说,计数数据的哪些属性使这种情况发生?
首先,没有必要转换计数数据,因为泊松和负二项式模型允许方差取决于均值。
其次,方差对均值的依赖性不仅限于计数数据。我认为这是因为实验单位之间的差异发生在“相对”而不是“绝对”规模上。
例如,考虑一组平均收入为200,000美元的个人。很有可能这个群体中有一个人的收入“相对”低。假设是平均值的 80%,即160,000美元。
现在考虑另一个平均收入为35,000美元的组。同样,很可能有一个人的收入是平均值的 80%( 28,000美元),但不太可能看到低于平均值 40,000美元的人(- 5000美元)。
如果方差与均值无关,那么在第一组中观察到 160,000美元的收入与在第二组中观察到 5000美元一样合理,但事实并非如此。
我建议通过将计数视为简单(发生与未发生)事件的总和来提供对这个问题的实质性洞察。 这足以在方差和期望之间建立一种关系,在通常情况下,这种关系是成正比的。
大多数计数是在许多事件可能发生或不可能发生的情况下获得的;计数总结了确实发生的事件。根据定义,这样的事件具有伯努利分布:它有可能发生,因此有可能不发生。因此,它们的计数是伯努利变量的总和。
总和的期望总是期望的总和。因此,具有概率伯努利变量的期望是总和
当这些变量是独立的(并且“几乎”独立将足够接近)时,它们的总和的方差就是它们的方差之和。由于伯努利变量的方差为(很容易从第一原理确定),因此总和的方差约为
虽然这太复杂了,无法进行任何真正笼统的陈述,但我们可以对常见情况进行一些有用的推论。
(二项式抽样)。当所有都相等时,和。这与预期计数成正比,因为
(泊松分布)。当很大并且所有都非常小以至于每个也很小(例如,小于)时,那么的一般表达式中项非常接近以至于可以忽略不计,即使在累积时也是如此在总结中。因此,在一个很好的近似下,
同样,方差与预期计数成正比,但比例的通用常数等于。