通过逐步添加样本来修改分布

数据挖掘 预测建模 高斯
2021-10-06 16:09:05

我想计算一组样本的分布(例如,高斯)。但是,我还想看看当我将样本逐渐融入分布时,分布是如何变化的。

一种方法是计算每个增量的所有相关样本的分布(例如,第一个增量:计算 2 个样本的分布,第二个增量:计算 3 个样本的分布)。然而,这是计算密集型的。

我能否仅从第 3 个样本和 2 个先前样本的分布属性中计算 3 个样本的分布?

例如,假设我有 5 个订购样品。

  • 我首先计算前 2 个样本的均值和标准差。这是第一个高斯分布。
  • 然后我查看第三个样本,并将其拟合到第一个高斯分布中(知道平均值、标准差、样本数)。这是第二个高斯分布。
  • 然后我查看第四个样本,并将其拟合到第二个高斯分布中(知道平均值、标准差、样本数)。这是第三个高斯分布。
1个回答

可以即时计算标准偏差(请在 math.stackexchange 向我们的兄弟求助):

https://math.stackexchange.com/questions/198336/how-to-calculate-standard-deviation-with-streaming-inputs

跟踪方差更容易,并且仅在您真正需要时才使用平方根来计算标准差。

平均值更容易,不要想太多。如果您有 4 个平均值为 4 的样本和 3 个平均值为 3 的样本,则在 7 个样本中总计最多 25 个。

所以

μ=μ1N1+μ2N2+μ3N3N1+N2+N3

σ2=σ12N1+σ22N2+σ32N3(N1+N2+N3)2