是的,您应该期望这两个示例(未加权与加权)都能为您提供相同的结果。
我已经实现了维基百科文章中的两种算法。
这个有效:
如果所有的xi从相同的分布和整数权重中得出wi表示样本中出现的频率,则加权总体方差的无偏估计量由下式给出:
s2 =1V1−1∑Ni=1wi(xi−μ∗)2,
然而,这个(使用分数权重)对我不起作用:
如果每个xi从具有方差的高斯分布中得出1/wi,加权总体方差的无偏估计量由下式给出:
s2 =V1V21−V2∑Ni=1wi(xi−μ∗)2
我仍在调查第二个等式不能按预期工作的原因。
/编辑:找到了第二个方程没有像我想的那样起作用的原因:只有当你有归一化的权重或方差(“概率/可靠性”)权重时,你才能使用第二个方程,它不是无偏的,因为如果你不'不要使用“出现/重复”权重(计算观察被观察的次数,因此应该在你的数学运算中重复),你将失去计算观察总数的能力,因此你不能使用修正系数。
因此,这使用加权和非加权方差解释了结果的差异:您的计算是有偏差的。
因此,如果您想获得无偏的加权方差,请仅使用“出现/重复”权重并使用我在上面发布的第一个等式。如果那是不可能的,那么,你也无能为力。
有关更多理论细节,here is another post about unbiased weighted covariance with a reference about why we can not unbias with probability/reliability type weights and a python implementation。
/EDIT 几年后:对于为什么我们不能对概率/可靠性权重进行无偏性仍然存在一些困惑。
首先,澄清一下,概率/可靠性权重和重复/出现权重之间的区别在于概率/可靠性权重是标准化的,而重复/出现权重不是,所以你可以通过对后者求和而不是得到总出现次数前者。这是消除偏见所必需的,因为否则您将无法知道我所说的统计量级,其他人所说的极化。
事实上,这就像统计中的其他任何事情一样:如果我说我的亚群中有 10% 患有 X 病,这对更广泛的人群意味着什么?好吧,这取决于我的亚群是什么:如果只有 100 人,那么我 10% 的数字并没有多大意义。但如果是100万人,那么它可能忠实地代表了整个人口。在这里也是一样的,如果我们不知道总 N,我们就无法知道我们的指标对整个人口的代表性,因此我们不能无偏。无偏见正是推广到更广泛人群的过程。