以网站上的图书评级为例。书籍 A 由 10,000 人评分,平均评分为 4.25,方差。同样,书 B 由 100 人评分,评分为 4.5,。
现在由于书 A 的样本量很大,“平均稳定”为 4.25。现在对于 100 人来说,如果更多的人阅读 B 书,平均评分可能会下降到 4 或 4.25。
- 应该如何解释来自不同样本的均值的比较以及可以/应该得出的最佳结论是什么?
例如 - 我们真的可以说书 B 比书 A 好吗?
以网站上的图书评级为例。书籍 A 由 10,000 人评分,平均评分为 4.25,方差。同样,书 B 由 100 人评分,评分为 4.5,。
现在由于书 A 的样本量很大,“平均稳定”为 4.25。现在对于 100 人来说,如果更多的人阅读 B 书,平均评分可能会下降到 4 或 4.25。
例如 - 我们真的可以说书 B 比书 A 好吗?
您可以使用 t 检验来评估均值是否存在差异。不同的样本量不会对 t 检验造成问题,并且不需要特别小心地解释结果。最终,您甚至可以将单个观察结果与具有已知分布、均值和 SD 的无限群体进行比较;例如,智商为 130 的人比 97.7% 的人聪明。不过需要注意的一点是,对于给定的(即总相等,则功率最大化;由于组大小高度不平等,每次额外观察都不会获得那么多额外的分辨率。
为了澄清我关于权力的观点,这里有一个为 R 编写的非常简单的模拟:
set.seed(9) # this makes the simulation exactly reproducible
power5050 = vector(length=10000) # these will store the p-values from each
power7525 = vector(length=10000) # simulated test to keep track of how many
power9010 = vector(length=10000) # are 'significant'
for(i in 1:10000){ # I run the following procedure 10k times
n1a = rnorm(50, mean=0, sd=1) # I'm drawing 2 samples of size 50 from 2 normal
n2a = rnorm(50, mean=.5, sd=1) # distributions w/ dif means, but equal SDs
n1b = rnorm(75, mean=0, sd=1) # this version has group sizes of 75 & 25
n2b = rnorm(25, mean=.5, sd=1)
n1c = rnorm(90, mean=0, sd=1) # this one has 90 & 10
n2c = rnorm(10, mean=.5, sd=1)
power5050[i] = t.test(n1a, n2a, var.equal=T)$p.value # here t-tests are run &
power7525[i] = t.test(n1b, n2b, var.equal=T)$p.value # the p-values are stored
power9010[i] = t.test(n1c, n2c, var.equal=T)$p.value # for each version
}
mean(power5050<.05) # this code counts how many of the p-values for
[1] 0.7019 # each of the versions are less than .05 &
mean(power7525<.05) # divides the number by 10k to compute the %
[1] 0.5648 # of times the results were 'significant'. That
mean(power9010<.05) # gives an estimate of the power
[1] 0.3261
请注意,在所有情况下,但在第一种情况下 &,在第二种情况下 &,在最后一种情况下和。进一步注意,标准化平均差/数据生成过程在所有情况下都是相同的。然而,对于 50-50 岁的样本,测试在 70% 的时间里“显着”,而在 75-25 岁的人群中,功效为 56%,而在 90-10 岁的人群中只有 33%。
我通过类比来考虑这一点。如果你想知道一个长方形的面积,并且周长是固定的,那么如果长宽相等(即长方形是正方形),面积就会最大化。另一方面,随着长度和宽度的不同(随着矩形变长),面积缩小。
除了@gung 提到的 t 检验提到的答案之外,听起来您可能对贝叶斯评级系统感兴趣。网站可以使用此类系统对收到的票数不同的订单项目进行排名。本质上,此类系统的工作方式是分配一个评级,该评级是所有项目的平均评级加上特定对象评级样本的平均值的组合。随着评分数量的增加,分配给对象平均值的权重会增加,而分配给所有项目的平均评分的权重会降低。也许看看贝叶斯平均值。
当然,当您处理广泛的问题时,事情可能会变得更加复杂,例如投票欺诈、随时间的变化等。