为什么 1000 人中有 600 人比 10 人中有 6 人更有说服力?

机器算法验证 统计学意义 样本量 百分比
2022-01-19 14:24:56

看看这段摘自“学习技能手册”,Palgrave,2012 年,由 Stella Cottrell 撰写,第 155 页:

百分比注意何时给出百分比。
相反,假设上面的语句是:

60% 的人喜欢橙子;40% 的人表示他们更喜欢苹果。

这看起来很有说服力:给出了数值。但是 60% 和 40% 之间的差异显着吗?在这里,我们需要知道有多少人被问到。如果问 1000 个人,其中 600 个更喜欢橙子,这个数字会很有说服力。然而,如果只问 10 个人,60% 仅仅意味着 6 个人喜欢橙子。“60%”听起来令人信服,而“十分之六”则不然。作为一个批判性的读者,您需要注意用于使数据不足看起来令人印象深刻的百分比。

这个特征在统计学中叫什么?我想了解更多。

4个回答

我想列出另一个直观的例子。

假设我告诉你我可以预测任何抛硬币的结果。你不相信,想试探我的能力。

你测试了 5 次,我都做对了。你相信我有特殊的能力吗?也许不吧。因为我可以偶然把它们都弄对。(具体来说,假设硬币是公平的硬币,并且每个实验都是独立的,那么我可以在没有超能力的获得所有权利。有关它的笑话,请参见 Shufflepants 的链接)。0.550.03

另一方面,如果你对我进行了大量的测试,那么我不太可能偶然得到它。例如,如果您测试次,那么我全部正确的概率是1000.51000


统计概念称为统计功效,来自维基百科

二元假设检验的功效是当备择假设 (H1) 为真时检验正确拒绝原假设 (H0) 的概率。

回到抛硬币的超级大国的例子,本质上你想要运行一个假设检验。

  • 零假设(H0):我没有超能力
  • 备择假设(H1):我有超能力

现在正如您在数值示例中看到的(测试我 5 次与测试我 100 次),统计功效受到样本量的影响。

更多要在这里阅读。(更具技术性并基于 t 检验)。

可以在此处找到了解统计功效的交互式工具。请注意,统计功效随样本大小而变化!

在此处输入图像描述

从比例的角度考虑。假设喜欢橙子是成功的,而喜欢苹果是失败的。所以你的平均成功率是或者在这种情况下是 0.6μ=# of sucessesn

这个量的标准误差估计为对于小样本量(即 10),标准误差,但对于 1000 的样本量,标准误差所以基本上,正如评论中提到的,“样本量很重要”。μ(1μ)n.155.0155

这个概念是大数定律的结果。来自维基百科

根据规律,大量试验得到的结果的平均值应该接近预期值,并且随着试验次数的增加而趋于接近。

小样本的结果可能比大样本的结果更远离预期值。因此,如问题中所述,应谨慎对待从小样本计算的结果。这个 youtube 视频也很好地解释了这个想法

我们处于通过一些样本量估计一些人口数量的情况。在这种情况下,我们使用样本比例来估计总体比例,但原理要普遍得多。

如果您认为样本中的所有观察值在它们具有感兴趣的特征时 (在示例中为“首选橙子而不是苹果”),而当它们没有时的比例是相同的作为值集的平均值——因此您可以很容易地看到样本比例实际上是平均值。10101

随着我们采用越来越大的样本(使用随机抽样),样本均值将趋于收敛于总体均值。(这是大数定律。)

然而,我们真正想知道的是我们可能有多远(例如可能由比例的置信区间的宽度或误差幅度表示,通常是这种宽度的一半) .

通常,您拥有的数据越多,对于某个数量(例如平均值)的不确定性就越小——因为样本平均值分布的标准偏差会随着您获取更大的样本而减小。[想象一下,取许多大小为 4 的不同样本的平均值。这些平均值的分布比原始观测值的分布变化小——标准偏差应该是原来的一半左右。现在,如果你取许多大小为 400 的不同样本的平均值,那么它的标准偏差应该再次小得多(大约120原始观测值的标准差的 th)。

样本均值分布的标准差是衡量样本均值与总体均值的典型距离的一种方法,该距离正在减小(随着1n,如上例所示)。

结果,当样本很大时,我们对估计的准确性更有信心——如果我们再次重复我们的实验,其他这样的方法将接近当前的方法——它们越来越紧密地聚集在一起,并且因为(在这种情况下)我们的估计是无偏的,它们围绕我们试图估计的值聚集在一起。单个样本均值对于总体均值可能在哪里变得越来越有用。