众所周知,当我们进行统计时,我们本质上需要大量的样本。因为我在学习数学之前就被告知了这个事实,所以我一直在这里没有探索原因。更多样本背后的直觉对统计数据更好?
更多样本背后的直觉对统计数据更好?
直观地说,我们可以将统计想象为试图仅使用有限多个像素/样本来查看图像。如果您有更多像素/样本并且它们分布良好,那么图像会更清晰。
在统计学中,有两个概念,人口和样本。例如,我们说可以使用分布来描述随机现象。例如,学生在学校取得的成绩呈正态分布。这对于其他随机性质是满足的。有一点,每当你研究一种现象时,你的数据量都是有限的。这些数据,样本,取自更大的群体,人口。如果您独立选择每个数据并且您选择的所有数据都处于常规状态,这些称为 iid 条件,代表独立且相同的分布,您将被称为样本的数据将类似于你的人口。这意味着人口的统计数据,期望值和其他描述性的东西,可以使用一堆公式粗略地找到。这意味着通过研究人口的一些样本,您可以了解整个人口的工作方式。很明显,如果您有更多更具代表性的数据,您可以获得更好的近似值。在我的回答中,我避免参考从样本统计中查找人口统计的公式,但如果你研究它们,你会发现但增加了样本的大小,通常由,你可以有更好的近似来描述整个人口,只需要一个非常小的子集。
我指的是我关于分发的第一句话。根据您尝试处理的现象,它具有一个分布,该分布指定了从样本到总体的适当公式。
更多样本背后的直觉对统计数据更好?
这是因为样本越大,就越有可能忠实地代表整个人口。形式上这是大数定律的结果:
在概率论中,大数定律 (LLN) 是描述大量执行相同实验的结果的定理。根据规律,大量试验得到的结果的平均值应该接近预期值,并且随着试验次数的增加而趋于接近。
举例说明:假设您有一枚硬币,由您自己制作,因此您知道它是公平的,并且以相同的 1/2 概率(频率)返回正面和反面。
您希望通过翻转硬币 n 次来检查这一点。如果您将其翻转一次,n=1,您将得到一个正面或反面观察(样本),并且无法将其与有偏差的硬币区分开来。对于大量的翻转(大 n = 大样本量),您很可能会看到相似数量的正面和反面。这使您可以令人信服地向人们表明硬币是公平的。
这个想法是,随着样本量的增加,从样本中读取公平性变得越来越可靠(假设翻转/观察没有偏差)。