澄清“人口”的定义

机器算法验证 采样 样本 人口
2022-04-06 18:46:21

在统计课程中,我一直了解到人口总是一个非常广泛、几乎无法量化的群体(例如,一个国家的所有选民、公司的所有消费者、电视频道的所有观众),这就是我们使用样本的原因估计人口趋势。

但是在我们能够拥有所有当前信息但将来会有更多信息的示例中,我们是否将我们拥有的信息视为总体或样本?

例如,假设您正在分析游戏节目的结果,并试图估计女性与男性在该节目中的表现。假设游戏节目只播放了约 50 次,我们拥有其中的所有数据,但未来还会播放更多游戏。您能否将已经玩过的 50 款游戏视为样本并对其进行统计测试,即使从技术上讲,它是该游戏的所有信息?种群中的个体是否必须是实时“存在”的个体,或者您是否可以将这种情况下的种群解释为游戏的所有迭代都显示“在以太中闲逛”而只是没有被玩了吗?

此外,如果我们确实将前 50 场比赛视为样本,这是否会违反样本被视为“随机”的能力?

3个回答

确实,人口通常很广泛,但并非必须如此。例如,根据 Newbold, Carlson, & Thorne (2013) Statistics for business and Economics, 教科书:

总体是调查员感兴趣的所有项目的完整集合人口规模可以非常大甚至无限。样本是样本大小由给出的总体中观察到的子集(或部分) Nn

第一句话是最重要的。什么是人口取决于您感兴趣的内容。如果一个人的兴趣是检查他们自己的孩子在获得某种奖励时如何改变他们的行为,那么人口将是他们自己孩子的数量,即使孩子的数量可能很小,例如 1-2。然而,在更一般的统计和计量经济学中,我们大部分时间都对回答广泛有用的问题感兴趣。在上面的例子中,从科学的角度来看,发现一些奖励如何改变你自己孩子的行为并不是很有趣,科学家很可能想知道它如何改变所有孩子的行为。

但是,在您的情况下,由于您对女性和男性在该特定节目中的表现感兴趣,那么您的人口实际上将由所有可能的参赛者组成,您可以将这 50 个观察结果视为样本。我们是否可以将此样本称为随机样本(在简单随机树苗的意义上)取决于您是否可以证明原则上人口中的任何成员都有相同的机会被选中参加该节目。

要点是游戏节目的实例是可以想象的结果的样本。

考虑掷硬币并试图计算得到 H 或 T 的概率。你已经掷了 50 次,得到了 30 个 H 和 20 个 T。毫无疑问,你在 60% 的翻转中得到了 H。然而,可以想象的是,对于总体而言,硬币的 H 的真实概率为 61% 或 59%。

这就是为什么即使您已经观察了每个实例,您也可能会使用推论统计。您想了解数据生成过程 (DGP),而不仅仅是碰巧生成的数据。

其他人已经完美回答了第一个问题,我将考虑关于随机样本的部分:

不,您的样本不是随机的。

但别担心,没关系。

统计学家一直使用非随机样本!例如,通常,当您对某些疾病进展进行研究时,您会确定一个日期,然后从该日期开始挑选您在一家特定医院的每位患者,直到您获得所需的样本量。那是样本,它根本不是随机的!它没有考虑其他时间跨度和其他医院的患者,那么推断它有什么意义呢?

关键是要了解数据生成过程是什么:您知道任何患者都可能出现并发症,因此您想了解每个患者的机会是什么,风险因素是什么等......您的结果原则上是正确的,仅适用于在那个时期在那家医院接受治疗的人(不是有用的人群,是吗?),但事实是,这项研究的有用性取决于你相信什么是有益的这些病人对世界各地其他生病的人也有好处。

回到您的案例,如果您认为该节目中的竞争对手将继续表现相似,那么您可以信任对该数据进行的分析。另一方面,您可以期望竞争对手从过去中吸取教训并改变他们的行为。这真的很难说,但在这种情况下,您的分析可能不太可靠。

顺便说一句,医学研究也是如此。世界各地的患者不能像瑞典样本那样对疾病和治疗做出反应。