总体和样本有什么区别?每个变量和统计数据都使用了哪些常见变量和统计数据,它们之间如何相互关联?
总体和样本有什么区别?
总体是研究中实体的集合。例如,男性的平均身高。这是一个假设的人口,因为它包括所有曾经生活过、现在还活着和将来会生活的人。我喜欢这个例子,因为它让我们明白了,作为分析师,我们选择了我们希望研究的人群。通常不可能调查/测量整个人口,因为并非所有成员都是可观察的(例如,将来会存在的男性)。如果可以枚举整个人口,那么这样做通常成本高昂并且需要大量时间。在上面的例子中,我们有一个人口“男人”和一个感兴趣的参数,他们的身高。
取而代之的是,我们可以取这个群体的一个子集,称为样本,并在某些条件下使用这个样本来推断研究中的群体。因此,我们可以测量人口样本中男性的平均身高,我们称之为统计数据,并使用它来推断人口中感兴趣的参数。这是一个推论,因为根据样本得出关于总体的结论会涉及一些不确定性和不准确性。这应该是显而易见的——我们样本中的成员比我们的人口少,因此我们丢失了一些信息。
选择样本的方法有很多种,对此的研究称为抽样理论。一种常用的方法称为简单随机抽样 (SRS)。在 SRS 中,总体中的每个成员都有相同的概率被包含在样本中,因此称为“随机”。还有许多其他的抽样方法,例如分层抽样、整群抽样等,它们各有优缺点。
重要的是要记住,我们从总体中抽取的样本只是大量潜在样本中的一个。如果十位研究人员都在研究同一个人群,抽取他们自己的样本,那么他们可能会得到不同的答案。回到我们之前的例子,十位研究人员中的每一个都可能会得出不同的男性平均身高,即所讨论的统计数据(平均身高)因样本而异——它具有称为抽样分布的分布。我们可以使用这个分布来理解我们对总体参数估计的不确定性。
已知样本均值的抽样分布是标准偏差等于样本标准偏差除以样本大小的正态分布。因为这很容易与样本的标准偏差相混淆,所以更常见的是将抽样分布的标准偏差称为标准误差。
总体是您感兴趣的一组值或个人。样本是总体的一个子集,是您在估计中实际使用的一组值。
所以举个例子,如果你想知道中国居民的平均身高,那就是你的人口,也就是中国的人口。问题是,这是一个相当大的数字,你无法为那里的每个人获取数据。所以你抽取一个样本,也就是说,你得到一些观察结果,或者中国一些人的身高(人口的一个子集,样本),并据此进行推断。
人口是研究组中的一切。例如,如果你正在研究苹果股票的价格,它是历史的、当前的,甚至是所有未来的股票价格。或者,如果你经营一家鸡蛋厂,那就是工厂生产的所有鸡蛋。
您不必总是抽样并进行统计测试。如果您的人口是您的直系亲属,则无需抽样,因为人口很少。
抽样之所以流行有多种原因:
- 它比人口普查便宜(对整个人口进行抽样)
- 您无权访问未来的数据,因此必须对过去进行采样
- 您必须通过测试来销毁某些物品,并且不想将它们全部销毁(例如,鸡蛋)
当我们想到“人口”这个词时,我们通常会想到我们所在城镇、地区、州或国家的人以及他们各自的特征,如性别、年龄、婚姻状况、种族、宗教信仰等。在统计学中,“人口”一词的含义略有不同。统计中的“人口”包括我们正在研究或收集信息以进行数据驱动决策的特定群体的所有成员。
人口的一部分称为样本。它是人口的一部分,它的一部分,它的一部分以及它的所有特征。样本是一个科学抽取的群体,它实际上具有与总体相同的特征——如果它是随机抽取的。(这可能让你难以置信,但这是真的!)
随机抽取的样本必须具有两个特征:
*每个人都有平等的机会被选为您的样本;和,
*一个人的选择独立于另一个人的选择。
随机样本的优点在于您可以推广到您感兴趣的人群。因此,如果您对社区中的 500 个家庭进行抽样,您可以推广到居住在那里的 50,000 个家庭。如果您将 500 人的某些人口统计特征与 50,000 人进行匹配,您会发现它们惊人地相似。