机器算法验证 - “代表性样本”究竟指的是什么？ - 吾爱随笔录

“代表性样本”究竟指的是什么？

机器算法验证采样数理统计

2022-03-10 09:47:24

阅读以下段落时：

基于最近 88 次突袭的代表性样本，我们表明，图尔卡纳人在非常大规模的战斗中维持了代价高昂的合作，至少部分是通过惩罚搭便车者。

我想知道“代表性样本”可能指的是什么。

它是否与统计推断中的功率计算（例如）有关，或者是否有某种方法可以评估总人口中需要的样本数量才能被认为具有代表性？

4个回答

具有代表性的样本是从感兴趣的人群中无偏见地抽取的样本。

例如，假设我想知道有多少人在早餐时喝牛奶。如果我是素食主义者，并且我随机询问我的朋友和同事（其中许多人也是素食主义者），那么我抽取的样本不能代表整个人群：我当然会发现低早餐喝牛奶的人比例，但这是我选择的神器样本，并不是因为现实中做的人那么少。

基本上，如果有任何因素导致我们以非随机方式选择样本，那么推论是有问题的。在上面的示例中，代表性样本是从所有袭击中随机抽取的样本。我们也可以只在冬天抽取样本，在这种情况下，我们可能会得到一个偏差的结果（也许寒冷使人们不太容易合作）。

希望能把事情弄清楚一点……

“代表性”一词在不同领域有许多不同的含义。为了给出答案，我将引用Bethlehem, Cobben, Schouten (2009) 调查响应的代表性指标。

代表性的概念经常用于调查研究，但通常不清楚它的含义。Kruskal 和 Mosteller (1979a, 1979b 和 1979c) 对非科学文献、不包括统计的科学文献和统计文献中代表的含义进行了广泛的概述。他们发现“代表性抽样”具有以下含义：(1) 对数据的普遍赞誉，(2) 缺乏选择性力量，(3) 人口规模缩小，(4) 典型或理想案例，(5) 覆盖范围(6) 一个模糊的术语，要准确地说，(7) 代表性抽样作为一种特定的抽样方法，(8) 允许良好的估计，或 (9) 对特定目的来说足够好。他们建议不要使用代表这个词，而是指定一个代表的含义。

这些是对 Kruskal 和 Mosteller 的引用：

Kruskal, W. 和 Mosteller, F. (1979a)。代表性抽样，I：非科学文献。国际统计评论，47，13-24。
Kruskal, W. 和 Mosteller, F. (1979b)。代表性抽样，II：科学文献，不包括统计数据。国际统计评论，47，113-127。
Kruskal, W. 和 Mosteller, F. (1979c)。代表性抽样，III：当前的统计文献。国际统计评论，47，245-265。
Kruskal, W. 和 Mosteller, F. (1980)。代表性抽样，IV：统计概念的历史，1895 - 1939 年。国际统计评论，48，169-195。

在这个讨论中似乎发生了三件事。约翰在统计用语中是正确的，“代表性样本是随机的，在选择方法中没有偏差。这需要与 Jose 关于样本量的说法区分开来。样本量不是衡量样本可靠性的指标，而是更多的是衡量它在方差背景下的准确程度。这通常在民意调查数据中被称为“精确到正负五个百分点”。

这并不意味着您引用的参考文献意味着以约翰和我描述的方式使用该短语。要弄清楚是否是这样，您将不得不阅读更多他们告诉您的有关如何选择样本的内容 - 并且可能会问一些相当尖锐的问题。该术语经常被误用在“根据我的判断，我特意选择了我认为具有代表性的案例”。

代表性样本是您从目标人群中收集样本的珍贵程度。为此没有定量的方法，制作抽样框的人可以评估有多少样本代表了总体。尽管如此，人们也可以减少估计的偏差，声称样本代表了总体。

用例子定义

准确反映整个总体成员的统计总体的子集。具有代表性的样本应该是对总体情况的公正指示。在一个有 30 名学生的教室中，其中一半是男性，一半是女性，一个有代表性的样本可能包括六名学生：三名男性和三名女性。

当样本不具有代表性时，结果称为抽样误差。再次使用课堂示例，包含 6 名学生（均为男性）的样本将不具有代表性。由于没有研究女学生，因此从研究这六名男学生中得出的任何结论都不太可能转化为整个群体。

有关更多信息，请查看此URL。

其它你可能感兴趣的问题

上一篇对数似然*总是*具有负曲率是否是这种情况？为什么？下一篇逐行运行 R 脚本