我正在教一门介绍性统计课程,并且正在审查抽样的类型,包括系统抽样,您可以对每 k 个个人或对象进行抽样。
一个学生问是否对每个具有特定特征的人进行抽样会完成同样的事情。
例如,对每个穿着蓝色 T 恤的人进行抽样是否足够随机,并提供了足够代表整个人口的样本?至少,如果你问的问题不是“你喜欢穿什么颜色的 T 恤?” 我的感觉是没有,但我想知道这里是否有人对此有任何想法。
我正在教一门介绍性统计课程,并且正在审查抽样的类型,包括系统抽样,您可以对每 k 个个人或对象进行抽样。
一个学生问是否对每个具有特定特征的人进行抽样会完成同样的事情。
例如,对每个穿着蓝色 T 恤的人进行抽样是否足够随机,并提供了足够代表整个人口的样本?至少,如果你问的问题不是“你喜欢穿什么颜色的 T 恤?” 我的感觉是没有,但我想知道这里是否有人对此有任何想法。
一般来说,您的问题的答案是“否”。从人群(尤其是人类)中获取随机样本是出了名的困难。通过以特定特征为条件,根据定义,您不会获得随机样本。这引入了多少偏见完全是另一回事。
作为一个有点荒谬的例子,你不会想在熊队和包装工队之间的足球比赛中以这种方式取样,即使你的人口是“足球迷”。(熊迷可能与其他足球迷有不同的特征,即使您感兴趣的数量似乎与足球没有直接关系。)
以这种方式获取样本导致的隐藏偏差有很多著名的例子。例如,在最近进行了电话民意调查的美国选举中,据信仅拥有手机而没有固定电话的人在样本中的代表性不足(也许是戏剧性的)。由于这些人总体上也往往比拥有固定电话的人年轻,因此获得了有偏差的样本。此外,年轻人与老年人的政治信仰截然不同。所以,这是一个简单的例子,即使样本不是故意以特定特征为条件的,它仍然以这种方式发生。而且,即使民意调查无关无论是使用条件特性(即是否使用固定电话),条件特性对民意调查结论的影响都是显着的,无论是在统计上还是在实践上。
只要您用于选择样本中的单位的特征分布与您要估计的总体特征的分布正交,您就可以通过调节选择来获得总体数量的无偏估计。该样本并非严格意义上的随机样本。但是人们往往会忽略随机样本是好的,因为用于将单元选入样本的随机变量与总体特征的分布正交,而不是因为它是随机的。
试想一下从具有 P(invlogit(x_i)) 的伯努利中随机抽取,其中 [-inf, inf] 中的 x_i 是单元 i 的特征,使得 Cov(x, y)!=0,而 y 是人口特征,其意思是你要估计。样本是“随机的”,因为您在选择样本之前进行了随机化。但是样本不会产生 y 的总体均值的无偏估计。
您需要的是在与随机分配一样好的变量上将选择调整为样本。即,这与感兴趣的数量所依赖的变量正交。随机化是好的,因为它确保了正交性,而不是因为随机化本身。