调查:25% 的大型用户群是否具有代表性?

机器算法验证 民意调查 调查抽样
2022-03-21 00:27:25

我的雇主目前正在公司范围内开展一项关于对办公室态度的调查,即情绪。过去,他们向业务的所有领域(假设有 10 个非常不同的部门)和其中的所有员工(假设整个公司总共有 1000 名员工)进行调查,每个部门的员工数量不相等,并且一个特定部门可能占该组织总人口的 50%。

今年,该调查仅对员工总数的 25% 开放,并且选择是“随机的”

因此,我有两个疑问:

  • 如果它是对整个员工群的真正随机选择,那么假设所有这些员工都做出了回应,那么这个统计上有效的样本如何?

  • 如果在每个部门级别上是随机的,例如每个部门的 25%,那么考虑一个部门的有效样本如何超过总人口的 50%。

我会假设,要确定公司的多数情绪,每个部门至少需要 50% 的员工才能提供真实的阅读情绪。

更新:调查未强制执行。不能保证所选的 25% 的响应率是 100%。填写或未填写调查表,不存在激励或惩罚手段。

4个回答

想想在美国的一般人群中进行的调查。如果我们需要 50% 的人口来确定多数意见,我们将需要大约 1.6 亿的样本,这确实令人望而却步。即使是 1% 的样本也是极端的(大约 320 万),而且很少这样做。美国的一项重要调查——综合社会调查的样本量在 1,500 到近 3,000 之间。所以 25% 的样本本身是没有问题的。

请记住,调查不是选举或公投。为了使后者合法,每个符合条件的人都必须有机会发表意见。对于调查,目的是获得对平均意见的良好估计,您可以通过随机样本获得。所以公司需要决定调查的目的是什么:是员工发表意见和参与公司的一种方式,还是管理者获取信息的一种方式?

两种抽样设计都确保询问了 25% 的员工。后者确保较小的部门参与调查。如果您关心标准错误,那么您应该考虑采样的嵌套性质,尽管我不怀疑在这种情况下这会很重要。

通过词源“调查”(sur-来自“超级”,如“从上方”和-vey“视图”)意味着获得概览,而不是全貌。

只要 25% 是真正随机的而不是自我选择(选择加入),那么它就完全符合该术语的定义。如果调查是可选的,那么答案将仅代表那些认为需要回答的人。例如,想象一家餐厅,可以在用餐后填写反馈卡。即使大多数食客很高兴,大多数反馈也会是负面的,因为满意的顾客几乎没有理由提供反馈。

另一种观点来自实验设计理论。

统计功效是发现效果真实的概率(来源

影响功率的四个因素:

  1. 效果大小
  2. 特征的标准偏差
  3. 更大的样本量
  4. 所需的显着性水平

基于这些元素,您可以编写一个正式的数学方程,将功效、样本量、效应量、标准差和显着性水平(来源

在一组假设下,您可以将您的调查描述为一个实验,并利用实验框架的设计(这里有几个例子)。有许多有根据的猜测要做;然而,一个不完美的模型可能总比没有模型要好。

我感觉到两个问题。一个是关于样本量(25%,为什么不是多数),另一个是关于抽样技术(是否真的是随机的,在整个公司随机抽样 25%,在每个部门随机抽样 25%,或者使用其他分布)。

1) 样本量不需要占多数。所需的样本量可以是 0 到 100% 之间的任何值,具体取决于给定置信度或似然比所需的准确度。

永远无法获得 100% 的确定性(也无法获得 50% 或更大的子集)。达到如此高的准确度也不是采样和估计的重点。

查看更多关于样本量的信息:https ://en.wikipedia.org/wiki/Sample_size_determination

如果您了解大数定律,您可能还会有一个直观的想法。

如果子集的大小增加,所有可能子集(您的样本将是其中之一)的平均值分布将变得更小,并且更接近原始分布的平均值。如果您选择一个人,那么您有一些合理的机会找到一个例外,但是在同一方向上两次找到相同的例外变得不太可能。以此类推,采样子集的大小越大,出现异常子集的机会就越小。

最终,所有可能子集的平均值分布的方差等于原始集的方差除以子集大小的n

重要的提示!您的估计将不取决于您抽样的总体规模,而是取决于该总体的分布

对于您的 500 规模部门。随机子集(大小为 125)的平均值偏差将比原始偏差小 11 倍。请注意,测量中的误差(随机选择的子集的平均值的偏差)与部门的规模无关。可能是 500、5000 或 50000,在所有情况下,只要它们具有相同的分布,估计就不会受到影响(现在一个小部门可能有一些奇怪的分布,但对于更大的群体来说,这种情况开始消失)。

2) 抽样不需要完全随机。您可以考虑人口统计数据。

最终,您将在这种分析中分别对待每个部门,并纠正部门之间的差异以及您如何在这些不同规模的部门中进行抽样。

在这个修正中有两个重要的区别。可以将组间的分布假设为随机变量,也可以不假设。如果您将其视为随机变量,则分析会变得更强(在模型中去掉一些自由度),但如果不同的组不可交换为没有特定效果的随机实体(这似乎是你的情况,因为我认为这些部门有不同的职能,并且可能有广泛不同的情绪,这与部门的关系不是随机的)。