我感觉到两个问题。一个是关于样本量(25%,为什么不是多数),另一个是关于抽样技术(是否真的是随机的,在整个公司随机抽样 25%,在每个部门随机抽样 25%,或者使用其他分布)。
1) 样本量不需要占多数。所需的样本量可以是 0 到 100% 之间的任何值,具体取决于给定置信度或似然比所需的准确度。
永远无法获得 100% 的确定性(也无法获得 50% 或更大的子集)。达到如此高的准确度也不是采样和估计的重点。
查看更多关于样本量的信息:https ://en.wikipedia.org/wiki/Sample_size_determination
如果您了解大数定律,您可能还会有一个直观的想法。
如果子集的大小增加,所有可能子集(您的样本将是其中之一)的平均值分布将变得更小,并且更接近原始分布的平均值。如果您选择一个人,那么您有一些合理的机会找到一个例外,但是在同一方向上两次找到相同的例外变得不太可能。以此类推,采样子集的大小越大,出现异常子集的机会就越小。
最终,所有可能子集的平均值分布的方差等于原始集的方差除以子集大小的n
重要的提示!您的估计将不取决于您抽样的总体规模,而是取决于该总体的分布。
对于您的 500 规模部门。随机子集(大小为 125)的平均值偏差将比原始偏差小 11 倍。请注意,测量中的误差(随机选择的子集的平均值的偏差)与部门的规模无关。可能是 500、5000 或 50000,在所有情况下,只要它们具有相同的分布,估计就不会受到影响(现在一个小部门可能有一些奇怪的分布,但对于更大的群体来说,这种情况开始消失)。
2) 抽样不需要完全随机。您可以考虑人口统计数据。
最终,您将在这种分析中分别对待每个部门,并纠正部门之间的差异以及您如何在这些不同规模的部门中进行抽样。
在这个修正中有两个重要的区别。可以将组间的分布假设为随机变量,也可以不假设。如果您将其视为随机变量,则分析会变得更强(在模型中去掉一些自由度),但如果不同的组不可交换为没有特定效果的随机实体(这似乎是你的情况,因为我认为这些部门有不同的职能,并且可能有广泛不同的情绪,这与部门的关系不是随机的)。