检查样本是否代表更大的样本

机器算法验证 分布 t检验 数据集 样本 代表
2022-03-19 23:07:14

从更大的表格数据样本中,我选择了满足特定条件的某些行(此条件与行中的实际数据无关)。

现在,我想知道我创建的这个子集的分布是否类似于原始的更大样本的分布。

我可以为此目的使用哪些测试?

谢谢!我很感激帮助。

2个回答

由于您想比较整个分布,我建议您使用两个样本 Kolmogorov-Smirnov 测试。

更多信息可以在这里找到:

http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

您可以测试几个描述分布的统计量在子样本和剩余样本中是否相同。例如,您可以进行以下测试:

  • 平均差
  • 中位数差
  • 随机优势
  • 不同的方差
  • 形状

当您这样做时,由于您对相似性感兴趣,因此我还将探索所有此类度量的等价性测试(例如,使用tost),可能会结合来自差异和等价性测试的推论。

您可能还需要考虑其他一些问题:您为什么对这种相似性感兴趣?这个问题的答案可能会帮助您决定您可能想要探索哪些此类测试(如果有)。例如,如果您的样本量较小,那么您可能没有足够的功效进行索克利提到的 Kolmogorov-Smirnov 检验,尽管您可能仍然有足够的功效来推断样本均值。如果您只对比较样本均值感兴趣,那么这对于您的目的来说可能没问题。