机器算法验证 - 随机样本的子样本：随机样本？ - 吾爱随笔录

随机样本的子样本：随机样本？

机器算法验证采样样本重采样

2022-04-01 13:12:31

假设您有大量欧洲足球运动员的随机样本，但您只对西班牙发生的事情感兴趣。您能否将您的样本减少到西班牙的球员，仍然称其为随机样本（但属于不同的人群）？如果不是，您如何称呼该子样本以及您应该采取哪些具体的预防措施才能对西班牙足球运动员的人口做出推断？

我的感觉是，只要它足够大，使用该子样本就可以了，但也许我遗漏了一些东西。

2个回答

一般来说，您真正希望从样本中获得“代表性”。随机抽样是一个很好的方法，因为它允许所有受试者被抽样的概率相同；希望总体中存在的所有属性和属性关系都将存在于样本中。使其具有“代表性”。在您的情况下，如果您认为所有西班牙球员在（子）样本中被抽中的先验机会均等，那么它是“随机的”。

关于大小考虑：单个观察仍然可以是“随机样本”。当您需要更高的精度时，需要更大的样本，尤其是当您在总体中寻找罕见的关系时，这些关系可能不会出现在小样本中。

假设采样技术没有偏差，这应该没问题。要问的一些问题可能是：

-> 如果要求，调查是否以西班牙语进行？（语言偏差）-> 调查是通过电话还是亲自进行的？如果通过电话，并且不包括手机，那么西班牙球员拥有手机的可能性会比欧洲其他国家的球员高还是低？原因是什么？-> 西班牙球员拒绝回答调查问题的比率与球员整体的比率是否不同？-> 总体而言，抽样西班牙球员的比例是多少？

在不知道数据的确切组成的情况下，很难说更多。你有什么具体的问题吗？

其它你可能感兴趣的问题

上一篇线性回归或 MARS 模型的每个变量的最小观测数下一篇如何测试 PCA 的第一个因素解释的方差在重复测量条件下是否不同？