如何验证样本是否独立同分布

机器算法验证 样本 计算统计 验证
2022-03-19 07:47:35

如何检查数据是否是从未知的多元分布中提取的 iid?

2个回答

如何检查数据是否是从未知的多元分布中提取的 iid?

你不能。

可以检查某些类型的违反独立性,以及某些类型的违反相同分布。但是,未能拒绝此类测试并不意味着您确实具有独立性或相同的分布。

例如,如果您有一段时间的观察,您可以检查是否存在序列相关性,一种特定形式的依赖关系。或者,如果您怀疑某些其他变量的分布可能不同,您可以检查它们在该变量上是否相似。

[一般来说,如果您试图评估假设对某些其他程序的适用性,假设的正式测试会回答错误的问题,并且可能会适得其反。]

独立是不可能建立的,所以我们追求不那么雄心勃勃的目标。

如果您有大量样本,我建议您查看NIST 网站上的随机性测试。它们专门用于测试随机数生成器,这些生成器应该输出完全 iid 随机数。

如果您的样本很小,那么也许您可以设计自己的小测试套件。您至少需要测试序列自相关、单位根和同方差性。您可以对小样本使用以下测试:

更新如果您需要测试两个数据集是否来自同一分布,那么KS 测试两个样本)将是您开始思考过程的地方。