有什么方法可以测量数据集和分布之间的统计相似性或差异?我做了一些研究,但发现大多数方法都是为了描述数据和数据之间的差异,或者分布和分布之间的差异。也就是说,它们总是衡量同一种东西。我正在寻找一种可以测量数据集和分布之间差异的方法。如果有相应的易于实现的方法或具有现有的编程实现,那就太好了。如果有人有任何想法,非常感谢。
如何衡量数据集和分布之间的统计相似性或差异?
数据挖掘
统计数据
数学
分配
2022-02-14 09:35:49
1个回答
最容易想到的是两个 CDF 之间的最大垂直距离(一个是经验的,一个是理论的)。这继续成为单样本 Kolmogorov-Smirnov 检验(通常称为 KS)中 p 值计算的一部分,该检验有一个零假设,即数据来自理论分布,另一种假设是零是错误的,因此如果需要,您甚至可以获得分布平等的 p 值。
其它你可能感兴趣的问题