计算数据点是否是更大分布的一部分

数据挖掘 分配
2022-03-15 04:31:54

我有一些正态分布的变量(~800)和一些在某种程度上特殊的变量(~30)。我需要找出特殊的是否可以被认为是分布的正常成员。

我以特殊成员为散点绘制了完整分布的直方图。除此之外,所有变量和特殊成员的正态分布。该图显示了计算分布之间最强差异的这些图形。绿色是所有成员的正态分布,橙色是特殊成员的正态分布。 变量图

我如何计算特殊成员是否是更大整体的一部分的可能性,即他们不突出?

1个回答

解决您的问题的一种方法是询问您的两个数据集(规则点和不规则点)是否来自同一分布?
kolmogorov-smirnof 检验是一种常用工具,用于将数字放在来自同一分布的两个数据集的“可能性”上。
python scipy有这个测试的实现。

请注意,此检验对每个分布均值周围的差异比对边缘周围的差异更敏感。从问题中图表的外观来看,在您的情况下这不是问题,因此测试应该可以工作。

这是对测试的非常简洁的解释