评估分布差异的显着性

机器算法验证 分布 统计学意义
2022-02-13 19:31:09

我有两组数据。每个变量都有不同的分布。我试图确定这两组的分布是否在统计上显着不同。我有原始形式的数据,并且更容易处理离散类别,每个类别都有频率计数。

我应该使用哪些测试/程序/方法来确定这两组是否有显着差异,以及如何在 SAS 或 R(或 Orange)中做到这一点?

4个回答

我相信这需要两个样本的 Kolmogorov-Smirnov 检验等。双样本 Kolmogorov-Smirnov 检验基于比较两个样本的经验分布函数(ECDF) 的差异,这意味着它对两个样本的位置和形状都很敏感。它还推广到多变量形式。

这个测试在 R 的不同包中以各种形式存在,所以如果你基本精通,你所要做的就是安装其中一个(例如fBasics),然后在你的示例数据上运行它。

我要问顾问的愚蠢问题。为什么您想知道这些分布是否在统计上显着不同?

您使用的数据是来自总体或过程的代表性样本,并且您想评估这些总体或过程不同的证据吗?如果是这样,那么统计测试适合您。但这对我来说似乎是一个奇怪的问题。

或者,您是否真的需要表现得好像这些人群或过程是不同的,不管事实如何?然后,您最好确定一个损失函数,理想情况下,它会返回对您有意义的单位,并在您 (a) 将总体视为不同且 (b) 将它们视为相同时预测预期损​​失。或者,如果您想采取或多或少保守的立场,您可以选择损失分布的某个分位数。

您可能对应用相对分布方法感兴趣。将一组称为参考组,将另一组称为比较组。以类似于构建概率-概率图的方式,您可以构建相对 CDF/PDF,它是密度的比率。该相对密度可用于推断。如果分布相同,则您期望均匀的相对分布。有工具,图形和统计,可以探索和检查与一致性的偏差。

更好地理解的一个很好的起点是在 R 中应用相对分布方法和 R中的reldist包。有关详细信息,您需要参考Handcock 和 Morris所著的《社会科学中的相对分布方法》一书。作者还发表了一篇论文,涵盖了相关技术。

衡量两个分布之间差异的一种方法是“最大平均差异”标准,它基本上衡量来自再生核希尔伯特空间 (RKHS) 中两个分布的样本的经验平均值之间的差异。请参阅本文“针对两个样本问题的核方法”