独立性检验与同质性检验

机器算法验证 卡方检验 独立 异方差 教学
2022-03-12 09:48:16

我正在教授一门基础统计学课程,今天我将介绍两个类别的独立性卡方检验和同质性检验。这两个场景在概念上是不同的,但可以使用相同的测试统计和分布。在同质性测试中,假设其中一个类别的边际总数是设计本身的一部分——它们代表为每个实验组选择的受试者数量。但是,由于卡方检验围绕所有边际总数的条件,所以在使用分类数据区分同质性检验和独立性检验时没有数学后果——至少在使用该检验时没有。

我的问题如下:是否有任何统计思想或统计方法会产生不同的分析,这取决于我们是在测试独立性(所有边际都是随机变量)还是同质性测试(其中一组边际是由设计设置)?

在连续情况下,说出我们观察到的地方(X,Y)在同一主题上,并测试独立性,或观察(X1,X2)在不同的人群中并测试它们是否来自相同的分布,方法是不同的(相关分析与 t 检验)。如果分类数据来自离散的连续变量怎么办?独立性和同质性的测试是否应该无法区分?

2个回答

你只需要问自己,“我如何写零假设?”。考虑一个2×k一些行为的频率(y/n)列联表k团体。将第一组视为参照物,您有k1比值比(统计学用 (θi,i=1,2,,k1) 描述频率和组之间的关联。

在具有同质性的独立性下,您假设所有优势比都是 1。也就是说,无论分组分配如何,对条件回答“是”的可能性都相同。如果这些假设失败,至少有一组是不同的。

H0(homogeneity):i=1k1|θi|=0

H0(independence):i=1k1|θi|=0

并且可以使用观察/预期频率的 Pearson 卡方检验进行此检验,这是调整逻辑回归模型的分数检验k1组成员的指示变量。所以在结构上我们可以说这些测试是相同的。

但是,当我们考虑分组因素的性质时,就会出现差异。从这个意义上说,测试的上下文应用,或者更确切地说它的名称,很重要。一组可能是结果的直接原因,例如基因的存在或不存在或性状的等位基因模式,在这种情况下,当我们拒绝空值时,我们得出结论,结果取决于所讨论的分组因素。

另一方面,当我们测试同质性时,我们免除了自己做出任何因果假设的责任。因此,当“群体”是一个复杂的结构,如种族(由遗传、行为和社会经济决定因素引起并由遗传、行为和社会经济决定因素引起)时,我们可以得出如下结论:“种族-少数民族经历住房差异,邻里剥夺指数的异质性证明了这一点” . 如果有人反驳说,“那是因为少数族裔受教育程度低,收入低,就业少”,你可以说,“我没有声称他们的种族造成了这些事情,只是如果你在一个人的比赛中,你可以预测他们的生活状况。”

这样,依赖性测试是同质性测试的一个特例,其中潜伏因素的可能影响是令人感兴趣的,应该在分层分析中处理。在类比逻辑回归模型中使用多元调整可以实现这样的事情,我们仍然可以说我们正在进行依赖关系测试,但不一定是同质性测试。

如果您以贝叶斯方式对这两个问题进行建模,那么这两个问题之间就会有明显的区别。在一些论文中,第一种情况(同质性)称为“固定边距”的抽样,第二种情况(独立性)称为“固定总表”。例如,看看Casella 等人。(JASA 2009)
我正在研究这个主题,但我的论文——也描述了这种区别——还没有发表:)