基于目标分布的分类变量之间的相关性

数据挖掘 特征工程 预处理 分类数据 相关性
2022-03-10 14:10:07

X是一个基数非常高的类别,并且Y成为我的目标。当我看X分发到Y我看到有些级别彼此非常相似。我想找到一种将它们结合起来的方法(可以这么说X1X3那里的频率非常相似Y分布)在哪里X在 (x1,...,xn) 和 y 在 (y1,...,yn) 在此处输入图像描述

找到这一切的最佳方法是什么X具有相似的子群Y分配?我这样做的原因是因为我知道我的很多Xs 是相同的,但有人将它们标记为不同。

我已经开始在每个频率表上做 spearman corr 矩阵X及其Ys 分发,但我不确定这是处理它的正确方法,它给了我一些不好的结果

3个回答

你的答案是χ2(卡方)独立性检验。

首先,我们必须计算两个名义变量的期望值。我们可以使用以下公式计算两个名义变量的期望值:

Ei,j=k=1cOikk=1rOkjN

在哪里,

Eij= 单元格的期望值i,j

j=1cOij= 第 i 列的总和

k=1rOkj= 第 k 行的总和

N= 总数

计算出期望值后,我们将应用以下公式来计算卡方独立性检验的值:

χ2=(OijEij)2Eij: 卡方独立性检验

Oij= 两个名义变量的观测值

Eij= 两个名义变量的期望值

自由度使用以下公式计算: df=(r1)(c1)

其中,DF = 自由度 r = 行数 c = 列数

假设:

零假设:假设两个变量之间没有关联。

备择假设:假设两个变量之间存在关联。

假设检验:独立性卡方检验的假设检验,就像其他检验(如 ANOVA)一样,其中计算检验统计量并与临界值进行比较。卡方统计量的临界值由显着性水平(通常为 0.05)和自由度决定。卡方的自由度使用以下公式计算: df = (r-1)(c-1) 其中 r 是行数,c 是列数。如果观察到的卡方检验统计量大于临界值,则可以拒绝原假设。

除了两个很好的答案,这里是一个非统计测试选项:Bhattacharyya distance

利用胡安的答案,您还可以使用 Kolmogorov-Smirnov-Test 来测试两个变量是否来自同一分布。

正如 Bruce Mitchell (1971) - “卡方检验和 Kolmogorov-Smirnov 检验的比较”所概述的,如果不能满足所有要求并且在其应用中趋于更灵活,可以使用 KS 检验代替卡方检验.