克拉默 V 的解释

机器算法验证 相关性 分类数据 解释
2022-03-20 09:08:27

我试图了解Cramer's V提供的价值。

我找到了以下句子(来自这里):

“V 可以被视为两个变量之间的关联,作为它们最大可能变化的百分比。V^2 是变量之间的均方典型相关。”

但我不认为我完全理解它。

有人可以帮助进一步解释一下(或更详细的例子)吗?

1个回答

报价是正确的。如果您有两个分类变量并将它们重新编码为两组虚拟变量,然后对这两组执行典型相关分析(CCA)(从每组中删除任何一个虚拟变量作为冗余) - 您将获得典型相关(参见CCA算法,计算)其平方的平均值恰好是原始分类变量之间的克莱默 V平方。

一个例子。

Two nominal variables A (3 categories) and B (4 categories) were recoded into dummy sets.
A   B  A1  A2  A3  B1  B2  B3  B4
1   1   1   0   0   1   0   0   0
1   1   1   0   0   1   0   0   0
1   2   1   0   0   0   1   0   0
1   2   1   0   0   0   1   0   0
1   4   1   0   0   0   0   0   1
2   1   0   1   0   1   0   0   0
2   1   0   1   0   1   0   0   0
2   2   0   1   0   0   1   0   0
2   2   0   1   0   0   1   0   0
2   2   0   1   0   0   1   0   0
2   2   0   1   0   0   1   0   0
2   2   0   1   0   0   1   0   0
2   3   0   1   0   0   0   1   0
2   3   0   1   0   0   0   1   0
2   4   0   1   0   0   0   0   1
2   4   0   1   0   0   0   0   1
3   1   0   0   1   1   0   0   0
3   1   0   0   1   1   0   0   0
3   2   0   0   1   0   1   0   0
3   4   0   0   1   0   0   0   1

Throwing one arbitrary dummy from each set out, compute correlations and perform CCA on one set (2 variables) vs the other set (3 variables).

You'll extract two pair of canonical latent roots with correlations:
Canonical correlations and Eigenvalues: 
        Can Corr     Eigenval 
1       .3921542     .1817327 
2       .0859611     .0074443

(.3921542^2 + .0859611^2) / 2 = 0.08059 = squared Cramer's V between A and B.      

还要注意,如果两个分类变量之一是二分的,Cramer's V 的平方也等于第二个变量的虚拟变量对其线性回归的 R 平方。

如果您忘记虚拟变量的 CCA 并考虑一般的 CCA,即任何数值定量变量的 CCA,那么您可能会进一步知道均值(或准确地说是总和)平方典型相关是已知的命名 Pillai's trace - 在多元回归中与 R-square 在单变量回归中具有相同含义的统计量。因此,Cramer 的 V 平方显然与多元 R 平方(Pillai 迹线)同源;V 代表两个分类变量,R-square 代表两组定量变量。这一事实阐明了这句话...as a percentage of their maximum possible [shared] variation