是否存在名义相关性的不对称版本?

数据挖掘 分类数据 相关性
2021-10-04 09:01:20

我使用Cramer 的 V来计算仅由名义特征组成的数据集中的特征的相关性。

让我们考虑以下数据集:

a  |  b
--------
0  |  0
0  |  1
0  |  0
1  |  2
1  |  2
1  |  3

计算特征的 Cramer's Vab得到 0.707。由于它是对称的,因此在这种情况下存在信息丢失 - 正如我们所看到的,知道 的值b意味着我们肯定知道的值是多少a,但是如果给定 的值,情况就不是这样了a在这种情况下,可能值的数量会b减少,但仍不确定。

我想找到一个不对称的度量标准,它可以为标称值提供这些信息 - 意思是,在计算a->bb->时会给出不同的值a有这样的吗?

1个回答

我找到了我正在寻找的东西——它被称为Theil's U或不确定系数。

我已经在这个Kaggle 内核中使用了它,你可以查看它以获取 Python 中的示例和代码实现

编辑:我也有一篇关于它的博文。