数据挖掘 - 对具有多个类别的分类变量进行编码的策略 - 吾爱随笔录

对具有多个类别的分类变量进行编码的策略

数据挖掘分类数据分类编码

2021-10-11 05:56:58

我正在查看 Kaggle 竞赛IEEE、分类特征编码挑战，其中处理分类变量的方法之一是用列中变量的相应计数频率替换变量。我理解为什么我们需要转换变量，但有人可以解释为什么使用这种方法。其背后的逻辑究竟是什么？

其次，我想知道是否有人愿意分享其他处理分类变量的技术（不包括明显的一种热编码），或者为我指出一些有趣的方法。谢谢！

1个回答

一般来说，分类计数转换的逻辑在于频率相似的特征往往表现相似。以语料库中的单词为例，常见单词共享很少或不共享真实信息，而不常见单词与算法共享更多信息。

具体来说，某些算法（基于树的方法）甚至可以从事件计数中产生给定未指定类别的规则。例如，我们有一个未知类别，其计数为 4。该算法可能会给出一个规则：

如果列数 < 5 且 N > 3 = X

这与算法采用 One-Hot 编码列并给出规则完全相同：

如果 One-Hot-Encoded-Column > 0 = X

在这种情况下，基于树的算法将使用相同的计数列从多个类别中创建多个规则。但是我在一开始所说的，算法在相似计数的人群中进行泛化，所以你很可能会发现如下规则：

如果列数 < 10 且 N > 3 = X

其中通常包含行为相似的不同类别。只需检查模型并查找相关列的参数/重要性，即可亲自查看。

Secondly, I was wondering if anyone may be willing to share other techniques of dealing with categorical variables.

不久前，特征哈希在那里变得非常流行。散列具有非常好的特性，它是在学校学习的一个完整主题，但主要原则是，如果您有一个具有高基数的类别，您可以确定所有类别必须共享的最小数量的减少类别（散列）。如果两个类别共享相同的哈希或桶，则称为哈希冲突。特征哈希不处理哈希冲突，因为根据一些作者（我在这里没有参考）可以通过强制算法更仔细地选择特征来提高准确性。

有很多方法可以将这些分类变量编码为数字并在算法中使用它们。

1) One Hot Encoding
2) Label Encoding
3) Ordinal Encoding
4) Helmert Encoding
5) Binary Encoding
6) Frequency Encoding
7) Mean Encoding
8) Weight of Evidence Encoding
9) Probability Ratio Encoding
10) Hashing Encoding
11) Backward Difference Encoding
12) Leave One Out Encoding
13) James-Stein Encoding
14) M-estimator Encoding

找到下面的备忘单

更多信息

其它你可能感兴趣的问题

上一篇（新手）决策树分类器拆分程序下一篇Pytorch 支持的 GPU