对具有多个类别的分类变量进行编码的策略
数据挖掘
分类数据
分类编码
2021-10-11 05:56:58
1个回答
一般来说,分类计数转换的逻辑在于频率相似的特征往往表现相似。以语料库中的单词为例,常见单词共享很少或不共享真实信息,而不常见单词与算法共享更多信息。
具体来说,某些算法(基于树的方法)甚至可以从事件计数中产生给定未指定类别的规则。例如,我们有一个未知类别,其计数为 4。该算法可能会给出一个规则:
如果列数 < 5 且 N > 3 = X
这与算法采用 One-Hot 编码列并给出规则完全相同:
如果 One-Hot-Encoded-Column > 0 = X
在这种情况下,基于树的算法将使用相同的计数列从多个类别中创建多个规则。但是我在一开始所说的,算法在相似计数的人群中进行泛化,所以你很可能会发现如下规则:
如果列数 < 10 且 N > 3 = X
其中通常包含行为相似的不同类别。只需检查模型并查找相关列的参数/重要性,即可亲自查看。
Secondly, I was wondering if anyone may be willing to share other techniques of dealing with categorical variables.
不久前,特征哈希在那里变得非常流行。散列具有非常好的特性,它是在学校学习的一个完整主题,但主要原则是,如果您有一个具有高基数的类别,您可以确定所有类别必须共享的最小数量的减少类别(散列)。如果两个类别共享相同的哈希或桶,则称为哈希冲突。特征哈希不处理哈希冲突,因为根据一些作者(我在这里没有参考)可以通过强制算法更仔细地选择特征来提高准确性。
有很多方法可以将这些分类变量编码为数字并在算法中使用它们。
1) One Hot Encoding
2) Label Encoding
3) Ordinal Encoding
4) Helmert Encoding
5) Binary Encoding
6) Frequency Encoding
7) Mean Encoding
8) Weight of Evidence Encoding
9) Probability Ratio Encoding
10) Hashing Encoding
11) Backward Difference Encoding
12) Leave One Out Encoding
13) James-Stein Encoding
14) M-estimator Encoding
找到下面的备忘单
其它你可能感兴趣的问题
