我一直在查看有关分类特征编码的问题,但找不到任何讨论我的问题的问题。抱歉,如果我错过了。
假设我们有一个数据集,其中二元和名义变量的重要性大致相同。
大多数分类器无法直接处理分类类型,因此必须对它们进行转换 - 例如使用此答案中解释的单热编码(虚拟变量) 。
如果一个分类变量具有高基数,以这种方式编码它不会“压倒”其他(例如二进制)变量吗?“基数”是指名义变量中的类别数。
如果我们的分类器模型知道变量之间的关系,它会不会不必要地尝试找到相同变量的引入的二进制虚拟“组件”之间的关系?
如果是这样,如何解决?
我能想到的最佳解决方案是在逻辑上将高基数属性分组到“桶”中,但是如果有足够多的唯一值成为问题,那么手动对它们进行分组也会很费力。
编辑:这是微不足道的,只是部分解决了问题,但我最终做的一件事是用一个新的“其他”类别替换所有相对罕见的分类值。当考虑价值“稀有”时优化阈值可能很耗时,但至少这种方法可以自动化。