我想在特征向量上训练一个二元分类器。其中一个特征是带有字符串的分类特征,它是一个国家的邮政编码。
通常,有数千个邮政编码,在我的例子中它们是字符串。如何将此特征转换为数值?
我不认为使用 one-hot-encoding 作为我的案例的解决方案。我这样说对吗?如果是,什么是合适的解决方案?
我想在特征向量上训练一个二元分类器。其中一个特征是带有字符串的分类特征,它是一个国家的邮政编码。
通常,有数千个邮政编码,在我的例子中它们是字符串。如何将此特征转换为数值?
我不认为使用 one-hot-encoding 作为我的案例的解决方案。我这样说对吗?如果是,什么是合适的解决方案?
这是一个老问题。我很惊讶我没有看到任何人提到平均编码(又名目标编码)。它在监督学习问题中非常流行。此外,我看到人们使用频率或频率的cdf(以避免重尾pdf产生的噪音),他们使用lightGBM取得了不错的效果。但是,我无法真正解释为什么它会严格工作。
您可以使用评论中提到的嵌入。例如,一般博客文章,可用于学习嵌入的嵌入层的 Keras 文档。当您需要减少特征数量并且它也适用于一个分类特征时,这被深度学习模型广泛使用。