如何使用具有多维特征(颜色)的特征对数据进行编码?

数据挖掘 Python 聚类 编码
2022-02-22 06:39:30

我的数据集有大约 20 个特征,其中之一是颜色(字符串格式)。大约有 50 种不同的颜色。我已将它们转换为 RGB,但现在我想以值相关的方式对数据进行编码,因为稍后我将在此功能上对数据进行聚类。为此,one-hot 编码被证明是无效的。建议?

2个回答

One-hot 编码会在将它们转换为 RGB 之前为您提供一个稀疏矩阵 Try LabelEncoding 。

此外,您可以尝试将 RGB 值分解为三个特征(R、G、B)并尝试这种方法。

希望这可以帮助。

取决于颜色在您的数据中的含义。示例温度可以是蓝色和红色的颜色,在这种情况下 1-hot 不起作用。但看起来颜色在您的数据中是分类的。在这种情况下,这取决于您使用什么来对数据进行分类,您使用的是决策树还是 SVM 等。因为在决策树的情况下,您不必做任何事情,因为它可以处理分类数据(再次取决于您使用的实现)。在其他方法的情况下,他们有自己的方式来处理分类数据。