在 OneHotEncoded 数组上应用降维

数据挖掘 Python scikit-学习 降维
2021-10-11 11:45:17

我有一个包含混合变量的非常大的数据集。我已经将分类变量转换为数值使用OneHotEncoding,它产生了超过几千种不同的特征,就是这样。

[[1. 0. 1. 0.]...[0. 0. 0. 0.]]是否可以对看起来像或应该通过与原始数据集合并来完成的OneHotEncoded 数据应用降维算法?

2个回答

按照您的示例,您在 4 维空间中有不同的点。所以,是的!您可以使用任何降维技术,从PCAUMAP

通常,如果您的数据是数字格式(实际上是 one-hot 格式),所有元素都具有相同的维度,并且您没有未定义的值(NAN,inf),您始终可以使用降维。

对一个热编码变量进行 PCA 绝对不是一个好主意,最后 PCA 算法会为您的 dataTdata 矩阵计算特征值,因此如果您为一个热编码变量执行此操作,您将丢失不太重要的变量的信息,而不是聚合它在您的主要组件之一上