无监督学习中的特征选择或降维

数据挖掘 nlp 聚类 特征选择 无监督学习 降维
2022-02-10 03:40:07

我正在尝试使用 kmeans 进行嵌入式聚类。

这是客户数据,所以涉及到很多句子,所以我在聚类之前使用的是通用句子编码器。

但我应该在嵌入特征之前进行特征选择或降维。

我想知道是否有一种方法可以在无监督学习中进行特征选择或降维。这可能非常有帮助,因为到目前为止聚类给出的结果好坏参半,我有一种强烈的感觉,这可能是因为数据中存在不需要的属性。

我已经阅读了所有仅提供了在监督学习中可以选择的资源。

任何帮助表示赞赏!

谢谢阿拉夫

1个回答

我发现自动编码器是最好的解决方案。在聚类之前执行自动编码器会降低高维数据的维数,然后可以提取编码器结果并将其用于我们想要实现的任何方法,例如,

监督分类无监督聚类等

使用 CNN(编码器和解码器)处理图像的自动编码器: https ://www.datacamp.com/community/tutorials/autoencoder-keras-tutorial#comment-6125

自动编码器 - 它的类型和用法 - LSTM: https ://machinelearningmastery.com/lstm-autoencoders/

对于我的用例,我应该先执行嵌入,然后再将其输入到仅使用编码器的自动编码器(CNN/LSTM)中,以便将减小的维度用于 kmeans 聚类。

希望这对有同样问题的人有所帮助,我想知道如何没有人遇到这种情况或没有对此作出答复。

谢谢阿拉夫