无监督数据的分类技术?

数据挖掘 机器学习 r 无监督学习
2021-09-17 05:29:45

我有无监督数据(即这个数据没有任何目标变量,我可以通过它了解它的先前行为)它是连续数据和分类数据的混合。现在我想根据我的无监督数据将测试数据分为三类。

我采用的方法是首先对无监督数据进行聚类,将这些分类数据用作基础数据,以准备在其之上进行预测的新模型。

我想知道这种方法是否正确,或者是否有更好的方法对测试集进行分类?为此我需要遵循特定的算法?

我在 R 中这样做。

该方法是修改训练集数据,以便可以用来正确预测测试数据。这里训练和测试集中缺少目标变量。

3个回答

您有许多算法选项可用于对无监督数据进行分类。

这是一个非常广泛的主题,但如果您需要特定的算法推荐,请尝试查看自组织地图 (SOM)是否有助于解决您的特定问题。在 R 中,试试这个kohonen包。

K-means 是另一种流行的聚类算法。

无论您使用哪种方法,请考虑将您的分类数据转换为数值数据以进行聚类,因为它可以缓解您的一些混合数据类型问题。

这确实是一个广泛的话题,但我认为你正走在正确的轨道上。

几个月前我解决了一个类似的问题,当时我使用基于质心的算法对多个类别的文档进行分类。在这里,我使用 Spherical K-Means 对训练数据集进行聚类,生成的聚类质心代表一个类别。稍后在预测新文档的类别时,我会将文档与所有质心进行比较,并根据 SSE 分配一个类别。

Michael 是对的 - K-means 聚类可能对您有用,但 K-means 并非旨在处理分类变量。

如果您没有太多类别,那么您可以选择将它们表示为虚拟变量。这是我在 Python Pandas 中解释虚拟变量的帖子的链接。我还找到了一个Stack Overflow 答案,它解释了如何在 R 中创建虚拟变量。