从聚类到分类的转变?

数据挖掘 分类 聚类
2022-03-07 18:52:41

迄今为止,我已经完成了几个使用主题建模、k-means 和其他算法组合的临时文本聚类项目。基本上,这些项目的重点是根据相关文本为不同事件生成主题。在确定适当的聚类级别后手动命名主题,现在以以下格式存储在 csv 中:

event_id    majortheme    minortheme         majortheme_id    minortheme_id
12          Job Failure   TWS Issue          1                major1minor1
14          Job Failure   TWS Issue          1                major1minor1
15          Job Failure   Job Abend          1                major1minor2
16          Access Issue  Unable to Login    2                major2minor1
17          Access Issue  Unable to Connect  2                major2minor2

我想从聚类过渡到分类(从描述性分析到规范性分析),即能够获取新事件(使用 new event_ids)并根据以前的聚类对它们进行分类。这将是一种迭代训练数据集,因为在验证模型没有完全出错之后,新的分类将被添加到以前的聚类中。使用 Python,实现这种分类管道的最佳方法是什么?是否像保存我的初始聚类结果然后仅将这些数据用作训练集一样简单?然后将测试预测保存到原始训练数据集,等等?

1个回答

为了建立一个模型来进行预测,您需要一个带标签的训练集,即一个训练集,其中每个训练示例都被分配了一个类标签。训练集通常由人类专家标记,他们使用他们的领域知识对训练集中的示例进行手动分类。如第一段所述,您已经这样做了。

然而,有时这个过程是昂贵的。为了降低成本,有时会应用半监督学习在半监督学习中,在一些假设下,少量标记的数据与大量未标记的数据一起用于构建预测模型。在训练过程中为未标记的数据分配标签。

这似乎符合您在上一段中的想法,并且已经在Python中实现。我认为,如果您在数据中发现清晰的集群,它可能会很好地工作。至少值得一试。