数据挖掘 - 从聚类到分类的转变？ - 吾爱随笔录

迄今为止，我已经完成了几个使用主题建模、k-means 和其他算法组合的临时文本聚类项目。基本上，这些项目的重点是根据相关文本为不同事件生成主题。在确定适当的聚类级别后手动命名主题，现在以以下格式存储在 csv 中：

event_id    majortheme    minortheme         majortheme_id    minortheme_id
12          Job Failure   TWS Issue          1                major1minor1
14          Job Failure   TWS Issue          1                major1minor1
15          Job Failure   Job Abend          1                major1minor2
16          Access Issue  Unable to Login    2                major2minor1
17          Access Issue  Unable to Connect  2                major2minor2

我想从聚类过渡到分类（从描述性分析到规范性分析），即能够获取新事件（使用 new event_ids）并根据以前的聚类对它们进行分类。这将是一种迭代训练数据集，因为在验证模型没有完全出错之后，新的分类将被添加到以前的聚类中。使用 Python，实现这种分类管道的最佳方法是什么？是否像保存我的初始聚类结果然后仅将这些数据用作训练集一样简单？然后将测试预测保存到原始训练数据集，等等？