迄今为止,我已经完成了几个使用主题建模、k-means 和其他算法组合的临时文本聚类项目。基本上,这些项目的重点是根据相关文本为不同事件生成主题。在确定适当的聚类级别后手动命名主题,现在以以下格式存储在 csv 中:
event_id majortheme minortheme majortheme_id minortheme_id
12 Job Failure TWS Issue 1 major1minor1
14 Job Failure TWS Issue 1 major1minor1
15 Job Failure Job Abend 1 major1minor2
16 Access Issue Unable to Login 2 major2minor1
17 Access Issue Unable to Connect 2 major2minor2
我想从聚类过渡到分类(从描述性分析到规范性分析),即能够获取新事件(使用 new event_ids)并根据以前的聚类对它们进行分类。这将是一种迭代训练数据集,因为在验证模型没有完全出错之后,新的分类将被添加到以前的聚类中。使用 Python,实现这种分类管道的最佳方法是什么?是否像保存我的初始聚类结果然后仅将这些数据用作训练集一样简单?然后将测试预测保存到原始训练数据集,等等?