我有一个属于不同类别(大约十几个)的未标记电子邮件数据集。我希望能够将它们与未来在动态问题中出现的新事物一起分类。我知道有一些动态聚类技术可以让集群随着时间的推移而发展(“动态均值”就是其中之一)。但是,我也希望能够从一组预定义的类(或集群/质心)开始,因为我知道这些电子邮件的类型是什么。
此外,对于我的数据类型使用哪种矢量化技术,我需要一些指导。使用 TF-IDF 创建术语矩阵就足够了吗?我假设我正在处理的数据可以根据关键字的出现来区分,但我不知道到什么程度。是否有更多基于文本语义的更复杂的矢量化技术?它们值得探索吗?