探索文档(电子邮件)动态聚类的哪些技术?

人工智能 无监督学习 算法请求 聚类
2021-11-08 23:10:40

我有一个属于不同类别(大约十几个)的未标记电子邮件数据集。我希望能够将它们与未来在动态问题中出现的新事物一起分类。我知道有一些动态聚类技术可以让集群随着时间的推移而发展(“动态均值”就是其中之一)。但是,我也希望能够从一组预定义的类(或集群/质心)开始,因为我知道这些电子邮件的类型是什么。

此外,对于我的数据类型使用哪种矢量化技术,我需要一些指导。使用 TF-IDF 创建术语矩阵就足够了吗?我假设我正在处理的数据可以根据关键字的出现来区分,但我不知道到什么程度。是否有更多基于文本语义的更复杂的矢量化技术?它们值得探索吗?

2个回答

听起来您正在尝试进行某种半监督学习在半监督学习中,一些数据点被标记(你知道它们属于哪个类),而另一些则没有。有专门针对此类问题设计的分类算法,例如transductive-SVM我个人没有发现这些技术比简单地丢弃未标记的数据并将我的问题视为纯监督的更有效,但是 YMMV。

TFIDF 仍然相当流行,基于 ngram 的方法也是如此。要考虑的更现代的向量化可能是word2vec,它将诸如词袋样式向量之类的东西转换为更有意义的单词特征空间。

我还希望能够从一组预定义的类(或集群/质心)开始,因为我知道这些电子邮件的类型是什么。

这不是聚类问题,而是半监督学习问题。如果您还没有标记数据,请创建一些标签。您可能还想研究“主动学习”。

一种方法是:

  1. 对于每个类别,创建 5 个标记样本
  2. 在它们上训练分类器(例如 tf-idf 特征和小型神经网络)
  3. 让神经网络标记您的数据集
  4. 检查所有类别最有信心的标签以及所有类别的概率分布最均匀的标签。使用它可以快速创建更多标签。
  5. 也许亚马逊机械土耳其人是一种快速生成更多标签的选择