使用聚类可以考虑哪些类型?

数据挖掘 聚类 无监督学习
2022-03-10 09:33:52

我正在对我的数据进行聚类,以查看信息的外观以及可以识别哪个组。由于聚类是一种无监督算法,我无法测试分类的准确性。所以我想知道在使用集群之后我可以做什么样的考虑。例如,如果我有很多电子邮件,没有垃圾邮件/非垃圾邮件的标志或标签,我如何使用聚类将它们分成两组并测试聚类的“准确性”?

为了提供更多关于我正在尝试做的事情的背景信息:我有不同的文件 (csv),其中包含日期、用户、电子邮件主题和电子邮件正文等字段。我想进行一些分析,但为了做到这一点,我需要将电子邮件分类为垃圾邮件/非垃圾邮件。我有 23000 封电子邮件,因此手动执行此操作非常困难。我已经在一个单词列表中包含了用作垃圾邮件标志的常用单词(广告、购买、报价、色情、促销……)但是,由于大多数电子邮件的标题或正文中没有这些单词,第一步可以为大约 100 封电子邮件分配“垃圾邮件”标志。非常低!我尝试过主题分类(lda),但它不是那么准确。我当时想使用 k-means 聚类来分配这些标签,曾经手动标记了大约 300 封电子邮件。我不知道这是否是进行分配标签的正确方法,

1个回答

这是垃圾邮件过滤器的基本架构:

在此处输入图像描述

从统计上看,垃圾邮件比合法电子邮件具有更低的熵(即更高的相似性)。

在进行主题建模之后,我们可以使用 bisect k-means 聚类。在 k-means 中,我们必须指定导致结果急剧变化的 k,它也会导致空簇。

我建议阅读这篇论文,因为它强调了这种方法。