数据挖掘 - 使用聚类可以考虑哪些类型？ - 吾爱随笔录

我正在对我的数据进行聚类，以查看信息的外观以及可以识别哪个组。由于聚类是一种无监督算法，我无法测试分类的准确性。所以我想知道在使用集群之后我可以做什么样的考虑。例如，如果我有很多电子邮件，没有垃圾邮件/非垃圾邮件的标志或标签，我如何使用聚类将它们分成两组并测试聚类的“准确性”？

为了提供更多关于我正在尝试做的事情的背景信息：我有不同的文件 (csv)，其中包含日期、用户、电子邮件主题和电子邮件正文等字段。我想进行一些分析，但为了做到这一点，我需要将电子邮件分类为垃圾邮件/非垃圾邮件。我有 23000 封电子邮件，因此手动执行此操作非常困难。我已经在一个单词列表中包含了用作垃圾邮件标志的常用单词（广告、购买、报价、色情、促销……）但是，由于大多数电子邮件的标题或正文中没有这些单词，第一步可以为大约 100 封电子邮件分配“垃圾邮件”标志。非常低！我尝试过主题分类（lda），但它不是那么准确。我当时想使用 k-means 聚类来分配这些标签，曾经手动标记了大约 300 封电子邮件。我不知道这是否是进行分配标签的正确方法，