我正在对我的数据进行聚类,以查看信息的外观以及可以识别哪个组。由于聚类是一种无监督算法,我无法测试分类的准确性。所以我想知道在使用集群之后我可以做什么样的考虑。例如,如果我有很多电子邮件,没有垃圾邮件/非垃圾邮件的标志或标签,我如何使用聚类将它们分成两组并测试聚类的“准确性”?
为了提供更多关于我正在尝试做的事情的背景信息:我有不同的文件 (csv),其中包含日期、用户、电子邮件主题和电子邮件正文等字段。我想进行一些分析,但为了做到这一点,我需要将电子邮件分类为垃圾邮件/非垃圾邮件。我有 23000 封电子邮件,因此手动执行此操作非常困难。我已经在一个单词列表中包含了用作垃圾邮件标志的常用单词(广告、购买、报价、色情、促销……)但是,由于大多数电子邮件的标题或正文中没有这些单词,第一步可以为大约 100 封电子邮件分配“垃圾邮件”标志。非常低!我尝试过主题分类(lda),但它不是那么准确。我当时想使用 k-means 聚类来分配这些标签,曾经手动标记了大约 300 封电子邮件。我不知道这是否是进行分配标签的正确方法,
