晚上好,首先,如果标题具有误导性,我想道歉。我有一个由大约 60000 条推文、它们的日期和时间以及用户名组成的数据集。我需要将它们分类为主题。我正在使用 LDA 进行主题建模,获得正确数量的主题(我猜),这要归功于这个 R 包,它计算三个指标的值(“CaoJuan2009”、“Arun2010”、“Deveaud2014”)。由于我对此很陌生,我只是想了一些对你们中的一些人来说可能很明显的问题,但我在网上找不到。
在清理数据(删除提及、停用词、奇怪字符、数字等)之前,我已经删除了所有重复的实例(所有三列共有),以避免它们影响主题建模的结果。这是正确的吗?
出于前面提到的同样原因,我是否应该也删除所有转推?
到目前为止,我一直在考虑使用“每个文档每个主题”的概率进行分类。如果我摆脱了这么多实例,我是否必须根据“每个单词每个主题”的概率对它们进行分类?
我是否必须将数据集划分为测试和训练?我认为这只是在监督训练中的事情,因为我不能真正使用测试数据集来衡量分类的质量。
另一个目标是根据 Twitter 用户最热衷的话题对他们进行分类。您对如何实现这一点有任何想法吗?
提前非常感谢大家。