数据挖掘 - 根据帖子使用情况从博客帖子中提取热门关键字词或主题 - 吾爱随笔录

数据挖掘文本挖掘

2022-02-26 13:24:45

我有来自博客的帖子数据集，对于每篇帖子，我都有查看次数。我想提取使帖子获得更多浏览量的主题（或短语）。

我计划根据查看次数将所有帖子分为两组（一组查看次数较少，另一组查看次数较多），然后使用 LDA 从每组中提取主题并比较它们的不同之处。

我想知道这是否是正确的方法，是否还有其他更好或类似的方法？

2个回答

似乎是对的。然而，建立因果关系并不像提取关键字并注意到差异那么简单。而且我建议不要将帖子分开，而是将它们组合在一起运行LDA，提取关键字，然后分析差异。通过分离，您会在模型中引入相当大的偏差。

与其直接深入LDA，我宁愿从TF-IDF等更简单的开始，看看它是否可以从每个类/博客中提取关键字。最近我遇到了这样一个问题，我需要从推文中提取主题，我得到了丰硕的成果，TF-IDF 是我方法的一部分。

我会将每个博客视为单独的数据点，而不是将它们合并，这样就可以根据获得的单词的相似性对文档进行合并，然后从中提取主题。最后，您可以使用视图查看每个主题的平均视图。

好吧，你有像LSA这样的工具，它根据字数构造一个矩阵。这个矩阵被 SVD 减少了，它可以在计算上花费巨大的矩阵时间。

因此，在尝试任何更大的方法之前，请尝试更简单的方法，如果结果不令人满意，请尝试其他方法。

希望能帮助到你。

其它你可能感兴趣的问题