根据帖子使用情况从博客帖子中提取热门关键字词或主题

数据挖掘 文本挖掘
2022-02-26 13:24:45

我有来自博客的帖子数据集,对于每篇帖子,我都有查看次数。我想提取使帖子获得更多浏览量的主题(或短语)。

我计划根据查看次数将所有帖子分为两组(一组查看次数较少,另一组查看次数较多),然后使用 LDA 从每组中提取主题并比较它们的不同之处。

我想知道这是否是正确的方法,是否还有其他更好或类似的方法?

2个回答

似乎是对的。然而,建立因果关系并不像提取关键字并注意到差异那么简单。而且我建议不要将帖子分开,而是将它们组合在一起运行LDA,提取关键字,然后分析差异。通过分离,您会在模型中引入相当大的偏差。

与其直接深入LDA,我宁愿从TF-IDF等更简单的开始,看看它是否可以从每个类/博客中提取关键字。最近我遇到了这样一个问题,我需要从推文中提取主题,我得到了丰硕的成果,TF-IDF 是我方法的一部分。

我会将每个博客视为单独的数据点,而不是将它们合并,这样就可以根据获得的单词的相似性对文档进行合并,然后从中提取主题。最后,您可以使用视图查看每个主题的平均视图。

好吧,你有像LSA这样的工具,它根据字数构造一个矩阵。这个矩阵被 SVD 减少了,它可以在计算上花费巨大的矩阵时间。

因此,在尝试任何更大的方法之前,请尝试更简单的方法,如果结果不令人满意,请尝试其他方法。

希望能帮助到你。