我有来自博客的帖子数据集,对于每篇帖子,我都有查看次数。我想提取使帖子获得更多浏览量的主题(或短语)。
我计划根据查看次数将所有帖子分为两组(一组查看次数较少,另一组查看次数较多),然后使用 LDA 从每组中提取主题并比较它们的不同之处。
我想知道这是否是正确的方法,是否还有其他更好或类似的方法?
我有来自博客的帖子数据集,对于每篇帖子,我都有查看次数。我想提取使帖子获得更多浏览量的主题(或短语)。
我计划根据查看次数将所有帖子分为两组(一组查看次数较少,另一组查看次数较多),然后使用 LDA 从每组中提取主题并比较它们的不同之处。
我想知道这是否是正确的方法,是否还有其他更好或类似的方法?
似乎是对的。然而,建立因果关系并不像提取关键字并注意到差异那么简单。而且我建议不要将帖子分开,而是将它们组合在一起运行LDA,提取关键字,然后分析差异。通过分离,您会在模型中引入相当大的偏差。