我正在对一些 Twitter 数据进行文本分析。最后,我想要一个可解释的数据。所以最后我想将数据减少到相关的分析单元。主题模型似乎很合适,因为它们显着降低了噪音,但最后仍然有很多垃圾主题列表没有任何意义。删除这些主题的最佳方法是什么。有一个可行的例子吗?
我正在使用 LDA。可能我会使用 Gensim。它将是无人监督的,它是一个简单的推特数据。所以整个语料库将是 160 个字符的 1500 条推文。
我正在对一些 Twitter 数据进行文本分析。最后,我想要一个可解释的数据。所以最后我想将数据减少到相关的分析单元。主题模型似乎很合适,因为它们显着降低了噪音,但最后仍然有很多垃圾主题列表没有任何意义。删除这些主题的最佳方法是什么。有一个可行的例子吗?
我正在使用 LDA。可能我会使用 Gensim。它将是无人监督的,它是一个简单的推特数据。所以整个语料库将是 160 个字符的 1500 条推文。
我假设您已经逐字检查了您的主题矩阵,这就是您说您有“垃圾”主题的原因。如果没有单词与给定主题密切相关,则它可能不是有用的主题。如果你发现其中很多,你可以用更少的主题重新运行实验。
相反,如果有与这些主题密切相关的词,您只是看不到与该主题相关的词背后的凝聚力,那么这些不是完全“垃圾”主题。他们仍在捕获数据的潜在结构,这并不是传统意义上的“主题”。
要记住的另一件事是,超参数还控制生成的分布的形状。 这个答案在解释 alpha 和 beta 方面做得很好。
我建议计算 1-gram、2-gram 和 ... 频率,根据频率进行排序并观察弹出的内容。有时您会看到需要额外数据清理的模式。