比较两个主题建模集

数据挖掘 机器学习 Python 数据挖掘 文本挖掘 主题模型
2021-10-12 17:21:32

我有两组报纸文章,我分别训练第一个报纸数据集以获取每篇报纸文章的主题。

E.g., first newspaper dataset
article_1 = {'politics': 0.1, 'nature': 0.8, ..., 'sports':0, 'wild-life':1}

同样,我训练我的第二个报纸数据集(来自不同的分销商)以获取每篇报纸文章的主题。

E.g., second newspaper dataset (from a different distributor)
article_2 = {'people': 0.3, 'animals': 0.7, ...., 'business':0.7, 'sports':0.2}

如示例所示,我从两个数据集中得到的主题是不同的,因此我根据它们的常用词手动匹配相似的主题。

我想确定这两家报纸发行商是否每周发布相同的新闻。

因此,我很想知道是否有一种系统的方法来比较两个语料库中的主题并衡量它们的相似性。请帮我。

2个回答

考虑到您使用 TF-IDF 方法提取新闻,因此您所拥有的只是一个特征(术语频率)。我认为您需要在语料库中添加更多功能才能将两个新闻匹配为相同(或相似)。

一个新功能是时间,您可以在其中为新闻添加时间戳。它将允许您检查是否在同一时期发布了两条新闻(来自不同的出版商)。(一周、两周等)。

第二个可能是空间的,例如,如果您有新闻的地理位置,您可以将其添加到您的火车数据集中。Chi-Chun Pan也做过类似的事情如果新闻发生在同一个地方,它会让你更有信心。

比较两个语料库中的主题并测量它们的相似性的一种方法是使用Kullback-Leibler 散度,也就是相对熵。Kullback-Leibler 散度是衡量一个概率分布如何偏离第二个概率分布的度量。

另一种更具可扩展性的算法可以在主题模型诊断中找到:通过主题对齐评估域相关性