我有两组报纸文章,我分别训练第一个报纸数据集以获取每篇报纸文章的主题。
E.g., first newspaper dataset
article_1 = {'politics': 0.1, 'nature': 0.8, ..., 'sports':0, 'wild-life':1}
同样,我训练我的第二个报纸数据集(来自不同的分销商)以获取每篇报纸文章的主题。
E.g., second newspaper dataset (from a different distributor)
article_2 = {'people': 0.3, 'animals': 0.7, ...., 'business':0.7, 'sports':0.2}
如示例所示,我从两个数据集中得到的主题是不同的,因此我根据它们的常用词手动匹配相似的主题。
我想确定这两家报纸发行商是否每周发布相同的新闻。
因此,我很想知道是否有一种系统的方法来比较两个语料库中的主题并衡量它们的相似性。请帮我。