我想使用主题建模比较两个语料库(两个不同的文本集合)。我在两个集合上分别训练模型,并根据它们的常用词手动匹配相似的主题。
我想知道是否有一种系统的方法来比较两个语料库中的主题并衡量它们的相似性。
我想使用主题建模比较两个语料库(两个不同的文本集合)。我在两个集合上分别训练模型,并根据它们的常用词手动匹配相似的主题。
我想知道是否有一种系统的方法来比较两个语料库中的主题并衡量它们的相似性。
在我看来,这不是一个有效的方法。
请注意,语料库没有唯一的主题模型(给定一些参数,如主题数量和主题建模算法)。使用不同随机种子的不同运行将为您提供相同语料库的不同主题模型。
因此,任何比较都归结为特定主题模型的比较,而不是语料库的比较。
一种有效性更好的方法是将两个语料库组合成一个超级语料库,创建其主题模型,然后研究主题相对于原始语料库 1 和 2 形成的子语料库的分布。