我知道使用条件语言模型可以在给定用于训练模型的语料库的情况下学习句子的概率。然后,我将能够通过从句子分布中采样来生成有意义的文本。
现在我要做的是比较同一主题的两个不同语料库的语言模型生成的文本。
用例:我想比较右胜新闻媒体和左胜新闻媒体用于给定新闻内容的标题。(我的训练数据将是来自两个新闻媒体的大量标题+新闻内容)
我知道使用条件语言模型可以在给定用于训练模型的语料库的情况下学习句子的概率。然后,我将能够通过从句子分布中采样来生成有意义的文本。
现在我要做的是比较同一主题的两个不同语料库的语言模型生成的文本。
用例:我想比较右胜新闻媒体和左胜新闻媒体用于给定新闻内容的标题。(我的训练数据将是来自两个新闻媒体的大量标题+新闻内容)
如果我正确理解了您的问题(如果不正确,请发表评论),您想比较两种不同语言模型的输出文本。因此,我认为您不必过于担心语言模型本身。
如果我是你,我可能会做一个简单的 TFIDF 分析,这样你就可以更好地了解哪些术语在某些新闻媒体中更流行。
看看scattertext,它允许您创建如下可视化: