我知道在带标签的 LDA 中,每个文档都应该与一组标签相关联,这些标签被称为相应文档的标签主题。
我的问题是一个文档是否可以只用一个标签来标记,继续在文档语料库上训练一个带标签的 LDA 是否仍然有意义,其中每个文档在一组固定的集合中只用一个主题/标签标记标签。
此外,这样的系统/模型是否可以用作多类分类器,以便给定未标记的文档,模型可以将其中一个标签分配给测试文档?
我知道在带标签的 LDA 中,每个文档都应该与一组标签相关联,这些标签被称为相应文档的标签主题。
我的问题是一个文档是否可以只用一个标签来标记,继续在文档语料库上训练一个带标签的 LDA 是否仍然有意义,其中每个文档在一组固定的集合中只用一个主题/标签标记标签。
此外,这样的系统/模型是否可以用作多类分类器,以便给定未标记的文档,模型可以将其中一个标签分配给测试文档?
没有什么能阻止你,但这基本上可以减少为每个标签学习一个词袋模型,尽管有一个以形式的共享先验。新模型如下所示:
要了解为什么这些是等效的,请参阅标记的 LDA 论文中的以下片段:
然后,传统 LDA 模型从 Dirichlet 先验中为每个文档绘制所有。但是,我们希望限制对应的主题上定义。由于单词-主题分配(参见表 1 中的步骤 9)是从该分布中得出的,因此此限制确保所有主题分配都限于文档的标签。
如果文档只有一个——重要的是,观察到的——标签,它的主题分配仅限于相应的主题,并且它的所有单词都是从相同的多项分布生成的。(这是因为将确保只有一个值是非零的。)
它与 unigrams 的混合有着表面上的相似之处,其中每个文档都由一个主题产生。但在那个模型中,主题是一个潜在变量,在你的情况下它是被观察到的。参照。原始 LDA 论文中描述的 unigrams 模型的混合:
在这种混合模型下,每个文档是通过首先选择一个主题然后独立于条件多项式个单词来生成的。[...]当从语料库中估计时,在每个文档恰好展示一个主题的假设下,单词分布可以被视为主题的表示。
词袋没有错,但值得注意的是,介绍 LDA 的论文在两个实验中展示了更好的性能,就困惑度而言。(图 9。)
对于关于分类的问题,当然:每个词袋模型都会为您提供文档的可能性,您可以将其与主题的先验一起使用,以使用贝叶斯规则(如果您对主题的先验是统一的,则这相当于最大似然。)
您只问这是否可能,而不是可能的性能。但就其价值而言,我的直觉是,使用常规 LDA 和后续分类器,您将获得更好的预测性能。如有疑问,请交叉验证。
在有监督的 LDA中,为每个文档添加一个标签(除了每个单词的主题标签)。这个称为响应变量的标签反映了与文档相关的一些兴趣量:这可能是报告的质量得分,或电影评论的星级,或在线文章的下载次数。sLDA 的图形模型如下所示:
文档和响应变量被联合建模,以便找到最能预测未来未标记文档的响应变量的潜在主题。有关 sLDA 的更多信息,请查看原始论文。