我一直在尝试扩展 LDA,并希望得到一些帮助、方向和见解。
Author-Topic LDA 可以用作文档“类别”模型吗?Author-Topic 模型的前提是多个作者影响每个单词的派生主题。我可以将“作者”视为文档所属的类别吗?
我一直试图稍微改变这一点:
http://yaowu.co/docs/sigir12.pdf
还有这个
使用作者主题模型。
我正在尝试做的是在一个专门网站的论坛的发布数据中找出文档级的单词关联。例如,这个网站是关于糖果的——它的成员发布关于糖果、糖果和太妃糖的帖子。显然有糖果的类别,然后是品牌,然后是产品本身。我的理由是,如果我使用 Author-Topic 并将观察到的节点“作者”视为观察到的节点“糖果类别”,那么我可以将糖果类别特征引入到推荐系统中。
就像上面的论文所暗示的那样,由多项式“x”切换的“词流”决定了一个词来自哪个流(背景、文档或“糖果类别”)。
你认为这有意义吗?
此外,是否有一本书或资源可以非常彻底和逐步地解释 LDA 的 Collapsed Gibbs 推导?