我正在用 gensim 的 LdaMulticore 训练一个 LDA 模型。主题看起来很棒,但知道我知道主题中存在主题的领域,但我不太确定最好的建模方法。
我遇到了分层 LDA 的这种实现,但我很难实现它(没有社区支持)。考虑到这个讨论,我认为 gensim 的 hdpModel 不是我想要的。
我目前正在这样做:
1) 在所有记录上训练 LDA 模型以获得一般主题
2) 使用此 LDA 模型为每条记录分配一个主主题
3) 对于每个主题,仅检索分配给该主题的记录
4) 仅在过滤后的记录上训练一个新的 LDA 模型(例如,主题 ID == 3),以从过滤后的集合中生成子主题
5)为每条记录分配一个通用主题ID和一个子主题ID
这是获取主题和子主题的有效方式吗?我应该厌倦这种方法吗?
感谢您的任何见解。