sLDA 与 LDA+分类器

数据挖掘 nlp 监督学习 无监督学习
2022-02-16 04:06:14

为简单起见,假设我们正在查看 Yelp 对餐厅的评论,并尝试按美食类型(例如“意大利菜、日本菜”等)对餐厅进行分类。让我们还假设我们的数据已经是一个美食类型列,我们可以使用它来检查准确性。

解决这个问题的一种方法是有监督的潜在狄利克雷分配方法,其中餐厅类型是响应。通过这种方式,主题被训练然后用于多项逻辑回归来猜测美食类型。

上述方法是否优于运行(无监督)具有大量主题的 LDA,然后使用 XGBOOST 之类的东西来预测美食类型?换句话说,我们运行无监督 LDA,然后将所有评论投影到每个主题的向量距离,然后使用这些特征向量来预测美食类型?

我知道 sLDA 会尝试选择更能描述每个类别类型的主题,但前者真的优于后者吗?我问这个的原因是因为我不知道那里有任何快速的 sLDA 实现。

0个回答
没有发现任何回复~