如何为 LDA 生成合成文本?

数据挖掘 机器学习 统计数据 低密度脂蛋白
2022-02-16 18:06:00

我想玩 LDA 主题建模,即查看文档长度、主题编号等对准确性的影响(我知道它已经在其他地方完成,但似乎没有人在第一时间发布他们如何生成文档地方!)

有没有人有任何方法为 LDA 模型生成数据?我在哪里可以控制主题号、文档号等?

1个回答

一般来说,文本不是人工生成的,因为这会导致数据集不真实。在 LDA 的情况下,使用 LDA 本身生成数据将非常容易,因为它是一个生成模型。然而,这将使 LDA 估计参数比使用一些真实的语料库更容易。

据我所知,关于主题建模的大多数实验都是使用一些真实的语料库进行的,例如UN 语料库State of the Union 语料库Europarl 语料库等。主题建模的优点是不需要注释,所以可以使用任何大型文本集合。

有没有人有任何方法为 LDA 模型生成数据?我在哪里可以控制主题号、文档号等?

注意主题数k是 LDA 中的一个参数,所以无论 LDA 准确搜索的数据是什么k话题。如果您使用任何大型文档集合,则文档的数量相当容易控制。主题建模的主要困难是如何评估生成的模型。