从 LDA 模型中提取文档主题向量

数据挖掘 Python 分类 特征提取 低密度脂蛋白 gensim
2022-03-10 19:41:28

如何从 LDA 模型中提取文档主题矩阵并将其用作 svm 分类器的输入特征?我正在使用 gensim 来实现

1个回答

我以前在 Gensim 做过这个,希望它会有所帮助:

train_vecs = []
for i in range(len(your_training_examples)):
    top_topics = lda_train.get_document_topics(train_corpus[i], minimum_probability=0.0)
    topic_vec = [top_topics[i][1] for i in range(20)]
    train_vecs.append(topic_vec)

以上将给出每个文档的前 20 个主题。'train_corpus' 是在 Gensim 中执行类似操作的结果,一旦您拥有来自 'Phrases' Gensim 模型类的二元组对象:

train_corpus = [id2word.doc2bow(text) for text in bigram]