如何从 LDA 模型中提取文档主题矩阵并将其用作 svm 分类器的输入特征?我正在使用 gensim 来实现
从 LDA 模型中提取文档主题向量
数据挖掘
Python
分类
特征提取
低密度脂蛋白
gensim
2022-03-10 19:41:28
1个回答
我以前在 Gensim 做过这个,希望它会有所帮助:
train_vecs = []
for i in range(len(your_training_examples)):
top_topics = lda_train.get_document_topics(train_corpus[i], minimum_probability=0.0)
topic_vec = [top_topics[i][1] for i in range(20)]
train_vecs.append(topic_vec)
以上将给出每个文档的前 20 个主题。'train_corpus' 是在 Gensim 中执行类似操作的结果,一旦您拥有来自 'Phrases' Gensim 模型类的二元组对象:
train_corpus = [id2word.doc2bow(text) for text in bigram]
其它你可能感兴趣的问题