词袋:对新(样本外)数据的预测

数据挖掘 r 文本分类 词袋 文档术语矩阵
2022-02-19 21:53:30

我正在使用 R 中的一袋单词:

library(tm)
corpus = VCorpus(textsource)
dtm = DocumentTermMatrix(corpus)
dtm = as.matrix(dtm)

我使用矩阵dtm来训练套索模型。

现在我想预测新的(看不见的)文本。问题是,我需要生成一个新的(用于预测),其矩阵列与用于模型训练dtm的原始矩阵列相同。dtm

本质上,我需要dtm用新文本填充原始文本(用于训练)。

示例:"original text"将产生一个dtm用于 taining 的:

original | text
1          1

虽然新的(看不见的)文本,例如"new text"应该产生一个dtm预测:

original | text
0          1

问:用 R 中的新(文本)数据填充现有文档术语矩阵/词袋的最有效方法是什么?

0个回答
没有发现任何回复~