我正在使用 R 中的一袋单词:
library(tm)
corpus = VCorpus(textsource)
dtm = DocumentTermMatrix(corpus)
dtm = as.matrix(dtm)
我使用矩阵dtm来训练套索模型。
现在我想预测新的(看不见的)文本。问题是,我需要生成一个新的(用于预测),其矩阵列与用于模型训练dtm的原始矩阵列相同。dtm
本质上,我需要dtm用新文本填充原始文本(用于训练)。
示例:"original text"将产生一个dtm用于 taining 的:
original | text
1 1
虽然新的(看不见的)文本,例如"new text"应该产生一个dtm预测:
original | text
0 1
问:用 R 中的新(文本)数据填充现有文档术语矩阵/词袋的最有效方法是什么?