数据挖掘 - 词袋：对新（样本外）数据的预测 - 吾爱随笔录

我正在使用 R 中的一袋单词：

library(tm)
corpus = VCorpus(textsource)
dtm = DocumentTermMatrix(corpus)
dtm = as.matrix(dtm)

我使用矩阵dtm来训练套索模型。

现在我想预测新的（看不见的）文本。问题是，我需要生成一个新的（用于预测），其矩阵列与用于模型训练dtm的原始矩阵列相同。dtm

本质上，我需要dtm用新文本填充原始文本（用于训练）。

示例："original text"将产生一个dtm用于 taining 的：

original | text
1          1

虽然新的（看不见的）文本，例如"new text"应该产生一个dtm预测：

original | text
0          1

问：用 R 中的新（文本）数据填充现有文档术语矩阵/词袋的最有效方法是什么？