我想使用朴素贝叶斯方法在 R 中构建一个文档分类器。
以下是我到目前为止所做的步骤:
- 我有来自 2 个作者的大约 30 个文档的语料库(类别是:“目标作者”和“其他作者”)。
- “词汇”(训练集)已经过预处理(删除了数字、删除了标点符号、单词转小写、删除了停用词、词干文档、去除空格),我只考虑常用词(前 700 个)。
现在我的矩阵看起来像:
然后我使用一些现有的 R 库e1071使用贝叶斯训练了我的分类器。
以下是我的问题:
我想在不属于训练集的其他文档上测试我的分类器。
- 如何准备我的数据矩阵?如果那些其他文档不包含我的训练集中的所有单词(属性)怎么办?我应该在那里放置虚拟列(例如,使用
value=0)吗? - 单词的位置(列顺序)重要吗?
这是一个例子:
训练属性:
"wild" "wind" "woman"
测试属性:
"woman" "wind" "wild"
这可以吗,还是应该列与训练矩阵中的顺序相同?