使用 mlr 包,我开发了一项任务,使用词频数据将推文分为两类(TRUE 和 FALSE)。现在我正在使用此任务对样本外推文进行分类。抱歉,我无法分享我的数据,但我会在这里显示我的代码:
task = makeClassifTask(data = train, target = "category")
mod = train("classif.randomForest", task)
newdata.pred = predict(mod, newdata = outofsample)
newdata.pred
我的输出显示在这里:
Prediction: 17981 observations
predict.type: response
threshold:
time: 0.29
... (#rows: 17981, #cols: 1)
作为数据框:
response
<fctr>
1 TRUE
2 FALSE
3 FALSE
4 FALSE
5 FALSE
6 FALSE
我现在想使用我的分类来删除任何属于“错误”类别的推文。但如果我有 17981 条推文,为什么我只看到 6 个观察值?我找不到“train”数据框或“outofsample”数据框有任何问题(它们都有适当数量的观察并在全局环境中列为数据框,但我确实注意到对象“task”创建了一个列表 6 . 这只是巧合吗?如何检索我所有推文的分类?如果此分类方法不包括 ID 号,我如何将此信息链接到样本数据集外以按 ID 号删除推文?
请不要太苛刻地评价我,我对机器学习和 R 很陌生。任何建议都会有很大帮助。