我正在研究 R 中的一个项目,我有大约 1200 封来自一家公司的电子邮件,其中大部分都被标记为类 或班级,这是请求的类型。大约 1000 封电子邮件被标记为类别, 和 200 被标记为类.我的目标是使用监督学习来建立一个模型来对新电子邮件进行分类。
但是,经过大量预处理(解析、删除停用词等)并在文档术语矩阵上尝试典型算法(SVM、决策树等)后,我的混淆矩阵包含许多误报和误报,但是支持向量机只有少数误报。
我想知道如何提高我的成绩?我需要使用过采样还是二元特征表示?我想问题是这两个类别的主题非常接近。