我在一个 CSV 数据集中有 130 条记录,我正在使用 j48 决策树。我使用整个训练集进行测试,结果是正确分类的记录有 79 条,分类错误的记录有 51 条。现在!我想要一个介于 95% - 100% 之间的结果,并且无法在这 130 个记录中添加或删除任何记录。但是我可以对我的数据集进行一些操作,例如以这种方式使用 130 个中的 10 个所有这 10 个必须正确分类。
- 树的质量并不重要
- 测试样本的数量不是那么重要(10-15 为好)
- 唯一重要的是准确度在 95-100 % 之间
首先,我尝试将 10 个正确的样本移动到数据集的底部并使用“按百分比拆分”(92.30%),但它没有用。
在 SECOND,我尝试通过“尝试和错误”来选择它们并随机选择,我只是在测试最后一个样本(第 130 个),我找到了一些正确的样本并将其保留在那里,然后在最后一个成功的样本下方尝试了另一个样本和测试最后两行,结果应该是 50% 或 100%,但令人惊讶的是 0%(总瞬间:2 正确:0 错误:2)。
任何人都可以帮助我吗?我已经感谢了很多亲爱的读者...