使用weka j48算法在数据挖掘中制作假结果

数据挖掘 数据挖掘 决策树 威卡
2022-02-03 17:16:49

我在一个 CSV 数据集中有 130 条记录,我正在使用 j48 决策树。我使用整个训练集进行测试,结果是正确分类的记录有 79 条,分类错误的记录有 51 条。现在!我想要一个介于 95% - 100% 之间的结果,并且无法在这 130 个记录中添加或删除任何记录。但是我可以对我的数据集进行一些操作,例如以这种方式使用 130 个中的 10 个所有这 10 个必须正确分类。

  • 树的质量并不重要
  • 测试样本的数量不是那么重要(10-15 为好)
  • 唯一重要的是准确度在 95-100 % 之间

首先,我尝试将 10 个正确的样本移动到数据集的底部并使用“按百分比拆分”(92.30%),但它没有用。

在 SECOND,我尝试通过“尝试和错误”来选择它们并随机选择,我只是在测试最后一个样本(第 130 个),我找到了一些正确的样本并将其保留在那里,然后在最后一个成功的样本下方尝试了另一个样本和测试最后两行,结果应该是 50% 或 100%,但令人惊讶的是 0%(总瞬间:2 正确:0 错误:2)。

任何人都可以帮助我吗?我已经感谢了很多亲爱的读者...

1个回答

当树的质量不重要但您应该能够轻松地使树在训练数据集上具有 100% 的准确性时,我不明白其目的。只要避免任何修剪,让树尽可能地生长。据我所知,Weka 默认为 J48 设置了修剪策略,您应该禁用它。还要检查以查看可能具有最少实例数的拆分节点。

现在我考虑得更好,在某些情况下完全准确是不可能的。例如,考虑一个包含 10 个实例的简单玩具数据集。假设输入变量的所有实例都相同,但目标变量 5 为正,5 为负。无论您采用哪种方式进行预测,训练数据的准确度都是 0.5。在这种情况下,您根本没有足够的数据来进行区分。