我正在为Olives-dataset安装一棵树(CART) 。训练数据有 436 个观察值(测试数据:136)。我有 3 个响应(“区域”变量)将训练数据分成 116 / 74 / 246 个观察值。
如果我绘制变量二十碳烯酸和亚油酸,我可以看到一个几乎完美的分类。
我为每个响应使用了一个包含 74 个观察值的平衡数据集(顺便说一句,这是正确的还是我应该使用比 74 个观察值更小的尺寸?)并且得到了与不平衡数据集几乎相同的测试数据预测结果。
这就是为什么我想知道在这种情况下是否需要平衡数据集?我认为不需要平衡,但我不确定,想知道其他意见。