我有 2 个数据集,一个连续数据集(75 个数据点和 14 个变量)和一个离散化数据集,它是通过将连续数据集放入存储桶中制成的。我已经构建了一个决策树分类器(使用python sklearn包),并且分类器对离散数据集而不是连续数据集的效果要好得多。
我还阅读了一些论文,有时最好使用离散数据集。但我不知道为什么。我将不胜感激任何意见或解释。
我有 2 个数据集,一个连续数据集(75 个数据点和 14 个变量)和一个离散化数据集,它是通过将连续数据集放入存储桶中制成的。我已经构建了一个决策树分类器(使用python sklearn包),并且分类器对离散数据集而不是连续数据集的效果要好得多。
我还阅读了一些论文,有时最好使用离散数据集。但我不知道为什么。我将不胜感激任何意见或解释。
离散是要走的路。如果您将决策树可视化,原因很简单,它涉及基于一组以特征形式存在的约束来绘制决策边界。与连续特征相比,基于离散特征绘制这些决策边界要容易得多。如果这些值是连续的,分类器就很难有效地绘制这个边界,并且可能会在其结果中产生一些偏差。
Udacity 中有一个有用的视频系列,机器学习简介,请参阅决策树部分,他们展示了决策树如何工作的非常好的可视化。
链接:https ://in.udacity.com/course/intro-to-machine-learning--ud120
请检查一下,它可以帮助您更好地理解。