数据挖掘 - 我们应该对决策树使用离散输入还是连续输入 - 吾爱随笔录

数据挖掘 Python 分类 scikit-学习数据集决策树

2021-09-27 20:01:12

我有 2 个数据集，一个连续数据集（75 个数据点和 14 个变量）和一个离散化数据集，它是通过将连续数据集放入存储桶中制成的。我已经构建了一个决策树分类器（使用python sklearn包），并且分类器对离散数据集而不是连续数据集的效果要好得多。

我还阅读了一些论文，有时最好使用离散数据集。但我不知道为什么。我将不胜感激任何意见或解释。

1个回答

离散是要走的路。如果您将决策树可视化，原因很简单，它涉及基于一组以特征形式存在的约束来绘制决策边界。与连续特征相比，基于离散特征绘制这些决策边界要容易得多。如果这些值是连续的，分类器就很难有效地绘制这个边界，并且可能会在其结果中产生一些偏差。

Udacity 中有一个有用的视频系列，机器学习简介，请参阅决策树部分，他们展示了决策树如何工作的非常好的可视化。

请检查一下，它可以帮助您更好地理解。

其它你可能感兴趣的问题