我可以期待具有低相关属性的好结果吗?
数据挖掘
机器学习
分类
可视化
相关性
2021-09-26 14:00:18
2个回答
在分类问题中使用决策树的相关性不会影响您的模型。
在决策树模型的理论中,您不需要相关性或多重共线性检查。因为决策树的分裂是由熵/信息增益组成的。相关性只检查线性相关性。当数据集高度相关时也是如此。使用决策树您将获得非常好的结果,因为您不需要删除相关特征或进行降维(如果您不需要)。
当您使用线性结构化模型(如多类神经网络或多类逻辑回归)时,可能不会得到很好的结果。在那里你会看到降维等对这些模型的准确性有很大的影响。
我有一个类似的问题,但具有高度相关的特征: 决策树回归以避免回归模型的多重共线性?
在你的情况下,我会说,如果我们使用决策树,它并不明显。但是,我们应该检查特征的排列重要性并检查多项式依赖性。当然你应该问面试官更多关于他的问题和他的问题目标的问题,以获得更多的背景信息。这在面试中非常重要。
这是一个普遍的问题,因此您可以做的事情不止几件事。
虽然,是什么阻止你训练一个基本的分类器并调查结果?
一些想法:
- 使用预测能力得分继续调查您的数据
- 检查特征之间的非线性相关性
- 调查特征重要性
- 使用降维
- 检查不平衡
