我可以期待具有低相关属性的好结果吗?

数据挖掘 机器学习 分类 可视化 相关性
2021-09-26 14:00:18

这是我在面试数据科学家职位时看到的一个问题:

“这是我从我的属性中获得的以下相关热图。关于每个特征与因变量 ( target/class) 的相关性,值得注意的是相关性不是很有表现力。

在此处输入图像描述

然而,我想知道我是否可以期望使用这个数据集的分类模型有好的结果。另外,我还能做些什么进一步的调查(如果我不应该关注相关性)?”

2个回答

在分类问题中使用决策树的相关性不会影响您的模型。

在决策树模型的理论中,您不需要相关性或多重共线性检查。因为决策树的分裂是由熵/信息增益组成的。相关性只检查线性相关性。当数据集高度相关时也是如此。使用决策树您将获得非常好的结果,因为您不需要删除相关特征或进行降维(如果您不需要)。

当您使用线性结构化模型(如多类神经网络或多类逻辑回归)时,可能不会得到很好的结果。在那里你会看到降维等对这些模型的准确性有很大的影响。

我有一个类似的问题,但具有高度相关的特征: 决策树回归以避免回归模型的多重共线性?

在你的情况下,我会说,如果我们使用决策树,它并不明显。但是,我们应该检查特征的排列重要性并检查多项式依赖性。当然你应该问面试官更多关于他的问题和他的问题目标的问题,以获得更多的背景信息。这在面试中非常重要。

这是一个普遍的问题,因此您可以做的事情不止几件事。
虽然,是什么阻止你训练一个基本的分类器并调查结果?

一些想法:

  • 使用预测能力得分继续调查您的数据
  • 检查特征之间的非线性相关性
  • 调查特征重要性
  • 使用降维
  • 检查不平衡