探索性数据分析 (EDA) 是否真的需要/有用

机器算法验证 大数据 探索性数据分析
2022-03-23 14:17:09

互联网上有很多关于 EDA 以及每个人应该如何做以及它有多么有用的指南,但是我在实践中很少看到它,而且经常(在上述教程中)它坚持非常基本的事情。

  1. 数据维度
  2. 绘制特征分布
  3. 特征之间的线性相关
  4. 缺失数据(插值、删除等)

我不经常看到(在我有限的样本量下)人们实际上在实践中这样做,特别是在特征范围为数十万的较大数据集上,上述一些 EDA 技术似乎更多的是障碍而不是帮助。例如,我真的希望查看数百个特征分布图吗?

我不是以前训练有素的数据科学家,我仍在学习。我想将此工具添加到我的工具包中,但除了互联网上的人为示例之外,我很少在真实数据集上发现此类技术很有用。我通常会发现自己在一个圈子里,在那里我会查看我的数据,对有用的东西做出一些假设,然后继续对其进行建模。如果/当某些东西不起作用时,我通常会更好地了解要查看数据的哪些部分,从而在处理具有数百个特征的大型数据集时节省我的时间。

如果有人可以推荐一个资源,我可以提高我在该领域的工作/应用知识,我将不胜感激。我意识到这个问题更像是一个软问题,但我确实觉得澄清这一点很重要。我希望以目前的形式,它可以被视为一个可以给出明确答案的问题。

1个回答

我来自传统的生物统计学/流行病学背景,EDA 绝对有用,尽管它并不意味着仅仅为了它而制作直方图/相关图。随着机器学习和预测的卓越地位,我确实觉得这些天来实践它的频率越来越低。

如果您从事医学统计/流行病学,那么您通常会看到“矩形”数据集,即您的行对应于个体参与者的数据集,列是变量(机器学习术语中的特征)。您通常只关注与您的问题相关的变量,通常不会超过十几个。你当然有可能拥有更多。例如,您可能有随时间收集的数据、生物标志物,甚至是遗传数据。在这些情况下,您需要首先找出处理这些数据的最佳实践。通常这将涉及某种降维或总结。我们强调要做的是将所有内容都放入机器学习模型中,看看它会产生什么预测。换句话说,非常强调理解你的模型。

鉴于对理解模型的重视,EDA 是必不可少的,因为它可以帮助我们识别模型拟合中各种意外行为或偏差的原因。例如,您可能认为某个变量非常重要,但事实证明并非如此。您查看直方图,您会发现其中绝大多数为 0。或者同样,缺失数据中可能存在模式,您需要了解它们以及它们如何影响您的结果。

总而言之,EDA 不是您在进行主要分析之前就做的事情,然后就忘记了。这是您与主要分析一起继续做的事情,以尝试更好地理解图片。