互联网上有很多关于 EDA 以及每个人应该如何做以及它有多么有用的指南,但是我在实践中很少看到它,而且经常(在上述教程中)它坚持非常基本的事情。
- 数据维度
- 绘制特征分布
- 特征之间的线性相关
- 缺失数据(插值、删除等)
我不经常看到(在我有限的样本量下)人们实际上在实践中这样做,特别是在特征范围为数十万的较大数据集上,上述一些 EDA 技术似乎更多的是障碍而不是帮助。例如,我真的希望查看数百个特征分布图吗?
我不是以前训练有素的数据科学家,我仍在学习。我想将此工具添加到我的工具包中,但除了互联网上的人为示例之外,我很少在真实数据集上发现此类技术很有用。我通常会发现自己在一个圈子里,在那里我会查看我的数据,对有用的东西做出一些假设,然后继续对其进行建模。如果/当某些东西不起作用时,我通常会更好地了解要查看数据的哪些部分,从而在处理具有数百个特征的大型数据集时节省我的时间。
如果有人可以推荐一个资源,我可以提高我在该领域的工作/应用知识,我将不胜感激。我意识到这个问题更像是一个软问题,但我确实觉得澄清这一点很重要。我希望以目前的形式,它可以被视为一个可以给出明确答案的问题。