基本上我正在学习一门数据科学的小课程。我们的第一个任务是我们已经获得了一个非常庞大的数据集(数十万个样本和大约 150 个自变量)。这里没有响应变量,但任务几乎是:“找到有趣的东西”。我显然有点宽泛。
我的问题是:你/应该/我如何处理这个?
到目前为止,我已经尽可能地清理了数据集。删除了我认为没有多大意义的变量,确保没有 NaN 变量,诸如此类。但是,为了在可能包含或不包含任何有趣内容的数据集中“找到有用的东西”,下一步是什么?
基本上我正在学习一门数据科学的小课程。我们的第一个任务是我们已经获得了一个非常庞大的数据集(数十万个样本和大约 150 个自变量)。这里没有响应变量,但任务几乎是:“找到有趣的东西”。我显然有点宽泛。
我的问题是:你/应该/我如何处理这个?
到目前为止,我已经尽可能地清理了数据集。删除了我认为没有多大意义的变量,确保没有 NaN 变量,诸如此类。但是,为了在可能包含或不包含任何有趣内容的数据集中“找到有用的东西”,下一步是什么?
你的任务基本上就是我们称之为 EDA - 探索性数据分析的过程。
那你该怎么办?简单探索!
一旦你开始这样做,你会发现一些有趣的东西可以根据你的数据集进行更深入的探索。不要只使用平均值、中位数等汇总函数,还要尝试构建简单的图表并在整洁的笔记本中评论所有内容!
我的提示:
查看 Kaggle 上的一些 EDA 笔记本以获得灵感,或观看工作中大师的精彩视频:
https://www.youtube.com/watch?v=go5Au01Jrvs
这里还有一个初学者指南: