如何处理没有因变量的新数据集

数据挖掘 数据挖掘
2022-03-15 06:57:57

基本上我正在学习一门数据科学的小课程。我们的第一个任务是我们已经获得了一个非常庞大的数据集(数十万个样本和大约 150 个自变量)。这里没有响应变量,但任务几乎是:“找到有趣的东西”。我显然有点宽泛。

我的问题是:你/应该/我如何处理这个?

到目前为止,我已经尽可能地清理了数据集。删除了我认为没有多大意义的变量,确保没有 NaN 变量,诸如此类。但是,为了在可能包含或不包含任何有趣内容的数据集中“找到有用的东西”,下一步是什么?

1个回答

你的任务基本上就是我们称之为 EDA - 探索性数据分析的过程。

那你该怎么办?简单探索!

  • 你的数据集的形状是什么?
  • 变量如何表现,它们是否具有因子结构,相关性等。
  • 您的数据集的主要描述是什么,它们讲述了一个有趣的故事等。

一旦你开始这样做,你会发现一些有趣的东西可以根据你的数据集进行更深入的探索。不要只使用平均值、中位数等汇总函数,还要尝试构建简单的图表并在整洁的笔记本中评论所有内容!

我的提示:

查看 Kaggle 上的一些 EDA 笔记本以获得灵感,或观看工作中大师的精彩视频:

https://www.youtube.com/watch?v=go5Au01Jrvs

这里还有一个初学者指南:

https://towardsdatascience.com/exploratory-data-analysis-eda-a-practical-guide-and-template-for-structured-data-abfbf3ee3bd9