探索各种数据集的工具

数据挖掘 数据集 数据清理 数据分析
2022-02-25 17:01:09

TL:DR - 你知道探索数据集的优秀自动化工具吗?

长版:我有一些来自不同业务领域的不同数据集可供使用。我想知道是否有好的软件/脚本可以自动为我收集以下答案: 我要寻找的东西:

  • 列的数据类型?
  • 维度还是度量?
  • 柱状图或列中值的计数
  • 测量之间的相关性
  • 唯一键自动查找
  • 导入强类型数据结构

显然,我正在寻找的不仅仅是基本摘要(汽车)。遍历每一列并吐出详细分析报告的东西

4个回答

有一个非常酷的活动 Python 包,称为pandas-profiling,正是您想要的。官方pandas_profiling.ProfileReport(df)文档说:

对于每一列,以下统计信息(如果与列类型相关)显示在交互式 HTML 报告中:

  • 要点:类型、唯一值、缺失值
  • 分位数统计,例如最小值、Q1、中位数、Q3、最大值、范围、四分位间距
  • 描述性统计,如均值、众数、标准差、总和、中值绝对差、变异系数、峰度、
    偏度 最常见的值
  • 直方图
  • 高度相关变量、Spearman 和 Pearson 矩阵的相关性突出显示

在这里查看他们的演示我个人使用了几次,它非常好,但是它的数据集很大(主要是在可变空间中),需要很长时间才能给出统计数据。我认为应该有一个选项,甚至可以返回所有这些统计信息的子集特征(列),以防万一你不想要所有的,它是非常高维的!

您可能可以通过谷歌搜索并找到大量类似的工具,其中许多都带有免费增值模式。

大多数工具都可能具有您想要的大部分功能,除了: 1) 维度与度量 这一个会有点棘手;一个整数很可能是一个度量,但它可以是任何一种方式 2)唯一键自动查找:同样,它可能有点棘手;你应该根据需要指定太多的工作。

对于人类来说,这两个应该相对容易根据需要进行相应的标记。

我已经尝试过以下工具,它看起来很有希望。(注意:我与该工具没有任何关联)

探索.io

欢迎来到 DS-SE :) !

一种非常方便的方法是利用 Python 中的pandas.DataFrame 它包括执行您所要求的方法(和属性):

“经过每一列,吐出详细分析报告的东西”

如:

  1. DataFrame.corr()用于相关分析
  2. DataFrame.data.shape对于尺寸
  3. DataFrame.drop_duplicates()保留独特的元素
  4. DataFrame.hist()用于数据的直方图表示
  5. ETC..

我知道 Facets https://github.com/PAIR-code/facets - 这对于初步的浏览器内预览应该很好。

在此处输入图像描述