TL:DR - 你知道探索数据集的优秀自动化工具吗?
长版:我有一些来自不同业务领域的不同数据集可供使用。我想知道是否有好的软件/脚本可以自动为我收集以下答案: 我要寻找的东西:
- 列的数据类型?
- 维度还是度量?
- 柱状图或列中值的计数
- 测量之间的相关性
- 唯一键自动查找
- 导入强类型数据结构
显然,我正在寻找的不仅仅是基本摘要(汽车)。遍历每一列并吐出详细分析报告的东西
TL:DR - 你知道探索数据集的优秀自动化工具吗?
长版:我有一些来自不同业务领域的不同数据集可供使用。我想知道是否有好的软件/脚本可以自动为我收集以下答案: 我要寻找的东西:
显然,我正在寻找的不仅仅是基本摘要(汽车)。遍历每一列并吐出详细分析报告的东西
有一个非常酷的活动 Python 包,称为pandas-profiling,正是您想要的。官方pandas_profiling.ProfileReport(df)文档说:
对于每一列,以下统计信息(如果与列类型相关)显示在交互式 HTML 报告中:
- 要点:类型、唯一值、缺失值
- 分位数统计,例如最小值、Q1、中位数、Q3、最大值、范围、四分位间距
- 描述性统计,如均值、众数、标准差、总和、中值绝对差、变异系数、峰度、
偏度 最常见的值- 直方图
- 高度相关变量、Spearman 和 Pearson 矩阵的相关性突出显示
在这里查看他们的演示。我个人使用了几次,它非常好,但是它的数据集很大(主要是在可变空间中),需要很长时间才能给出统计数据。我认为应该有一个选项,甚至可以返回所有这些统计信息的子集特征(列),以防万一你不想要所有的,它是非常高维的!
您可能可以通过谷歌搜索并找到大量类似的工具,其中许多都带有免费增值模式。
大多数工具都可能具有您想要的大部分功能,除了: 1) 维度与度量 这一个会有点棘手;一个整数很可能是一个度量,但它可以是任何一种方式 2)唯一键自动查找:同样,它可能有点棘手;你应该根据需要指定太多的工作。
对于人类来说,这两个应该相对容易根据需要进行相应的标记。
我已经尝试过以下工具,它看起来很有希望。(注意:我与该工具没有任何关联)
欢迎来到 DS-SE :) !
一种非常方便的方法是利用 Python 中的pandas.DataFrame 类。它包括执行您所要求的方法(和属性):
“经过每一列,吐出详细分析报告的东西”
如:
DataFrame.corr()用于相关分析DataFrame.data.shape对于尺寸DataFrame.drop_duplicates()保留独特的元素DataFrame.hist()用于数据的直方图表示我知道 Facets https://github.com/PAIR-code/facets - 这对于初步的浏览器内预览应该很好。