数据挖掘 - 自动检测数据集的有效/有趣的数据透视/向下钻取 - 吾爱随笔录 - 问答

自动检测数据集的有效/有趣的数据透视/向下钻取

数据挖掘数据挖掘数据框数据分析

2022-03-07 11:02:32

想象一下，给您一个表格数据集，其中包含一组有限的列和行，并要求您通过探索数据来找到有效/有趣的数据透视配置。蛮力选项是计算所有可能的枢轴配置，并以某种方式对结果特征（例如其稀疏性、计数等）进行评分，然后选择得分较高的特征。这显然非常耗时。

我知道我对“有效/有趣”的定义在这里是模糊的，但是是否有更基于科学的方法（比如使用相关性、列基数……）来自动找到给定数据集的良好枢轴配置？任何指针都受到高度赞赏。

1个回答

数据透视表的自动生成是一个经过充分研究的主题。事实上，谷歌拥有这项技术的专利。

一般的做法是：

识别具有多次重复的低基数、分类数据特征。这些特征成为数据透视表的行和列候选。
识别作为数据透视表中数据（或事实）单元格候选的数值数据。
选择一个聚合函数（例如，计数、求和、平均……）。
选择评估方法。最常见的评估方法是人工评分或使用历史数据进行相似建模。

生成有用的数据透视表通常需要领域知识。

其它你可能感兴趣的问题

上一篇你能帮我解决这个 K-NN 练习吗？下一篇在对训练数据进行下采样时，我们应该对验证数据进行下采样还是保持验证拆分原样？