自动检测数据集的有效/有趣的数据透视/向下钻取

数据挖掘 数据挖掘 数据框 数据分析
2022-03-07 11:02:32

想象一下,给您一个表格数据集,其中包含一组有限的列和行,并要求您通过探索数据来找到有效/有趣的数据透视配置。蛮力选项是计算所有可能的枢轴配置,并以某种方式对结果特征(例如其稀疏性、计数等)进行评分,然后选择得分较高的特征。这显然非常耗时。

我知道我对“有效/有趣”的定义在这里是模糊的,但是是否有更基于科学的方法(比如使用相关性、列基数……)来自动找到给定数据集的良好枢轴配置?任何指针都受到高度赞赏。

1个回答

数据透视表的自动生成是一个经过充分研究的主题。事实上,谷歌拥有这项技术的专利

一般的做法是:

  • 识别具有多次重复的低基数、分类数据特征。这些特征成为数据透视表的行和列候选。
  • 识别作为数据透视表中数据(或事实)单元格候选的数值数据。
  • 选择一个聚合函数(例如,计数、求和、平均……)。
  • 选择评估方法。最常见的评估方法是人工评分或使用历史数据进行相似建模。

生成有用的数据透视表通常需要领域知识。