想象一下,给您一个表格数据集,其中包含一组有限的列和行,并要求您通过探索数据来找到有效/有趣的数据透视配置。蛮力选项是计算所有可能的枢轴配置,并以某种方式对结果特征(例如其稀疏性、计数等)进行评分,然后选择得分较高的特征。这显然非常耗时。
我知道我对“有效/有趣”的定义在这里是模糊的,但是是否有更基于科学的方法(比如使用相关性、列基数……)来自动找到给定数据集的良好枢轴配置?任何指针都受到高度赞赏。
想象一下,给您一个表格数据集,其中包含一组有限的列和行,并要求您通过探索数据来找到有效/有趣的数据透视配置。蛮力选项是计算所有可能的枢轴配置,并以某种方式对结果特征(例如其稀疏性、计数等)进行评分,然后选择得分较高的特征。这显然非常耗时。
我知道我对“有效/有趣”的定义在这里是模糊的,但是是否有更基于科学的方法(比如使用相关性、列基数……)来自动找到给定数据集的良好枢轴配置?任何指针都受到高度赞赏。
数据透视表的自动生成是一个经过充分研究的主题。事实上,谷歌拥有这项技术的专利。
一般的做法是:
生成有用的数据透视表通常需要领域知识。