如何定量比较两个或多个复杂数据集

数据挖掘 数据集 数据
2022-02-17 09:47:54

我有一系列由大约 100 个变量和一个相应的响应变量组成的数据集。我经常面临试图将响应变量的差异归因于 100 个左右的变量的问题。

我的问题是,由于变量数量众多,通常很难比较两个或多个数据集并将响应变量归因于 100 个左右的变量。

面对这样的问题,人们会怎么做?做这种工作有哪些常见的分析?如果可以向非技术背景的人解释解决方案,那就更好了。

2个回答

一种选择是计算数据集之间的距离度量。

选择距离度量取决于数据的属性。如果数据是二进制的,汉明距离可以工作。如果数据是集合,则 Jaccard 距离可以工作。其他数据类型需要其他距离度量。

我会遵循两个途径:

  1. 合并/连接所有数据集并执行某种降维(例如 TSNE、PCA)。这可以帮助您可视化哪些数据集彼此相似。
  2. 您的工作似乎属于归因方法或最近称为可解释 AI 的类别。该字段试图找出每个特征/变量对目标变量的相对贡献。看看这本电子书,尤其是第 5 章。即使无法访问模型预测函数(即,将特征映射到响应变量的函数),也有一些方法可以计算变量属性。