数据挖掘 - 如何定量比较两个或多个复杂数据集 - 吾爱随笔录

数据挖掘数据集数据

2022-02-17 09:47:54

我有一系列由大约 100 个变量和一个相应的响应变量组成的数据集。我经常面临试图将响应变量的差异归因于 100 个左右的变量的问题。

我的问题是，由于变量数量众多，通常很难比较两个或多个数据集并将响应变量归因于 100 个左右的变量。

面对这样的问题，人们会怎么做？做这种工作有哪些常见的分析？如果可以向非技术背景的人解释解决方案，那就更好了。

2个回答

一种选择是计算数据集之间的距离度量。

选择距离度量取决于数据的属性。如果数据是二进制的，汉明距离可以工作。如果数据是集合，则 Jaccard 距离可以工作。其他数据类型需要其他距离度量。

我会遵循两个途径：

合并/连接所有数据集并执行某种降维（例如 TSNE、PCA）。这可以帮助您可视化哪些数据集彼此相似。
您的工作似乎属于归因方法或最近称为可解释 AI 的类别。该字段试图找出每个特征/变量对目标变量的相对贡献。看看这本电子书，尤其是第 5 章。书。即使无法访问模型预测函数（即，将特征映射到响应变量的函数），也有一些方法可以计算变量属性。

其它你可能感兴趣的问题