具有混合分类值和数值的轻度数据的探索方法的步骤?

数据挖掘 数据挖掘 分类数据 线性回归 数值
2021-10-12 04:49:26

我在信号/图像分析方面经验丰富,并且是数据科学的新手,最近遇到了一个相对简单的数据集的挑战:100 到 200 个项目,大约 10-20 个数值变量(在 [0-1] 或百分比范围内),只有一个目前用于排名的变量,以及 5 到 10 个分类变量,每个变量都有几个选项。一个分类变量需要大约 2 到 4 个不同的值。

我想首先了解这些数据中的潜在结构。我浏览了 Agresti 的序数分类数据分析,有人建议我投资 TDA(拓扑数据分析)。然而我不知道从哪里开始。

您是否有关于此类真实数据的指南和最佳实践来逐步解决上述问题,从可视化到真正的处理/推理?

1个回答

通过查看NIST 工程统计手册的EDA 部分您可以获得探索性数据分析 (EDA)步骤的相当好的近似值。此外,您可能会在Data Science SE上找到我相关答案的有用部分

与 EDA 相关的方法过于多样化,无法在一个答案中进行讨论。我将仅提及几种方法。如果您有兴趣将分类应用于您的数据集,您可能会发现我的其他答案中提到的信息很有帮助。为了检测数据集中的结构,您可以尝试应用主成分分析 (PCA)另一方面,如果您有兴趣探索数据中的潜在结构,请考虑使用探索性因子分析 (EFA)