数据探索引导转换为序数变量

数据挖掘 数据清理 相关性
2022-02-17 04:41:20

[我几周前在一次采访中遇到了这个问题,我仍然不清楚。]

如果一个分类列中的所有值fuel_mileage都来自集合,那么由于 之间的普遍和有序关系{poor, good, very_good},我们可以使列顺序,所以这很明显。{poor, good, very_good}

但是,假设同一数据集中的标签列是engine_longevity,因此我们正在研究所有其他变量与其关系的上下文。在数据探索过程中,事实证明,另一个分类列 ,manufacturer其所有值都来自 set {H, S, J, K},与标签具有非常强的相关性engine_longevity以至于在给定样本中选择HS,基本上决定了标签。因此,对于这个数据集而言, , ,与 label 之间存在有序关系问题是:JKHSJKengine_longevity

  1. 你会让列manufacturer序数吗?manufacturer如果是,和标签之间的关系应该有多强engine_longevity您将使用什么指标来衡量它?
  2. 如果你不会使manufacturer列序数,为什么?
  3. 更一般地说,使列序数的选择是否应该仅来自该列中值的相互关系?或者,应该考虑列中的值与标签的关系?

如果没有硬性规定,我想知道这里的社区将如何处理这种情况。

1个回答

您正在描述高度相关的特征。测量至少在一个序数尺度上测量的两个变量之间的相关性的最常用方法是Spearman 秩相关系数

通常,如果两个特征几乎完全相关,则可以从分析中删除一个特征。