[我几周前在一次采访中遇到了这个问题,我仍然不清楚。]
如果一个分类列中的所有值fuel_mileage都来自集合,那么由于 之间的普遍和有序关系{poor, good, very_good},我们可以使列顺序,所以这很明显。{poor, good, very_good}
但是,假设同一数据集中的标签列是engine_longevity,因此我们正在研究所有其他变量与其关系的上下文。在数据探索过程中,事实证明,另一个分类列 ,manufacturer其所有值都来自 set {H, S, J, K},与标签具有非常强的相关性,engine_longevity以至于在给定样本中选择H,S,基本上决定了标签。因此,对于这个数据集而言,, , ,与 label 之间存在有序关系。问题是:JKHSJKengine_longevity
- 你会让列
manufacturer序数吗?manufacturer如果是,和标签之间的关系应该有多强engine_longevity?您将使用什么指标来衡量它? - 如果你不会使
manufacturer列序数,为什么? - 更一般地说,使列序数的选择是否应该仅来自该列中值的相互关系?或者,应该考虑列中的值与标签的关系?
如果没有硬性规定,我想知道这里的社区将如何处理这种情况。