数据挖掘 - 数据探索引导转换为序数变量 - 吾爱随笔录

[我几周前在一次采访中遇到了这个问题，我仍然不清楚。]

如果一个分类列中的所有值fuel_mileage都来自集合，那么由于之间的普遍和有序关系{poor, good, very_good}，我们可以使列顺序，所以这很明显。{poor, good, very_good}

但是，假设同一数据集中的标签列是engine_longevity，因此我们正在研究所有其他变量与其关系的上下文。在数据探索过程中，事实证明，另一个分类列，manufacturer其所有值都来自 set {H, S, J, K}，与标签具有非常强的相关性，engine_longevity以至于在给定样本中选择H，S，基本上决定了标签。因此，对于这个数据集而言，, , ,与 label 之间存在有序关系。问题是：JKHSJKengine_longevity

你会让列manufacturer序数吗？manufacturer如果是，和标签之间的关系应该有多强engine_longevity？您将使用什么指标来衡量它？
如果你不会使manufacturer列序数，为什么？
更一般地说，使列序数的选择是否应该仅来自该列中值的相互关系？或者，应该考虑列中的值与标签的关系？

如果没有硬性规定，我想知道这里的社区将如何处理这种情况。