是否有一个编码器可以自动检测序数变量的内在顺序并相应地分配值?

数据挖掘 特征工程 分类数据
2022-01-28 18:58:35

给定具有序数变量的数据,表示具有值ex(优秀)、gd(好)、fa(一般)和bd(差)的“房屋质量”,我们显然不能只将数据放入 sklearnLabelEncoder中,因为结果标签的顺序可能是错误的,例如{bd: 3, gd: 2, fa: 1, ex:0}相反,我们需要手动指定订单,对吗?但是,如果我们没有领域知识,我们如何指定顺序呢?此外,手动方式通常容易出错。因此,我很好奇是否有任何编码器可以自动检测序数变量中的正确顺序?

1个回答

是的,它应该是目标编码。通过计算每个类别的目标均值,您是根据目标对类别进行排序,我认为不是最好的排序方式。当然,这仅在监督学习环境中有效。如果没有,我想不出一种自动排序类别的方法。

请参阅此问题此博文以深入了解目标编码。