数据挖掘 - 在 Python 中处理 ML 模型中的数值分类列 - 吾爱随笔录

在 Python 中处理 ML 模型中的数值分类列

数据挖掘 scikit-学习逻辑回归分类数据虚拟变量

2022-02-28 12:02:52

当我探索 Titanic 数据集以使用 Logistic 模型估计一个人的生存概率时，我意识到有两种处理数字分类变量的方法：

在数据集中按原样使用它们，即不要将它们转换为虚拟变量。请参阅下面的 PClass：
将数值分类变量转换为虚拟变量，如下所示：

我曾假设这两种方法都会产生相同的结果，但是使用这两种方法的模型结果是不同的。所以，我想了解这两种方法背后的逻辑以及应该首选哪一种？

1个回答

如果您不使用虚拟变量对数字类别进行编码，则某些模型最终会被训练为在其预测中使用数字排序（例如 1 < 2 < 3 < 4 < 5 < ...）。这是否可取或有用取决于上下文，特别是数字类别的含义以及所使用的模型和实现。

在您的示例中，如果 Pclass 类别的数字标签代表“贫困阶层”，数字越小代表收入越少，数字越大代表收入越高，那么整数的排序实际上与类别的有意义排序有关（ “1 < 2 < 3”，相应地“贫困等级 1 比贫困等级 2 的富裕程度低于贫困等级 3”）。在这种情况下，按原样使用数字编码似乎没有任何害处，甚至可能对某些模型有所帮助。例如，决策树可以学习如下规则

if (Pclass >= 2): prediction = "survive"

而如果类别是用虚拟变量编码的，则此规则将如下所示：

if ((Pclass_2 == True) or (Pclass_3 == True)): prediction = "survive"

对于某些实现/模型，第一个规则可能比第二个规则更可能出现，更具成本效益（仅存储虚拟变量数据成本更高，更不用说它可能对模型性能产生的影响），更好地推广到新数据， ETC。

另一方面，如果 Pclass 类别的数字标签代表一个人在船上的房间位置（1 代表紧挨着冰山，2 代表有自己的超级豪华宴会厅逃生船，3 代表接近冰山撞击，4 代表中层等），那么整数的排序似乎与实际类的排序没有任何有意义的关系（无论如何我都可以看到！） . 如果要按原样使用数字类别的编码，那么许多模型实现可能会以“糟糕”的方式学习模式。例如，决策树可以了解到冰山撞击附近的人的生存率很低，并最终产生以下规则：

if Pclass <= 3: prediction = "does not survive"

这是“坏的”，因为它假设靠近冰山撞击与小于 3 的数字编码有关（它可能不会，例如，未来的数据可能包括许多大于 3 的新类别标签，所有这些标签都对附近的房间进行编码冰山一角），并且因为该规则似乎可能对那些拥有Pclass=2. 如果类别是用虚拟变量编码的，则学习的规则可能是：

if ((Pclass_1 == True) or (Pclass_3 == True)): prediction = "does not survive"

在这种情况下，这条规则“更好”，因为它不共享上一条规则所做的两个问题。

一般来说，我建议以下经验法则：

如果数字标签上的自然顺序对类别没有有意义的解释，则使用虚拟变量对数字标签类别进行编码。

在其他条件相同的情况下，当我有内存空间时，我倾向于默认使用虚拟变量，然后考虑使用整数编码是否有意义。在您的情况下，Pclass 代表什么，数字类别的顺序对您实际上有意义吗？如果没有，我建议使用虚拟变量。

其它你可能感兴趣的问题

上一篇计算神经网络训练时间的算法？下一篇了解 sklearn FeatureHasher