可以将具有广泛范围的序数变量视为回归中的连续整数变量吗?

数据挖掘 回归
2021-09-26 05:38:26

就像一个简单的例子:

我有 25 个孩子的样本,我收集了一些信息示例:体重、年龄等 - 用作预测变量。

现在,我没有孩子的身高,但我有一个序数变量,最短的孩子的值为 1,最高的孩子的值为 25 - “分类 wrt 高度”变量

如果我想建立一个回归模型,将“分类高度”变量作为响应变量,我应该将其视为序数还是连续整数变量(以选择需要相应应用的回归类型)?

谢谢!

1个回答

在您执行此操作之前请仔细考虑。你不知道底层的高度分布是什么。这里有四种可能性。

四组不同的模拟高度数据

如果您正在构建回归模型,那么这些高度数据集的每一个都会被不同地解释。但是,如果替换为您的序数变量,它们看起来在数值上都是等效的。如果将此变量用作连续变量,则您假设数据中不存在一定程度的精度和信息。

将您的序数变量保留为序数变量。将这个变量分成更少的类别(例如“低”、“中低”、“中”、“中高”、“高”)甚至可能是有利的。这样做有两个原因。

  1. 这是一个变量,对于每个观察值都有唯一的值,这可能导致它看起来非常重要。当你像这样装箱时,你就消除了这个问题。
  2. 考虑一下您的模型将用于评估的未来数据。新数据中的那些身高等级会参考原始等级吗?如果新集合有 100 个观测值怎么办?现在新数据的范围大于模型最初考虑的范围。对这个变量进行分箱等效于对连续变量进行归一化。

最终,您的选择应基于回归模型的性能。如果将变量作为连续数值变量表现更好,那么就这样做。如果模型在将变量作为 bin 中的序数变量时表现更好,请执行此操作。