就像一个简单的例子:
我有 25 个孩子的样本,我收集了一些信息示例:体重、年龄等 - 用作预测变量。
现在,我没有孩子的身高,但我有一个序数变量,最短的孩子的值为 1,最高的孩子的值为 25 - “分类 wrt 高度”变量
如果我想建立一个回归模型,将“分类高度”变量作为响应变量,我应该将其视为序数还是连续整数变量(以选择需要相应应用的回归类型)?
谢谢!
就像一个简单的例子:
我有 25 个孩子的样本,我收集了一些信息示例:体重、年龄等 - 用作预测变量。
现在,我没有孩子的身高,但我有一个序数变量,最短的孩子的值为 1,最高的孩子的值为 25 - “分类 wrt 高度”变量
如果我想建立一个回归模型,将“分类高度”变量作为响应变量,我应该将其视为序数还是连续整数变量(以选择需要相应应用的回归类型)?
谢谢!
在您执行此操作之前请仔细考虑。你不知道底层的高度分布是什么。这里有四种可能性。
如果您正在构建回归模型,那么这些高度数据集的每一个都会被不同地解释。但是,如果替换为您的序数变量,它们看起来在数值上都是等效的。如果将此变量用作连续变量,则您假设数据中不存在一定程度的精度和信息。
将您的序数变量保留为序数变量。将这个变量分成更少的类别(例如“低”、“中低”、“中”、“中高”、“高”)甚至可能是有利的。这样做有两个原因。
最终,您的选择应基于回归模型的性能。如果将变量作为连续数值变量表现更好,那么就这样做。如果模型在将变量作为 bin 中的序数变量时表现更好,请执行此操作。