整数数据:分类还是连续?

机器算法验证 回归 分类 分类数据 连续数据
2022-03-22 13:50:58

我想知道整数预测器数据是否应该被视为分类(因此需要编码)或连续的。例如,如果给定预测变量的范围X是 1 到 230 之间的所有整数,我可以将其视为连续变量,还是应该对其进行编码以获得 230(或者可能是 229)新的虚拟变量?分析的最终目标是执行回归或分类。

3个回答

一般来说,两者都不合适。整数是离散的,不是连续的,但是将它们视为名义类别会丢弃大部分信息,甚至将它们视为序数可能会丢失很多。

在某些情况下,一种或另一种可能没问题,但将它们按原样处理几乎总是更好 - 例如,如果数据是计数,则使用适合计数的分析

例如,假设您想对计数数据执行回归;有许多计数回归模型,包括(但不限于)泊松、二项式和负二项式回归。


在整数 IV(预测器)的情况下,不需要对整数做任何事情,就像对某些连续预测器做任何事情一样——至少不是基于它们是整数。

在整数预测变量和连续预测变量的情况下,关键是您对预测变量如何与响应相关的理解(无论是从理论、先前的研究还是其他方式),而不是它们是整数的事实。

这真的取决于上下文。

如果整数变量有一些固有的顺序,例如它可能是颜色,其中较低的数字表示“较深的阴影”,较高的数字表示“较浅的阴影”,那么将其视为连续变量几乎肯定是更可取的。这不仅更有意义,而且您从模型中消除了大约 200 个变量,这是一个巨大的好处。

另一方面,如果这些整数没有固有的顺序,例如它们代表一块土地,那么它们应该被视为一个分类变量。将它们视为连续变量是没有意义的,因为它的值与您感兴趣的变量的属性无关。

您不需要执行您所说的 2 中的任何一个。你能做的就是回归。在 glm 的 R 中,您可以选择设置家庭属性,您可以设置您的偏好。例如,当您考虑正常回归 family = gaussian 并且如果您想要计数类型的目标变量,正如您在问题中解释的那样,那么我认为您需要将其设置为二项式(请检查一次),但是是的,这就是您的模型将如何考虑您的目标为计数类型,而不是连续或分类。