连续 VS 分类变量

数据挖掘 数据 数据科学模型
2021-09-24 02:59:39

在数据集中,我也有一个连续变量AGE和分类变量AGE_CATEGORY它们都是高度相关的。

我应该使用哪种方法来识别要删除的功能AGEOR AGE_CATEGORY

3个回答

如果您的目标是使用它们来训练有监督的机器学习,那么最好的解决方案是找出哪个更有效地预测您的输出。

AGE 拥有比 AGE_CATEGORY 更多的信息。所以,如果我要删除其中一个,我会删除 AGE_CATEGORY。

此外,如果您的目标是训练基于树的模型,AGE_CATEGORY 的效率不会那么高。

您可以使用 A/B 测试来找出哪个功能更有效地预测您的输出。

这取决于手头的任务以及您正在执行的建模类型。

如果响应变量和预测变量之间的关系是非线性的,并且使用的建模类型无法捕捉到这种非线性,则将连续变量转换为分类变量会很有用。

如果您要预测人们旅行或赚取的收入,那么如果使用的建模类型类似于线性回归,那么对年龄进行分类更有意义。年轻人和老年人的收入可能不如介于两者之间的人多。

如果使用的建模类型类似于基于树的模型,那么将变量设为连续可能会更有用,因为它具有更多信息并且建模可以处理非线性。

您可以通过仅使用训练数据使用交叉验证来选择哪个更好。

我看到您在 nimar 的回答中提到您想要一种统计方法来确定 Age 和 Age_category 中的哪一个更好。我假设这里的“更好”意味着与因变量/响应/目标的关系更强。好消息是,存在多种方法来量化目标和特征之间的联系。然而,所有这些方法都使用数值来衡量界限的强度。因为不同的方法是在不同的量级下计算的,所以没有可比性。Age 和 Age_category 具有不同的数据类型。它们不能在相同的测量下进行测量。从测量 Age 的方法获得的值 1 与从测量 Age_category 的方法获得的值 1 不可比较。