数值或分类数据

数据挖掘 特征工程
2022-02-12 18:30:17

我有一个机器学习功能(使用 SVM、朴素贝叶斯、神经网络和随机森林等方法),称为成员持续时间,如下所示:我应该将其设为数字​​数据还是分类数据?

在此处输入图像描述

2个回答

您肯定有区间数据,即采用离散值的数据,而不是连续数据,它采用连续统一体的值。

额外确定数据是否为​​ordinal可能是有价值的,这意味着值的顺序很重要,例如,如果[0, 1, 2]表示[small, medium, large]或一些类似的系统。

在序数数据的情况下,最好将数据以整数形式暴露给 SVM 训练过程,因为整数表示编码了有关类别之间关系的一些信息。

如果变量在生产环境中可能采用的值可以扩展到您在训练集中已经观察到的值之外,那么这种方法也会更合理——分类方法在这种情况下处理新值的能力会降低。

如果没有序数关系并且您怀疑所有可能的值都在训练集中枚举,则将变量视为分类变量是合适的。

对我来说,这看起来像是在数数据。如果问题中没有更多信息,我会将其保留为分类数据并使用离散技术(例如 Poisson GLM)对其进行建模