数据挖掘 - 机器学习模型的数据预处理 - 吾爱随笔录 - 问答

机器学习模型的数据预处理

数据挖掘机器学习 Python scikit-学习数据集数据清理

2021-10-13 18:21:47

我对如何预处理基于范围的类别（例如年龄、肿瘤大小和 inv 节点）感到困惑。我应该取平均值，例如 - 14.5、24.5 等等，还是对 co-domain range 进行一次热编码。采用一种热编码会增加编号。的特征显着。因为，每个属性都有如下共同域：

年龄：10-19、20-29、30-39、40-49、50-59、60-69、70-79、80-89、90-99。
肿瘤大小：0-4、5-9、10-14、15-19、20-24、25-29、30-34、35-39、40-44、45-49、50-54、55- 59.
inv 节点：0-2、3-5、6-8、9-11、12-14、15-17、18-20、21-23、24-26、27-29、30-32、33- 35、36-39。

1个回答

您绝对不应该使用一种带有表示数字的值的热编码，因为这会消除间隔之间的自然顺序。

所以这些值应该用数字表示：

要么确实是极限的平均值
或者间隔的简单整数编码，例如肿瘤大小 0-4, 5-9, 10-14,... 将表示为 0,1,2,...

其它你可能感兴趣的问题

上一篇如何对包含分组值的数据集执行数据缩放/标准化？下一篇基于 n-gram 和相似度的文本分类